学习大师原创作品,请勿转载,侵权必究。
这次我们的任务是,获取网页的正文文本;
在获取正文之前,我们先学习点基础知识:
认识 document.documentElement
Document.documentElement
是一个会返回文档对象(document
)的根元素的只读属性(如HTML文档的 <html> 元素,就是会获取返回网页的<html> 元素)。
说明:
使用这个只读属性能很方便的获取到任意文档的根元素。
HTML 文档通常包含一个子节点 <html>,可能在它前面还有个 DOCTYPE 声明。XML 文档通常包含多个子节点:根元素,DOCTYPE 声明,和 processing instructions。
所以你应该使用 document.documentElement 来获取根元素, 而不 document.firstChild。
实战开始:
1、我们准备获取下面网站的网页的正文,这个网站是个小说网站,我们要获取网页中的小说正文:
我们要获取这个小说的正文,可以从获取这个网页的正文来入手:
2、获取网页的正文,界面增加一个按钮,如下图:
3、在窗体的Create事件,打开网页:
4、按钮的点击事件代码如下:
其中InnerText就是指的元素的正文文本值;
5、运行程序,点击按钮效果如下图:
你们看,几句代码,轻松获取了网页正文,获取了小说网站的小说正文,是不是很酷!
赶紧去尝试一下吧。
|