天机网络信息云采集平台

普通新闻列表抽取教程

发布时间:2016.03.16

教程介绍:本教程主要描述如何从新闻列表页中获取此列表中所有的新闻数据,获取的新闻数据只限于当前页面的新闻,不包含翻页后的新闻。主要思想是通过列表页中抽取所有的新闻链接,并通过链接到达详情页获取该条新闻的所有信息,包括标题和正文。

示例地址:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

相关教程:

操作步骤:

1、用chrome浏览器打开示例地址(http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml)

2、Ctrl +shift+I 调出插件,并新建方案。填写名称,点击【使用当前页】按钮将当前页面填入入口地址栏。

3、建立一个链接型选择器,用于根据链接打开新闻的详情页面。点击“+”号,输入名称为link,选择器类型修改为“链接型”;使用鼠标点击第1条新闻标题,再点击第2条新闻标题,此时系统会默认选中所有新闻标题,然后点击【确定】。勾选“支持多条记录”,然后点击【保存】。链接型选择器设置完成。

4、点击新闻标题进入新闻的详情页。

5、建立链接型选择器“link”的下级选择器“content”,用于抽取文章正文。在选择器设置页面中,输入选择器名称为“content”,类型为“文本型”。用鼠标在详情页中选中正文区域,点击【确定】。上级选择器设置为“link”。最后,点击【保存】,完成创建选择器。

6、同理,用户可以自行设置文本型选择器抽取详情页中的作者、来源等其他内容。

7、选择器全部设置完毕后,点击【开始抓取】,任务开始执行。

系统抓取完成后,自动展现抓取结果。

9、如果需要将抓取到的数据进行导出,可以点击【导出抓取结果】按钮,进行数据下载。

量知数据 版权所有 © 2016 quant-chi.com, All Rights Reserved 浙ICP备16010118号
地址:杭州市西湖区西溪路525号C楼492室 电话:0571-87956225