天机网络信息云采集平台

翻页新闻列表抽取教程

发布时间:2016.03.16

教程介绍:本教程主要描述如何从页面的列表中抽取非第一页的数据。

示例地址:http://news.hangzhou.com.cn/gnxw/index.htm

相关教程:

操作步骤:

1、用chrome浏览器打开示例地址(http://news.hangzhou.com.cn/gnxw/index.htm)

2、Ctrl +shift+I 调出插件,并新建方案。填写名称,点击【使用当前页】按钮将当前页面填入入口地址栏。

3、新建一个翻页型选择器,用于选定页面范围进行翻页。点击“+”号,输入名称为pages,选择器类型修改为“翻页型”;选中所有的页码,并点击确定。勾选“支持多条记录”,最后点击保存,完成翻页型选择器的设置。

4、新增一个链接型选择器,用于进入新闻的详情页。点击“+”号,输入名称为link,选择器类型修改为“链接型”;选中所有的新闻标题,并点击确定。勾选“支持多条记录”,最后点击保存,完成链接型选择器的设置。

5、点击新闻标题进入新闻的详情页。

6、建立链接型选择器“link”的下级选择器“content”,用于抽取文章正文。在选择器设置页面中,输入选择器名称为“content”,类型为“文本型”。用鼠标在详情页中选中正文区域,点击【确定】。上级选择器设置为“link”。最后,点击【保存】,完成创建选择器。

7、同理,用户可以自行建立来源(source)、标题(title)等选择器进行抽取其他内容。

8、选择器全部设置完毕后,点击【开始抓取】,任务开始执行。

9、系统抓取完成后,自动展现抓取结果。

10、如果需要将抓取到的数据进行导出,可以点击【导出抓取结果】按钮,进行数据下载。

量知数据 版权所有 © 2016 quant-chi.com, All Rights Reserved 浙ICP备16010118号
地址:杭州市西湖区西溪路525号C楼492室 电话:0571-87956225