天机网络信息云采集平台

详情页抽取教程

发布时间:2016.03.16

教程介绍:本教程主要描述如何从新闻的详情页中获取标题、正文等内容。

示例地址:http://m.cnr.cn/news/20160316/t20160316_521618961_tt.html?tt_group_id=6262454456677548289

操作步骤:

1、打开示例地址:http://m.cnr.cn/news/20160316/t20160316_521618961_tt.html?tt_group_id=6262454456677548289

2、Ctrl +shift+I 调出插件,并新建方案。填写名称,点击【使用当前页】按钮将当前页面填入入口地址栏。

3、新建完成后,点击任务名称进入抽取内容设置。点击“+”号,新建一个选择器,类型为“文本型”,并用鼠标选中标题,并点击【确定】,选中后标题显示为红色。您也可以修改此选择器的名称为title并保存。可点击选择器下方的“眼睛”图标查看数据预览。

4、同理,您可以建立来源(source)、时间(time)、内容(content)等选择器来抓取自己想要抽取的内容。

5、选择器建立完成后,点击【开始抓取】,任务开始执行。

6、系统抓取完成后,自动展现抓取结果。

7、如果需要将抓取到的数据进行导出,可以点击【导出抓取结果】按钮,进行数据下载。

量知数据 版权所有 © 2016 quant-chi.com, All Rights Reserved 浙ICP备16010118号
地址:杭州市西湖区西溪路525号C楼492室 电话:0571-87956225