天机网络信息云采集平台

基本概念说明

发布时间:2016.03.16

列表页

在一个页面中,包含有多条同类型数据,且数据的展现形式保持一致的页面。


详情页

在一个页面中,展现一种数据类型的详细信息的页面,例如新闻详情页展示新闻的标题、正文、发布时间等内容。


网站方案

对一个网站中需要抓取的内容进行各种设置的所有信息的总称。


入口地址

抓取一个网站中的数据时,系统打开的第一个页面,通过这个页面中的链接开始进入其他页面,以及实现数据的抓取。


选择器

对页面中数据进行范围设置和指定操作的工具,包括多种类型的选择器,例如文本型选择器、图片型选择器、链接型选择器等。


文本型选择器

用于抽取页面中选中区域的文本。


链接型选择器

用于抽取页面中选中区域的文本和链接,并通过链接到达下一个页面,进入下一个页面时,不打开新窗口。


组合型选择器

用于将页面中多个元素作为一个组合,每个组合作为一条数据记录。例如电商网站中,每个商品的展示区作为一个组合,每个组合中包括商品的名称、价格、图片等多个元素。使用组合型选择器时,需要建立下级选择器来进行数据的抽取。


翻页型选择器

针对于具有翻页功能的页面使用的选择器,获取非第一页的数据,需配合建立下级选择器来进行数据抽取。


区域预览

在选择器选定处理区域后,使用区域预览功能可以查看之前选中的区域。


选择器结构

用于查看整个网站中,用户所设置的所有选择器的上下级关系。


开始抓取

用户设置完毕后,可以使用开始抓取功能来实现网站数据的抓取。


站点配置

根据用户的配置信息,系统自动根据标准格式生成的配置信息,用于程序端进行接收和导入。


全部扩展

入全部扩展是指系统根据入口页默认获取全网站页面后,用户可以通过正则过滤url来设置需要的页面,这些页面可通过配置选择器来进行内容的抽取。


精确扩展

精准扩展是指用户直接使用选择器来配置从入口页到下一级页面的规则,系统仅获取这些页面并进行内容抽取。


量知数据 版权所有 © 2016 quant-chi.com, All Rights Reserved 浙ICP备16010118号
地址:杭州市西湖区西溪路525号C楼492室 电话:0571-87956225