数据抓取

1. 需求描述

我们在做经济日报或者年报的时候,需要从国家统计局网站上抓取统计年鉴的数据作为分析依据,数据抓取功能就能很好的解决这个问题,避免手工去复制。

数据抓取的应用场景就是从网页上去抓取我们需要的数据,下面我们一起看看咱们的系统如何实现数据抓取功能。

2. 实现过程

 http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/201104/t20110429_30328.html 为例,实际界面如下图所示:

数据抓取

1、dadmin登录之后,在右侧树的"抓取方案"节点上右键,选择"创建",可以进入新建抓取方案的界面。


数据抓取


2、右侧会出现一个新的标签页,显示待创建的数据抓取的配置界面

在该界面的"网页地址"项上输入上面的网址,然后输入关键字"地区;人口",这里的关键字是根据原始界面表格中的表头来确认的,用来定位数据表格。

数据抓取

抓取地址:抓取的目标网址

关键字:目标表格的表头文字、表格里面的文字(协助定位表格的文字),支持多个关键字定位,关键字之间的分割符可以设置为空格,英文的分号、逗号。

方案名称:抓取方案的名称,不填写,在测试时会默认取抓取目标网址的标题。

数据起始行:标志数据起始的行号(行号之前的会被识别为表头,行号及之后的数据被识别为数据)

3、配置好 抓取地址和关键字之后,点击"测试"按钮,会根据默认的抓取规则,从目标地址中将<table>标签的内容抓取出来重新渲染。

如果网页地址符合我们的要求,并且关键字正确,那么这里会弹出一个界面显示重新排版过后的数据表格,并且在最左侧会列出表格的行号。同时会将该网页的title信息取过来作为默认的抓取方案名称。在这里,我们要确认一个"数据起始行"的信息,根据预览界面的表格与行号,确认数据的起始行是多少(本案例的数据起始行为3)。

数据抓取

4)关掉预览界面,输入"数据起始行"再点击保存,就可以生成一个对该网站进行数据抓取的抓取方案,并且左树会定位到该抓取方案的配置节点

5)生成完毕之后会弹出提示"是否立即执行数据抓取方案",点击"是"进行第一次的数据抓取。

数据抓取

6)数据抓取完成之后,点击左树该方案的数据节点,可以查看抓取到的数据。

数据抓取

除了第一次的立即执行抓取的方式外,还可以在抓取方案节点上点击右键,选择"执行"菜单来执行数据的抓取。

3. 高级设置

表格ID:在网页上的表格无明显关键字或者有多个同样标题的表格时,可以考虑取表格的ID来定位表格(对应表格<table> DOM对象的id属性)。

表格名称:用途与表格ID一致(对应DOM对象的name属性)。

分页参数:在目标网站支持分页,且数据有多页的情况下,可以设置分页参数,这里指参数名(例如http://192.168.1.200/bbs//forumdisplay.php?fid=30&page=2 这个地址的分页参数就是page)

页码起止:配置抓取的起止码,从第几页抓到第几页,可以只填写分页起始行,不填写截止行

取数去重:设置是否去除重复数据(勾选后将不再抓取重复的数据到数据库,数据是否重复的范围是所有期的数据中去比较是否有重复),默认不去重

数据抓取

4. 登录设置

bi的登录地址为例:http://172.21.1.69:8080/bi/esmain/login.do?id=admin&pw=admin

登录地址:执行登录的地址(http://172.21.1.69:8080/bi/esmain/login.do)

用户名参数:用户名对应的参数名(id)

用户名:用户的ID  (admin)

密码参数:用户密码的参数名(pw)

密码:用户的密码(admin)

登出地址:执行登出的地址(http://172.21.1.69:8080/bi/esmain/login.do?action=logout)

数据抓取

5. 执行设置

取数频率:执行数据抓取的频率设置

启动:是否启动自动抓取

数据抓取

根据需要设置好配置之后,点击""保存",就可以将当前配置保存,并生成对应的抓取方案(一个方案会同步生成一个irpt的任务和一个计划任务,任务保存在数据抓取任务组,计划任务保存到数据抓取分组)

数据抓取

生成完成后,会提示是否执行数据抓取,点击确认可以执行一次数据抓取(也可以在树形抓取方案上,右键"执行"来执行抓取)

6. 查看抓取日志

点击左树抓取方案下的"日志"节点,可以查看抓取数据的日志信息。

数据抓取

附件列表

0

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇取数管理

下一篇安装部署

请先登录

创建词条

词条信息

admin
admin

超级管理员|词条创建者

1543

浏览次数:1209 次

编辑次数:1次 历史版本

更新时间:2018-11-29