
八爪鱼采集器
网页数据采集工具,可快速抓取网页数据,支持自定义规则和模板,适合电商、金融等领域的数据采集
版 本:8.6.4
软件大小:83.90 MB
授权类型:国产
收费类型:免费
软件语言:简体中文
应用平台:WinAll
更新时间:2023-11-06
八爪鱼采集器是一款功能强大的电脑软件,专注于互联网数据的自动采集和整合。该软件通过模拟人工操作,能够高效地抓取网页内容、图片、视频、音频等各类数据,并将其自动保存到指定的文件夹或数据库中。八爪鱼采集器还有丰富的数据处理和解析功能,可以帮助用户快速筛选、清洗和分析所采集的数据,提供有价值的信息支持。无论是市场调研、竞品分析、新闻信息搜集,还是企业数据挖掘、学术研究等领域,八爪鱼采集器都能为用户简化工作流程,提升工作效率。无需编程经验,只需简单设置参数,即可轻松完成大规模网络数据采集任务。八爪鱼采集器以其稳定性、易用性和高效性而备受用户好评,成为众多企事业单位及个人进行数据收集的首选软件。
使用建议
先我们新建一个任务-->进入流程设计页面-->添加一个循环步骤到流程中-->选中循环步骤-->勾选上软件右方的URL 列表勾选框-->打开URL列表文本框-->将准备好的URL列表填写到文本框中

接下来往循环中拖入一个打开网页的步骤-->选中打开网页步骤-->勾选上使用当前循环里的URL作为导航地址-->点击保存。系统会在界面下方的浏览器中打开循环中选中的URL对应的网页

到这里,循环打开网页的流程就配置完成了,运行流程的时候,系统会逐个的打开循环中设置的URL。最后我们不需要配置一个采集数据的步骤,这里就不在多讲,大家可以参考从入门到精通系列1:采集单个网页 这篇文章。下图就是最终和流程

下面是流程最终的运行结果

功能分析
八爪鱼数据采集系统能做的包括但并不局限于以下内容:
1. 金融数据,如季报,年报,财务报告, 包括每日最新净值自动采集;
2. 各大新闻门户网站实时监控,自动更新及上传最新发布的新闻;
3. 监控竞争对手最新信息,包括商品价格及库存;
4. 监控各大社交网站,博客,自动抓取企业产品的相关评论;
5. 收集最新最全的职场招聘信息;
6. 监控各大地产相关网站,采集新房二手房最新行情;
7. 采集各大汽车网站具体的新车二手车信息;
8. 发现和收集潜在客户信息;
9. 采集行业网站的产品目录及产品信息;
10. 在各大电商平台之间同步商品信息,做到在一个平台发布,其他平台自动更新。
安装说明
1.先解压所有文件。
2.请双击setup.exe开始安装。
3.安装完成后在开始菜单或者桌面均可以找到八爪鱼采集器快捷方式。
4.启动八爪鱼采集器,需要先登录才能使用各项功能。
5.如果已经在八爪鱼网站注册并激活账号,请使用该账号登录。
如果没有注册过,请点击登录界面的“免费注册”链接,或者直接打开,先注册并激活账号。
6.第一次使用时,请仔细查看使用指南(使用指南仅在第一次使用时出现一次)。
7.开始自己配置任务前,建议先打开样本任务熟悉软件使用,然后再对照“主页”上的视频教程学习练习一下。
8.新手建议先学习教程,或者从规则市场,数据市场中寻找自己需要的数据或者采集规则。
特色功能
1、八爪鱼内置了强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,采集过程中全自动处理,无需人工干预,即可得到所需格式数据
2、简单几步点击设置,即可实现采集任务的定时控制,不论是单次采集的定时设置,还是预设某一天或是每周每月的定时采集,都可以同时对多个任务自由进行设置,根据需要对选择时间进行多重组合,灵活调配自己的采集任务
3、高效信息采集和数据清洗,及时应对系统风险
4、通过八爪鱼API,可以轻松获取八爪鱼任务信息和采集到的数据,灵活调度任务,比如远程控制任务启动与停止,高效实现数据采集与归档。基于强大的API体系,还可以无缝对接公司内部各类管理平台,实现各类业务自动化
5、针对不同用户的采集需求,八爪鱼可提供自动生成爬虫的自定义模式,可准确批量识别各种网页元素,还有翻页、下拉、ajax、页面滚动、条件判断等多种功能,支持不同网页结构的复杂网站采集,满足多种采集应用场景
6、获取用户真实行为数据,全面把握顾客真实需求
更新修订
V7.4.4
主要体验改进:
【自定义模式】支持采集网址数量,从2万扩展到100万级别
【自定义模式】网址输入支持文本导入,支持txt、xls、xlsx、csv格式
【自定义模式】网址输入支持批量生成网址参数,包括数字变化、字母变化、时间变化、自定义类表四种生成方式
【自定义模式】支持任务跟随采集,A采集的网址作为B任务的输入源进行关联采集,拓宽使用场景
【任务列表】任务列表可根据「云采集完成时间」来排序
【其他】任务错误报告导出支持excel格式
Bug修复:
修复本地验证码识别出错问题
修复云采集正则替换失效问题
修复简易模板运行出错问题
重要提示
采集不同的数据需要的规则略有不同,不懂怎么编辑规则的可以到规则市场寻找用户分享的完整采集规则
解析问题
如何使用八爪鱼采集器采集单个网页?
首先打开八爪鱼采集器→点击快速开始→新建任务,进入到任务配置页面:

选择任务组,自定义任务名称和备注;

上图配置完毕之后,选择下一步,进入到流程配置页面,往流程设计器中拖入一个打开网页的步骤;

选中浏览器中的打开网页步骤,在右边的页面URL中输入网页URL并点击保存,系统会在软件下方的浏览器中自动打开对应网页:

下面进行数据字段的提取,点击浏览器中需要提取的字段,然后在弹出的选择对话框中选择抓取这个元素的文本;

上述操作之后,系统会在页面的右上方显示我们将要抓取的字段;

接下来配置页面中其他需要抓取的字段,配置完成之后修改字段名称;

修改完成之后点击上图中的保存按钮,再点开图中的数据字段可以看到,系统将会显示最终的采集列表;

点击上图中的下一步→下一步→启动单机采集(调试模式),进入到任务检查页面,以确保任务的正确性;

点击开始单机采集,系统将会在本地执行采集流程并显示最终采集的结果;

如何采集电话号码?
许多服务类的网站(58同城、赶集网、美团等)电话号码的采集
采集步骤:
1.确定采集的行业分类,将该分类的网页复制到八爪鱼采集器中打开
2.打开采集器,建立采集任务
3.输入采集网址,根据需要编辑采集规则
4.选择采集方式,开始采集
5.导出采集好的数据
电脑下载地址
