八爪鱼采集器客户端使用说明
先我们新建一个任务-->进入流程设计页面-->添加一个循环步骤到流程中-->选中循环步骤-->勾选上软件右方的URL 列表勾选框-->打开URL列表文本框-->将准备好的URL列表填写到文本框中接下来往循环中拖入一个打开网页的步骤-->选中打开网页步骤-->勾选上使用当前循环里的URL作为导航地址-->点击保存。系统会在界面下方的浏览器中打开循环中选中的URL对应的网页
到这里,循环打开网页的流程就配置完成了,运行流程的时候,系统会逐个的打开循环中设置的URL。最后我们不需要配置一个采集数据的步骤,这里就不在多讲,大家可以参考从入门到精通系列1:采集单个网页 这篇文章。下图就是最终和流程
下面是流程最终的运行结果
八爪鱼采集器客户端功能介绍
简易采集
轻松收集模式内建百余种主流网站数据源,如京东、天猫、大众点评等热门采集网站,只需参考模板简单设定参数,即可迅速获得网站公开数据。
智能采集
根据不同的网站,提供了多种获取策略的八爪鱼网页采集策略和配套资源,可定制配置,组合使用,自动处理。这样有助于整个采集过程实现数据的完整和稳定。
云采集
云采集由5000多台云服务器支持,7*24小时连续运行,可实现定时采集,无需人员值守,灵活匹配业务场景,帮助您提升采集效率,保障数据时效性。
API接口
利用八爪鱼API接口,可方便地获取八爪鱼的任务信息和采集数据,灵活地调度诸如遥控起停等任务,有效地实现数据采集和存档。以强大的API系统为基础,可实现公司内部各种管理平台的无缝对接,实现各种类型的业务自动化。
自定义采集
根据不同用户的收集需要,八爪鱼提供自定义模式,可以自动生成爬行器,可以准确批量地识别各种网页元素,以及翻页、具有下拉、ajax、页面滚动、条件判断等多种功能,支持不同网页结构的复杂网站采集,满足多种应用场景。
方便计时功能。
只需几步点击设定,就可以实现采集任务的定时控制,无论是单次采集定时设定,还是预先设定或每周每月定时采集,可同时对多个任务自由设定,按需选择时间进行多重组合,灵活调配自己的采集任务。
全自动化资料格式。
八爪内建有强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、删除空格、前缀或后缀、日期格式化、HTML转换等多种功能,在采集过程中全自动处理,不需要人工干预,就能获得所需格式数据。
多层级采集
在电子商务网站上,有许多主流新闻,里面有第一级商品列表页,也有二级商品详细页面,以及三级评论详细页面;不管网站的层次有多高,八爪鱼都能无层次地收集数据,满足各种业务的采集需求。
提供网站登录后的采集。
八爪鱼内建了采集登录模块,只需要对目标网站的帐号密码进行设置,利用这个模块就可以获取登录数据;另外,八爪鱼还具有收集Cookie的定制功能,第一次登陆后,可以自动记忆cookie,不用多次输入密码,支持更多的网站收集。
八爪鱼采集器客户端软件特色
满足多种业务场景
适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业
舆情监控
全方位监测公开信息,抢先获取舆论趋势
市场分析
获取用户真实行为数据,全面把握顾客真实需求
产品研发
强力支撑用户调研,准确获取用户反馈和偏好
风险预测
高效信息采集和数据清洗,及时应对系统风险