网络神采是一款采集软件,可以帮助用户快速的采集网页数据,软件可以根据用户的需求来进行页面的智能采集,软件提供可视化采集功能,让用户可以看到软件的采集情况,采集的网页内容,软件除了采集之外还能直接下载网页数据。
1、采集强度
支持JS解析、POST分页、登录采集、跨层采集。对于疑难采集页面,有成熟的解决方案。
2、速度快
支持多任务同时运行,每个任务又可以设置多线程,确保运行效率。
3、规模化
支持任务多级分类、批量管理。支持云服务器分布式部署,管理员团队协合。
4、流程化
支持定时采集,任务定时自动启动。通过二次开发,实现流程化的信息采集、信息处理。
5、运行稳定
系统运行稳定,要求“0 bug”。目标网页改版后,自动通知管理员。
6、准确性
定制好任务后,采集准确率可达100%,即一条不漏。
2019-08-13 V6.3.15
可视化采集配置,放大、缩小范围时:
1、提取下一网址:默认为连续 * 号,按Ctrl键为单个 * 号
2、循环采集:按Shift键,支持连续 * 号
3、多个 * 号时,加亮显示
可视化采集配置,操作细节:
1、显示完整XPath:选中后,不再取消当前元素,而是直接切换
2、废除选项:复制XPath时覆盖现有,改为:复制XPath时,按Shift键可覆盖现有内容
3、Gecko内核:换回 xulrunner_60.0.26,低版本 xulrunner_45.0.34 仍会出现 COM 断开,体验太差
修复bug:
1、循环采集:整条数据或“关键规则”采集失败后,URL被回收多次
2、切换动态层:从当前层切换到动态层时,如果动态层使用了“模拟点击”,而当前层未使用,会导致“提取下一层XPath时出错: 未将对象引用设置到对象的实例”。