虽然现在网上类似网页采集器非常之多,但各有各的优点,这里给大家分享一款尊天网页采集器,功能齐全,反应迅速,最主要是绿色免费的。
本软件通过互联网,采集网页信息。有两大特色功能:
1,可以采集js之后的动态信息。
2,可以设定采集的正则表达式。
另外,本软件内置多种采集方案,分别对应静态网页和动态网页。
官网的图片(人脸)搜索引擎的数据都是用这个软件采集,然后才做索引的。
防止网页采集:防止采集第一种方法:在文章的头尾加上随机不固定的内容。网站采集者在采集时,通常都是指定一个开始位置和一个结束位置,截取中间的内容。
1,输入网址,正常浏览网页到达采集目标后,点击工具栏上的“查看js后源码”图标,则显示执行js后的网页内容。如果没有看到相关内容,可以等待片刻再次点击,以保证js代码执行完毕。通过浏览完整的网页源码,我们可以确定使用方案1还是方案2。如果更改网址的页码就可以导航到下一页,则使用方案1;如果是通过脚本动态更新网页内容,则使用方案2。
2,点击工具栏上的“运行采集方案”图标,根据步骤1,选择方案1或2。如果已经有方案1和2生成的downloadtotal.txt文件,也可以选择方案3。填入必要的信息或者表达式,点击“开始采集”按钮,系统将自动采集。点击对话框的“取消”按钮,则不启动采集任务直接关闭对话框。
3,点击工具栏上的“停止采集方案”图标,系统终止采集任务。
1,正则表达式不要保留汉字,汉字尽量用.+?代替掉;
2,时间间隔不要设置太短,过短则脚本可能无法执行完毕;
3,方案2如果正则表达式没有匹配,可能是因为时间间隔过短导致,加长时间间隔或许可以。
4,对于网页源码中的换行符号可以不理会,采集器会忽略。
5,网页URL表达式和js表达式中用*代表变化的参数,就如上例中的pageid=*一样。
6,正则表达式目前只支持.+?,且只能处理一个表达式。
7,方案1和2生成的downloadtotal.txt文件的第一行为正则表达式中包含的.+?数目,即采集信息项的数量。
8,正则表达式不要包含回车和换行符号。
9,如果程序提示配置不对无法运行,则下载安装微软的vcredist_x86.exe程序即可。
单改静态页的可以直接打开那个页面的源码,想改哪些文字就哪些,其他的不懂就不动,达到效果就行!
动态的应该有个后台管理的吧,涉及到数据库的,把你要改的部分换成你想要的
网页上有错误的一般解决方法:
1、点击“开始”菜单,打开“运行”。
2、输入regsvr32 jscript.dll后选择“确定”。出现提示后,点击确定。
3、再次输入regsvr32 vbscript.dll选择“确定”。再一次出现提示后,确定。
4、经过以上两次成功提示,说明已成功修复IE组件,清除一下浏览器的Cookies和缓存,打开ie浏览器-上方的工具->Internet选项->删除Cookies,还有删除临时文件。 安美奇网页采集器 V2.0 中文绿色版