金石极速网页采集器专门采集和订阅您自已指定的信息源网站,既可以采集指定网页上的所有信息,也可以按关键词匹配采集。您可以指定采集的线程数,找到最高效的采集设置。
本软件是市面上唯一一款能实现通过自定义栏目和关键词来采集打造完全属于您自已的桌面新闻系统,新闻来源完全由您自行指定,运行线程数也可以自行设定。软件会自动过滤网上的重复信息,并允许您自行设置相似度在多少以上的信息不再重复采集,让您轻松掌控重要资讯。
系统设置中的采集选项是为对软件的采集行为进行个性化定制,点击工具栏中的[系统设置]按钮进去后,界面如下图:
1.不采集标题与已有信息相似度达XX以上的:软件会耗一定时间比对每条资讯与前面已采集的资讯相似度是否超过了该设定标准,超过标准的视为类同信息,不再重复采集。当该值设为98以上时,软件不会再比对,省下了比对的时间,但可能出现类同资讯。因为当已采集信息量较大时,比对比较耗时,用户可酌情选择。
2.同一资讯匹配上不同关键词时:可以只采集一条,也可以为不同的关键词各采集一条。视各人喜好选择。
3.订阅采集线程数和关键词采集线程数: 您指定几个线程系统就会生成几个线程来采集,提高采集线程数能加快采集,但如果太高,可能导致系统生成线程有问题,反而使采集中断。建议一般的电脑二者线程数之和不要超过20,线程数为0或负数,系统将不进行该项采集工作。
4.信息时效:设置为10天时,软件将只采集最近10天内发布的有效资讯,并在每一次启动时自动删除超过10天的资讯。(注:1天指24小内时的信息,而不是仅指当天信息)
5.关键词匹配方式:可选“精准匹配”和“模糊匹配”,精准匹配要求采集的资讯必须包含完整的关键词,而模糊匹配则允许采集只包含部分关键词信息的资讯。为了避免采集到无关的信息,以设为精准匹配比较合适。
6.关键词匹配范围:可选“全文匹配”和“标题匹配”,对应于关键词在全文范围内匹配还是仅对标题匹配。
7.使用代理服务器:软件允许您使用代理服务器访问网络,但您的代理服务器必须是确保可用的,可以匿名访问的,否则软件将不能采集网络信息。