如今市场上充斥着各种收费的网页采集器。但是一款功能全面且完全免费的翠绿色网页采集器实属难得。本系统依托互联网技术,致力于网页信息的采集,具备以下两大特色功能:
动态信息采集:能够采集经过JavaScript渲染后的动态性信息。
正则表达式设置:支持设置采集的正则表达式,以实现更精确的数据采集。
另外本手机软件还内置了多种采集方案,针对静态数据网页和动态性网页进行个性化匹配。官方网站的照片(面部)以及百度搜索引擎的信息,都是通过这款软件采集,并随后进行数据库索引的。
输入网址与访问网页:首先输入网址,正常访问目标网页后,点击工具栏上的“查询js后源代码”标志,系统将执行JavaScript后的网页内容。若未看到相关内容,可等待一会儿后再次点击,以确保JavaScript代码执行完成。
通过访问详细的网页源代码,我们可以根据以下情况选择应用方案:
如果网站地址变更后即可导航至下一页,则选择方案1;
如果网页内容是通过脚本动态更新,则选择方案2。
运行采集方案:点击工具栏上的“运作采集方案”标志,根据步骤1的选择,挑选方案1或2。若已有方案1和2生成的downloadtotal.txt
文档,也可选择方案3。填写必要的信息或正则表达式,点击“逐渐采集”按键,系统将自动进行采集。
若需取消采集任务,可点击提示框的“撤销”按键,系统将立即关闭提示框,停止采集任务。
终止采集方案:点击工具栏上的“终止采集方案”标志,系统将停止采集任务。
为了防止采集,我们可以采取以下措施:
避免采集第一种方式:在文章的首尾添加任意不稳定的内