红叶文章采集器,一款功能强大的网址文章采集工具,英文名为Fast_Spider。它属于蜘蛛爬虫类程序,旨在从特定网址高效采集大量高质量文章内容。软件具备智能筛选功能,自动舍弃无价值的网页信息,仅保留具有阅读和访问价值的精华内容,并实现HTM到TXT的自动转换。这款软件操作简便,旨在为用户提供便捷的使用体验!
MD5指纹识别排重优化:采用北大天网MD5指纹识别排重优化算法,确保类似内容的网页不会重复存储。
采集内容丰富:采集信息包括网页标题([[HT]])、新闻标题([[HA]])、10个权重关键词([[HC]])、图片地址([[UR]])以及文章正文([[TXT]])。
蜘蛛高效稳定:软件支持开启300个进程,确保采集效率。稳定性测试显示,以一般网友的连接网络电脑为参照,每台电脑一天内可解析并采集约200万网页,20万精华文章仅需5天即可完成。
版本差异:最新版本允许将采集的精华文章内容自动存储为ACCESS数据库。欲购买最新版本,请联系QQ(970093569)。
网络连接与防火墙设置:使用前请确保您的电脑能正常连接互联网,且服务器防火墙未阻止本软件。
安装系统库:运行SETUP.EXE和setup2.exe,安装电脑操作系统system32适用库。
启动采集:运行spider.exe,输入网址入口,点击“人力添加”按钮,然后点击“启动”按钮,软件将开始采集。
爬取深度:填0表示不限制爬取深度;填3表示抓取到第三层。
蜘蛛方式:通用性蜘蛛方式会解析整个域名下的所有网页;分类蜘蛛方式则仅解析指定目录下的网页。
批量导入:通过“从MDB导入”按键,可以从TASK.MDB中批量导入网址入口。
爬取范围:本软件的爬取范围仅限于提供的入口网站,例如提供的入口是“http://youxi.baidu.com/”,则仅在百度网站内部爬取。
错误提示:采集过程中可能会出现错误提示框,请忽略这些提示。关闭错误提示框可能会导致采集软件崩溃。
选择采集主题:若要采集特定主题的文章,例如“个股类”,只需将这些“个股类”网站作为网址入口即可。