虎逗游戏网

红叶文章采集器

红叶文章采集器下载

软件大小:5.0 MB

软件类型:网络辅助

软件版本:V3.6

时间:2022-09-06

立即下载

温馨提示:该页面为Windows软件,不支持手机用户安装使用

软件介绍
红叶 文章 采集

红叶文章采集器,一款功能强大的网址文章采集工具,英文名为Fast_Spider。它属于蜘蛛爬虫类程序,旨在从特定网址高效采集大量高质量文章内容。软件具备智能筛选功能,自动舍弃无价值的网页信息,仅保留具有阅读和访问价值的精华内容,并实现HTM到TXT的自动转换。这款软件操作简便,旨在为用户提供便捷的使用体验!

软件亮点

MD5指纹识别排重优化:采用北大天网MD5指纹识别排重优化算法,确保类似内容的网页不会重复存储。

采集内容丰富:采集信息包括网页标题([[HT]])、新闻标题([[HA]])、10个权重关键词([[HC]])、图片地址([[UR]])以及文章正文([[TXT]])。

蜘蛛高效稳定:软件支持开启300个进程,确保采集效率。稳定性测试显示,以一般网友的连接网络电脑为参照,每台电脑一天内可解析并采集约200万网页,20万精华文章仅需5天即可完成。

版本差异:最新版本允许将采集的精华文章内容自动存储为ACCESS数据库。欲购买最新版本,请联系QQ(970093569)。

操作步骤

网络连接与防火墙设置:使用前请确保您的电脑能正常连接互联网,且服务器防火墙未阻止本软件。

安装系统库:运行SETUP.EXE和setup2.exe,安装电脑操作系统system32适用库。

启动采集:运行spider.exe,输入网址入口,点击“人力添加”按钮,然后点击“启动”按钮,软件将开始采集。

软件问答

爬取深度:填0表示不限制爬取深度;填3表示抓取到第三层。

蜘蛛方式:通用性蜘蛛方式会解析整个域名下的所有网页;分类蜘蛛方式则仅解析指定目录下的网页。

批量导入:通过“从MDB导入”按键,可以从TASK.MDB中批量导入网址入口。

爬取范围:本软件的爬取范围仅限于提供的入口网站,例如提供的入口是“http://youxi.baidu.com/”,则仅在百度网站内部爬取

错误提示:采集过程中可能会出现错误提示框,请忽略这些提示。关闭错误提示框可能会导致采集软件崩溃。

选择采集主题:若要采集特定主题的文章,例如“个股类”,只需将这些“个股类”网站作为网址入口即可。

相关软件
热门游戏