虎逗游戏网

XPath2Doc

XPath2Doc下载

软件大小:18 MB

软件类型:网络辅助

软件版本:V1.0.0.0

时间:2022-08-09

立即下载

温馨提示:该页面为Windows软件,不支持手机用户安装使用

软件介绍
XPath2Doc

XPath2Doc(通用网站数据采集及Doc生成工具)是一款专为网页数据采集与Word文档生成设计的全自动工具。它集成了天眼查和天眼查采集功能,能够方便地实现网页数据的自动化采集和文档生成。使用XPath2Doc,用户需在WebBrowser对话框中手动登录并定位所需的数据网页,点击程序流程按钮即可开始采集。它是一个真正的网页数据填充Word文档的自动化工具。

原理

网页上的每一个元素都可以转化为XPath语句。通过加载浏览器中的网页源码,使用XPath语句提取网页元素中的文字。XPath语句的获取方法如下:

使用Google Chrome浏览器打开网页,按F12进入开发者工具页面。

在Elements菜单栏下,移动鼠标,网页元素将被黑影覆盖。

点击三角符号,可以进一步精确定位元素。

在目标元素上点击,在弹出的菜单中选择“Copy - Copy XPath”,然后将其粘贴到文本文档中,即可获得所需的XPath语句。

,若XPath语句中含有“/tbody”,可能会影响采集效果。程序内部已对此问题进行了解决,但在某些特殊情况下仍可能受到影响,建议手动删除。

软件环境

Windows 7 SP1操作系统:请安装以下组件(关键:VC库,若未安装,程序无法启动):VC2017及以上版本、.NET Framework 4.5.2。

Windows 10系统:上述组件通常已内置,无需额外安装。

支持Windows 10 1903版本运行。

不兼容Windows XP操作系统。

操作指南

本程序运行需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。

自定义.ini和自定义模板.docx由用户自行创建,用于定义网页采集XPath语句及最终生成的Docx模板。

General.ini文件定义了INI文件和Docx模板文件的存储目录,可以不填写,默认为程序所在目录。

Docx模板文件中的“<#0001#>”等标识符用于在INI文件中定义的字符串数组,用于替换网页采集内容。

在使用本程序之前,请先创建自定义的INI配置文件和Docx模板文件(可参考附加的天眼查、天眼查2个配置文件和民事起诉书模板)。

使用方法:

启动程序选择模板,点击采集数据按钮旁边的灰色三角符号,打开下拉列表,选择需要采集的部分。

等待浏览器加载网页,手动输入需要查看的内容,点击查看,找到数据的实际网页,然后点击采集数据按钮。

观察右边的目录中是否已获取所需数据。

再次打开下拉列表,选择下一个需要采集的部分。如果网址发生变化,需等待浏览器重新加载页面,找到新的数据网页。

重复上述步骤,直到所有数据采集完成。

如果需要重新采集某个部分,请先点击下拉列表中的该部分名称,然后点击采集按钮重复采集该部分(此时可以随意更改浏览器的数据网页,以获取不同企业的数据)。

如果目录中采集获得的数据结果有误,可以点击手动修改。XPath语句如有错误,也可以自行修改以查看检测结果(XPath语句修改后,会立即重新爬取浏览器中的数据,所以浏览器最好显示真实的数据网页)。

在程序中修改的XPath语句不会保存到INI文件中,请用户自行保存。

如果目录中数据准确无误,浏览器中的Docx模板内容也正确,则可以点击生成文档按钮,填写要生成的文件名,程序会使用爬取到的网页数据替换模板中的索引字符串数组,自动生成Docx文档。

,右下方的Docx浏览窗口不支持详细的Word文档格式,对不规范文档可能会出现文字缺失或错位的情况。遇到此类情况,可忽略或修改模板文件为标准格式(单倍行距)。

相关软件
热门游戏