精品为您呈现,快乐和您分享!

移动端

收藏本站

OK下载站

当前位置: 首页 > 软件下载 > 网络工具

后羿采集器v4.0.1官方版

后羿采集器v4.0.1官方版

类型:网络工具 语言:简体

大小:81.4M 更新时间:2023-06-21

推荐指数:

应用简介


Houyi Collector是Google原技术团队打造的一款网页数据采集软件。可以可视化点击,一键采集网页数据。它适用于所有平台和Win/Mac/Linux。收集和导出是免费且无限制的。放心使用,可以后台运行,速度实时显示。









Houyi Collector是Google原技术团队打造的一款网页数据收集软件。可以可视化点击,一键采集网页数据。它适用于所有平台和Win/Mac/Linux。收集和导出是免费且无限制的。放心使用,可以后台运行,速度实时显示。



后羿采集器



软件特点



1.可视化定制采集流程



全程问答引导、可视化操作、定制采集流程



自动记录并模拟网页操作序列



高级设置满足更多采集需求



2.点击提取网页数据



用鼠标点击选择要抓取的网页内容,操作简单



您可以选择提取文本、链接、属性、html 标签等。



3. 运行批量数据采集



软件根据采集流程和提取规则自动采集批次。



快速稳定,实时显示采集速度和进程



软件可以切换到后台运行,不影响前台工作。



4. 导出并发布收集的数据



收集的数据会自动制成表格,并且可以自由配置字段。



支持数据导出到Excel等本地文件



并一键发布到CMS网站/数据库/微信公众号等媒体



指示



自定义采集百度搜索结果数据的方法



第一步:创建采集任务



1)启动后羿采集器,进入主界面,选择自定义采集,点击创建任务按钮,创建“自定义采集任务”



后羿采集器



2)输入百度搜索的网址,包括三种方法



1.手动输入:直接在输入框中输入网址。如果有多个URL,则需要用换行符分隔。



2. 单击从文件中读取:用户选择一个文件来存储URL。文件中可以有多个URL地址,地址之间需要用换行符分隔。



3、批量添加方式:通过添加、调整地址参数,生成多个常规地址



后羿采集器



第2 步:定制收集流程



1)点击创建后,会自动打开第一个URL,然后进入自定义设置页面。默认情况下,已经创建了开始、打开网页、结束的流程块。底部模板区域用于拖放到画布中生成新的流程块;点击打开网页中的属性按钮可以修改打开的URL



后羿采集器



2) 添加输入文本流块:将底部模板区域中的输入文本块拖至打开的网页块后面附近。当出现阴影区域时,可以松开鼠标。此时会自动连接,添加完成。



后羿采集器



3)生成完整流程图:按照上面添加输入文本流程块的拖放过程添加新块:如下图:



后羿采集器



关键步骤块设置介绍



第二步:定时等待,用于等待之前打开的网页完成。



第三步:点击输入框Xpath属性按钮,点击属性菜单中的图标选择网页中的输入框,点击输入文本属性按钮,在菜单中输入要搜索的文本。



第四步:设置点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的点击图标,然后点击网页上的百度点击按钮。



步骤5:用于设置循环加载下一个列表页面。在循环块内的循环条件块中设置详细条件。单击此处的操作按钮,选择单个元素,然后单击属性菜单中该元素的xpath 属性按钮。执行与上述相同的操作,然后单击网页中的下一页按钮。循环次数属性按钮可以默认为0,即下一页的点击次数没有限制。



步骤6:用于设置一个循环以从列表页面提取数据。在循环块内的循环条件块中设置详细条件。单击此处的“操作”按钮,选择“未连接的元素列表”,然后单击属性菜单中元素的XPath属性按钮,然后在网页上连续单击两次以提取第一个块和第二个元素。周期时间属性按钮可以默认为0,这意味着要在列表中收集的字段数没有限制。



步骤7:要执行单击“下一页”按钮操作,请单击元素XPath属性按钮,然后在当前循环中选择该元素的使用XPath选项。



步骤8:使用相同的方法来设置网页加载的等待时间。



步骤9:要设置列表页面上提取的字段规则,请单击“属性”按钮中的循环按钮中的使用元素,然后在循环选项中选择“使用元素”。单击元素模板属性按钮,然后单击字段表中的添加或减去添加或删除字段。使用单击操作添加字段,也就是说,单击加号,然后将鼠标移至网页元素,然后单击以选择。



4)单击“开始收集”以开始收集



后羿采集器



步骤3:数据收集和导出



1)收集任务正在运行



后羿采集器



2)集合完成后,选择“导出数据”以将数据导出到本地文件。



后羿采集器



3)选择“导出方法”以导出收集的数据。在这里,您可以选择Excel作为导出格式。



后羿采集器



4)收集的数据被导出,如下所示



后羿采集器