精品为您呈现,快乐和您分享!

移动端

收藏本站

OK下载站

当前位置: 首页 > 软件下载 > 网络工具

红叶文章采集器v3.6中文绿色版

红叶文章采集器v3.6中文绿色版

类型:网络工具 语言:简体

大小:5.0M 更新时间:2013-11-26

推荐指数:

应用简介


一个超强大的网站文章收集器。这个软件的全称是Red Leaf Article Collector,英文名称是Fast_Spider。它是一个蜘蛛爬虫程序。用于从指定网站收集海量重要文章。它会直接丢弃垃圾网页信息,只保存相关信息。阅读和浏览有价值的文章,并自动执行HTM-TXT转换。









一个超强大的网站文章收集器。该软件的全称是红叶文章采集器,英文名称是Fast_Spider。它是一个蜘蛛类程序,用于从指定网站收集海量的重要文章。它会直接丢弃垃圾网页信息,只保存可以阅读的内容。精选有价值、有浏览价值的文章,自动进行HTM-TXT转换。本软件为绿色软件,解压后即可使用!



红叶文章采集器



软件特点



(1)本软件采用北大天网MD5指纹去重算法,不会再重复保存相似、相同的网页信息。



(2)收集信息的含义:[[HT]]代表网页标题,[[HA]]代表文章标题,[[HC]]代表10个权重关键词,[[UR]]代表网页中的图像链接,[[TXT]]后面是正文。



(3)Spider性能:本软件开启300个线程,保证采集效率。压力测试收集了100万篇精华文章。以普通网民联网的电脑为参考标准,一台电脑一天可以浏览200万个网页,收集20万篇精华文章。只需5天,即可收集100万篇必备文章。完全的。



(4)正式版与免费版的区别在于,正式版允许将收集到的精华文章数据自动保存为ACCESS数据库。购买正式版请联系QQ(970093569)。



如何操作



(1)使用前,您必须确保您的计算机能够连接到网络,并且防火墙没有阻止本软件。



(2) 运行SETUP.EXE和setup2.exe安装操作系统system32支持库。



(3) 运行spider.exe,输入URL条目,先点击“手动添加”按钮,然后点击“开始”按钮开始采集。



防范措施



(1)爬取深度:填写0表示爬取深度不限制;填写3 以捕获第三层。



(2) 普通蜘蛛模式与分类蜘蛛模式的区别:假设URL入口为“http://youxi.baidu.com/”,如果选择普通蜘蛛模式,则“baidu.com”中的每个网页都会被穿越;如果选择分类蜘蛛模式,则只遍历“youxi.baidu.com”中的每个网页。



(3)“从MDB导入”按钮:从TASK.MDB批量导入URL条目。



(4)本软件采集的原则是不跨站。例如,如果入口是“http://youxi.baidu.com/”,则只会抓取百度站点内的内容。



(5)本软件在采集过程中,偶尔会弹出一个或多个“错误对话框”。请忽略他们。如果关闭“错误对话框”,采集软件就会挂起。



(6)用户如何选择采集主题:比如要采集“库存”文章,只需将那些“库存”网站作为URL入口即可。