水淼软件出品的一款万能文章采集软件, 可输入关键词采集各大搜索引擎网页和新闻,也可以采集指定网站文章。

基于水淼自主研发的正文识别智能算法,能在互联网纷繁复杂的网页中尽可能准确地提取出正文内容。

正文识别有自动识别(即以前的“标准”、“严格”模式)、“精确标签”、“头尾标记”。其自动识别能适应绝大多数网页的正文提取,而“精确标签”只需指定正文标签头,如“<div class=”text”>”,就能通吃所有网页的正文提取;头尾标记则是指定正文的开头和结尾。

关键词采集目前支持的搜索引擎有:百度、搜狗、360、谷歌、必应、雅虎

采集指定网站文章的功能也非常简单,只需要稍微设置(不需要复杂的规则),就能批量采集目标网站的文章了。

因为墙的问题,要使用谷歌搜索和谷歌转译文章的功能,需要使用VPN换国外IP。

软件截图:

下面是界面组件的说明:

采集分页:如果正文有分页显示,则自动采集分页合并

删除链接:删除网页中锚文本的链接功能,只留下锚文本的标题

txt 格式:保存成txt文本(自动清除HTML标签)

调试模式:在正文的开头插入“调试模式:标题和链接”的内容,以方便进入原网页对比正文识别效果

标题有关键词:只有标题中包含搜索关键词的网页才采集

放弃短标题:当自动识别的标题的长度低于原始标题三分之一时,即为短标题,通常这种标题是错误的,因此可以勾选放弃它,这样就使用原始标题(此段遇到时自会理解)。

删除外层代码:使用自动识别和精确标签时,通常都会包含<div id=”mm”></div>这样的外层代码,如果不需要,那就要打勾删除。

过滤正文:有些正文里包含了标题元素,如<h1><h2><h3>这三种需要删除,还有很多有class属性的标签也属于系统定义的非正文内容,比如 <p class=”ee”>推荐内容</p>,一般只要删除class代码,就能去掉绝大多数的非正文内容,然后跟着还有个例外编辑框,用于输入不能删除的class,直接填入class的值,多个值使用|隔开。

【精确标签】特别说明:

请使用谷歌浏览器或傲游浏览器,鼠标右键单击正文的开始位置-审查元素,然后定位正文的代码段,将该代码段的标签头复制。

如代码段:<div class=”text”>正文部分</div>,则复制<div class=”text”>

多个标签可以使用“|”隔开

关键词采集的文章自动比对本地相同标题的文章,相似度超过60%就跳过,低于60%就自动重命名保存。

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源