高频发布原创内容的网站容易被虚假搜索引擎蜘蛛攻击,从而窃取网站原创内容!那么如何区分真假搜索引擎蜘蛛呢?区分后如何禁止虚假搜索引擎蜘蛛窃取网站内容?
一、什么是假蜘蛛?
我们称搜索引擎爬虫为蜘蛛,假蜘蛛伪装成搜索引擎爬虫。目的是掩人耳目,爬行收集网站内容。
普通爬虫很容易被网站屏蔽,对搜索引擎蜘蛛网站也没有警惕。希望多抓能有效增加收录量和速度。
二、如何识别假蜘蛛
网站日志会记录所有访问ip的请求头即user-agent,搜索引擎公布的蜘蛛通过修改蜘蛛的请求头UA名。
所以光看日志是分不清真假蜘蛛的。大多数搜索引擎都是ip例如,我们通过了反查windows电脑cmd中使用nslookp反查蜘蛛的ip能得到相应搜索引擎分析的真蜘蛛,假蜘蛛在这种方法下无法隐藏。
但问题是,如果你不能真正识别假蜘蛛,内容被收集和屏蔽就失去了意义。
三、如何防止假蜘蛛抓取内容?
1.添加蜘蛛白名单
有些蜘蛛不能支持反查。我们可以使用这种蜘蛛ip在该段中添加白名单,同时,我们将蜘蛛反向查看网站ip人工确定后,白名单也被添加。可以防止蜘蛛在程序错误时被屏蔽,加快程序响应速度。
2、原创保护防采集
对于其他爬虫,我们仍然需要检测同样的爬虫ip是否有大量的访问,对于异常ip我们可以通过验证码等方式进行验证,这也是基于我们的拥有ip在识别蜘蛛的前提下,可以避免误伤搜索引擎的抓取任务收集。
只要你的内容可以显示就可以有办法采集,要想完全避免是不可能的,是双方之间的一场博弈。
以上是黑帽SEO优化]如何防止假蜘蛛抓取内容?》所有内容仅供站长朋友互动交流学习,黑帽SEO优化是一个需要坚持的过程,希望大家共同进步。