黑帽达人官网黑帽达人官网

欢迎光临
我们一直在努力

robots.txt为什么禁止抓取文件还被收录?

有时我不希望搜索引擎能掌握一些内容robots.txt文件放在根目录中,蜘蛛会先读这个文件,然后按照robots协议捕获相应的内容。但是很多站长发现蜘蛛不太遵守这个协议。

为了验证这个问题,经过测试,发现如果蜘蛛已经抓住并有索引和快照,此时再写robots.txt文件不遵守本协议,一般在robots禁止抓取文件夹如下,

Disallow:/about/

还不放心,添加页面声明

这份声明的意思是告诉蜘蛛不要建立索引,可以沿着路径继续抓取内容。我以为这可以删除已经收录的快照。有网友说需要等待,时间不好。我以为这可以删除已经收录的快照。有网友说需要等待,时间不好。

百度有一个判断页面质量的规则。如果多个页面重复太多内容,它将被减少,甚至将索引库移出。等待很长一段时间才会移出索引库。一般来说,调整过的网站的收集量会减少,但并没有显著减少,因为一些垃圾页面在算法更新后被移出索引库,这是正式的黑帽SEO网站管理员的做法是一件好事,垃圾页面会影响网站的排名。

robots和nofollow蜘蛛抓取范围的标签可以控制,两者的用法不同。

简单说,nofollow主要集中页面的权重,robots.txt文件是控制整个网站的蜘蛛抓取范围。所以问题来了,为什么蜘蛛经常不遵守我们?robots协议呢?(一些垃圾蜘蛛是完全不遵守robots我们所说的蜘蛛主要是指百度蜘蛛和谷歌蜘蛛。

1、书写错误

robots.txt文件的书写格式是一行一行地写,不能连续写,比如

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/

2、正确书写

每个记录都需要另一行,不允许在每个记录中空行,用于分割不同的记录。如;

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

很多时候,搜索引擎会抓住你 robots.txt 文件不允许捕获的内容不是因为机器人不遵守,而是因为从捕获到索引到显示需要一段时间,当搜索引擎被捕获时,您将更新它,因此之前捕获的不会被删除得这么快。删除周期不规则。一般来说,算法更新后会生效。


未经允许不得转载:黑帽达人官网 » robots.txt为什么禁止抓取文件还被收录?
分享到: 更多 (0)

黑帽达人官网专业提供黑帽seo快排、黑帽seo技术、黑帽seo优化、快速提升排名、黑帽seo推广等服务。为企业客户提供更好的网络营销模式拓宽销售渠道,让客户盈利是我们服务的初衷,欢迎大家一起交流!

黑帽seo快排