有时我不希望搜索引擎能掌握一些内容robots.txt文件放在根目录中,蜘蛛会先读这个文件,然后按照robots协议捕获相应的内容。但是很多站长发现蜘蛛不太遵守这个协议。
为了验证这个问题,经过测试,发现如果蜘蛛已经抓住并有索引和快照,此时再写robots.txt文件不遵守本协议,一般在robots禁止抓取文件夹如下,
Disallow:/about/
还不放心,添加页面声明
这份声明的意思是告诉蜘蛛不要建立索引,可以沿着路径继续抓取内容。我以为这可以删除已经收录的快照。有网友说需要等待,时间不好。我以为这可以删除已经收录的快照。有网友说需要等待,时间不好。
百度有一个判断页面质量的规则。如果多个页面重复太多内容,它将被减少,甚至将索引库移出。等待很长一段时间才会移出索引库。一般来说,调整过的网站的收集量会减少,但并没有显著减少,因为一些垃圾页面在算法更新后被移出索引库,这是正式的黑帽SEO网站管理员的做法是一件好事,垃圾页面会影响网站的排名。
robots和nofollow蜘蛛抓取范围的标签可以控制,两者的用法不同。
简单说,nofollow主要集中页面的权重,robots.txt文件是控制整个网站的蜘蛛抓取范围。所以问题来了,为什么蜘蛛经常不遵守我们?robots协议呢?(一些垃圾蜘蛛是完全不遵守robots我们所说的蜘蛛主要是指百度蜘蛛和谷歌蜘蛛。
1、书写错误
robots.txt文件的书写格式是一行一行地写,不能连续写,比如
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/
2、正确书写
每个记录都需要另一行,不允许在每个记录中空行,用于分割不同的记录。如;
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
很多时候,搜索引擎会抓住你 robots.txt 文件不允许捕获的内容不是因为机器人不遵守,而是因为从捕获到索引到显示需要一段时间,当搜索引擎被捕获时,您将更新它,因此之前捕获的不会被删除得这么快。删除周期不规则。一般来说,算法更新后会生效。