搜索引擎的工作过程一般可分为三个阶段:
(1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接找到和访问页面,读取页面HTML存储在数据库中的代码。
(2)预处理:索引程序对获取的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。
(3)排名:用户输入查询词(关键词)后,排名程序调用索引数据,计算相关性,然后按一定格式生成搜索结果页面。
搜索引擎的工作原理
爬行和抓取是搜索引擎完成数据收集的第一步。用于抓取页面的搜索引擎程序被称为蜘蛛(spider)
合格的黑帽SEOer,如果你想包含更多的页面,你应该试着吸引蜘蛛来抓取它们。
蜘蛛抓取页面有几方面因素:
(1)网站和页面的权重,质量高、时间长的网站一般认为权重高,爬行深度高,页面多。
(2)页面更新频率,蜘蛛每次爬行都会存储页面数据。如果第二次和第三次抓取和第一次一样,说明没有更新。久而久之,蜘蛛就不需要经常抓取你的页面了。如果内容经常更新,蜘蛛会经常访问页面来捕获新页面。
(3)导入链接,无论是内部链接还是外部链接,如果你想被蜘蛛抓住,你必须接进入页面,否则蜘蛛不会知道页面的存在。
(4)点击与主页的距离。一般来说,主页是网站上权重最高的,大多数外部链接都指向主页。蜘蛛访问最频繁的页面是主页。点击离主页越近,页面权重越高,爬行的机会越大。
吸引百度蜘蛛
如何吸引蜘蛛抓取我们的页面?
坚持有频率的更新网站内容,最好是高质量的原创内容。
主动为搜索引擎提供我们的新页面,让蜘蛛更快地发现,如百度链接提交、抓取诊断等。
构建外部链接,可以与相关网站进行友情链接交换,可以到其他平台发布高质量的文章指向自己的页面,内容要相关。
制作网站地图,每个网站都应该有一个sitemap,网站的所有页面都在sitemap蜘蛛抓取方便。