对于页面收录而言,这是我们SEO从业者,这几年热衷讨论的话题,每天有大量的SEO人员在思考如何提升整站的索引量,但在过往给客户做SEO诊断的过程中,我们经常会发现一些基础性的问题,而导致目标站点的索引量非常少,甚至无索引。
这让很多企业主经常陷入窘境,比如:
①网站无收录,企业品牌词寻址都查询不到对应的官网。
②网站只收录首页,内页没有任何索引量。
③网站相关页面收录周期超长,几个月时间才收录十几个页面。
④网站长期不收录。
事出问题,必有因,我们在面对这些基础性问题审查的时候,经常会片面归结于搜索策略的调整,而实际上在某种程度上有很多基础性的细节我们没有配置到位。
因此,在做SEO项目的时候,特别是新网站,我们有必要了解一下搜索引擎抓取页面的策略与常见流程,比如,对于一个全新的网站,搜索引擎通常会采用如下抓取流程:
①基于网站日志
②获取网站IP
③核定网站名称
④获取网站数据
⑤核查抓取时间
在这个过程中,搜索引擎通常是基于网站对应的IP地址,不断的完善后期的数据抓取任务,通常来讲:搜索引擎会去尝试判断同一个IP地址下面对应的网站数量。
然后,根据IP地址所对应的服务器性能,核定一个IP地址最大限度的抓取频次是多少,从而进一步的根据同IP下,网站权重的评估去判断这个网站优先抓取的级别,以及后期每个网站的抓取频次。
接下来,当搜索引擎爬虫到访目标网站之后,一般情况下,都是基于页面链接来作为初始条件,获取目标页面的相关性信息。
通常来讲,一个网站作为链接的载体主要包括:
①网站本身的页面
②网站XML版本的sitemap地图
搜索引擎在初始阶段一般情况下都会优先通过这两个方式获取整站的链接,虽然现阶段各大搜索引擎都在不断强化API方式提交数据,我们认为sitemap网站地图,如果在技术条件允许的情况下,我们还是要优先配置一下。
严格意义上来讲,为了提供抓取效率,节省资源,搜索引擎会优先抓取整站页面链接中,没有进行抓取过的页面,作为初始页面。
然后基于这个页面不断的提取链接,分析链接,判断页面的基础类型,从而获取相关性的页面数据信息。
一般情况下:
搜索引擎会基于CSS,JS,判断一个页面的基础类型,它是首页,内容页,列表页等等。
从而进一步的去抓取目标页面的基础信息,比如:
①文字性内容
②页面图片元素(图片的超链接等)
③页面中下载链接(需要进一步评估分析真实性)
这样对于一个搜索引擎的页面抓取与分析的流程就基本完成了,但在这个过程中,仍然有诸多细节,需要我们讨论。