如果你关注百度熊掌号,你会发现它要求每个内容页面必须包含:rel="canonical"这个标签,目的就是为了避免原创文章,产生过多的重复页面,导致搜索引擎收录多个URL,影响搜索排名。
那么,重复内容会导致搜索引擎惩罚吗?
当你在对比网站索引量与收录量的时候,经常会发现,搜索结果中的收录量往往高于索引量,很多SEO初学者并不清楚这是为什么,它很有可能的原因就是搜索引擎抓取了大量重复内容。
当你利用site:网址,查询页面的时候,经常会遇到百度提示:为了提供最相关的结果,我们省略了一些内容相似的条目。
简单理解:百度为你过滤了一些重复页面,如果你的站点内容页面并没有采用rel="canonical"这个标签,搜索引擎很难判断,哪个页面是标准化的页面,往往造成误伤,删除相关内容页面的索引,如果大量产生这样的页面,就很容易导致站点被降权。
那么,我们如何避免站内产生这些重复页面?
1、nofollow打印机页面版本
当你的文章发布成功后,你经常会在内容页面右上角发现一个打印机小图标,你点击它会快速创建打印内容,这本来是一个人性化的设置,但稍微不注意,就会容易产生重复的URL。
因此,你需要在CMS模板中,nofollow掉着个小图表,禁止蜘蛛爬行与抓取。
2、网站改版,需要301重定向旧链接
一个网站在不定期的时候,会根据自己的用户规模,调整网站模板,甚至系统内部插件,它往往很容易造成URL地址的变更,当你遇到这样的情况时,你需要尽可能的301重定向每个旧网址到新网址。
3、转发内容,标注版权
基于对网站的需要,你可能要适当的转载网络上大量的内容,用一个不恰当的词来解释,它可以用“采集”这个词,我们知道百度的飓风算法,严厉打击采集内容,如果你并不是一个高权重的站点,那么你可能需要注意一些小细节:除了在内容页面,标注原文链接地址外,尽量利用rel="canonical"这个标签指定内容的原始来源。
4、注意域名与HTTPS的配置
域名的样式与HTTPS的配置,有一个类似的地方,比如:一个站点可以通过www访问,也可以通过无www的主域访问,同样当你配置HTTPS的时候,你的HTTP链接,有的时候也是可以访问的,为此,你需要:
① 选择唯一域名,将另外一种形式301重定向。
② 将HTTP,301重定向到HTTPS。
5、避免标题统一不变
在以前这是一个老生常谈的问题,随着SEO技术不断被广大站长认知,虽然同质化标题在很大程度上,有了改变,但目前仍然有大量网站,仍然是网页标题,都是同一标题,而在内容页面中的H1,采用不同的标题。
这虽然并不算是严格意义上的内容重复,但它同样严重制约网站关键词排名。
6、URL标准化
所谓的URL标准化,这基本上算是一个常识了,每个SEO人员都应注意的问题,这里烨晟网络还是要旧事重提,我们需要确保在静态、伪静态、动态页面中,只选择一种链接样式,特别是当你的站点内容是伪静态的时候,一定要在robots.txt中,屏蔽动态URL相关参数。
总结:避免大量产生重复内容,是每个SEO人员需要学习的地方,也是SEO工作顺利进行的一个前提条件。