复制网页(或者叫反复内容网页)指的是两个或多个网页内容相同,或十分类似。普通来说,搜索引擎不喜欢复制内容网页,他们会尽量判别哪一个是原始版本,然后把其他的复制网页疏忽不计。有两点值得留意:
1)复制网页的判别并没有一个比例。比方说一个网页上有60%或80%的内容和其他网页相同,就被列为复制网页,假如真有一个比例那就简单多了。
2)复制网页并不会带来惩罚。搜索引擎会丢掉其他的复制网页,但不会惩罚搜索引擎以为的原始出处。不过这就有可能对真正原始出处产生惩罚。比方搜索引擎判别错误,把原始出处当成复制的,而把复制的当成原始出处。复制内容网页的呈现普通有这些可能性:1)网址标准化问题所产生的。2)代理商和批发商的网站经常从产品消费商的网站上抄下产品信息。这倒没什么不对,普通产品消费商也都同意,但是绝大局部代理商,批发商,批发商都会直接copy,而不做改动。所以这些电子商务网站上充满着大量复制内容网页。
3)打印版本。很多网站提供更适于打印的版本,假如没有用robots.txt文件,那么这些打印版本网页就可能会变成复制网页。
4)网页内容由RSS生成。有很多网站,特别是新闻类网站,都是用其他网站的RSSfeed来生成网站内容的,这些内容在原始出处和很多其他网站上都曾经呈现了。
5)电子商务网站运用SessionID。搜索引擎蜘蛛在不同时间访问网页的时分,被给了不同的SessionID,但实践上网页内容是一样的。不过由于SessionID的参数不同,就被当成了不同的网页。
6)网页本质内容太少。每个网页上都不可防止的有通用的局部,比方导航条,版权声明等等。假如网页的正文局部太少,数量还抵不上这些通用局部,就有可能被以为是复制内容网页。
7)文章剽窃转载等。有的时分是其别人剽窃了你的网站内容,有的时分是好心的转载,有的时分是作者自愿的向不同的网站发送文章,这些都有可能形成复制内容网页。
8)镜象网站。镜象网站曾经很盛行,当一个网站太忙太慢的时分,用户能够经过替代镜象来看内容或下载,这也有形成复制内容网页的风险。
9)产品或效劳类型之间区别比拟小。比方有的网站把本人的产品或效劳按地域停止分类,但实践上提供应每个地域的产品或效劳都是一样的。在这些按地域分类的网页上,只是把地名改了改,其他内容全都一样。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。