我们知道内容是搜索排序的基础,早前我们分享了如果快速打造高质量文章,而我们知道其中文字性内容,是最为重要的影响因子。
我们经常听到SEO从业者,每天寻找“原创文章”的打造之法,但有的时候往往是南辕北辙,并不能起到真实有效的作用。
比如:伪原创工具,你可能花费高额的费用,购买相关使用权限,而发现实际没有任何效果,特别是新网站的建立。
这到底是为什么?
在这里我们可能需要简单讨论一下搜索引擎识别页面原创属性的策略与方法,比如:
1、句子原创度识别
通常搜索引擎在识别原创的过程中,可能会对页面的内容进行解析,拆分出页面内容的每一个句子,针对句子的原创度进行识别。
一般来讲:
①搜索引擎会记录每一个句子,在全网的第一次建立索引的时间,相对应的网址等相关信息。
②计算每一个句子的权值。
③判断当前页面的权威属性。
假设你的页面中有30个句子,其中10条为原创句子,从来没有在搜索引擎中建库,而20条是非原创句子,我们认为你的页面就是“相对原创”。
2、文档指纹识别
页面文档指纹主要是指当搜索引擎通过解析页面文字性内容,每个句子之后,会给到页面一个唯一标识性的编码,它类似于人的指纹,具有唯一性。
如果目标页面内容在搜索引擎中广泛存在,那么这个文档指纹就是相同或者是相似的,当然,不同文档之间的指纹越相似,就证明文档的原创度越差。
基于这两个因素,我们可以非常清楚的了解,对于一个页面搜索引擎常规识别页面原创度的一个基础性流程,比如:
①统计文档指纹
看看这个页面内容是否和现有索引库中的文档存在高度的重复。
②统计页面原创句子
如果在文档指纹识别的过程中,存在高度重复的情况,同时你的站点又是新站,并且权威度相对的低,我们认为你的句子权值评分就是相对低的,基本上可能就会被搜索引擎打入低质量库中,很难得到合理的展现。
当我们了解这些内容之后,咱们接下来简单思考一下,伪原创工具到底有没有用?
从目前来看,如果只是单纯的基于文档中相关性的词进行语义替换,理论上重新生成的内容,文档指纹的相似度,仍然是相对比较接近。
从某种角度来讲,并不能真正的得到相对“原创”的文章。