一样令人印象深刻的机器学习和算法的情报,他们往往缺乏的东西是自然对人类:常识。
众所周知,把同样的内容在多个页面产生重复内容。但如果你创建页面类似的事情,与差异,重要吗?算法国旗作为重复,尽管人类区分这样的页面没有问题:
电子商务:有多个变量的类似产品或关键的差异
旅游:酒店分支,目的地包具有类似内容
分类:详尽的列表相同的物品
业务:页面为当地分支在不同地区提供同样的服务
这是如何发生的?你怎么能发现问题?你可以做什么?
重复内容的危险
重复内容干扰你让你的网站对搜索用户可见的能力
亏损排名独特的页面,无意中争夺相同的关键词
无法排名页面在一个集群中,因为谷歌选择一个页面作为一个规范
损失大量的薄内容的网站的权威
机器识别重复内容如何
谷歌使用算法来确定两页或部分页面重复内容,谷歌将其定义为内容”明显相似“.
谷歌的相似性检测是基于他们的专利Simhash算法,分析的内容在一个web页面。然后计算每个块的惟一标识符,并组成一个哈希表,或者“指纹”,为每一个页面。
因为网页的数量是巨大的,可伸缩性是关键。目前,Simhash是唯一可行的方法寻找大规模重复内容。
Simhash指纹是:
便宜的来计算。它们是建立在单个页面的抓取。
比较容易,多亏了他们的固定长度。
能找到复本。他们把页面上的微小的变化等同于小散列的变化,与其他算法。
最后这意味着任何两个指纹的区别可以测量算法表示为一个百分比。减少的成本评估每一两页,谷歌使用技术,如:
集群:通过分组集足够相似的页面在一起,仅在一个集群中指纹需要相比,因为一切已经被分类为不同的。
估计:特别大的集群,平均相似性应用一定数量的指纹后对计算。
来源:Martech