2.5 搜索引擎算法
随着互联网信息的爆炸式增长,搜索引擎为了不断提高用户查询效率与反馈信息的质量度,对自身算法进行不断地调整与升级。在过去的几年间,主流搜索引擎对自身算法进行了数次重要调整与升级,重点在于打击各种违反搜索引擎友好度原则、有失公平性和质量性准则的作弊行为。接下来重点向大家介绍几个算法,包括TrustRank算法、BadRank算法、谷歌熊猫算法、谷歌企鹅算法、百度绿萝算法、百度石榴算法等。
2.5.1 TrustRank算法
TrustRank汉译为“信任指数”,TrustRank算法是近年来比较受关注的基于链接关系的排名算法,其目的是从互联网中筛选出优质的网页(质量较高的网页)。
TrustRank算法基于一个基本假设:质量好的网站基本不会去链接质量差的网站,反之则不成立。也就是说,质量差的网站很少链接到质量好的网站这句话并不成立。恰恰相反,很多垃圾网站反而会想尽一切办法链接到高权威、高信任指数的网站,试图以此来提升自己网站的信任指数。
基于这个假设,如果能挑选出可以百分之百被信任的网站,那么这些网站的TrustRank评分最高,而这些TrustRank评分最高的网站所链接的网站信任指数将会被稍微降低,但还是很高。同时,第二层被信任的网站所链接出去的第三层网站,信任程度将会继续降低。由于各种原因,质量高的网站难免会链接到一些垃圾网站,不过距第一层网站点击距离越近,所传递的信任指数就越高,其他网站的信任程度将依次降低,也就是说离第一层网站距离越远,就越有可能被判定为垃圾网站。
2.5.2 BadRank算法
Badrank算法基于一个这样的假设:如果该网页与一个不可信任或有作弊行为的网页之间存在链接关系,那么该网页也有可能存在作弊行为。与TrustRank算法相反,BadRank算法的主要目的是从互联网中筛选出质量低下的网页。
BadRank算法与TrustRank算法的工作原理极其相似,首先是确定一批不可信任的网页集合(网页黑名单),再通过网页与不可信任网页间的链接关系及链接距离来计算网页的不信任值,从而确定某个网页是否为不可信任网页。
2.5.3 谷歌PageRank
PageRank即网页排名(又称网页级别,简称PR,Google左侧排名或佩奇排名),是一种根据网页之间相互的超链接计算的技术,Google用它来体现网页的相关性和重要性,也是我们在搜索引擎优化操作中经常被用来评估网页优化成效的因素之一。
PageRank是一种投票机制,通过网络浩瀚的超链接关系来确定一个页面的等级,用于衡量特定网页相对于搜索引擎索引中其他网页而言的重要程度。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google会根据投票的来源(甚至是来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单来说,一个高等级的页面可以帮助提升其他低等级页面的等级(这是我们需要交换友情链接及发布外部链接的原因)。
谷歌把PageRank的级别定义为0~10,10为满分。PR值越高说明该网页越受欢迎。
例如一个网站PR值为1,表明这个网站不太具有流行度,而PR值为7~10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就是一个不错的网站了。Google把自己的网站的PR值定为9,这说明Google网站是非常受欢迎的,也可以说这个网站非常重要。
2.5.4 谷歌HillTop算法
HillTop算法的指导思想与PageRank是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。比如,我们的网站是介绍“服装”相关内容的,有10个链接都是从“服装”相关的网站(如布料、布艺等)链接过来的,那么这10个链接比另外10个从“机械”“化工”相关网站链接过来的贡献要大。
HillTop算法实际上是拒绝了部分通过随意交换链接的方法来扰乱Google排名规则而得到较好排名的做法。
2.5.5 谷歌熊猫算法
谷歌熊猫(Panda)算法是Google公司2011年推出的一种反垃圾网站的搜索引擎算法,旨在降低低质量内容的网站排名,同时是Google的网页级别评判标准之一。我们可以简单地将熊猫算法理解为:反垃圾网站,降低低质量网站的排名。
谷歌熊猫算法主要的判断依据是点击流(Clickstream)、页面内容(Page Content)和链接概况(Link Profiles),只要在这三者中表现优异,就不会被列为肤浅或劣质的网站。从大量的分析来看,目前谷歌熊猫算法的适用级别为网页级别,并没有细化到关键词级别。同时一个网站内如果存在大量的低质量页面,将会对整个网站的评级造成影响。
对于作为站长或者SEOer的我们而言,如何保障自己的网站不被熊猫算法打击呢?
(1)获取信任
不要大量地复制粘贴别人的内容,或者伪原创,尽量保证自己网站的内容质量,即网站内容原创,具有可读性。
(2)培养权威
不要妄想为自己的网站增加大量的外部链接,外链的发布需要循序渐进,并且需要保证链接的自然性。
2.5.6 谷歌企鹅算法
谷歌企鹅(Penguin)算法于美国时间2012年4月24日推出,是谷歌继2011年2月24日发布的“熊猫算法”之后再次推出的新算法。其目的是打击那些通过过分SEO手段来提升排名的网站,意在降权那些充斥着广告的网站。随后,谷歌开始惩罚“过度优化”的网站,降低这些网站的排名,并鼓励那些使用白帽技术的优化工程师。
对于这次谷歌针对过度优化的惩罚算法,虽然对于外贸行业来说是一个打击,但正是谷歌算法的不断完善,不断净化互联网信息,让我们这些做白帽SEO的更有发展潜力,这也体现了谷歌的公平性。只要我们严格遵守搜索引擎的算法规则,不使用黑帽手法、不作弊、避免关键词堆砌及不随机插入不相关的链接等,我们一样可以获得很好的排名。
针对企鹅算法,我们该如何应对呢?
• 避免关键词堆砌
在更新网站内容时不要刻意添加关键词,保持自然,密度在2%~8%即可。
• 坚决不使用黑帽手段
如页面伪装、PR劫持等。
• 避免重复内容
尽量多地提供原创内容,即便是微原创也一定要手动修改,这样质量度更高,切不可借助工具进行内容的批量创建或伪原创。
• 避免垃圾链接
外链在质不在量,每天合理地添加高质量链接。
2.5.7 谷歌猫头鹰算法
谷歌官方博客于2017年4月25日发帖,宣布推出“猫头鹰”算法(Project Owl),提升权威度高的页面的排名,降低低质量内容排名,尤其是查询词结果可能返回前面列出的几种潜在问题内容时。“猫头鹰”是谷歌内部的代码名称,准确地翻译应该是“猫头鹰项目”,在SEO行业,称为猫头鹰算法或猫头鹰更新更容易理解。
猫头鹰算法的产生原因是谷歌搜索面临一类以前比较少见的问题,虚假新闻内容是源头,进而带来一系列相关问题,如编造的假新闻,带有极度偏见、煽动仇恨的内容谣言,阴谋论类内容,冒犯性、误导性内容等。
这类问题被用户看到、搜索得多了,就会影响搜索框显示的查询词建议,进一步带来更多搜索,一步步放大效应。
猫头鹰算法主要包括三方面内容:
(1)建议在搜索框的右下角加上一个“举报不当的联想查询”按钮(如图2-25所示),用户看到宣扬仇恨的、色情的、暴力的、危险的内容时,可以举报。
图2-25 举报不当的联想查询
(2)在精选摘要下面加上反馈按钮,作用和搜索建议的举报按钮一样。精选摘要偶尔会犯敏感错误,比如搜索“美国国王是谁”,直接回答是特朗普。
(3)最重要的是提升高权威页面排名,降低低质量页面排名。
2.5.8 百度绿萝算法
百度绿萝算法是百度于2013年2月19日上线的一种搜索引擎反作弊的算法。该算法主要打击超链中介、售卖链接、购买链接等超链作弊行为,旨在制止恶意交换链接、发布外链的行为,净化互联网生态圈。
2.5.9 百度石榴算法
百度石榴算法是百度于2013年5月17日上线的反垃圾网站的算法。
石榴算法的主要宗旨是打击低质量网站,与之前的百度绿萝算法相对应,这正是百度搜索引擎提高用户体验、提高搜索质量的有力手段。
算法上线后,劣质广告少、无弹窗的优质页面排名有所提升,当然,前提是主体内容有价值。相应的含有恶劣弹窗、有大量混淆页面主体内容等垃圾广告的页面排名会大幅下降。
2.5.10 百度蓝天算法
百度蓝天算法是百度于2016年11月正式启用的一种搜索引擎算法规则,是百度搜索引擎针对新闻源站点售卖软文、目录等严重违反新闻源规则并影响用户搜索体验行为而推出的一种算法。算法的目的是严厉打击新闻源售卖软文、目录的行为,还用户一片搜索蓝天。
但凡触犯“蓝天算法”问题的站点将被百度清理出新闻源,同时降低其在百度搜索系统中的评价,并对有损用户体验的行为全力打击,绝对不手软。
2.5.11 百度飓风算法
百度飓风算法于2017年7月7日推出,旨在严厉打击以恶劣采集为内容主要来源的网站,同时百度搜索将从索引库中彻底清除恶劣采集链接,给优质原创内容提供更多展示机会,促进搜索生态良性发展。
飓风算法会例行产出惩罚数据,同时会根据情况随时调整迭代,体现了百度对恶劣采集的零容忍。优质原创站点如发现站点索引量大幅减少且流量大幅下滑现象,可以在反馈中心进行反馈。
2.5.12 百度清风算法
百度清风算法于2017年9月27日推出,旨在严惩网站通过网页标题作弊欺骗用户并获得点击的行为,从而保证搜索用户体验,促进搜索生态良性发展。
清风算法可以总结为以下几点。
标题作弊:主要指标题内容虚假,或在标题中故意堆砌关键词等行为。
标题内容虚假:指标题表述的内容与网页内容不相符,有欺骗用户的嫌疑。
标题故意堆砌:指在标题中多次重复、过度堆砌关键词。
以上类型的网站将会被百度搜索重点打击。
2.5.13 百度天网算法
百度天网算法于2016年8月10日推出,主要是针对网页搜索发现部分站点存在盗取用户隐私的行为进行打击,主要表现为网页嵌入恶意代码(多为JS代码),用于盗取网民的QQ号、手机号。
2.5.14 百度惊雷算法
百度惊雷算法于2017年11月20日推出,严厉打击通过刷点击提升网站搜索排序的作弊行为,以此保证用户搜索体验,促进搜索内容生态良性发展。
惊雷算法会例行产出惩罚数据,对存在点击流量作弊的行为进行惩罚,另对有判罚记录的网站加以严惩,严重者将长期封禁。
2.5.15 百度细雨算法
百度细雨算法于2018年6月底推出,是为了保证用户搜索体验,促进供求黄页类B2B站点生态健康发展而推出的。算法主要针对以下问题:
(1)页面标题作弊,包含冒充官网、网页标题堆砌关键词等情况(如图2-26所示)。
图2-26 网页标题堆砌关键词
(2)商家为了在页面中频繁保留联系方式而做出的各种低质受益行为,如受益方式变形、穿插受益等(如图2-27所示)。
图2-27 页面频繁留联系方式
2.5.16 百度移动搜索冰桶算法
百度移动搜索冰桶算法于2014年8月底正式推出,目前已更新升级至4.0版本,是百度移动搜索针对低质站点及页面进行的一系列调整,主要针对强行弹窗App下载、用户登录、大面积广告等影响用户正常浏览体验的页面,尤其以必须下载App才能正常使用的站点为代表,严重影响了正常用户浏览体验的移动站点。
2.5.17 百度闪电算法
2017年10月初,“闪电算法”上线,移动搜索页面首屏加载时间将影响搜索排名。移动网页首屏在2秒之内完成打开的,在移动搜索下将获得提升页面评价优待,获得流量倾斜;同时,在移动搜索页面首屏加载非常慢(3秒及以上)的网页将会被打压。
通过对以上搜索引擎算法的了解,我们来做一个简单的总结,即符合搜索引擎友好度原则的网站优化方法:
(1)为自己网站添加优质的内容,并且保证其可读性(避免抄袭别人的内容)。
(2)为网站交换高质量、高相关性的友情链接。
(3)稳步提升网站的外部链接(注意数量及质量)。
(4)不购买链接、不在网站乱挂广告(尤其是影响用户阅读体验的广告)。
(5)不堆砌关键词(过度优化)、不使用作弊手段。
如果不慎触犯相关算法规则,请做以下检查操作:
(1)是否有购买链接行为(包括文本链接)。
(2)是否批量复制或转载他人网站的内容。
(3)近期是否使用过非常规优化手段(尤其是黑帽SEO手法)。
(4)是否过度优化,非自然地强制性加入关键词锚文本。
(5)是否有批量发布外链行为(尤其是使用群发工具)。