3.4 内部优化相关名词
3.4.1 网站地图
网站地图又称“站点地图”,它就是一个页面,是存放网站所有重要链接的容器。一般该页面会放置网站上所有希望搜索引擎重点抓取的页面链接(如图3-16所示)。
图3-16 迈锐光电网站地图
多数网站的链接层次比较深,蜘蛛很难全方位深度抓取,有了网站地图就可以方便搜索引擎蜘蛛深度地抓取网站页面。网站地图一般存放在根目录下并命名为sitemap,然后在网站首页页脚加上“网站地图”锚文本链接至sitemap.html页面为搜索引擎蜘蛛指路,增加搜索引擎对网站重要内容页面的收录。
网站地图分为XML、HTML、TXT三种格式,不同搜索引擎识别的格式不同。
• 百度:建议使用HTML格式的网站地图。
• Google:建议使用XML格式的网站地图。
• Yahoo:建议使用TXT格式的网站地图。
不过就目前搜索引擎对站长的开放程度而言,站点地图的格式并非那么重要了,比如我们通过百度站长平台(网页抓取→链接提交)就可以提交XML、TXT两种格式的网站地图,如图3-17所示。同时,建议创建HTML格式的网站地图,便于搜索蜘蛛更深层次地爬取网站内容。
图3-17 百度站长平台链接提交
3.4.2 主导航
网站主导航一般就是放在网站最上面,是网站的栏目或主要内容的导入链接。一般情况下,导航上的栏目或内容是这个网站最主要的内容,也是除首页外我们最希望别人进入的页面。
针对内容较多的网站,一般还会为导航上的主要栏目设置下拉菜单(也称二级导航),以此扩展用户及搜索引擎蜘蛛的访问深度,如图3-18所示。
图3-18 网站主导航及下拉菜单
3.4.3 次导航
次导航又称“全站链接”,是相对主导航产生的辅助导航,是对主导航内容的扩展或补充,一般放在网站底部(即页脚部位,如图3-19所示)。由于种种原因,我们不可能在主导航上放置全部的业务关键词,就只能通过页脚部位做关键词锚文本指向对应的URL,做好次导航对于提升网站关键词在搜索引擎上的优化排名有着推动作用。
图3-19 网站页脚次导航布局关键词
次导航的作用如下:
(1)给层次较深的页面入口
有些目录层次比较深的页面或者栏目首页没有入口,可以选择比较重要的放在次导航给以入口,便于搜索引擎蜘蛛的抓取,降低孤立页面的数量。
(2)将权重传递到有用的地方
我们可以选择比较重要的内容放在次导航上并加上精准的关键词,这样可以在增加页面关键词密度的同时传递较高的权重,并且还可以增加内页被推荐的相关性,一般次导航中的内容比较容易获得排名。
(3)为用户提供多种选择
当用户进入网站首页时可能需要进行多次点击才能到达需要的页面,而网站的次导航可以为用户提供多种选择,降低用户的点击成本以提高用户体验。
3.4.4 面包屑导航
面包屑导航(Breadcrumb Navigation)一般出现在网站栏目页和详情页主导航下方,如图3-20所示,用来告知用户当前所处的位置。
图3-20 面包屑导航
面包屑导航的两大作用:
• 告知用户当前所处的位置,并且可以通过该链接方便快捷地返回上一层目录。
• 方便搜索引擎更深层次地抓取其他目录/网页内容。
3.4.5 链轮
链轮全名为SEO链轮(SEO Link Wheels,如图3-21所示),是从国外引入国内的一种相对有效的SEO策略,主要是在互联网上建立大量的独立网站或在各大门户网站上开设免费博客,然后将这些独立站点或博客群单向、有策略、有计划、紧密地链接到一起,并都指向要优化的目标网站,以达到提升目标网站在搜索引擎结果中排名的目的。
图3-21 SEO链轮
3.4.6 搜索引擎蜘蛛/机器人
搜索引擎蜘蛛一般指网络爬虫,又称为网页蜘蛛或网络机器人,是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。
注 意
蜘蛛到我们网站爬行的频率越高,证明搜索引擎给予我们网站的权重就越高。
常见的搜索引擎蜘蛛名称如下。
• 百度蜘蛛:Baiduspider。
• 雅虎蜘蛛:Yahoo! Slurp China或Yahoo!。
• 谷歌蜘蛛:Googlebot。
• 有道蜘蛛:YoudaoBot或YodaoBot。
• 360蜘蛛:360Spider。
• MSN蜘蛛:msnbot。
• 搜狗蜘蛛:Sogou News Spider。
• 必应蜘蛛:bingbot。
3.4.7 robots.txt
robots.txt即蜘蛛协议,全称为“网络爬虫排除标准”(Robots Exclusion Protocol),也称为爬虫协议、机器人协议等,其作用是告知搜索引擎允许或不允许抓取哪些页面。
robots.txt是一种纯文本格式的文件,使用任何一个常见的文本编辑器(比如Windows系统自带的记事本)就可以创建和编辑,它是搜索引擎进入网站后第一个爬取的文件,通常放置于网站根目录下(关于robots.txt文件的用法详见5.6.2小节)。
例如淘宝robots.txt的位置为http://www.taobao.com/robots.txt。
3.4.8 404页面
404页面是用户在浏览网页时,服务器无法正常提供信息,或者服务器无法回应,且不知道具体原因所返回的页面,也称为404错误页面。404错误页面通常是网站目标页面被更改或删除(前面讲解死链接时有所提及),或者是用户所输入的页面地址本身是错误的,由网站服务器反馈回来的提示页面,如图3-22所示。
404页面的作用是避免搜索引擎索引死链接而影响收录,避免搜索引擎降低对网站的信任度而降低排名,避免由于配置错误导致大量404返回200状态码引起降权,提升用户体验。
图3-22 404错误页面