今天跟大家分享首要的架构:url优化。
URL优化的效果跟站点在百度的权重关联性不大,但是对收录、蜘蛛爬行和传递权重有明显的提升。我虽然不常发贴但是经常观察到大部分SEO的提问都是收录怎么怎么不好,权重怎么怎么不高,我也观看过很多站点,很多基础的工作完全都处于迷糊的状态。试想换一种思路,站长变成spider来爬行你的站,我相信大部分站长自己都跑不通。这里我只给出url优化的几个重要点。
1.URL一致性:URL 一致性是一个非常重要的指标,推荐大家一本书《走进搜索引擎》里面有介绍spider是一种机器程序,而非人脑,虽然也有学习的过程,但是国内网站千千万,每个网站有不同的url规范,你如果url命名规则杂乱无章spider又怎能高效的辨别你的内容规范? 这里举个个人觉得做的比较好的例子:“下载吧”。读者可以去翻阅下载吧的网站。他的主体结构为:首页=>列表页=>内容页 。这里因地制宜,只是举例可能并不适合你的站点。
下载吧我分析到他的优化权重承载页为他的内容页。而百度有“偏权重”的说法,所以他把所有的列表页统一用downlist/1~*.html的写法。没有给予列表页过于集权也避免了“偏权重”的影响。 这样子spider可以很自由的识别,只要在downlist目录下面的(数字.html)都属于他的列表页,层次清晰,爬取也很流畅。而他的集权重心在于内容页。内容页统一url为html/1~*.html 通过标签优化和链轮把权重导向给html下面的目录。“偏权重”集中在html目录下。spider也很清晰的可以判断/html目录下面的(数字.html)都属于内页,层次清晰、爬取流畅,权重传递的也很集中,这也属于集权的一种做法。自然收录好权重高了。
2.偏权重:偏权重可能是我自己创造的一个首发词,大神们勿喷。通过我多年的分析发现,每个站点的流量是有集中点的。这个从爱站的工具里面大家可以看出来。
同一个网站 90%的流量都出自于某个目录,在这里面内容类型内容质量都是一样的。相信大家在自己作站过程中也有所体会,百度会偏向给权重到某个目录。考虑到这个问题,url一致性和目录规划就更重要了。
3.爬行原理:蜘蛛爬行原理有 深度优先和宽度优先这里分开说一下:
(1)深度优先:深度优先适用于一些大站,蜘蛛很渴望得到他的内容,比如新浪网易他们的目录很长,也能收录。假如我们给蜘蛛一个线程只能爬取一个页面,爬行轨迹:首页-封面页-频道页-内容页,那么你网站的结构是:首页=> xxx/a=> xxx/a/b=> xxx/a/b/c/1.html=>。蜘蛛会沿着你的深度爬行进去,但是无论多大的站,你的深度也必须有限,否则蜘蛛不可能无穷尽的挖掘进去,爬累了自然就会离开。并且内容也没带回去。
(2)宽度优先:这个是我非常推崇的,而且我所有新站都是这种效果。我自己建了5天的站蜘蛛爬行800次。效果说明在扁平化的今天,宽度优先是可以让蜘蛛非常高效的爬行和返回的。url结构 xxx/a/ xxx/b/ xxx/c/ 这类的叫宽度优化,爬行轨迹 :首页-频道页A-频道页B-频道页C/首页-频道页A-内容页A1-内容页A2-内容页A*。
综上所述,其实可以看出:宽度优先的效率明显高于深度优先。而且蜘蛛的任务类别也单一,非常容易识别。同一线程爬取的几乎是同一类型页面,页面样式,外观相同。蜘蛛不必花时间过于的去分析你的页面内结构,层次清晰。
4.爬虫黑洞:这个问题不是什么新问题了。百度也有做专门的阐述,因为一些url处理不当产生的动态参数后缀,或是刻意圈住蜘蛛所做的无限循环,这种的效果明显是弊大于利。对URL 的规划上一定要想办法尽可能的处理掉无限动态参数后缀,并且也要合理的给蜘蛛出口,这才是真正有利于SEO 的做法。