大家好,我是发菜,昨天跟大家分享了搜索引擎的基本工作原理,今天来讲一下SPIDER的抓取策略。Spider又叫爬虫、蜘蛛或者是机器人,它是在整个搜索引擎中的是第一个开始工作的程序,或者说是环节,或工具。我们是只要是说spider能抓取到的url,才可能会参与排名。如果是你的网站没有被Spider来抓取分析,那么你的网站在用户进行关键词搜索的时候就展现不出来。所以说了解Spider他的工作原理也是很重要的。Spider工作目的主要是抓取相关的网页或者是url,建立索引并排名,这也是刚才我之前我跟大家说过的这个搜索引擎它的工作原理,其实Spider的主要是为这些接下来的环节做服务的。Spider是分为三类的,第一个是批量型的,这个批量型的Spider他类似于一种我们小型的搜索引擎的是Spider工具,批量的意思就是,按照一定的数量,他是被设置明确的抓取范围和目标设置抓取时间的限制,抓取数据量的限制,要抓紧用一定的范围页面的限制等。类似我们如果是我们做自己的网站我们需要了解到对方,我们的竞争对手他们的网站的相应的情况。那么我们可以派出一个Spider,来抓去他们的网页的信息。我们只是对这个网站,对相应的关键词的一个内容的分布、连接的设置,还有相应的代码的编写等等。这是批量型的Spider。另外一种的是增量型的,这个是应用在就像百度谷歌这样比较大型的搜索引擎。他们是对一个网站进行分析的时候,会从头到尾把这个网站可以分析到的任何一个角落,任何一个部分都进行一个分析,直到完成任务为止,直到没有内容可抓取。我们一般情况研究的就是增量型的Spider。另外一个是垂直型的。就是介于刚才讲到的两种Spider之间的,他只是对某一类网站,假如我要搜相关的教育类的,那就只对教育的网站他进行相应的分析,只抓取他们的内容和URL,就是垂直型的。那么Spider就这三类。我们重点需要了解的就是,增量型的Spider。
下一个,我们就需要知道,Spider抓取策略。当搜索引擎派出Spider的时候,SPider面对一个网站,他想要抓取这个网站的相应的关键词,对应的url,相应的链接。那么他是用一个什么样的方式来去爬取的?给它设置一个什么样的策略,就像我们一个人,我们要去一个地方,是希望走着去呀,还是打车去,他都有相应的策略的方法的。那么当Spider他们面临面对一个网站的时候,通常他会有两种选择,也是会对网站,进行一个初步的判断,是左还是向右呢?他会有两种判断,一个是深度优先。给他的一个入口的时候,她选择的一个行走的顺序,这个网站,它是有一个Spider的入口,同时的有三个大的栏目,是一级的栏目,另外的还有二三四六七九十等三级的栏目,那Spider游走的顺序的是先从这个入口进来,然后针对某一个栏目,对这一个栏目的所有的页面,弹出相应的链接的页面,都会进行一查到底,就是等他把这个一级页面进行分析了之后,他才会跳转到下一个二级栏目,然后分析这个栏目的系列的子栏目,然后同时到没有什么内容可搜索,它会跳到另外一个大栏目。这是一个深度优先的概念。另外一种的是广度优先。广度优先是以几个大框架,同级别的进行抓取和分析。然后呢在进行下一级。虽然Spider是一个工具,但他是需要运行资源的,当面对他不可能把所有的网站都进行这样的分析,所有的也不一定是用户想要的那么他自己就会有一个判断了。以上两种方法,只是我们在理想中想象的到他按照这样的两种方法,其实他最主要的还是以上两种策略,会进行一个判断,是什么呢:重要页面优先抓取。其实这个是我们进行搜索引擎优化的,最核心的工作。就是如何让我们的网站,在百度这样搜索引擎眼中是比较重要的,这里涉及到一个权重的问题,未来我会跟大家详细的说,如何提高我们的网页的权重。如果权重提高上去了,就意味着我们的网站相应来说,在百度眼里它是有价值的,那他就会对我进行优先的抓取。另外一个是大站优先策略,相对来说知名度高,体验比较好的,这些这些网站。对体验比较好的一些网站就是用户量比较高。用户基本每日都有一定的流量,而且在搜索上知名度比较高的这样的网站站。Spider都会进行优先的收录,这就是为什么那我们搜一个新闻的时候弹出来的时候都是那些比较出名,知名的一些网站,例如,网易新浪腾讯这样的一些综合门户型的网站。因为这些网站都已经被Spider列入比较优质的网站,然后对这些网站进行刚才像我所说的两种策略进行分析。这就是整个的一个Spider它的工作原理。