大家知道,网站是经常会更新的,搜索引擎为了让用户得到最新的搜索结果,也会派Spider进行更新的爬行的,这就需要我们了解Spider再次抓取的更新内容策略。在有限的资源的情况下,搜索引擎首先要保证部分网页索引的更新。这部分网页的,拥有大部分的用户所需要的内容。同时呢也要保证所有搜索页面,所有的页面都有一个更新的机制。在这个网页上需要先用的新的内容索引时的SPIDER就要进行再次的抓紧并更新网页索引。但是我们需要了解的事就是Spider再次抓取更新的策略有哪些。其实很简单,他主要是包含了四个方面的内容。
一、用户体验。因为我们都知道用户当他在使用一个搜索引擎进行搜索相关的内容的时候,他的行为也会同时反馈给搜索引擎。比如说,我是第一次搜索手机,让他弹出来相关的页面。针对返回的内容,我点击的内容是什么?如果我点击的页面是第一页的第五项,第五个网页,那么很有可能第五个网页他在下次进行抓取的时候,给它返回的内容就会靠前。这也是根据不同的用户他们总体的一个体验的效果,然后呢告诉搜索引擎。有搜索引擎进行分析最后进行排名。当用户在进一次再进行或者以后再进行,搜索引擎进行相关关键词的搜索的时候,弹出的页面,很可能就是根据之前用户1到用户N,他们之前用户体验得到的结果。这就是刚才说的用户体验对Spider再次抓取的一个影响。
二、历史更新频率。我们都知道一般的网站,它的内容都会进行更新的。Spider也会关注相应的网站。他也会得出一个结论,比如说,新浪基本都是实时更新的,那他抓紧的频率可能就会很快,而且新浪的权重比较高,那么在抓取的时候可能次数就比较多。但是有的网站,假如说。第一天更新了一次。然后隔着十天更新了一次,再过十天更新了一次,那么Spider,可能就会认为。他的平均更新的频率是十天更新一次,那么可能Spider在前期对他进行观察,就给它定义为十天更新一次来十天进行一次抓取。如果是某些网站更新频率很高,那么可能再次抓取的频率就更高了。如果一个网站不经常更新,Spider的抓取频率就更低。如果你的网站不经常更新的话。可能相关的关键词,用户在搜索的时候就不能把你搜到,这也是,会影响整个你网站产品对用户的一个体验的问题,就是涉及到历史更新的频率。
另外一个比较重要的是网页的类型,我们都知道一个网站是包含大概四个部分:首页、目录页、专题页和文章页。首页目录页,我就不用多说,进入一个网站的时候,给我们最开始展示出来的页面。那么专题页和文章页有的时候,网上会针对相关的实效性作出相关的专题页,例如说如果是在高考临近的时候,网站可能会推出相关针对高考的专题,然后下设很多文章。专题页对应着文章页,他们基本是很多情况他们是属于一个从属的关系的。Spider在抓取的时候,他会根据你这个网页再整个网站中的重要性,比如首页和目录页,它的重要性是由于高于专题页和文章页的。Spider再次抓取的时候可能直接从首页和目录页抓取。那么频率就会相对于来说高一些。
还有一个就是网页权重,在很多的时候都会说到网页权重,也是我跟大家说的是比较重要的一点内容。网页权重基本是可以决定你这个网站的生死,我们做的很多的努力其实都是为了提高我们的网页的排名。当很多综合因素都一致的时候你的网页的权重会起到最后的决定作用。那么只有四个字可以说:非常重要。用户在搜索引擎在众多网站中能把你搜到。当很多竞争的,网站,跟你采取的机制和你采取的SEO都一样的时候,最后决定你这个网站排名能否靠前,除了做竞价排名,另外一个就是你的网站的权重。
OK,以上就是我对SPider再次抓取的时候更新策略,他跟初次抓取的时候是。有很大的区别的,这里体现到了一个用户体验,另外一个是根据这个网站他历史更新内容的一个频率,还有一个网站上的页面相关的类型。最后一个起决定作用的,有可能是网站网页的权重。综合以上四点来决定Spider再次抓取这个网页网站的策略。