时代在进步,科技在发展,大家好,我是发菜。今天再一次谈谈搜索引擎的工作原理。其实这个领域我也是近几年才研究的。搜索引擎其实与我们工作生活还是非常相关的。比如说,我们熟悉百度、谷歌、还有国内用户量第二的360搜索,还有搜狗搜索之类的。我们在使用百度的时候,我们查找相关的关键词结果出来的页面,信息有一个排序。那么如果我们了解到它的工作原理,那么我们就可以有相关的策略让我们自己运营的网站他排名更加靠前一点儿,当用户搜索相关的关键词的时候,让我的网站接受点击几率就增加一些。所以说给大家简单的介绍一下这些搜索引擎的工作原理是非常有必要的。
其实呢它是这样的。在事先,搜索引擎会派出Spider(中文称为蜘蛛或爬虫)的这样一个工具,它会爬呀爬爬呀爬,其实就是一种自动访问网站的程序,是去有意识的去搜索去分析一些相关的网站,然后进行自己的一个网站存储。他会把这个网站的内容进行梳理文本内容。然后呢提取这个文本内容,编成若干个词库。词库里都包含很多关键词。然后呢就对这些关键词进行分词。就说我们其中某一个网页,他的文章里边有智能手机、手机、手机助手,那么就给它分成若干个小词段。因为这个爬虫程序啊,他是在不定期的来进行收取这个相关的网站的。那么就会导致这样一个现象。爬虫这个程序在进行搜索的时候可能同一个网站被爬了两次,之前爬了一次,现在又爬一次,那么他就去除这样重复的数据,保留唯一的一个。接下来呢,就是对这个网站内容进行分析之后。把相关的词全列在一起,与之对应的这个词出现的网页链接地址是什么都做好相应的排列。假如说我想搜手机,那么就有几个网页会弹出手机相关的内容。然后我就可以点相关的网页进行查看了。这是从爬虫然后建立索引这样的一个机制。另外一方面,我可以看到,只有三点,用户体验、链接分析还有内容相关性。这是怎么理解的?刚才只是说爬虫,从派出爬虫,然后建立一个这样的索引。接下来呢,他会进行一个比较,比较的是什么呢,内容相关性,很多网站进行比较。这网站,跟用户想要的输入的关键词,她想要的内容是否相关?另外一个呢,是链接分析这个网站,是否足够的精简,链接里是否也包含了关键词相关的字段。这也是链接分析的其中的一个方法。然后就是用户的体验,他会对用户搜索一个关键词输出的结果,进行一个反馈的。假如说,用户搜索这个手机弹出很多信息,那么他会进行相应的汇总,有百分之多少的用户会点击某一个网页,如果是这个网页点击量很多的话,排名自然会靠前。这也是搜索引擎在进行不断地分析的时候,根据用户的体验来做了一个综合的排名。
其实在这个三个部分的过程中呢,就会有很多网站进行作弊。例如说,在一个文章中,同一个关键词出现的频率过多,这就是他的词频超过了,这也是一个作弊的方式。这样的话就出了反作弊程序来对内容相关性、链接分析,用户体验中,可能的作弊行为进行干预,有的时候是人工的,有的时候是机器的智能的。接下来就包含了三个部分。首先呢,搜索引擎会对用户所查询的关键词进行分词处理,根据用户的地理位置和历史检索,特征来进行用户需求的分析,他这个自动的分析过程,以便使用地域性搜索结果和个性化搜索结果展示用户最需要的内容,这是查询的分析。另外呢,我说到了搜索引擎,他会建立很多的这样的一个缓存机制。包含了不同的词,对应的相关的页面都存储的,而不是说现查现返回。我看一下那个查找这个缓存中的,是否有该关键词的查询结果,如果有,就是最快的呈现查询的结果,我们就会发现有的时候我们在百度上搜,如果一些比较热门的词,就会弹出的很快,假如说我们说一个比较冷门的或者是最近刚刚发生这样的词,那么搜索引擎,可能就没有建立这种的词,这样的一个缓存的资料。那么我们弹出页面可能就会很慢。那我就在那个搜索库中的网页进行调取排名呈现,并将该关键词和对应的搜索结果,加入到缓存中,他同样会把这个词再加进这个缓存中,以便于别人在搜索的时候他的速度会更加快的。另外一个呢,网页排名根据用户搜索这个词和搜索的需求,刚才我们前面说到的搜索的分析还有缓存,然后对索引库中的网页进行相关性重要性、用户体验的高低进行分析得出的。其实它还是包含了一个综合性的概念。用户在搜索结果中点击和重复搜索行为也可以告诉搜索引擎,因为你在点击一个网页的时候,你这些数据会返给搜索引擎,他会指导你最需要最想看的是哪个网页,这也会对网页他的排名有一定的影响的。这个就是我介绍的搜索引擎的工作原理,其实主要包含两部分,一个是,爬虫爬取然后建立索引。另外一个呢,是根据用户的需求和用户的体验,来进行相关的页面的排名。这就是搜索引擎的工作原理,谢谢大家。