搜索引擎接受到客户输入的搜索词后,必须对搜索词做一些处理,才可以进到综合排名全过程。搜索词处理包含下列几层面:
(1)分词算法。
与网页页面数据库索引时一样,搜索词也务必开展分词算法,将查寻字符数组变换为以词为基本的关键词组成。词性标注基本原理与网页页面词性标注同样。
(2)命令的处理。
平常我们在搜索时候输入好几个词句,确实默认设置的状况下,搜索引擎把好几个默认设置的词句都按照“与”来开展词句。比如你搜索“seo”“培圳”时,搜索引擎会默认设置我们输入的“seo培圳”来开展处理,独自一人包含“seo”或是“培圳”的网站內容实践活动上把不容易回到,但真实情况通常也会展现独自一人包含一个词句的网站。此外,也要处理各种各样高等学校搜索命令的词句,比如加号减号等。
(3)停止词。
和数据库索引时一样,搜索引擎也必须把搜索词中的停止词除掉,较大底限地提升综合排名关联性及高效率。
(4)过错改正。
客户假如输入了显著不正确的字或英语单词拼错,搜索引擎会提醒客户恰当的汉字或贴法。
(5)整合搜索触发。
一些搜索词会触发整合搜索,例如大牌明星名字就常常触发照片视频內容,当今的热点话题又非常容易触发新闻资讯內容。