检索模型与搜索排序 - Workspace of LionHeart

检索模型是搜索引擎排序的理论基础，用来计算网页和用户查询的相关性。

几种常用的检索模型包括：

向量空间模型

该模型需要将文档表示转换为特征向量，根据特征向量计算相似性。

其中，特征向量的获取主要考虑如下计算因子：

特征权值一般是二者乘积 Weight = Tf * IDF

目前大部分商业搜索引擎采用概率模型作为相关性排序模型。

基本思想：给定用户查询，按照文档和用户需求的相关性由高到低排序。

实现模型：

BM25模型计算公式融合了4个考虑因素：

BM25模型利用3个自由调节因子(k1，k2，b)对各种因子的权值进行调整组合。

机器学习排序系统由4个步骤组成：

文档进入机器学习系统前需要转化为特征向量，常用特征包括：

确定特征向量X后，每个文档会人工标注出相关性得分Y，这样每个文档转化为一个<X,Y>的形式。就形成了一个具体的训练实例。

通过多个训练实例，就可采用机器学习技术对系统进行训练，结果往往是一个分类函数或回归函数。

后续用户搜索中就可以用这个分类函数对文档进行打分，形成搜索结果。

精确率和召回率是评价检索系统的常用指标，而对于搜索引擎来说，精确率尤为重要。