Note3- 相关反馈
显式相关反馈
Rocchio Method
定义文档的质心:
Rocchio 算法的思想是得到查询使得相关文档和不相关文档区分度最大。
如图:
通过用户点击获得显式反馈
用户对搜索结果有偏见,用户偏好于点击排名靠前得结果。所以将用户的点击行为解释为结果与查询的相关性是不合理的,将其理解为用户偏好的度量标准更合适。
给出如下定义:
:给定一个排序函数, 是结果中排序为 的结果 表示用户点击了第 个结果
两个用于确定偏好关系的策略:
- Skip-Above:如果
,那么 (对于所有没有点击的 ) - Skip-Previous:如果
,那么 (如果 没有被点击)
隐式相关反馈
局部聚类
对于给定的一个查询
:局部文档集合 : 中文档个数 :局部词表( 中的不同的单词集合) :词项 在文档 中出现的次数 :词项 - 文档矩阵 :矩阵 中的元素 :局部词项 - 词项关联矩阵
局部词项 - 词项关联矩阵中的元素
度量簇
基本思想:同一句话中出现的两个术语往往相关性更强
- 令函数
返回词项 在文档 中出现的第 个位置 - 令函数
计算词项之间的距离
则度量簇关联矩阵为:
标量簇
基本思想:通过比较两个词项的邻域,也可以得到两个词项之间的相关性
是词项 的邻域关联值向量
则局部标量矩阵为: