Note3- 相关反馈

显式相关反馈

Rocchio Method

定义文档的质心:

μ(D)=1|D|dDv(d)

Rocchio 算法的思想是得到查询使得相关文档和不相关文档区分度最大。

Qm=argmaxq[sim(q,μ(Dr))sim(q,μ(Dnr))]=aQo+b1|Dr|DjDrDjc1|Dnr|DkDnDk

如图:

通过用户点击获得显式反馈

用户对搜索结果有偏见,用户偏好于点击排名靠前得结果。所以将用户的点击行为解释为结果与查询的相关性是不合理的,将其理解为用户偏好的度量标准更合适。

给出如下定义:

两个用于确定偏好关系的策略:

隐式相关反馈

局部聚类

对于给定的一个查询 q

局部词项 - 词项关联矩阵中的元素 cu,vCl 表示词项 kukv 之间的关联程度。显然,两个词项同时出现的文档数越多,相关性就越强

度量簇

基本思想:同一句话中出现的两个术语往往相关性更强

则度量簇关联矩阵为:

cu,v=djDlnm1r(ku(n,j),kv(m,j))

标量簇

基本思想:通过比较两个词项的邻域,也可以得到两个词项之间的相关性

则局部标量矩阵为:

cu,v=susv|su|×|sv|