搜索与排名 Searching and Ranking
!"#
24.3.7. 核相似度
在实际应用中,我们可以直接将定义在向量空间上的核函数作为相似性度量,从而可以得到核
相似性度量(kernel similarity)。比如高斯核函数定义的高斯相似性度量:
K(x, y)=exp{−
∥x − y∥
2
2σ
2
}. (24.13)
24.3.8. 皮尔逊相关系数
皮尔逊相关系数(Pearson correlation coefficient)述了两个变量间的线性相关性。对于变
量x和y,假设均值分别是µ
x
,µ
y
,标准差分别是σ
x
, σ
y
,则总体相关系数定义如下:
ρ(x, y)=
cov(x, y)
σ
x
σ
y
=
E
#
(x − µ
x
)(y − µ
y
)
$
σ
x
σ
y
. (24.14)
基于n组样本对协方差和标准差的估计,我们可以使用下式计算样本相关系数:
ρ(x, y)=
(
i
(x
i
− ¯x)(y
i
− ¯y)
R
(
i
(x
i
− ¯x)
2
(
i
(y
i
− ¯y)
2
=
n
(
i
(x
i
y
i
) −
(
i
x
i
(
i
y
i
'
n
(
i
x
2
i
− (
(
i
x
i
)
2
'
n
(
i
y
2
i
− (
(
i
y
i
)
2
. (24.15)
根据定义,皮尔逊相关系数−1 ≤ ρ(x, y ) ≤ 1,通过|ρ(x, y)|的大小可以判定相关程度,|ρ(x, y)|越
大,x和y的相关程度越大。当ρ(x, y)=1时,表示x和y完全正相关;当ρ(x, y)=−1表示完全负相
关;当ρ(x, y)=0表示不相关。如果我们令u
i
= x
i
− ¯x,v
i
= y
i
− ¯y,i =1, 2,...,n,则皮尔逊相关
系数实际上与夹角余弦相似度等价:
ρ(u, v)=
(
i
(x
i
− ¯x)(y
i
− ¯y)
R
(
i
(x
i
− ¯x)
2
(
i
(y
i
− ¯y)
2
= cos⟨u, v⟩ . (24.16)
24.3.9. 等级相关系数
检索系统在执行检索时,对于同一个检索语句,不同搜索引擎由于内部排名算法的差异,可
能检索到不完全相同的数据、产生截然不同的网页排名列表。等级相关系数(rank correlation
coefficient)是度量排名列表间相似性和相关性一类重要的统计量,常见的等级相关系数有:斯
皮尔曼等级相关系数Footrule和Rho、肯德尔等级相关系数Tau、 Goodman–Kruskal等级相关系
数Gamma。研究人员已经将其应用到排名聚合、搜索效果评估问题,具有重要的实际意义。
假设π和σ是个可排列对象单元集上的两个排名列表,可能表示评价主体根据对象单元的两
个基本属性进行有序排列。比如例子9.1中可排列对象单元对应五位民主党总统候选人
,
Clinton,
Warren,Cuomo,O’Malley,Biden
-
,各自包含四个属性:公众熟识比例(Familiar)、公众认同
的比例、公众排斥的比例和公众净认同比例。我们按照第一个属性对五人进行有序排列会产生一个
排名列表(比如π),按照第四个属性排列他们又可以得到一个排名列表(比如σ)。 为 了 度 量 排 名
$%"&'#(
272
)!*+",$