23.38. 公开数据集:排序学习
!"#
23.38.1. LETOR
目前,LETOR
➊
公开数据集是排序学习研究人员使用最多的标准数据集,并且还供多种经
典排序学习算法的实验结果。LETOR是LEarning TO Rank的缩写,由微软亚洲研究院(Microsoft
Research Asia,MSRA)发布。从2007年4月至2009年7月,MSRA已经发布了四个版本,本文实验
使用的数据集是LETOR 3.0与LETOR 4.0两个版本。本节主要介绍实验中使用的LETOR数据集基本
信息。
LETOR数据集包含的数据信息有三个主要部分:检索词集合、文档集合(也称“语料库”)、
文档与检索词的相关等级。检索词集合与文档集合来源不同,前者统一标记赋予唯一的ID号,后
者源自于网络采集程序从互联网上抓取的网页数据,并且以数值型的文档特征向量形式存储。文档
与检索词的相关等级是监督学习的“标准答案”,部分来自于人工标记,还有是根据Bing搜索引擎
的搜索日志生成。在LETOR 3.0数据包中含有七个数据集:HP2003、HP2004、NP2003、NP2004、
TD2003、TD2004 和OHSUMED,LETOR 4.0 则含有两个数据集:MQ2007与MQ2008。
LETOR 3.0使用的文档集合是OHSUMED和Gov语料库。OHSUMED语料库[266]属于医学文
献数据库MEDLINE的一个数据集,由1987年至1991年刊发的、出自270 个医学期刊的348,566篇医
学文献构成。OHSUMED数据集由106个检索词,大约16,140篇文档构成,每篇文档取45个特征,
并根据文档与检索词的相关程度标记为三个等级:高度相关、部分相关、不相关。 Gov语料库包
含大约1,053,110篇网页,是2002年初从域名后缀为.gov的政府网站上爬取下来的。2003年,Gov语
料库开始用于文本检索会议(Text REtrieval Conference,TREC)Web检索项目[267]下的主题
取(Topic Distillation,TD)、 主 页 发 现 ( Home Page Finding,HP)和命名网页发现(Named
Page Finding,NP)三类检索任务,语料库中每篇网页取64个特征,文档与检索词的相关性标
记为两个等级:相关与不相关。 2003年、 2004年文本检索会议Web 检索项目使用的数据集有六组:
TD2003,TD2004,HP2003,HP2004,NP2003,NP2004。 LETOR 4.0使用的文档集合是Gov2语
料库、使用的检索词集合源自2007 年、 2008 年文本检索会议Million Query(MQ)项目,分别记
为MQ2007与MQ2008。 Gov2语料库源自2004年初从政府网站上爬取下来的25,000,000篇网页,达
到426G。语料库中每篇网页取46个特征。MQ2007、 MQ2008分别包含1700条、 800条检索词。
每个检索词文档,所有训练数据标记为三个等级:高度相关、相关、不相关。
23.38.2. Microsoft Lear ning to Rank
数据集采自Bing的标签集合,相关等级有5个级别:0(不相关)∼ 4(完全相关)。 它包含两
组数据集:MSLR-WEB30k、MSLR-WEB10k,前者包含30,000个检索词,后者只有10,000检索词。
每对query-doc包含136个特征。
➊ LETOR: http://research.microsoft.com/
$%"&'#(
263
)!*+",$