搜索与排名 Searching and Ranking
!"#
Pendharkar等人[413]给出一种融合数据包络分析和径向基函数网络(RBFN)的混合模型,解
决带有负值输入,非线性可分的分类问题。
Yan和Wei[414]将每个样本数据都看作一个决策单元,以数据的全部特征作为输入,单位1为输
出,确立数据包络分析模型和数据分类器之间的等价关系,从而将决策单元的分类问题转化为确定
决策单元能否为“接受域”(Acceptance Domain)所接受。“接受域”是从训练数据集中构建的,
也就是传统数据包络分析模型中的生产可能集。[414] 基于生产可能集的基本公理体系,使用线性
不等式组来表示“接受域”,与一个分类函数一起构成了基于数据包络分析模型的分类器。
除了直接根据DEA模型构建分类器以外,研究人员根据已经发展成熟的经典数据挖掘分类
算法,使用集成技术构建分类器。如Sohn和Choi[415]选择分类器的四个性能指标:Sensitivity,
Specificity,False negative,Positive error作为输出,常量1作为输入,一个分类器构成一个决策
单元,求解多个分类器构成的数据包络模型,然后根据各个分类器的相对效率值为分类器赋权,获
得集成分类器。
2007年,Zheng和Padmanabhan[416]使用数据包络分析模型(输入型BBC)选择、组合多个
基本分类模型。对于二元分类模型,如果假阳性(False Positive)、 真 阳 性 ( True Positive)分别
作为输入和输出,利用数据包络分析模型构建的效率前沿面(凸壳)与ROC曲线是等价的。对于
多元分类模型,基于分类预测混淆矩阵,他们使用以对角元素(正确分类)为输出,其他元素为
输入的决策单元,计算各个分类器的相对效率分值,并出两种方法集成分类器:只使用相对有
效的模型(EMO)根据多数投票原则确定组合模型的预测分类;使用效率值作为权值组合所有
模型(ESW)。 2009年,Song等人[417]根据DEA方法SF模型计算得到的炼油企业的相对效率分值,
将企业分为两种类型:相对有效(记作+1),相对无效(记作−1), 取 出 部 分 样 本 及 标 记 作 为 训
练集,部分样本及标记作为测试集,利用SVM训练二元分类模型。2011年,Bazleh等人[418]以精
度与计算时间作为主要特征,利用数据包络分析模型给基本分类模型排名。2012年,Eftekhary等
人[419]利用数据包络分析模型分析不同标准化预处理方法对影响,根据预处理后分类器的表现性
能对标准化预处理方法排名。2013年,Jiang等人[420]根据Performance 与Efficiency 两种指标,将
供应商分成四类:HI,HE,LI,LE,使用两个步骤区分出供应商的类型。第一步:将供应商的6
种能力属性与5 种性能属性分别作为输入、输出变量,利用数据包络分析模型CCR计算供应商的相
对分值。第二步:将供应商的相对效率分值添加到原始的属性(特征)空间,根据SVM训练一种
四元分类模型。实验表明,DEA-SVM混合模型表现良好。疑问:[420]在使用分类模型对新加入的
供应商预测其类属时28.1,为了获得其相对效率分值,需要对模型建立所基于的所有供应商重新计
算相对效率分值,增加了大量的计算开销。
DEA模型天生就是一个分类器,无需建立输入输出之间显性的函数关系,就可以将决策单
元划分为两组:相对有效的决策单元(相对效率值等于1)、相对无效的决策单元(相对效率值小
于1)。 研 究 人 员 已 经 开 始 研 究 数 据 包 络 分 析 模 型 自 然 分 类 的 能 力 , 融 合 机 器 学 习 中 经 典 的 分 类 方
法,如支持向量机(SVM), 构 建 集 成 形 式 的 分 类 器 [421, 420]。无论是直接利用相对效率值实现自
$%"&'#(
406
)!*+",$