搜索与排名 Searching and Ranking
!"#
最大熵原理是概率模型学习的一个准则,它对未知事物不做任何主观假设,在预测一个随机事
件的概率分布时,在满足所有已知约束条件下,对未知情况不含任何主观偏见的结果是满足均匀概
率分布,此时概率分布的信息熵做大,预测的风险也最小。根据最大熵原理推导的模型称作“最大
熵模型”,比如投资学中“不要把所有的鸡蛋都放在一个篮子里”就是一种典型的最大熵策略:当
出现不确定性时,就要保留各种可能性。
最大熵模型在形式上是最漂亮的统计模型,在实现上却是最复杂的模型之一,至今天为
止,世界上能有效实现快速算法的人寥寥无几。 第一个解决最大熵模型的优化算法是1972年John
Darroch和Douglas Ratcliff联合出的广义迭代尺度算法(Generalized Iterative Scaling, GIS)
[125]。1989年,匈牙利著名数学家、 信息论最高奖香农奖得主Imre Csiszar 从几何学角度详细分
析最大熵模型[126],并证明“对任何一组相容的信息,最大熵模型不仅存在,并且以指数函数的
形式唯一存在”。 由于GIS迭代算法效率低、复杂度高、稳定性差,在实际应用中鲜有人使用它。
1997年,Della Pietra等人出一种改进的迭代尺度算法IIS (Improved Iterative Scaling)[127],
将最大熵模型训练所需时间降低了一两个数量级,成为当前最常用的最大熵模型优化算法。后来,
Della Pietra兄弟二人离开IBM,退出学术圈转战金融界大显身手,加入当时籍籍无名的文艺复兴
技术公司(Renaissance Technologies)。文艺复兴公司是数学家James Simons于1982年创立,已经
发展为当今世界最成功的一家对冲基金公司。在金融市场,决定股票价格的因素成千上万,而最
大熵方法正是建立能够同时满足所有不同条件的模型,文艺复兴技术公司的科学家们(包括Della
Pietra兄弟)使用最大熵方法和其他先进的数学工具,建立量化的股票价格预测模型,获得巨大的
成功。从1982年基金创立至今资产规模已经达到三百多亿美元,其净回报率高达平均每年34%,远
超股神巴菲特的旗舰公司――伯克希尔·哈撒韦公司(Berkshire Hathaway)[128]。
信息论供了一种基于部分知识建立概率分布的构造性准则,由此而产生了一类统计推断
(Statistical Inference)方法
➊
,即最大熵估计。在基于给定信息进行估计的所有方法中,最大熵估
计属于最无偏见的一种,它对缺失的信息保留了最大的灵活性和不确定性[129]。
根据最大熵原理,概率模型必须满足所有由已知事实构成的约束条件,并且在没有更多信息的
条件下,其他不确定或未知的事件都是“等可能地发生”,而等可能的概率模型对应的熵最大。我
们下面使用一个简单的实例介绍最大熵原理。
例18.1. 假设随机投掷骰子,出现的点数X,则其可能取值为{1, 2,...,6}。对于某次投掷实
验,估 计 各 个 点 数 出 现 的 概 率P (X = 1),P(X = 2),...,P(X = 6)。如果没有任何其他关
于骰子的信息,根据最大熵对其点数出现的概率分布进行估计,则各个点数出现的概率相
等P (X = i)=1/6,i =1, 2,...,6。如果我们知道投掷骰子出现点数1和6的概率之和等于1/2,即概
率分布的约束条件有两个:
P (X = 1) + P (X = 6) = 1/2,P(X = 2) + P (X = 3) + P (X = 4) + P (X = 5) = 1/2.
➊ 统计推断方法是根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。它
是数理统计学的主要任务,其理论和方法构成数理统计学的主要内容。
$%"&'#(
170
)!*+",$