Perenial youth.

一天一个机器学习概念(六)——最大熵模型(maximum entropy model)

一天一个机器学习概念(六)——最大熵模型(maximum entropy model)

最大熵模型相当于逻辑回归在多分类时的场景。

先说什么是最大熵原理。

最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合。所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
————李航《统计学习方法》

那么让我们先回顾一下熵的概念:

假设离散随机变量X的概率分布是P(X), 则其熵是:

\(H(P) = – \sum _x P(x)logP(x)\)

熵满足下列不等式:

0<=H(P)<=log|X|

式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。也就是说当X服从均匀分布时,熵最大。因此,在我们缺少事实条件时,往往遵循最大熵原理对概率进行估计。

将上述的最大熵原理应用到分类得到最大熵模型。也就是说,假设分类模型是一个条件概率分布P(Y|X), X表示输入,Y表示输出,则这个模型表示的是对于给定的输入X,以条件概率P(Y|X)输出Y;给定一个训练数据集,最大熵模型学习的目标是用最大熵原理选择最好的分类模型。

最大熵模型的定义如下:

前面已经说过,根据最大熵原理,我们的模型应该具有最大的条件熵。因此,最大熵模型的学习可以形式化为约束优化问题。

与SVM中的利用拉格朗日对偶性求解超平面类似,我们再将这个问题转换为无约束最优化的对偶问题。

再先求minL(P,w):

再求L(P,w)对P(y|x)的偏导数:

再令偏导等于0,解得:

上面我们采用了对偶函数极大化的方法来学习最大熵模型。同时,我们也可以证明最大熵模型的极大似然估计等价于对偶函数极大化(证明略)。因此,我们可以采用极大似然估计来求解最大熵模型,再进一步通过迭代法(此时目标函数是光滑的凸函数),如改进的迭代尺度法,梯度下降法,牛顿法或拟牛顿法求解。

xinyu

目前为止有一条评论

大佬流弊 发布于7:46 下午 - 6月 14, 2019

现在计科的都这么流弊吗