Perenial youth.

一天一个机器学习概念(五)——逻辑回归(logistic regression)

一天一个机器学习概念(五)——逻辑回归(logistic regression)

目录:

  • 逻辑分布
  • 二项逻辑回归模型
  • 多项逻辑回归

逻辑分布

首先介绍一下什么是逻辑分布(logistic distribution)。

设X是连续随机变量,X服从逻辑分布是指X具有下列分布函数和密度函数:

\(F(x)=P(X <= x) = \frac{1}{1+e^{-(x-\mu)/ \gamma}}\)

\(f(x) = F'(x) = \frac{e^{-(x-\mu)/ \gamma}}{\gamma (1+e^{-(x-\mu)/ \gamma})^2}\)

其中,\(\mu\)为位置参数,\(\gamma\)>0为形状参数。

看一下逻辑分布的密度函数f(x)和F(x)的图形:

事实上我们容易看到,这里的分布函数F(x)实际上就是sigmoid函数:

\(S(x) = \frac{1}{1+e^{-x}}\)

以点\((\mu, \frac{1}{2})\)为中心对称后的结果。曲线在中心附近增长速度较快,两端较慢。形状参数\(\gamma\)的值越小,曲线在中间附近增长的越快。

介绍完了逻辑分布,我们再来说一下逻辑回归。先说二项逻辑回归模型。

二项逻辑回归模型

二项逻辑回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑分布。因此,我们常说的逻辑回归,实际上是一个分类模型。至于为什么要叫回归,是因为用sigmoid函数来拟合数据的分布,然后再进行分类。随机变量X取值为实数,随机变量Y取值为1或0. 我们通过监督学习的方法来估计模型的参数。

逻辑回归模型的定义:

定义好了这样一个模型,下一个需要我们考虑的问题是如何对这个模型进行训练,对于给定的训练数据集T,可以应用极大似然估计法估计模型参数,从而得到逻辑回归模型。

设:\(P(Y=1|x) = \pi (x)\), \(P(Y=0|x) = 1- \pi (x)\)

似然函数为 :

\(\Pi _{i=1}^N[\pi(x_i)]^{y_i}[\pi(1-x_i)]^{1-y_i} \)

对数似然函数为:

对L(w)求极大值,得到w的估计值

这样,问题就变成了以对数似然函数为目标函数的最优化问题。

多项逻辑回归

上面介绍的逻辑回归模型是二分类模型,可以将其推广为多项逻辑回归模型,用于多分类。假设离散型随机变量Y的取值集合是{1,2,…,K},那么多项逻辑回归模型是:

逻辑回归本身并不复杂,就是用sigmoid或者其变式来拟合数据的分布,将数据转化为概率值后再比较两个条件概率值的大小,将实例x分到概率值较大的那一类。其中,二项逻辑回归的参数估计法也可以推广到多项逻辑回归中,即极大似然估计。关于极大似然估计的更多知识,会在下一讲——最大熵模型中涉及。

另外,在ECNU NLP Seminar的第三讲中我们提到,回归模型直接用来做分类,会受离群点影响很大。这是因为,回归模型中我们以点到线的距离为评估标准,做梯度下降或者最小二乘,而逻辑回归,虽然也是分类模型,但是也会受到这个问题的影响。因为,曲线拟合的越好,最后得到的P才会越大,似然估计结果也就越好。而拟合那些噪音会造成模型的过拟合。因此逻辑回归也会受到这个问题的困扰。

xinyu