Perenial youth.

ECNU 2019 NLP Spring_Seminar 第一讲 introduction&regression

ECNU 2019 NLP Spring_Seminar 第一讲 introduction&regression

开个博客记录一下ECNU NLP研讨班的内容。课件是李宏毅的机器学习课件。

课件链接:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

博客中只记录我认为研讨课上有价值的东西。具体课程内容请参考上述链接。

人工智能——机器学习——深度学习

一直以来都是把回归任务当作连续问题,分类问题当作离散问题来记忆。然而今天对于这个概念理解得更加深刻了。我们的模型实际上在做一个怎样的事情呢?是构造一个函数,建立x到y的映射。这里,回归问题也就是y的值域是连续值的情况,而分类问题就是y的值域是离散值。二者都是在函数映射这个大框架下的。

structured learning: 结构化学习。例如机器翻译任务。将定义域对齐到值域上。这个对齐是有内部(词)的结构关系在其中的,而不是上述说的简单的到y的映射。

模型,损失函数,梯度下降的定义,老生常谈了,不多说,看ppt.这里一个细节是梯度下降时w和b的更新是同步的,也就是w1是根据w0和b0更新,然后进行b1的更新时也是根据w0和b0,而不是刚刚更新好的w1. 另外实际代码上的梯度下降不一定是要到0的时候才停止更新,因为很多时候会更新太慢。

过拟合:尽管训练和测试样本是同分布的,但是数据的不够是会导致拟合。那么怎么避免?1. 奥卡姆剃刀。尽量选择简单的函数;2. 重新设计模型,比如先对x的类别进行分类,对于每一类用不同的权重wi。3. 正则化。对于权重w,将其放在损失函数中,以|w|放入则是L1正则,(w)平方则是L2正则。直观上来说,就是要让w尽可能地小,因为w越小,出现过拟合时曲线突然很陡的情况也就越少,曲线也就越平坦。

对于奥卡姆剃刀,模型越复杂,越过拟合的现象在数学上是可以证明的。但是这一点只针对传统机器学习!对于深度学习来说,这一套却不适用。也就是说可能模型越复杂越好。

对于正则化来说,可以尝试给更高次的x对应的w赋予更高的权重。同时最后讨论了一个很有趣的问题:为什么L1正则化(使用绝对值的)优化结果中,很多w都是0,而L2正则化的优化结果中,很多w都是趋向于0但是不等于0. 这里讨论了几种理解:1. 通过两者曲线的相切。这个没听懂,先把坑放在这里了。。。2. L1正则w=0,说明这是极值点,而L1在x=0时不可导,因此需要导数两边异号,也就是乘积小于0来满足这个条件;而L1的式子如果想满足这个条件很简单,只需要L<L1正则的系数lamda即可。而L2要达到这个条件必须要让L=0,这很难做到。所以L2最后优化的结果很难直接等于0; 3. 从导数上直观理解,L1中正则项的导数要么为1要么为-1,也就是说w的减小不会使得梯度下降变慢,直到等于0为止;而L2的正则项求导后为2w,也就是w越小,下降的越慢,最后也就趋于不下降。

xinyu