机器学习基础算法 -- 线性模型(Linear Models)
本文主要记录线性模型(回归、分类)相关算法核心公式推导。
线性回归
对于线性方程
其中,
最小二乘法
采用二范数平方定义其损失函数:
为了最小化损失函数,实际上等效于求取
由于
如果为满秩矩阵,则
Ridge 回归
也叫做 范数正则化,其一般求解形式为
对比最小二乘法结果可以发现,实际上是在基础上添加了一个单位矩阵,确保了矩阵可逆。
Lasso 回归
也叫做 范数正则化,其一般求解形式为
由于均方误差损失函数在等值线在空间的等值线为椭圆(参考花书),而 正则约束项等值线为一个菱形,两者共同作用得到的最优解为,空间(椭圆)与坐标轴相交点,所以 Lasso 回归具有稀疏化部分参数的作用(置零),可用于特征筛选。
与之相对地, 正则约束项等值线为一个圆形,与椭圆等值线共同作用的得到的最优解即为,空间中椭圆与圆形相切点,其等效结果是,空间中沿着各个轴有一定程度的衰减,直观上来看,Lasso 回归偏向于对较大的特征分量实施惩罚效应,使最终各特征分量与权重乘积趋于平均分布。
高斯噪声模型
考虑到现实中的样本噪声问题,线性模型更一般的表达式为
其中,,从而有 ,根据贝叶斯公式
最大似然估计
对比最小二乘法的推导公式,可以看出,MSE 的形式正好对应高斯分布下的 MLE。
最大后验估计
MAP 中需要考虑 的先验分布,现考虑以下两种情形:
-
在 MLE 基础上加入高斯先验分布,即假设 ,则有
对比可知,引入高斯先验分布,相当于增加了 Ridge 回归,且正则项系数 对应此处的
-
在 MLE 基础上加入拉普拉斯先验分布,即假设 ,同理可证
由此可见,引入拉普拉斯先验分布,相当于增加了 Lasso 回归,且正则项系数 对应此处的
线性分类
逻辑回归
属于二分类问题,本质上是一种对数几率回归,考虑两种分类 ,即
简记, 为 ,则 为 ,考虑损失函数与最大似然估计
从上述推导可以看出,逻辑回归对应的是伯努利分布,其损失函数本质上是个交叉熵。逻辑回归也可以添加各种正则项,其公式推导与线性回归类似。