机器学习基础算法 -- 线性模型(Linear Models)

本文主要记录线性模型(回归、分类)相关算法核心公式推导。

线性回归

对于线性方程

其中,

最小二乘法

采用二范数平方定义其损失函数:

为了最小化损失函数,实际上等效于求取

由于

如果为满秩矩阵,则

Ridge 回归

也叫做 范数正则化,其一般求解形式为

对比最小二乘法结果可以发现,实际上是在基础上添加了一个单位矩阵,确保了矩阵可逆。

Lasso 回归

也叫做 范数正则化,其一般求解形式为

由于均方误差损失函数在等值线在空间的等值线为椭圆(参考花书),而 正则约束项等值线为一个菱形,两者共同作用得到的最优解为,空间(椭圆)与坐标轴相交点,所以 Lasso 回归具有稀疏化部分参数的作用(置零),可用于特征筛选。

与之相对地, 正则约束项等值线为一个圆形,与椭圆等值线共同作用的得到的最优解即为,空间中椭圆与圆形相切点,其等效结果是,空间中沿着各个轴有一定程度的衰减,直观上来看,Lasso 回归偏向于对较大的特征分量实施惩罚效应,使最终各特征分量与权重乘积趋于平均分布。

高斯噪声模型

考虑到现实中的样本噪声问题,线性模型更一般的表达式为

其中,,从而有 ,根据贝叶斯公式

最大似然估计

对比最小二乘法的推导公式,可以看出,MSE 的形式正好对应高斯分布下的 MLE。

最大后验估计

MAP 中需要考虑 的先验分布,现考虑以下两种情形:

  • 在 MLE 基础上加入高斯先验分布,即假设 ,则有

    对比可知,引入高斯先验分布,相当于增加了 Ridge 回归,且正则项系数 对应此处的

  • 在 MLE 基础上加入拉普拉斯先验分布,即假设 ,同理可证

    由此可见,引入拉普拉斯先验分布,相当于增加了 Lasso 回归,且正则项系数 对应此处的

线性分类

逻辑回归

属于二分类问题,本质上是一种对数几率回归,考虑两种分类 ,即

简记,,则 ,考虑损失函数与最大似然估计

从上述推导可以看出,逻辑回归对应的是伯努利分布,其损失函数本质上是个交叉熵。逻辑回归也可以添加各种正则项,其公式推导与线性回归类似。

Reference

Deep Learning (deeplearningbook.org)

机器学习 (nju.edu.cn)

统计学习方法 (豆瓣) (douban.com)


机器学习基础算法 -- 线性模型(Linear Models)
https://m1n9x.vercel.app/2016/04/15/机器学习基础算法-线性模型(Linear-Models)/
作者
admin
发布于
2016年4月15日
许可协议