《统计学习》笔记——线性回归(一)

The Elements of Statistical Learning
全书提供免费下载
https://web.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf


监督学习可分为两类,响应变量是连续的时候为回归问题,当响应变量是离散的,那就是分类问题。

线性回归模型建立的基础是:

  • 在平方损失下,x对y的最有预报是给定x的情况下,y的条件期望。(k近邻就是在这样一个结论下得到的。)

  • 在x,y的联合概率结构是正态的情形下,给定x,y的条件期望是x的线性表达。

考虑线性模型:

$$\hat{Y} = \hat{\beta}_0+\sum_{j = 1}^p X_j\hat{\beta}_j$$

$$\hat{Y}=X^T\hat{\beta}$$

最小二乘法 Least Squares

Guass-Markov 定理:在误差零均值,等方差,且互不相关的线性回归模型中,回归系数的最佳线性无偏估计就是最小二乘估计。

是说我们选择使残差平方和最小的$\beta$
作为模型参数的估计值。

残差平方和有:

$$RSS(\beta)=\sum_{i = 1}^N (y_i-x_i^T\beta)^2 $$

$$\beta = argmin \sum_{i = 1}^N (y_i-x_i^T\beta)^2 $$

写成矩阵形式有:

$$RSS(\beta)=(y-X\beta)^T(y-X\beta)$$

$$\begin{align*}
\frac{\partial RSS(\beta)}{\partial\beta} &=-X^T(y-X\beta)+(y-X\beta)^T(-X) \\ &=-2X^T(y-X\beta)=0
\end{align*}$$

如果$X$是列满秩的,$X^TX$是非奇异的,则有:

$$\hat{\beta}=(X^TX)^{-1}X^Ty$$

列满秩的意思是变量之间是相互独立的,对于一个矩阵来说就是不存在复共线性,如果存在复共线性的话,那么$X^TX$的行列式等于0,就不能求逆。而 $\hat{\beta}$ 也不是唯一解。

考虑随机误差的线性模型,$\varepsilon\sim N(0,\sigma^2)$:
$$Y=f(X)+\varepsilon$$

$$\begin{align*}
\hat{\beta} &=(X^TX)^{-1}X^Ty \\
&=(X^TX)^{-1}X^T(X\beta+\varepsilon) \\
&=\beta + (X^TX)^{-1}X^T\varepsilon
\end{align*}$$

$$\because E(\varepsilon)=0 \ \ \ \ E(\hat{\beta})=\beta$$

$$cov(\hat{\beta})=(X^TX)^{-1}\sigma^2=\frac{\sigma^2}{n\sigma^2_x}I_p$$

模型评估与选择
我们通常用均方误差来刻画估计量的优良性:
$$\begin{align*}
MSE(x_0) &=E_T[f(x_0)-\hat{y}_0]^2 \\
& = E_T[\hat{y}_0-E_T(\hat{y}_0)]^2+[E_T(\hat{y}_0)-f(x_0)]^2 \\
&=Var_T(\hat{y}_0)+Bias^2(\hat{y}_0)
\end{align*}$$

第一项为估计样本的方差,第二项为偏差。(推导过程中的第二步,有交叉项的数学期望为0)。如果设置的线性模型是正确的,那么最小二乘估计是无偏的,即第二项等于0,在线性无偏估计类中具有最小的方差(满足高斯马科夫条件)。最小二乘估计的估计量是y的线性表达,并且y的线性函数是无偏的。

但是当输入变量X不是列满秩的,即存在复共线性的情况下,最小二乘估计的方差太大,存在比最小二乘MSE更小的有偏估计。在MSE作为优良准则的前提下,当最小二乘估计表现不好的时候,我们就应该将估计量进行正则化处理,提升一点bias来降低方差。

为了解决以上复共线性的问题,我们需要做变量选择。变量选择主要有三种:

  • 子集选择 Subset selection :逐步回归 (分向前逐步回归与向后逐步回归,做普通线性回归时候,如果某个变量t检验不显著,我们通常会将它剔除再做回归,如此往复(stepwise),最终筛选留下得到一个我们满意回归方程)和最优子集等,对可能的部分子集拟合线性模型,利用判别准则 (如AIC,BIC,Cp等)决定最优的模型。

  • 收缩方法 Shrinkage method:又称正则化方法,主要有岭回归和LASSO,通过对最小二乘估计加惩罚,使某些系数的估计为0。

  • 维数缩减:比如主成分分析等,这个很好理解,通过主成分分析可以得到不相关的变量组合,来达到消除复共线性的目的。

损失函数
为了解决上述复共线性的问题,一种正则化的方法就是加损失函数。岭回归是用的二次损失函数$L_2(Y,f(X))=(Y-f(X))^2$,而LASSO是用的一次损失函数$L_1(Y,f(X))=E|Y-f(X)|$。当然还有很多其他的损失函数形式。

简单的说就是在残差平方和上面加一个惩罚项。

岭回归 Ridge Regression

岭回归是一种专用于共线性数据分析的有偏估计回归方法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。是shrinkage method中的一种,在收缩方法,比如做岭回归的时候,我们并没有做变量的剔除,而是将这个变量的系数beta向0”收缩“,使得这个变量在回归方程中的影响变的很小。

$$\hat{\beta}^{ridge}=argmin_{\beta} [\sum_{i=1}^N(y_i-\beta_0-\sum_{i=1}^p x_{ij}\beta_j)^2+\lambda\sum_{i=1}^p\beta_j^2]$$

矩阵形式:
$$RSS(\lambda)=(y-X\beta)^T(y-X\beta)+\lambda\beta^T\beta$$

$$\hat{\beta}^{ridge}=(X^TX+\lambda I)^{-1}X^Ty$$

λ是一个大于等于0的调整参数,上式中,当$X^TX$的行列式接近于0时,我们将其主对角元素都加上一个数λ,可以使矩阵为奇异的风险降低。随着λ的增大,模型方差减小而bias增加。实际计算中可选非常多的λ值,做出一个岭迹图,看看这个图在取哪个值的时候变稳定,就确定λ值。

我觉得加惩罚项从本质上来讲就是贝叶斯公式里的prior,$RSS(\lambda)$ 公式中第一项可以写成$e^{-(y-X\beta)^T(y-X\beta)}$ ,就是Likelihood,而后面写成$e^{-\lambda\beta^T\beta}$ 就是prior。

LASSO
岭回归就是给每个变量加了一个权重,Lasso则可以真正做变量选择。

$$\hat{\beta}^{lasso}=argmin_{\beta} [\sum_{i=1}^N(y_i-\beta_0-\sum_{i=1}^p x_{ij}\beta_j)^2+\lambda\sum_{i=1}^p|\beta_j|]$$

LASSO用的是$L_1$惩罚,$L_1(Y,f(X))=E|Y-f(X)|$,在绝对值损失下,x对y的最有预报是条件中位数,(显然中位数要更加稳健,但是也更难处理。)如果岭回归估计的结果是接近于0,那LASSO的结果就是0。回归的参数估计如果为0,对于这种参数,我们便可以选择对它们进行剔除。但是LASSO难以得到一个确定的估计参数的表达式,这就要用到Least angle regression,最小角回归(LAR)。。。(坑有点大,先填后面的)


这不是那种要考试了临时抱佛脚的学习要点(因为totally不知道老师要考啥),只是平时听课学习总结的一些个人理解。以后要是理解更深了,会不会觉得这些很多理解都是错的呢?当然欢迎各位批评指正!

还有一个感想:真是一切皆贝叶斯呀!


选了这门课才发现,Hastie这本是统计学习领域中传说“一本书就够了”的那本书,但是这是一本数学书!里面就是数学书的那种“显而易见”的模式,很少有证明,但都要会证明……完全没有统计基础,本科物理系连概率论都没有开过,还来作这个死……但统计学习就像是一个琳琅满目的工具箱,真是一分钱一分货,入门成本好高,虽然被虐哭,不过真的好有意思,有谁不喜欢能解决的问题的工具箱呢?

如果这门课最后还是挂了,(不能挂呀魂淡!)也不会浇灭我立志成为一名统计天文学家的理想的!

标签: 统计学习, 线性回归, 岭回归, Shrinkage method

赞 (11)

添加新评论