返回本章目录
虽然岭回归是计算点估计的有用方法,但有时我们想要计算关于
\(\boldsymbol{w}\)
和
\(\sigma^2\)
的完全后验。 为简单起见,我们首先假设噪声方差
\(\sigma^2\)
是已知的,因此我们专注于计算
\(p(\boldsymbol{w}| \mathcal{D},\sigma^2)\)
。 然后在7.6.3节我们将考虑一般情况,也就是计算
\(p(\boldsymbol{w},\sigma^2|\mathcal{D})\)
。 我们假设始终是高斯似然模型。 以稳健拟然执行贝叶斯推断也是可能的,但需要更高级的技术(参见练习24.5)。
...
返回本章目录
返回本章目录
最大拟然估计(MLE)的一个问题是它可能导致过拟合。 在本节中,我们将讨论一种通过使用高斯先验的最大后验估计(MAP)的方法来改善此问题。 为简单起见,我们假设高斯似然,而不是稳定性拟然。
...
返回本章目录
在回归模型中,使用零均值和常数方差的高斯分布对噪声进行建模是很常见的。
\(\epsilon_i \sim \mathcal{N}(0,\sigma^2)\)
,其中
\(\epsilon_i=y_i-\boldsymbol{w}^T \boldsymbol{x}_i\)
。 在这种情况下,最大化拟然等价于最小化残差平方和。 但是,如果我们的数据中存在异常值,则可能导致拟合不良,如图7.6(a)所示。 (异常值是图底部的点。)这是因为平方误差以二次方处理偏差,因此远离线的点对拟合的影响大于线附近的点。
...
返回本章目录
估计统计模型参数的常用方法是计算MLE,其定义为
\[
\hat{\boldsymbol{\theta}} \overset{\Delta}{=} \underset{\boldsymbol{\theta}}{\rm argmax} \log p(\mathcal{D}|\boldsymbol{\theta}) \tag{7.4}
\]
...
返回本章目录
正如我们在1.4.5节中讨论的那样,线性回归是一个形如下式的模型
\[
p(y|\boldsymbol{x},\boldsymbol{\theta})=\mathcal{N}(y | \boldsymbol{w}^T\boldsymbol{x},\sigma^2) \tag{7.1}
\]
...
返回本章目录
线性回归是统计学和(监督)机器学习的“驮马(work horse)”。 当对核或其他形式的基函数进行扩展时,它也能模拟非线性关系。 当用伯努利或广义伯努利分布代替高斯分布输出时,它可以用于分类,我们将在下面看到这点。 因此,详细研究这个模型是值得的。
...
第七章 线性回归 本节中的目录:
7.1 导论
7.2 模型选择
7.3 最大似然估计(最小二乘)
7.4 稳健线性回归*
7.5 岭回归
7.6 贝叶斯线性回归
Exercises
返回本章目录
练习6.1 LOOCV的最坏情况
(来源:Witten05,p152。)。 假设我们有一个完全随机标记的数据集(即,特征
\(\boldsymbol{x}\)
没有告诉我们关于类标签
\(y\)
的任何内容),其中类1有
\(N_1\)
个样本,类2有
\(N_2\)
个样本,并且
\(N_1 = N_2\)
。 任何方法可以实现的最佳错分率是多少? 使用LOOCV对同一方法的估计的错分类率是多少?
...
返回本章目录
频率派决策理论存在一个根本问题,即人们实际上无法计算风险函数,因为它依赖于知道真实的数据分布。 (相比之下,贝叶斯后验预期损失总是可以计算,因为它更取决于数据,而不是
\(\theta^{\\*}\)
。)但是,有一个设置可以避免这个问题,这就是预测可观察性量的任务,而不是估计隐藏变量或参数。 也就是说,不再关注形如
\(L(\boldsymbol{\theta},\delta(\mathcal{D}))\)
的损失函数,其中
\(\boldsymbol{\theta}\)
是真实但未知的参数,而
\(\delta(\mathcal{D})\)
是我们的估计器; 而是让我们关注形如
\(L(y,\delta(\boldsymbol{x}))\)
的损失函数,其中
\(y\)
是真实但未知的响应,
\(\delta(\boldsymbol{x})\)
是给定输入
\(\boldsymbol{x}\)
的预测。 在这种情况下,频率派风险变为
\[
R(p_{\\*},\delta)\overset{\Delta}{=}\mathbb{E}_{(\boldsymbol{x},y) \sim p_{\\*}}\left[L(y,\delta(\boldsymbol{x}))\right]=\sum_{\boldsymbol{x}}{\sum_y{L(y,\delta(\boldsymbol{x}))p_{\\*}(\boldsymbol{x},y)}} \tag{6.47}
\]
...