机器学习

7.6 贝叶斯线性回归

2019-07-23
| 机器学习 | | 线性回归 , 贝叶斯 , 后验 | Comment 评论

返回本章目录

虽然岭回归是计算点估计的有用方法,但有时我们想要计算关于 \(\boldsymbol{w}\) \(\sigma^2\) 的完全后验。 为简单起见,我们首先假设噪声方差 \(\sigma^2\) 是已知的,因此我们专注于计算 \(p(\boldsymbol{w}| \mathcal{D},\sigma^2)\) 。 然后在7.6.3节我们将考虑一般情况,也就是计算 \(p(\boldsymbol{w},\sigma^2|\mathcal{D})\) 。 我们假设始终是高斯似然模型。 以稳健拟然执行贝叶斯推断也是可能的,但需要更高级的技术(参见练习24.5)。

...

7.4 稳健线性回归*

2019-07-21
| 机器学习 | | 线性回归 , 稳健性 , 厚尾 | Comment 评论

返回本章目录

在回归模型中,使用零均值和常数方差的高斯分布对噪声进行建模是很常见的。 \(\epsilon_i \sim \mathcal{N}(0,\sigma^2)\) ,其中 \(\epsilon_i=y_i-\boldsymbol{w}^T \boldsymbol{x}_i\) 。 在这种情况下,最大化拟然等价于最小化残差平方和。 但是,如果我们的数据中存在异常值,则可能导致拟合不良,如图7.6(a)所示。 (异常值是图底部的点。)这是因为平方误差以二次方处理偏差,因此远离线的点对拟合的影响大于线附近的点。

...

7.1 导论

2019-07-18
| 机器学习 | | 线性回归 | Comment 评论

返回本章目录

线性回归是统计学和(监督)机器学习的“驮马(work horse)”。 当对核或其他形式的基函数进行扩展时,它也能模拟非线性关系。 当用伯努利或广义伯努利分布代替高斯分布输出时,它可以用于分类,我们将在下面看到这点。 因此,详细研究这个模型是值得的。

...

第七章 线性回归

2019-07-18
| 机器学习 | Comment 评论

第七章 线性回归 本节中的目录: 7.1 导论 7.2 模型选择 7.3 最大似然估计(最小二乘) 7.4 稳健线性回归* 7.5 岭回归 7.6 贝叶斯线性回归 Exercises

习题

2019-07-17
| 机器学习 | | 习题 | Comment 评论

返回本章目录

练习6.1 LOOCV的最坏情况

(来源:Witten05,p152。)。 假设我们有一个完全随机标记的数据集(即,特征 \(\boldsymbol{x}\) 没有告诉我们关于类标签 \(y\) 的任何内容),其中类1有 \(N_1\) 个样本,类2有 \(N_2\) 个样本,并且 \(N_1 = N_2\) 。 任何方法可以实现的最佳错分率是多少? 使用LOOCV对同一方法的估计的错分类率是多少?

...

6.5 经验风险最小化

2019-07-16
| 机器学习 | | 风险 , 正则化 , 交叉验证 , 岭回归 , 损失函数 | Comment 评论

返回本章目录

频率派决策理论存在一个根本问题,即人们实际上无法计算风险函数,因为它依赖于知道真实的数据分布。 (相比之下,贝叶斯后验预期损失总是可以计算,因为它更取决于数据,而不是 \(\theta^{\\*}\) 。)但是,有一个设置可以避免这个问题,这就是预测可观察性量的任务,而不是估计隐藏变量或参数。 也就是说,不再关注形如 \(L(\boldsymbol{\theta},\delta(\mathcal{D}))\) 的损失函数,其中 \(\boldsymbol{\theta}\) 是真实但未知的参数,而 \(\delta(\mathcal{D})\) 是我们的估计器; 而是让我们关注形如 \(L(y,\delta(\boldsymbol{x}))\) 的损失函数,其中 \(y\) 是真实但未知的响应, \(\delta(\boldsymbol{x})\) 是给定输入 \(\boldsymbol{x}\) 的预测。 在这种情况下,频率派风险变为

\[ R(p_{\\*},\delta)\overset{\Delta}{=}\mathbb{E}_{(\boldsymbol{x},y) \sim p_{\\*}}\left[L(y,\delta(\boldsymbol{x}))\right]=\sum_{\boldsymbol{x}}{\sum_y{L(y,\delta(\boldsymbol{x}))p_{\\*}(\boldsymbol{x},y)}} \tag{6.47} \] ...