7.5 岭回归
最大拟然估计(MLE)的一个问题是它可能导致过拟合。 在本节中,我们将讨论一种通过使用高斯先验的最大后验估计(MAP)的方法来改善此问题。 为简单起见,我们假设高斯似然,而不是稳定性拟然。
...最大拟然估计(MLE)的一个问题是它可能导致过拟合。 在本节中,我们将讨论一种通过使用高斯先验的最大后验估计(MAP)的方法来改善此问题。 为简单起见,我们假设高斯似然,而不是稳定性拟然。
...频率派决策理论存在一个根本问题,即人们实际上无法计算风险函数,因为它依赖于知道真实的数据分布。 (相比之下,贝叶斯后验预期损失总是可以计算,因为它更取决于数据,而不是 \(\theta^{\\*}\) 。)但是,有一个设置可以避免这个问题,这就是预测可观察性量的任务,而不是估计隐藏变量或参数。 也就是说,不再关注形如 \(L(\boldsymbol{\theta},\delta(\mathcal{D}))\) 的损失函数,其中 \(\boldsymbol{\theta}\) 是真实但未知的参数,而 \(\delta(\mathcal{D})\) 是我们的估计器; 而是让我们关注形如 \(L(y,\delta(\boldsymbol{x}))\) 的损失函数,其中 \(y\) 是真实但未知的响应, \(\delta(\boldsymbol{x})\) 是给定输入 \(\boldsymbol{x}\) 的预测。 在这种情况下,频率派风险变为
\[ R(p_{\\*},\delta)\overset{\Delta}{=}\mathbb{E}_{(\boldsymbol{x},y) \sim p_{\\*}}\left[L(y,\delta(\boldsymbol{x}))\right]=\sum_{\boldsymbol{x}}{\sum_y{L(y,\delta(\boldsymbol{x}))p_{\\*}(\boldsymbol{x},y)}} \tag{6.47} \] ...由于频率派决策理论没有提供选择最佳估计器的自动方法,我们需要提出其他启发式方法来选择它们。 在本节中,我们将讨论我们所希望估计器应该具有的一些属性。 不幸的是,我们将看到我们无法同时实现所有这些属性。
...