返回本章目录
虽然岭回归是计算点估计的有用方法,但有时我们想要计算关于
\(\boldsymbol{w}\)
和
\(\sigma^2\)
的完全后验。 为简单起见,我们首先假设噪声方差
\(\sigma^2\)
是已知的,因此我们专注于计算
\(p(\boldsymbol{w}| \mathcal{D},\sigma^2)\)
。 然后在7.6.3节我们将考虑一般情况,也就是计算
\(p(\boldsymbol{w},\sigma^2|\mathcal{D})\)
。 我们假设始终是高斯似然模型。 以稳健拟然执行贝叶斯推断也是可能的,但需要更高级的技术(参见练习24.5)。
...
返回本章目录
我认为说服一个认为"现在的[频率派]统计实践是明智的"的聪明人是很难的,但通过拟然和贝叶斯定理的方法困难会更少。 - George Box,1962年。
频率派统计表现出各种形式的奇怪和不良行为,称之为病态(pathologies)。 我们在下面举几个例子,以提醒读者; 这些和其他实例在(Lindley 1972; Lindley和Phillips 1976; Lindley 1982; Berger 1985; Jaynes 2003; Minka 1999)中有更详细的解释。
...
返回本章目录
在频率派或经典决策理论中,存在一个损失函数和一个拟然,但没有先验因而没有后验或后验预期损失。 因此,与贝叶斯情况不同,没有自动推导出最优估计器的方法。 相反,在频率派方法中,我们可以自由选择我们想要的任何估计器或决策程序
\(\delta:\mathcal{X} \to \mathcal{A}\)
。
选择估计器后,我们将其预期损失或风险定义如下:
\[
R(\theta^{\\*},\delta)\overset{\Delta}{=}\mathbb{E}_{p(\tilde{\mathcal{D}}|\theta^{\\*})}\left[L(\theta^{\\*},\delta(\tilde{\mathcal{D}}))\right]=\int{L(\theta^{\\*},\delta(\tilde{\mathcal{D}}))p(\tilde{\mathcal{D}}|\theta^{\\*})d\tilde{\mathcal{D}}} \tag{6.9}
\]
...
返回本章目录
我们在第5章中描述的统计推断方法称为贝叶斯统计。 也许令人惊讶的是,这被一些人认为是有争议的,而贝叶斯应用于非统计问题 - 例如医疗诊断(第2.2.3.1节),垃圾邮件过滤(第3.4.4.1节)或飞机跟踪(第18.2.1节)。 - 没有争议。 反对的原因与统计模型的参数和其他类型的未知量之间的误导性区别有关。
...
返回本章目录
我们已经看到概率论如何用来表示和更新我们对世界状况的信念( beliefs)。 然而,最终我们的目标是将我们的信念转化为行动。 在本节中,我们将讨论实现此目的的最佳方法。
...
返回本章目录
计算后验
\(p(\boldsymbol{\theta} | \mathcal{D})\)
的关键要求是先验
\(p(\boldsymbol{\theta} | \boldsymbol{\eta})\)
的指定,其中
\(\boldsymbol{\eta}\)
是超参数。 如果我们不知道如何设置
\(\boldsymbol{\eta}\)
怎么办? 在某些情况下,我们可以使用无信息的先验,我们在上面讨论过。 更多贝叶斯方法是在我们的先验前再放置一个先验! 在图模型(第10章)术语下,我们可以表示如下情况:
\[
\boldsymbol{\eta} \to \boldsymbol{\theta} \to \mathcal{D} \tag{5.76}
\]
...
返回本章目录
在图1.18中,我们看到使用过高度数多项式会导致过拟合,而使用过低度数会导致欠拟合。类似地,在图7.8(a)中,我们看到使用太小正则化参数会导致过拟合,而太大值会导致欠拟合。一般来说,当面对一组不同复杂度的模型(即参数分布族)时,我们应该如何选择最好的模型呢?这称为模型选择问题。
...
返回本章目录
我们已经看到了各种不同的概率模型,并且也讨论了如何拟合数据,即我们讨论过使用各种不同的先验来计算MAP参数估计
\(\hat{\boldsymbol{\theta}}={\rm argmax} \ p(\boldsymbol{\theta} | \mathcal{D})\)
。 我们还讨论了对于某些特殊情况如何计算完整的后验
\(p(\boldsymbol{\theta} | \mathcal{D})\)
,以及后验预测密度
\(p(\boldsymbol{x} | \mathcal{D})\)
(在后面的章节中,我们将讨论一般情况下的算法)。
...
返回本章目录
在本节中,我们将讨论如何对离散值特征的向量进行分类,
\(\boldsymbol{x} \in {1,\dots,K}^D\)
,其中
\(K\)
是每个特征的值域数,
\(D\)
是特征的数量。我们将使用生成方法。这要求我们指定类条件分布
\(p(\boldsymbol{x} | y=c)\)
。最简单的方法是假设特征是条件独立的, 对给定类标签。这使我们可以将类条件密度写成一维密度的乘积:
\[
p(\boldsymbol{x} | y=c, \boldsymbol{\theta}) = \prod_{j=1}^D {p(\boldsymbol{x}_j | y=c, \theta_{jc}) } \tag{3.54}
\]
此模型被称为 朴素贝叶斯分类器 (NBC)。
...
返回本章目录
在第2.2.3.2中,我们讨论了如何对特征矢量
\(\boldsymbol{x}\)
进行分类: 应用贝叶斯法则得到形如下式的生成式分类器:
\[
p(y=c | \boldsymbol{x},\boldsymbol{\theta}) \propto p(\boldsymbol{x} | y=c ,\boldsymbol{\theta}) p(y=c |\boldsymbol{\theta}) \tag{3.1}
\]
...