5.4 先验
贝叶斯统计数据中最具争议的方面是它依赖于先验。 贝叶斯认为这是不可避免的,因为没有人是白板(tabula rasa或blank slate):所有的推论都必须以某些关于世界的假设为条件。 然而,人们可能有兴趣尽量减少先验假设的影响。 我们将在下面简要讨论一些方法。
...贝叶斯统计数据中最具争议的方面是它依赖于先验。 贝叶斯认为这是不可避免的,因为没有人是白板(tabula rasa或blank slate):所有的推论都必须以某些关于世界的假设为条件。 然而,人们可能有兴趣尽量减少先验假设的影响。 我们将在下面简要讨论一些方法。
...在图1.18中,我们看到使用过高度数多项式会导致过拟合,而使用过低度数会导致欠拟合。类似地,在图7.8(a)中,我们看到使用太小正则化参数会导致过拟合,而太大值会导致欠拟合。一般来说,当面对一组不同复杂度的模型(即参数分布族)时,我们应该如何选择最好的模型呢?这称为模型选择问题。
...后验 \(p(\boldsymbol{\theta} | \mathcal{D})\) 总结了我们所知道的关于未知量 \(\boldsymbol{\theta}\) 的一切。 在本节中,我们将讨论一些可以从概率分布中导出的简单量,例如后验。这些摘要统计数据通常比完整联合更容易理解和可视化。
...我们已经看到了各种不同的概率模型,并且也讨论了如何拟合数据,即我们讨论过使用各种不同的先验来计算MAP参数估计 \(\hat{\boldsymbol{\theta}}={\rm argmax} \ p(\boldsymbol{\theta} | \mathcal{D})\) 。 我们还讨论了对于某些特殊情况如何计算完整的后验 \(p(\boldsymbol{\theta} | \mathcal{D})\) ,以及后验预测密度 \(p(\boldsymbol{x} | \mathcal{D})\) (在后面的章节中,我们将讨论一般情况下的算法)。
...第五章 贝叶斯统计 本节中的目录: 5.1 导言 5.2 后验分布总结 5.3 贝叶斯模型选择 5.4 先验 5.5 分层贝叶斯 5.6 经验贝叶斯 5.7 贝叶斯决策理论 习题
待续
返回本章目录
在本节中,我们将讨论如何对离散值特征的向量进行分类, \(\boldsymbol{x} \in {1,\dots,K}^D\) ,其中 \(K\) 是每个特征的值域数, \(D\) 是特征的数量。我们将使用生成方法。这要求我们指定类条件分布 \(p(\boldsymbol{x} | y=c)\) 。最简单的方法是假设特征是条件独立的, 对给定类标签。这使我们可以将类条件密度写成一维密度的乘积:
\[ p(\boldsymbol{x} | y=c, \boldsymbol{\theta}) = \prod_{j=1}^D {p(\boldsymbol{x}_j | y=c, \theta_{jc}) } \tag{3.54} \]此模型被称为 朴素贝叶斯分类器 (NBC)。
...在上一节中,我们讨论了如何推断硬币"正面"出现的概率。在本节中,我们推广这些结果,以推断出有 \(K\) 面的骰子出现第 \(k\) 面的概率。这似乎是另一种玩具练习,但将在后面看到, 我们的研究方法将被广泛用于分析文本数据,生物序列数据等。
...在给定一离散观察序列的情况下, 数字游戏涉及从有限假设空间推断出离散变量的分布, \(h \in \mathcal{H}\) 。这使计算变得特别简单:我们只需要求和,乘和除。然而,在许多应用中,未知参数是连续的,因此假设空间是 \(\mathbb{R}^K\) 的某个子集, 其中 \(K\) 是参数的个数. 这使数学变得复杂,因为我们必须用积分代替和。但是,基本思路是一样的。
...