机器学习

6.6 频率派统计的病态*

2019-07-16
| 机器学习 | | 频率派 , 置信区间 , p值 , 拟然 , 贝叶斯 | Comment 评论

返回本章目录

我认为说服一个认为"现在的[频率派]统计实践是明智的"的聪明人是很难的,但通过拟然和贝叶斯定理的方法困难会更少。 - George Box,1962年。

频率派统计表现出各种形式的奇怪和不良行为,称之为病态(pathologies)。 我们在下面举几个例子,以提醒读者; 这些和其他实例在(Lindley 1972; Lindley和Phillips 1976; Lindley 1982; Berger 1985; Jaynes 2003; Minka 1999)中有更详细的解释。

...

6.3 频率派决策理论

2019-07-14
| 机器学习 | | 频率派 , 风险 , 贝叶斯 , 估计器 , 决策规则 , 悖论 | Comment 评论

返回本章目录

在频率派或经典决策理论中,存在一个损失函数和一个拟然,但没有先验因而没有后验或后验预期损失。 因此,与贝叶斯情况不同,没有自动推导出最优估计器的方法。 相反,在频率派方法中,我们可以自由选择我们想要的任何估计器或决策程序 \(\delta:\mathcal{X} \to \mathcal{A}\)

选择估计器后,我们将其预期损失或风险定义如下:

\[ R(\theta^{\\*},\delta)\overset{\Delta}{=}\mathbb{E}_{p(\tilde{\mathcal{D}}|\theta^{\\*})}\left[L(\theta^{\\*},\delta(\tilde{\mathcal{D}}))\right]=\int{L(\theta^{\\*},\delta(\tilde{\mathcal{D}}))p(\tilde{\mathcal{D}}|\theta^{\\*})d\tilde{\mathcal{D}}} \tag{6.9} \] ...

6.2 估计器的采样分布

2019-07-13
| 机器学习 | | 估计器 , 采样分布 , 自举 , 大样本 | Comment 评论

返回本章目录

在频率派统计中,通过将估计器 \(\delta\) 应用在某些数据 \(\mathcal{D}\) 来计算参数估计 \(\hat{\boldsymbol{\theta}}\) ,因此 \(\hat{\boldsymbol{\theta}}=δ(\mathcal{D})\) 。 该参数被视为固定的,并且数据被视为随机的,这与贝叶斯方法完全相反。 可以通过计算估计器的采样分布来测量参数估计的不确定性。 为了理解这个概念,想象从一些真实模型 \(p(·|\boldsymbol{\theta}^*)\) 中采样许多不同的数据集 \(\mathcal{D}^{(s)}\) ,即让 \(\mathcal{D}^{(s)}= \left\{x_i^{(s)}\right\}_{i=1}^N\) ,其中 \(x_i^s \sim p(·|\boldsymbol{\theta}^*)\) \(\boldsymbol{\theta}^*\) 是真实参数。 这里 \(s = 1:S\) 已采样数据集的索引, \(N\) 是每个这样的数据集的大小。 现在将估计器 \(\hat{\theta}(·)\) 应用到每个 \(\mathcal{D}^{(s)}\) 以获得一组估计 \(\{\hat{\boldsymbol{\theta}}(\mathcal{D}^{(s)})\}\) 。 当我们让 \(S\to \infty\) 时,在 \(\hat{\theta}(·)\) 上诱导的分布就是估计器的采样分布。 我们将在后面的章节中讨论使用采样分布的各种方法。 但首先我们描绘了两种计算采样分布本身的方法。

...

6.1 导论

2019-07-12
| 机器学习 | | 贝叶斯 , 统计 | Comment 评论

返回本章目录

我们在第5章中描述的统计推断方法称为贝叶斯统计。 也许令人惊讶的是,这被一些人认为是有争议的,而贝叶斯应用于非统计问题 - 例如医疗诊断(第2.2.3.1节),垃圾邮件过滤(第3.4.4.1节)或飞机跟踪(第18.2.1节)。 - 没有争议。 反对的原因与统计模型的参数和其他类型的未知量之间的误导性区别有关。

...

第六章 频率派统计

2019-07-12
| 机器学习 | Comment 评论

第六章 频率派统计 本节中的目录: 6.1 导论 6.2 估计器的采样分布 6.3 频率派决策理论 6.4 估计器的理想属性 6.5 经验风险最小化 6.6 频率派统计的病态* 习题

5.6 经验贝叶斯

2019-07-09
| 机器学习 | | 模型 , 预测 , 超参数 | Comment 评论

返回本章目录

在分层贝叶斯模型中,我们需要计算多个级别潜在变量的后验。 例如,在两级模型中,我们需要计算

\[ p(\boldsymbol{\eta}, \boldsymbol{\theta} | \mathcal{D}) \propto p(\mathcal{D} | \boldsymbol{\theta}) p(\boldsymbol{\theta} | \boldsymbol{\eta}) p(\boldsymbol{\eta}) \tag{5.78} \] ...

5.5 分层贝叶斯

2019-07-08
| 机器学习 | | 贝叶斯 | Comment 评论

返回本章目录

计算后验 \(p(\boldsymbol{\theta} | \mathcal{D})\) 的关键要求是先验 \(p(\boldsymbol{\theta} | \boldsymbol{\eta})\) 的指定,其中 \(\boldsymbol{\eta}\) 是超参数。 如果我们不知道如何设置 \(\boldsymbol{\eta}\) 怎么办? 在某些情况下,我们可以使用无信息的先验,我们在上面讨论过。 更多贝叶斯方法是在我们的先验前再放置一个先验! 在图模型(第10章)术语下,我们可以表示如下情况:

\[ \boldsymbol{\eta} \to \boldsymbol{\theta} \to \mathcal{D} \tag{5.76} \] ...