机器学习 | 学习笔记

6.6 频率派统计的病态*

2019-07-16

| 机器学习 | | 频率派 , 置信区间 , p值 , 拟然 , 贝叶斯 |

我认为说服一个认为"现在的[频率派]统计实践是明智的"的聪明人是很难的，但通过拟然和贝叶斯定理的方法困难会更少。 - George Box，1962年。

频率派统计表现出各种形式的奇怪和不良行为，称之为病态(pathologies)。我们在下面举几个例子，以提醒读者; 这些和其他实例在（Lindley 1972; Lindley和Phillips 1976; Lindley 1982; Berger 1985; Jaynes 2003; Minka 1999）中有更详细的解释。

...

6.4 估计器的理想属性

2019-07-15

| 机器学习 | | 估计器 , 偏差 , 方差 , 均值 , 岭回归 |

返回本章目录

由于频率派决策理论没有提供选择最佳估计器的自动方法，我们需要提出其他启发式方法来选择它们。在本节中，我们将讨论我们所希望估计器应该具有的一些属性。不幸的是，我们将看到我们无法同时实现所有这些属性。

...

6.2 估计器的采样分布

2019-07-13

| 机器学习 | | 估计器 , 采样分布 , 自举 , 大样本 |

返回本章目录

在频率派统计中，通过将估计器 $\delta$ 应用在某些数据 $\mathcal{D}$ 来计算参数估计 $\hat{\boldsymbol{\theta}}$ ，因此 $\hat{\boldsymbol{\theta}}=δ(\mathcal{D})$ 。该参数被视为固定的，并且数据被视为随机的，这与贝叶斯方法完全相反。可以通过计算估计器的采样分布来测量参数估计的不确定性。为了理解这个概念，想象从一些真实模型 $p(·|\boldsymbol{\theta}^*)$ 中采样许多不同的数据集 $\mathcal{D}^{(s)}$ ，即让 $\mathcal{D}^{(s)}= \left\{x_i^{(s)}\right\}_{i=1}^N$ ，其中 $x_i^s \sim p(·|\boldsymbol{\theta}^*)$ ， $\boldsymbol{\theta}^*$ 是真实参数。这里 $$s = 1:S$$ 已采样数据集的索引， $$N$$ 是每个这样的数据集的大小。现在将估计器 $\hat{\theta}(·)$ 应用到每个 $\mathcal{D}^{(s)}$ 以获得一组估计 $\{\hat{\boldsymbol{\theta}}(\mathcal{D}^{(s)})\}$ 。当我们让 $S\to \infty$ 时，在 $\hat{\theta}(·)$ 上诱导的分布就是估计器的采样分布。我们将在后面的章节中讨论使用采样分布的各种方法。但首先我们描绘了两种计算采样分布本身的方法。

...

6.1 导论

2019-07-12

| 机器学习 | | 贝叶斯 , 统计 |

返回本章目录

我们在第5章中描述的统计推断方法称为贝叶斯统计。也许令人惊讶的是，这被一些人认为是有争议的，而贝叶斯应用于非统计问题 - 例如医疗诊断（第2.2.3.1节），垃圾邮件过滤（第3.4.4.1节）或飞机跟踪（第18.2.1节）。 - 没有争议。反对的原因与统计模型的参数和其他类型的未知量之间的误导性区别有关。

...

第六章频率派统计

2019-07-12

| 机器学习 |

第六章频率派统计本节中的目录： 6.1 导论 6.2 估计器的采样分布 6.3 频率派决策理论 6.4 估计器的理想属性 6.5 经验风险最小化 6.6 频率派统计的病态* 习题

习题

2019-07-11

| 机器学习 | | 习题 |

返回本章目录

习题5.1 证明共轭先验的混合确实是共轭的

推导等式5.69.

...

5.7 贝叶斯决策理论

2019-07-10

| 机器学习 | | 理性行为 , 损失函数 , 贝叶斯 , 估计量 , 监督学习 , 效用 |

返回本章目录

我们已经看到概率论如何用来表示和更新我们对世界状况的信念( beliefs)。然而，最终我们的目标是将我们的信念转化为行动。在本节中，我们将讨论实现此目的的最佳方法。

...

5.6 经验贝叶斯

2019-07-09

| 机器学习 | | 模型 , 预测 , 超参数 |

返回本章目录

在分层贝叶斯模型中，我们需要计算多个级别潜在变量的后验。例如，在两级模型中，我们需要计算

p(\boldsymbol{\eta}, \boldsymbol{\theta} | \mathcal{D}) \propto p(\mathcal{D} | \boldsymbol{\theta}) p(\boldsymbol{\theta} | \boldsymbol{\eta}) p(\boldsymbol{\eta}) \tag{5.78}

...

5.5 分层贝叶斯

2019-07-08

| 机器学习 | | 贝叶斯 |

返回本章目录

计算后验 $p(\boldsymbol{\theta} | \mathcal{D})$ 的关键要求是先验 $p(\boldsymbol{\theta} | \boldsymbol{\eta})$ 的指定，其中 $\boldsymbol{\eta}$ 是超参数。如果我们不知道如何设置 $\boldsymbol{\eta}$ 怎么办？在某些情况下，我们可以使用无信息的先验，我们在上面讨论过。更多贝叶斯方法是在我们的先验前再放置一个先验！在图模型（第10章）术语下，我们可以表示如下情况：

\boldsymbol{\eta} \to \boldsymbol{\theta} \to \mathcal{D} \tag{5.76}

...

2019-07-16

2019-07-15

2019-07-14

2019-07-13

2019-07-12

2019-07-12

2019-07-11

2019-07-10

2019-07-09

2019-07-08