6.6 频率派统计的病态*

6.6 频率派统计的病态*

2019-07-16
| 机器学习 | | 频率派 , 置信区间 , p值 , 拟然 , 贝叶斯 | Comment 评论

返回本章目录

我认为说服一个认为"现在的[频率派]统计实践是明智的"的聪明人是很难的,但通过拟然和贝叶斯定理的方法困难会更少。 - George Box,1962年。

频率派统计表现出各种形式的奇怪和不良行为,称之为病态(pathologies)。 我们在下面举几个例子,以提醒读者; 这些和其他实例在(Lindley 1972; Lindley和Phillips 1976; Lindley 1982; Berger 1985; Jaynes 2003; Minka 1999)中有更详细的解释。

6.6.1 置信区间的反直觉行为

置信区间是从估计器的采样分布导出的区间(而贝叶斯可信区间是从参数的后验得出的,正如我们在5.2.2节中讨论的那样)。 更准确地说,某些参数 \(\theta\) 的频率派置信区间由以下(相当不自然)表达式定义:

\[ C_\alpha^{'}(\theta)=(l,u):P(l(\tilde{\mathcal{D}} \le \theta \le u(\tilde{\mathcal{D}})|\tilde{\mathcal{D}} \sim \theta)=1-\alpha \tag{6.76} \]

也就是说,如果我们从 \(\theta\) 采样得到假想的未来数据 \(\tilde{\mathcal{D}}\) ,再如果参数 \(\theta\) \(1-\alpha\) %的时间出现在区间 \((l(\tilde{\mathcal{D}},u(\tilde{\mathcal{D}}))\) 中 ,那么,那么该区间就是 \(\alpha\) 置信区间。

让我们退一步,思考一下发生了什么。 在贝叶斯统计中,我们根据已知的情况 - 即已观测数据 \(\mathcal{D}\) - 和未知数的平均值,即参数 \(\theta\) 。 而在频率派统计中,我们完全相反:我们根据未知的情况 - 即真实参数值 \(\theta\) - 和假想的未来数据集 \(\tilde{\mathcal{D}}\) 的平均值。

这种反直觉的置信区间定义可能会导致奇怪的结果。 请考虑以下示例(Berger 1985,第11页)。 假设我们从下式抽取两个整数 \(\mathcal{D} =(x_1,x_2)\)

\[ p(x|\theta)=\left\{ \begin{aligned} 0.5 \quad & {\rm if} \quad x=\theta \\ 0.5 \quad & {\rm if} \quad x=\theta+1 \\ 0 \quad & {\rm otherwise} \\ \end{aligned} \right. \tag{6.77} \]

如果 \(\theta = 39\) ,我们预计以下结果各有概率0.25:

\[ (39,39),\ (39,40), \ (40,39), \ (40,40) \tag{6.78} \]

\(m = \min (x_1,x_2)\) 并定义以下置信区间:

\[ [l(\mathcal{D}),u(\mathcal{D})]=[m,m] \tag{6.79} \]

对于上述样本,由此产生

\[ [39,39],\ [39,39], \ [39,39], \ [40,40] \tag{6.78} \]

因此,式6.79显然是75%CI,因为39包含在这些间隔的3/4中。 然而,如果 \(\mathcal{D} =(39,40)\) ,那么 \(p(\theta = 39 | \mathcal{D})= 1.0\) ,这意味着 \(\theta\) 必须是39,但我们在这个事实中只有75%的“置信度”。

另一个不那么人为的例子如下。 假设我们想要估计伯努利分布的参数 \(\theta\) 。 令 \(\bar{x} = \frac{1}{N} \sum_{i = 1}^N{x_i}\) 为样本均值。 MLE是 \(\hat{\theta}= \bar{x}\) 。 伯努利参数的大约95%置信区间为 \(\bar{x} \pm 1.96 \sqrt{\bar{x}(1-\bar{x})/ N}\) (这称为Wald区间,这是基于二项分布的高斯近似; 与公式3.27相比)。 现在考虑一个单独的试验,其中 \(N = 1\) \(x_1 = 0\) 。 MLE为0,如第3.3.4.1节所述,这是过拟合的。 但我们的95%置信区间也是 \((0,0)\) ,这似乎更糟。 可以认为上述缺陷是因为我们用高斯近似了真实的采样分布,或者因为样本大小很小,或者参数“太极端”。 然而,即使对于大的 \(N\) 和非极端参数,Wald区间也会表现很差(Brown et al.2001)。

6.6.2 p-值被认为是有害的

假设我们想要决定是接受还是拒绝某些我们称之为零假设的底线( baseline)模型。 我们需要定义一些决策规则。 在频率派统计中,标准上首先要计算一个被称作p-值的量,被定义为源自零假设的统计量 \(f(\tilde{\mathcal{D}})\) (比如,卡方统计量)大于或等于源自实际观察的该统计量 \(f(\mathcal{D})\) 的概率 :

\[ {\rm pvalue}(\mathcal{D}) \overset{\Delta}{=} P(f(\tilde{\mathcal{D}}) \ge f(\mathcal{D}) | \tilde{\mathcal{D}} \sim H_0) \tag{6.81} \]

该量依赖于计算采样分布的尾区概率(tail area probability); 下面我们举一个如何执行此操作的示例。

给定p-值,我们将决策规则定义如下:拒绝零假设,当且仅当,如果p值小于某个阈值(例如 \(\alpha= 0.05\) )。 如果我们拒绝它,我们说观察到的检验统计量与预期检验统计量之间的差异是 \(\alpha\) 水平统计显著(statistically significant)。 这种方法称为零假设显著性检验(null hypothesis significance testing)或NHST

此过程保证我们预期的I型(假阳)错误率最多为 \(\alpha\) 。 这有时被解释为频率假设检验是非常保守的,因为它不太可能意外地拒绝零假设。 但实际情况恰恰相反:因为这种方法只是担心尝试拒绝零假设,所以无论样本大小多大,它都无法收集有利于零假设的证据。 因此,p-值往往夸大了对零假设的证据,因此非常“trigger happy”。

一般来说,p-值和我们真正关注的量(给定数据下零假设的后验概率 \(p(H_0 | \mathcal{D})\) )之间可能存在巨大差异。 特别是,Sellke等人 (2001)表明,即使p值低到0.05, \(H_0\) 的后验概率至少为30%,并且通常要高得多。 因此,频率派经常声称拥有零假设无法解释的效果的“重要”证据, ,而贝叶斯主义者的主张通常更为保守。 例如,p-值已被用于“证明”ESP(超感官感知, extra-sensory perception)是真实的(Wagenmakers等人,2011),尽管ESP显然是非常不可能的。 出于这个原因,某些医学期刊禁止使用p值(Matthews 1998)。

p-值的另一个问题是它们的计算取决于你决定何时停止收集数据的决定,即使这些决定不会改变你实际观察到的数据。 例如,假设我掷硬币n = 12次并观察s = 9次成功(头部)和f = 3次失败(尾部),因此n = s + f。 在这种情况下,n是固定的,s(因此f)是随机的。 相关的抽样模型是二项的

\[ {\rm Bin}(s|n,\theta)=\binom{n}{s}\theta^s(1-\theta)^{n-s} \tag{6.82} \]

令零假设表示硬币是公平的 \(\theta= 0.5\) ,其中 \(\theta\) 是成功的概率(头)。 使用检验统计量 \(t(s)= s\) 的单侧p-值是

\[ p_1 = P(S \ge 9 | H_0)=\sum_{s=9}^{12}{{\rm Bin}(s|12,0.5)}=\sum_{s=9}^{12}{\binom{12}{s} 0.5^{12}}=0.073 \tag{6.83} \]

双侧p-值是

\[ p_2=\sum_{s=9}^{12}{{\rm Bin}(s|12,0.5)}+\sum_{s=0}^{3}{{\rm Bin}(s|12,0.5)} =0.072+0.073=0.146 \tag{6.84} \]

在任何一种情况下,p值都大于神奇的5%阈值,因此频率派不会拒绝零假设。

现在假设我告诉过你我实际上一直在扔硬币,直到我观察到f = 3个尾巴。 在这种情况下,f是固定的,并且n(因此s = n-f)是随机的。 概率模型变为负二项分布(negative binomial distribution),由下式给出

\[ {\rm NegBinom}(s|f,\theta)=\binom{s+f-1}{f-1}\theta^s(1-\theta)^f \tag{6.85} \]

其中 f = n − s。

注意,用来与 \(\theta\) 的项在式6.82和6.85中是相同的,因此在两种情况下,关于 \(\theta\) 都的后验都是相同的。 然而,对相同数据的这两种解释给出不同的p-值。 特别是在我们得到的负二项模型下

\[ p_3=P(S \ge 9 | H_0)=\sum_{s=9}^\infty {\binom{3+s-1}{2}(1/2)^s(1/2)^s}=0.0327 \tag{6.86} \]

所以p-值是3%,突然间硬币似乎有显著偏差证据! 显然这很荒谬:数据是一样的,所以我们对硬币的推论应该是一样的。 毕竟,我可以随机选择实验方案。 重要的是实验的结果,而不是我决定运行哪一个的细节。

虽然这似乎只是一种数学好奇心,但这也具有重要的实际意义。 特别是,停止规则影响p值的计算意味着频率派通常不会提前终止实验,即使很明显结论是什么,以免对其统计分析产生不利影响。 如果实验成本高或对人有害,这显然是一个坏主意。 因此,管理新药临床试验的美国食品和药物管理局(FDA)最近可能支持贝叶斯方法,这也就不足为奇了,因为贝叶斯方法不受停止规则的影响。

6.6.3 拟然原则

许多这些病态的根本原因是频率推断违反了拟然原则,即基于观察数据可能(拟然)的推断,而不是基于您未观察到的假想未来数据。 贝叶斯显然满足似然原则,因此不会受到这些病态的影响。

Birnbaum(1962)提出了一个支持拟然原则的令人信服的论据,他表明它遵循两个更简单的原则。第一个是充分性原则(sufficiency principle),它表示一个充分统计包含有关未知参数的所有相关信息(可以说这是定义的)。第二个原则被称为弱条件(weak conditionality),它表示推论应该基于发生的事件,而不是可能发生的事件。为了明确这一点,请考虑一个例子(Berger 1985)。假设我们需要分析一种物质,并将其发送到纽约或加利福尼亚的实验室。这两个实验室看起来同样好,所以用一个公平的硬币来决定它们之间的关系。硬币出现在头上,于是加州实验室被选中。当结果回来时,是否应该考虑到硬币可能会出现尾巴,因此可以使用纽约实验室?大多数人会认为纽约实验室是无关紧要的,因为尾巴事件没有发生。这是弱条件的一个例子。根据这一原则,可以证明所有推论都应该仅基于观察到的内容,这与标准的频率派程序形成对比。有关拟然原则的更多详细信息,请参见(Berger和Wolpert 1988)。

6.6.4 为什么不是每个人都是贝叶斯人?

考虑到频率派统计的这些根本缺陷,以及贝叶斯方法没有这样的缺陷这一事实,一个显而易见的问题是:“为什么不是每个人都是贝叶斯人?”(频率派)统计学家布拉德利·埃夫隆写了一篇论文,正是这个 标题(Efron 1986)。 对于对这个主题感兴趣的人,他的简短论文非常值得一读。 下面我们引用他的开头部分:

  • 主题是一个合理的问题,至少要问两个问题。 首先,以前曾经是贝叶斯人。 拉普拉斯全力支持贝叶斯推理问题的制定,大多数19世纪的科学家也纷纷效仿。 这包括高斯,其统计工作通常以频率派术语表示。
  • 第二个也是更重要的一点是贝叶斯论证的有说服力。 在Savage和de Finetti的带领下,现代统计学家为偏爱贝叶斯推理提出了强有力的理论论据。 这项工作的副产品是关于频率派观点中不一致的一份令人不安的条目列表(A byproduct of this work is a disturbing catalogue of inconsistencies in the frequentist point of view.)。
  • 然而,每个人都不是贝叶斯人。 当前时代(1986年)是统计学被广泛用于科学报道的第一个世纪,事实上,20世纪的统计数据主要是非贝叶斯统计学。 然而,Lindley(1975)预测21世纪将发生变化。

时间会证明Lindley是对的……

返回本章目录