2.1 导论
概率论只不过是把常识归纳为计算问题。 - 皮埃尔·拉普拉斯,1812年
在前一章中,我们看到了概率如何在机器学习中发挥有用的作用。 在本章中,我们将更详细地讨论概率论。 我们没有足够的空间来详细说明 - 为此,你最好查阅一些关于这个主题的优秀教科书,例如(Jaynes 2003; Bertsekas和Tsitsiklis 2008; Wasserman 2004)。 但我们将简要回顾一下您在后面章节中需要的许多关键想法。
在我们开始使用更多技术材料之前,让我们暂停并问:概率是什么? 我们都熟悉“硬币落地出现头部概率为0.5”这一短语。 但是,这是什么意思? 实际上至少有两种不同的概率解释。 一种被称为频率派解释。 在这种观点中,概率表示长时间事件出现的频率。 例如,上面的陈述意味着,如果我们多次翻转硬币,我们预计它大约一半的时间出现正面。
另一种解释称为贝叶斯概率解释。 在这种观点中,概率用于量化我们对某事物的不确定性; 因此,它与信息基本相关,而不是重复试验(Jaynes,2003)。 在贝叶斯观点中,上述陈述意味着我们相信硬币在下一次投掷时同样可能在落地出现头部或尾部。
贝叶斯解释的一个重要优点是它可以用来模拟我们对没有长期频率的事件的不确定性。例如,我们可能想要计算极地冰盖在2020年之前融化的概率。此事件将发生零次或一次,但不能重复发生。然而,我们应该能够量化我们对这一事件的不确定性;根据我们认为这个事件的可能性,我们(希望!)采取适当的行动(参见第5.7节讨论不确定性下的最优决策)。为了提供更多面向机器学习的示例,我们可能已收到特定的电子邮件消息,并希望计算它是垃圾邮件的概率。或者我们可能在我们的雷达屏幕上观察到“昙花一现”,并且想要计算相应目标位置(无论是鸟类,飞机还是导弹)的概率分布。在所有这些情况下,重复试验的想法没有意义,但贝叶斯解释是有效的,而且确实非常自然。因此,我们将在本书中采用贝叶斯解释。幸运的是,无论采用何种解释,概率论的基本规则都是相同的。