贝叶斯定理,被吹捧为一种生成知识的强大方法,也可能被用于促进迷信和伪科学。
John Horgan
http://blogs.scientificamerican.com/cross-check/bayes-s-theorem-what-s-the-big-deal/
贝叶斯定理已经如此流行,以至于在CBS剧《生活大爆炸》中也出现了它的身影。但是像任何一个工具一样,它也可能被错误应用。
我不确定第一次听到贝叶斯定理是在何时。但是我确实在过去十年才开始注意它,在我的几个不靠谱的学生将其几乎鼓吹为人生神奇导航指南之后。
学生的夸张让我困惑,像这个定理在维基百科和其他地方的解释一样,我发现它们要么太简单化要么太复杂化。我自然觉得贝叶斯只是一股风潮,不值得深入探索。但是现在,贝叶斯已经变得无处不在,不容忽视。
贝叶斯统计学家“遍布一切,从物理学到癌症研究,从生态学到心理学,”《纽约时报》这样说。物理学家提出了量子机器的贝叶斯解释,以及贝叶斯捍卫了弦和多重宇宙理论。哲学家主张作为一个整体的科学可以被视为一个贝叶斯过程,还有Karl Popper普及的方法,贝叶斯能够更精确地区分科学和伪科学。
人工智能研究者,包括Google自动驾驶汽车的设计者,使用贝叶斯软件帮助及其识别模式并作出决策。根据一位流行的贝叶斯理论历史写作者Sharon Bertsch McGrayne所说,贝叶斯程序“挑选出电子邮件中的垃圾邮件,评估药物和国土安全风险以及从其他东西中破译DNA。”在网站Edge.org中,物理学家John Mather为贝叶斯机器可能已经足够聪明去“淘汰”人类而着急。
认知科学家猜测,我们的大脑在理解、思考和决定时按照贝叶斯算法运行。十一月时,科学家和哲学家们在纽约大学的一个名为“大脑是贝叶斯的吗?”的会议上探讨了这种可能性。
狂热信徒们坚信如果我们中更多人有意识地使用贝叶斯推断(而不是大脑无意识的贝叶斯过程),世界将会更好。在“贝叶斯的一个直观解释”理论中,AI理论学家Eliezer Yudkowsky承认了这种狂热的激情。
“为什么一个数学概念会产生这种奇怪的热情?这种席卷科学界,号称甚至包括实验性方法本身作为一个特例的所谓贝叶斯革命是什么?贝叶斯信徒知道的秘密是什么?他们看到的光是什么?很快你就会知道,很快你就会成为我们之中的一员。”Yudkowsky是在开玩笑,还是别的?
鉴于这嘈杂的一切,我试图到达贝叶斯的最底端,一劳永逸。在网络上无数的解释中,我发现一些特别有帮助,包括Yudkowsky的文章,维基百科条目,以及由哲学家Curtis Brown、计算机科学家Oscar Bonilla和Kalid Azad提出的较短的片段。在这篇文章中,我将尝试解释——主要是出于我自己的目的——什么是贝叶斯。
以其发明者的名字,18世纪长老教会牧师Thomas Bayes命名,贝叶斯定理是一种基于最佳可用证据(观察、数据、信息)计算信念效力(假设、主张、命题)的方法。这是最简化的描述:初始信念加上新证据等于新的改进信念。
还有一个更全面的版本:给定新证据时信念是真实的概率等于不考虑证据时信念为真的概率乘以给定信念为真时证据为真的概率除以不考虑信念时证据为真的概率。明白了吗?
基本的数学公式是这个样子:P(B|E) = P(B) x P(E|B) / P(E),其中P表示概率,E表示信念,E表示证据。P(B)是B为真的概率,而P(E)是E为真的概率。P(B|E)的意思是如果E为真时B的概率,P(E|B)则是B为真时E的概率。
医学检查经常被用来说明这个公式。假设接受癌症的检查,癌症在同年龄的人中的发病率为1%。如果这个测试100%可靠,那么不需要贝叶斯定理去理解测试阳性意味着什么,但是让我们仍然使用定理看看它是如何工作的。
为了解出P(B|E),把数据代入贝叶斯等式的右边。P(B),也就是在检查之前患有癌症的概率,是1%,或者说0.01。P(E)的值也一样,它是检查结果为阳性的概率。由于它们分别在分子和分母上,互相约去,留下P(B|E) = P(E|B) = 1。如果检查结果是阳性,那么一定得了癌症,反之亦然。
在真实的世界中,检查很少完全可靠。因此假设检查可靠性是99%,也就是说,100个癌症患者中有99个检查结果阳性,100个健康人中有99个检查结果阴性。这仍然是个不错的检查。如果结果阳性,有多大可能得了癌症?
现在贝叶斯定理显示出它的力量了。大多数人认为答案是99%,或者很接近这个数字。这正是检查的可靠性,对吧?但是由贝叶斯定理得出的正确答案只有50%。
将数据代入贝叶斯等式的右边以找到原因。P(B)仍然是0.01,得癌症而且结果阳性的概率,也就是P(E|B),现在是0.99。因此P(B)乘以P(E|B)等于0.01乘以0.99,即0.0099。这是得到真阳性结果,显示阳性结果中得癌症的概率。
分母P(E)是什么?这就是事情有意思的地方。P(E)是无论是否得癌症时结果阳性的概率,换句话说,它包括假阳性和真阳性。
为了计算假阳性的概率,你用假阳性率,也就是1%,或者0.01,乘以没有癌症的人群百分比0.99。结果是0.0099。是的,你很了不起,99%准确率的检查得到的假阳性和真阳性一样多。
让我们完成计算。为得到P(E),将真阳性和假阳性相加,总和为0.0198,然后除以0.0099,得到0.5。所以再说一次,检查结果阳性时你得癌症的概率P(B|E)是50%。
如果再检查一次,可以极大地减少不确定性,因为你得癌症的概率P(B)现在是50%,而不是1%。如果第二次结果仍然是阳性,贝叶斯定理告诉你得癌症的概率现在是99%,或者0.99。像这个例子显示的这样,迭代贝叶斯定理可以得到非常精确的信息。
但是如果检查可靠性是90%,这看起来仍然挺不错,但即使两次检查结果都是阳性,确实得癌症的也仍然小于50%。(在这篇博文中的手工计算检查我的数学。)
大多数人,包括医生,都很难理解这些奇怪之处,这有助于解释为什么我们过度诊断和过度治疗癌症和其他疾病。这个例子表明贝叶斯是正确的:如果更多人——或者至少更多医疗保健消费者与提供者——使用贝叶斯推断,世界确实会变得更好。
另一方面,贝叶斯定理只是常识的汇编。就像Yudkowsky在他的教程结尾写的那样:“在这一点上,贝叶斯定理似乎非常明显且重复,而不是新颖而令人兴奋的。如果是这样,这份概述在它的目的上已经全然成功。”
考虑癌症检查的例子,贝叶斯定理表明结果阳性时得癌症的概率是真阳性的概率除以所有阳性的概率,包括假阳性和真阳性。简言之,要小心假阳性误报。
这里是我对该原则更一般性的陈述:你的信念可信性取决于你的信念——只是你的信念——解释证据的程度。证据的替代性解释越多,你的信念越不可信。对我来说,这就是贝叶斯定理的本质。
“替代性解释”可以包含很多东西。你的证据可能是错误的,可能被一个仪器故障所歪曲,可能是错误分析、证实偏见甚至欺诈。你的证据可能很合理,但是可以解释很多信念或者假设,不仅是你的。换句话说,贝叶斯定理没什么神奇的。它归结为你的信念只为它的证据所证实。如果你有很好的证据,贝叶斯定理可以产生很好的结果。如果你的证据站不住脚,贝叶斯定理也不会有多大用处。进来的是垃圾,出去的还是垃圾。
贝叶斯定理可能的滥用从P(B)开始,也就是对信念概率的初始估计,往往被称为“先验”。在上面的癌症检查例子中,我们有一个很棒的精确先验概率1%,或者说0.01,作为癌症的流行程度。在真实世界中,专家会争论如何对癌症患者诊断和计数。先验概率通常由一系列概率组成,而不是单个数字。
在很多案例中,估计先验概率只是猜测,允许主观因素进入到计算中。你可能会猜测某些事情——不像癌症——的概率根本不存在,例如弦,多重宇宙,通货膨胀或上帝。然后,你可能会用可疑的证据支持你可疑的信念。在这种情况下,贝叶斯定理可能和推理一样促进了伪科学和迷信。
包含在贝叶斯定理中的是一个道德讯息:如果不细心寻找你的证据的替代解释,证据将只能确认你已经相信的。科学家往往未能注意到这一格言,这可以解释为什么这么多科学主张被证明是错误的。贝叶斯声称他们的方法可以帮助科学家们克服证实偏见并产生更可靠的结果,但是我有一些疑问。
如我在前面所说的,一些弦理论和多重宇宙爱好者正在拥抱贝叶斯分析。为什么?因为爱好者们已经受够了听到弦理论和多重宇宙无法证伪因此不科学这样的说法,而贝叶斯定理允许他们把这些理论展示在更有利的光线下。这时,贝叶斯定理远非反对证实偏见,而是使它成为可能。
科学作家Faye Flam最近在《纽约时报》上发表文章,贝叶斯统计“不能从坏科学中拯救我们。”贝叶斯定理是一个万能工具,可以为任何事业服务。哈佛大学著名贝叶斯统计学家Donald Rubin为面临吸烟伤害诉讼的烟草公司担任顾问。
我仍然为贝叶斯定理着迷。它让我想起了进化论,另一个似乎是简单重复或者惊人深刻的想法,这取决于你如何看待它,而且它同样激发了大量无意义废话以及深远见解。
也许这是因为我的大脑是贝叶斯的,但是我已经发现贝叶斯的暗喻无处不在。当最近在我的Kindle上浏览Edgar Allen Poe全集时,我偶然在The Narrative of Arthur Gordon Pym of Nantucket中看到这个句子:“无关纯粹的偏见,赞成或者反对,我们使用全部确定性作出推断,哪怕是最简单的数据。”
在跳上贝叶斯的马车前,请记住Poe的警告。