第1章 贝叶斯定理
贝叶斯思维:统计建模的Python学习法
1.1 条件概率
所有贝叶斯统计的方法都基于贝叶斯定理,如果有条件概率的学习基础,意识到这一点很自然。因此我们会从概率、条件概率开始,然后到贝叶斯定理,最后讨论贝叶斯统计的内容。
概率表示为0和1之间的数字(包括0和1),含义是某一事件或者预测行为的可信程度,1值表示“事件为真”的情形肯定发生,或表述为预测成真;而0值则表示“事件为真”这一情形为假。
其他中间值表示确定性的程度。例如,0.5通常也会写成50%,意味着一个预测结果发生和不发生有同等可能性。例如,在一个掷硬币事件中,人像面(正面)朝上的概率就非常接近50%。
条件概率是带有某些(前提条件)背景约束下的概率问题。例如,我想了解一下明年自己心脏病发作的可能性。根据疾病控制中心的数据,每年大约有78.5万名美国人罹患心脏病(http://www.cdc.gov//heartdisease/fact.html)。
美国约有3.11亿人,假设随机挑选一个美国人,那么其在明年心脏病发作的概率大约是0.3%。
但就具体个例而言,“我”可不是那个被随意选中的美国人。流行病学家们已经明确了多种影响心脏病发作的风险因素,根据这些因素我的风险则有可能高于或低于平均值。
本人男,45 岁,有临界高胆固醇,这些因素增加了我发病的可能性;然而,血压低、不抽烟这些因素则降低了可能性。
把上面这些条件输入在线计算器http://hp2010.nhlbihin.net/atpiii/calculator.asp,我发现自己明年心脏病发作的风险约为0.2%,低于全国平均水平。这个值就是一个条件概率,因为它是基于一系列前提因素的,这些因素构成了我患心脏病的“条件”。
通常条件概率的记号是p(A|B),表示在给定B条件下A事件发生的概率。在这个例子中,A表示我明年罹患心脏病带的概率,而B表示了上面所罗列的条件。