diff --git a/lectures/prob_meaning.md b/lectures/prob_meaning.md index b9010d6..0acae28 100644 --- a/lectures/prob_meaning.md +++ b/lectures/prob_meaning.md @@ -17,9 +17,9 @@ kernelspec: 本讲座说明了**概率分布**的两种不同解释 -* 频率主义解释:预期在大规模独立同分布样本中出现的**相对频率** +* 频率主义解释:在大型独立同分布样本中,概率表示预期出现的**相对频率** -* 贝叶斯解释:在观察一系列数据后对参数或参数列表的**个人观点** +* 贝叶斯解释:概率是在观察一系列数据后对参数或参数列表的**个人观点** 我们建议观看这个关于频率主义方法中**假设检验**的视频 @@ -31,7 +31,15 @@ kernelspec: ```{youtube} Pahyv9i_X2k ``` -在您熟悉这些视频中的内容后,本讲座将使用苏格拉底方法来帮助巩固您对以下两种方法所回答的不同问题的理解: + + +在您熟悉这些视频中的内容后,本讲座将使用苏格拉底提问法来帮助巩固您对以下两种方法所回答的不同问题的理解: * 频率主义置信区间 @@ -76,9 +84,9 @@ $$ \left(\frac{n!}{k! (n-k)!} \right) \theta^k (1-\theta)^{n-k} $$ -其中固定参数 $\theta \in (0,1)$。 +其中 $\theta \in (0,1)$ 是一个固定参数。 -这被称为__二项分布__。 +这被称为*二项分布*。 这里 @@ -96,11 +104,11 @@ $$ * 我们用它来描述从参数为 $\theta$ 的**伯努利**分布中进行 $n$ 次独立抽样,从而得到一个参数为 $\theta,n$ 的**二项**分布的一次抽样。 -* 我们再次使用它来描述我们进行 $I$ 次这样的 $n$ 次投币序列。 +* 我们再次使用它来描述我们进行 $I$ 次这样的 $n$ 次硬币投掷序列。 令 $y_h^i \in \{0, 1\}$ 表示第 $i$ 次序列中第 $h$ 次投掷的 $Y$ 的实际值。 -令 $\sum_{h=1}^n y_h^i$ 表示第 $i$ 次 $n$ 次独立投币序列中出现正面的总次数。 +令 $\sum_{h=1}^n y_h^i$ 表示第 $i$ 次序列的 $n$ 次独立硬币投掷中出现正面的总次数。 令 $f_k$ 记录长度为 $n$ 的样本中满足 $\sum_{h=1}^n y_h^i = k$ 的比例: @@ -123,7 +131,7 @@ $$ 2. 请使用你的代码计算 $f_k^I, k = 0, \ldots , n$ 并将其与不同 $\theta, n$ 和 $I$ 值下的 $\textrm{Prob}(X = k | \theta)$ 进行比较 -3. 结合大数定律,用你的代码说明一些现象 +3. 结合大数定律,运行你的代码并说明观察到的结论 ``` ```{solution-start} pm_ex1 @@ -308,41 +316,40 @@ plt.legend() plt.show() ``` -从上面的图表中,我们可以看到**$I$,即独立序列的数量,**起着重要作用。 +从上面的图表中,我们可以看到 $I$,即**独立序列的数量**,起着重要作用。 -当$I$变大时,理论概率和频率估计之间的差异变小。 +随着 $I$ 变大,理论概率和频率估计之间的差距变小。 -而且,只要$I$足够大,改变$\theta$或$n$都不会实质性地改变观察到的分数作为$\theta$的近似值的准确性。 +而且,只要 $I$ 足够大,改变 $\theta$ 或 $n$ 都不会实质性地改变观察到的分数作为 $\theta$ 的近似值的准确性。 -这里体现了大数定律。 +这正是大数定律在起作用。 -对于每个独立序列的抽取,$\textrm{Prob}(X_i = k | \theta)$都是相同的,所以所有抽取的聚合形成了一个二元随机变量$\rho_{k,i},i=1,2,...I$的独立同分布序列,其均值为$\textrm{Prob}(X = k | \theta)$,方差为 +对于每个独立序列的抽取,$\textrm{Prob}(X_i = k | \theta)$ 都是相同的,所以所有抽取的聚合形成了一个二元随机变量 $\rho_{k,i},i=1,2,...I$ 的独立同分布序列,其均值为$\textrm{Prob}(X = k | \theta)$,方差为 $$ n \cdot \textrm{Prob}(X = k | \theta) \cdot (1-\textrm{Prob}(X = k | \theta)). $$ -因此,根据大数定律,$P_{k,i}$的平均值收敛于: +因此,根据大数定律,当$I$趋向于无穷时,$P_{k,i}$ 的平均值收敛于: $$ E[\rho_{k,i}] = \textrm{Prob}(X = k | \theta) = \left(\frac{n!}{k! (n-k)!} \right) \theta^k (1-\theta)^{n-k} $$ -当$I$趋向于无穷时。 ## 贝叶斯解释 -我们再次使用二项分布。 +我们仍然使用二项分布。 -但现在我们不把$\theta$看作是一个固定的数。 +但现在我们不把 $\theta$ 看作是一个固定的数。 相反,我们把它看作是一个**随机变量**。 -$\theta$由一个概率分布来描述。 +$\theta$ 由一个概率分布来描述。 但现在这个概率分布的含义与我们在大规模独立同分布样本中能预期出现的相对频率不同。 -相反,$\theta$的概率分布现在是我们对$\theta$可能值的看法的总结,这些看法要么是 +相反,$\theta$ 的概率分布现在是我们对 $\theta$ 可能值的看法的总结,这些看法要么是 * 在我们**完全没有看到**任何数据之前,或者 * 在我们已经看到**一些**数据之后,但在看到**更多**数据之前 @@ -353,24 +360,24 @@ $$ P(\theta) = \frac{\theta^{\alpha-1}(1-\theta)^{\beta -1}}{B(\alpha, \beta)} $$ -其中$B(\alpha, \beta)$是一个**贝塔函数**,所以$P(\theta)$是一个带参数$\alpha, \beta$的**贝塔分布**。 +其中 $B(\alpha, \beta)$ 是一个**贝塔函数**,所以 $P(\theta)$ 是一个带参数 $\alpha, \beta$ 的**贝塔分布**。 ```{exercise} :label: pm_ex2 -**a)** 请写出从参数为$\theta$的二项分布中抽取长度为$n$的样本的**似然函数**。 +**a)** 请写出从参数为 $\theta$ 的二项分布中抽取长度为 $n$ 的样本的**似然函数**。 -**b)** 请写出观察到一次硬币翻转后$\theta$的**后验**分布。 +**b)** 请写出观察到一次硬币翻转后 $\theta$ 的**后验**分布。 -**c)** 现在假设$\theta$的真实值为$.4$,而某个不知道这一点的人有一个参数为$\beta = \alpha = .5$的贝塔先验分布。请编写一个Python类来模拟这个人对于一个长度为$n$的_单个_序列的$\theta$的个人后验分布。 +**c)** 现在假设 $\theta$ 的真实值为 $.4$,而某个不知道这一点的人有一个参数为 $\beta = \alpha = .5$ 的贝塔先验分布。请编写一个Python类来模拟这个人对于一个长度为 $n$ 的*单个*序列的 $\theta$ 的个人后验分布。 -**d)** 请绘制当$n$增长为$1, 2, \ldots$时,$\theta$的后验分布关于$\theta$的函数图。 +**d)** 请绘制当 $n$ 增长为 $1, 2, \ldots$ 时,$\theta$ 的后验分布关于 $\theta$ 的函数图。 -**e)** 对于不同的$n$值,请描述并计算区间$[.45, .55]$的贝叶斯覆盖区间。 +**e)** 对于不同的 $n$ 值,请描述并计算区间 $[.45, .55]$ 的贝叶斯覆盖区间。 **f)** 请说明贝叶斯覆盖区间回答了什么问题。 -**g)** 请计算对于不同的样本大小$n$,后验概率$P(\theta \in [.45, .55])$的值。 +**g)** 请计算对于不同的样本大小$n$,后验概率 $P(\theta \in [.45, .55])$ 的值。 **h)** 请使用您的Python类来研究当 $n \rightarrow + \infty$ 时后验分布会发生什么变化,同样假设 $\theta$ 的真实值为 $.4$,尽管对于通过贝叶斯定律进行更新的人来说这是未知的。 ``` @@ -379,9 +386,9 @@ $$ :class: dropdown ``` -**a)** 请写出观察到一次硬币翻转后 $\theta$ 的**似然函数**和**后验**分布。 +**a)** 请写出从参数为 $\theta$ 的二项分布中抽取长度为 $n$ 的样本的**似然函数**。 -假设结果为 __Y__。 +假设结果为 $Y$。 似然函数为: @@ -400,12 +407,14 @@ $$ 我们可以通过以下方式推导 $\theta$ 的后验分布: -\begin{align*} +$$ +\begin{aligned} \textrm{Prob}(\theta | Y) &= \frac{\textrm{Prob}(Y | \theta) \textrm{Prob}(\theta)}{\textrm{Prob}(Y)} \\ &=\frac{\textrm{Prob}(Y | \theta) \textrm{Prob}(\theta)}{\int_{0}^{1} \textrm{Prob}(Y | \theta) \textrm{Prob}(\theta) d \theta }\\ &= \frac{\theta^Y (1-\theta)^{1-Y}\frac{\theta^{\alpha - 1} (1 - \theta)^{\beta - 1}}{B(\alpha, \beta)}}{\int_{0}^{1}\theta^Y (1-\theta)^{1-Y}\frac{\theta^{\alpha - 1} (1 - \theta)^{\beta - 1}}{B(\alpha, \beta)} d \theta } \\ &= \frac{ \theta^{Y+\alpha - 1} (1 - \theta)^{1-Y+\beta - 1}}{\int_{0}^{1}\theta^{Y+\alpha - 1} (1 - \theta)^{1-Y+\beta - 1} d \theta} -\end{align*} +\end{aligned} +$$ 这意味着 @@ -415,7 +424,7 @@ $$ 现在假设 $\theta$ 的真实值为 $.4$,并且有一个不知道这一点的人,他有一个 $\beta = \alpha = .5$ 的beta先验分布。 -**c)** 现在假设 $\theta$ 的真实值为 $.4$,并且有一个不知道这一点的人,他有一个参数为 $\beta = \alpha = .5$ 的beta先验分布。请编写一个Python类来模拟这个人对于_单个_长度为 $n$ 的序列的 $\theta$ 的个人后验分布。 +**c)** 现在假设 $\theta$ 的真实值为 $.4$,而某个不知道这一点的人有一个参数为 $\beta = \alpha = .5$ 的贝塔先验分布。请编写一个Python类来模拟这个人对于一个长度为 $n$ 的*单个*序列的 $\theta$ 的个人后验分布。 ```{code-cell} ipython3 class Bayesian: @@ -479,7 +488,8 @@ class Bayesian: self.posterior_list.append(self.form_single_posterior(num)) ``` -**d)** 请绘制$\theta$的后验分布随着$n$从$1, 2, \ldots$增长时的函数图。 + +**d)** 请绘制当 $n$ 增长为 $1, 2, \ldots$ 时,$\theta$ 的后验分布关于 $\theta$ 的函数图。 ```{code-cell} ipython3 Bay_stat = Bayesian() @@ -506,7 +516,8 @@ ax.legend(fontsize=11) plt.show() ``` -**e)** 对于不同的 $n$ 值,请描述并计算后验概率的 $.05$ 和 $.95$ 分位数。 + +**e)** 对于不同的 $n$ 值,请描述并计算区间 $[.45, .55]$ 的贝叶斯覆盖区间。 ```{code-cell} ipython3 upper_bound = [ii.ppf(0.05) for ii in Bay_stat.posterior_list[:14]] @@ -522,19 +533,21 @@ interval_df 随着$n$的增加,我们可以看到贝叶斯覆盖区间变窄并趋向于$0.4$。 + **f)** 请说明贝叶斯覆盖区间回答了什么问题。 -贝叶斯覆盖区间表示后验分布的累积概率分布(CDF)中[$p_1$, $p_2$]分位数对应的$\theta$的范围。 +贝叶斯覆盖区间表示后验分布的累积概率分布(CDF)中 $[p_1, p_2]$ 分位数对应的$\theta$的范围。 要构建覆盖区间,我们首先计算未知参数$\theta$的后验分布。 -如果CDF为$F(\theta)$,那么区间$[p_1,p_2]$的贝叶斯覆盖区间$[a,b]$由以下等式描述: +如果CDF为$F(\theta)$,那么区间 $[p_1,p_2]$ 的贝叶斯覆盖区间 $[a,b]$ 由以下等式描述: $$ F(a)=p_1,F(b)=p_2 $$ -**g)** 请计算不同样本量$n$下$\theta \in [.45, .55]$的后验概率。 + +**g)** 请计算对于不同的样本大小$n$,后验概率 $P(\theta \in [.45, .55])$ 的值。 ```{code-cell} ipython3 left_value, right_value = 0.45, 0.55 @@ -556,7 +569,7 @@ plt.show() 这里有两种相互对立的力量在起作用。 -第一种力量是,个体在观察到新的结果时会调整他的信念,使他的后验概率分布变得越来越符合实际,这解释了后验概率的上升。 +第一种力量是,个体在观察到新的结果时会调整他的信念,使他的后验概率分布变得越来越符合真实值,这解释了后验概率的上升。 然而,$[.45, .55]$ 实际上排除了生成数据的真实 $\theta =.4$。 @@ -568,7 +581,7 @@ plt.show() 这就是为什么当观测数量超过500时,我们看到一条几乎水平的线。 -**h)** 请使用你的Python类来研究当 $n \rightarrow + \infty$ 时后验分布会发生什么,同样假设 $\theta = .4$ 是真实值,尽管对于通过贝叶斯法则进行更新的人来说这是未知的。 +**h)** 请使用您的Python类来研究当 $n \rightarrow + \infty$ 时后验分布会发生什么变化,同样假设 $\theta$ 的真实值为 $.4$,尽管对于通过贝叶斯定律进行更新的人来说这是未知的。 使用我们上面创建的Python类,我们可以看到后验分布随着 $n$ 趋向于无穷大时的演变。 @@ -588,7 +601,7 @@ ax.legend(fontsize=11) plt.show() ``` -随着 $n$ 的增加,我们可以看到概率密度函数在 $0.4$(即 $\theta$ 的真实值)处_集中_。 +随着 $n$ 的增加,我们可以看到概率密度函数在 $0.4$(即 $\theta$ 的真实值)处*集中*。 这里后验均值收敛于 $0.4$,而后验标准差从上方收敛于 $0$。 @@ -622,7 +635,7 @@ plt.show() 答案就在贝叶斯更新公式中。 -将单步贝叶斯更新自然延伸到 n 步贝叶斯更新是很合理的。 +将单步贝叶斯更新自然延伸到 $n$ 步贝叶斯更新是很合理的。 $$ \textrm{Prob}(\theta|k) = \frac{\textrm{Prob}(\theta,k)}{\textrm{Prob}(k)}=\frac{\textrm{Prob}(k|\theta)*\textrm{Prob}(\theta)}{\textrm{Prob}(k)}=\frac{\textrm{Prob}(k|\theta)*\textrm{Prob}(\theta)}{\int_0^1 \textrm{Prob}(k|\theta)*\textrm{Prob}(\theta) d\theta} @@ -677,15 +690,15 @@ plt.show() 在观察了大量结果后,后验分布收敛在$0.4$周围。 -因此,贝叶斯统计学家认为$\theta$接近$.4$。 +因此,贝叶斯统计学家认为 $\theta$ 接近 $.4$。 -如上图所示,随着观测数量的增加,贝叶斯置信区间(BCIs)在$0.4$周围变得越来越窄。 +如上图所示,随着观测数量的增加,贝叶斯覆盖区间(BCIs)在 $0.4$ 周围变得越来越窄。 然而,如果仔细观察,你会发现BCIs的中心并不完全是$0.4$,这是由于先验分布的持续影响和模拟路径的随机性造成的。 ## 共轭先验的作用 -我们做出了一些假设,将似然函数和先验的函数形式联系起来,这大大简化了我们的计算。 +在上述分析中,我们做出了一些假设,将似然函数和先验的函数形式联系起来,这大大简化了我们的计算。 特别是,我们假设似然函数是**二项分布**,而先验分布是**beta分布**,这导致贝叶斯定律推导出的后验分布也是**beta分布**。 @@ -693,16 +706,16 @@ plt.show() 当似然函数和先验像手和手套一样完美匹配时,我们可以说先验和后验是**共轭分布**。 -在这种情况下,我们有时也说我们有似然函数$\textrm{Prob}(X | \theta)$的**共轭先验**。 +在这种情况下,我们有时也说我们有似然函数 $\textrm{Prob}(X | \theta)$ 的**共轭先验**。 通常,似然函数的函数形式决定了**共轭先验**的函数形式。 -一个自然的问题是,为什么一个人对参数$\theta$的个人先验必须局限于共轭先验的形式? +一个自然的问题是,为什么一个人对参数 $\theta$ 的个人先验必须局限于共轭先验的形式? 为什么不能是其他更真实地描述个人信念的函数形式? -从争辩的角度来说,人们可以问,为什么似然函数的形式应该对我关于$\theta$的个人信念有*任何*影响? +从争辩的角度来说,人们可以问,为什么似然函数的形式应该对我关于 $\theta$ 的个人信念有*任何*影响? 对这个问题的一个得体回答是,确实不应该有影响,但如果你想要轻松地计算后验分布,使用与似然函数共轭的先验会让你更愉快。