迭代期望定律(Law of Iterated Expectations, LIE),通常也被称为全期望公式(Adam’s Law),是概率论中一个非常核心的定理。它描述了随机变量的条件期望与边缘期望之间的关系。
定理的一般形式 #
假设 $X$ 和 $Y$ 是定义在同一概率空间上的随机变量,且 $E[X]$ 存在(即 $E[|X|] < \infty$),那么其一般形式为:
$$E[X] = E[E[X|Y]]$$
如何理解这个公式? #
这个公式初看可能有点绕,我们可以将其拆解为两个层次:
- 内层期望 $E[X|Y]$:这是一个关于 $Y$ 的函数(也是一个随机变量)。它表示在已知 $Y$ 的取值时,$X$ 的平均值。
- 外层期望 $E[\cdot]$:这是对随机变量 $Y$ 的所有可能取值进行加权平均。
直观理解:
如果你想计算全校学生的平均身高($E[X]$),你可以先按班级($Y$)分组,算出每个班的平均身高($E[X|Y]$),然后再对这些班级平均分进行加权平均(外层 $E$)。最终得到的结果一定等于全校的平均身高。
更广义的形式(基于 $\sigma$-代数) #
在更高级的概率论(测度论背景)中,该定理的形式更为抽象。设 $\mathcal{G}$ 是一个子 $\sigma$-代数(代表某种信息集),则:
$$E[X] = E[E[X|\mathcal{G}]]$$
此外,还有一个非常有用的塔式属性(Tower Property)。如果 $\mathcal{G}_1 \subset \mathcal{G}_2$(即 $\mathcal{G}_1$ 包含的信息比 $\mathcal{G}_2$ 少),那么:
$$E[E[X|\mathcal{G}_2]|\mathcal{G}_1] = E[X|\mathcal{G}_1]$$
这说明:如果你在拥有较少信息的情况下对一个“基于较多信息的预测值”进行预测,你的结果等同于直接利用较少信息进行的预测。(通俗点说:最简单的信息决定了最终的期望)。