共轭先验(conjugate prior)是贝叶斯统计中的一个重要概念,使得后验分布与先验分布具有相同的函数形式,大大简化了贝叶斯推断的计算。
1. 共轭先验的定义
1.1 基本定义
设似然函数为 $L(\theta | x) = p(x | \theta)$,先验分布为 $\pi(\theta)$。
定义:如果先验分布 $\pi(\theta)$ 与后验分布 $\pi(\theta | x)$ 属于同一分布族,则称 $\pi(\theta)$ 是似然函数的共轭先验。
1.2 数学表述
根据贝叶斯定理,后验分布为:
$$\pi(\theta | x) = \frac{p(x|\theta) \pi(\theta)}{\int p(x|\theta) \pi(\theta) d\theta} \propto p(x|\theta) \pi(\theta)$$若 $\pi(\theta) \in \mathcal{F}$(某个分布族),且 $\pi(\theta|x) \in \mathcal{F}$,则 $\mathcal{F}$ 对应的分布是似然函数 $p(x|\theta)$ 的共轭先验族。
1.3 共轭先验的优点
- 计算便利:避免复杂的数值积分,有闭形式解
- 参数更新:先验参数和观测数据可通过简单规则组合更新
- 直观理解:超参数具有明确的概率解释
- 递推贝叶斯:新的后验可作为下一次观测的先验
2. 常见共轭分布对
2.1 正态-正态共轭(Gaussian-Gaussian Conjugacy)
似然:$X | \mu \sim N(\mu, \sigma_0^2)$,$\sigma_0^2$ 已知
先验:$\mu \sim N(\mu_0, \tau_0^2)$
后验:$\mu | X \sim N(\mu_n, \tau_n^2)$
参数更新规则:
对单个观测 $x$:
$$\mu_n = \frac{\tau_0^{-2} \mu_0 + \sigma_0^{-2} x}{\tau_0^{-2} + \sigma_0^{-2}}$$$$\tau_n^{-2} = \tau_0^{-2} + \sigma_0^{-2}$$对 $n$ 个独立观测 $x_1, \ldots, x_n$,$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$:
$$\mu_n = \frac{\tau_0^{-2} \mu_0 + n\sigma_0^{-2} \bar{x}}{\tau_0^{-2} + n\sigma_0^{-2}}$$$$\tau_n^{-2} = \tau_0^{-2} + n\sigma_0^{-2}$$直观解释:后验均值是先验和数据均值的加权平均,权重与各自的精度(倒数方差)成正比。
2.2 Beta-二项共轭(Beta-Binomial Conjugacy)
似然:$X | p \sim \text{Binomial}(n, p)$
先验:$p \sim \text{Beta}(\alpha, \beta)$
后验:$p | X \sim \text{Beta}(\alpha + x, \beta + n - x)$
参数更新规则:
若观测到 $x$ 次成功(共 $n$ 次试验):
$$\alpha_{new} = \alpha + x$$$$\beta_{new} = \beta + (n - x)$$直观解释:
- $\alpha$ 可理解为先验中"成功"的伪计数
- $\beta$ 可理解为先验中"失败"的伪计数
- 后验参数直接加上观测的成功和失败次数
特殊情况:
- 无信息先验:$\alpha = \beta = 1$(均匀分布)
- Jeffreys 先验:$\alpha = \beta = 0.5$
2.3 Gamma-Poisson 共轭(Gamma-Poisson Conjugacy)
似然:$X | \lambda \sim \text{Poisson}(\lambda)$
先验:$\lambda \sim \text{Gamma}(\alpha, \beta)$
后验:$\lambda | X \sim \text{Gamma}(\alpha + x, \beta + 1)$
参数更新规则(单个观测):
$$\alpha_{new} = \alpha + x$$$$\beta_{new} = \beta + 1$$对 $n$ 个独立观测 $x_1, \ldots, x_n$:
$$\alpha_{new} = \alpha + \sum_{i=1}^n x_i$$$$\beta_{new} = \beta + n$$直观解释:
- $\alpha$ 为形状参数,可理解为先验观测的总事件数
- $\beta$ 为速率参数,可理解为先验观测的周期数
- 后验参数加上观测的事件总数和周期数
2.4 Gamma-指数共轭(Gamma-Exponential Conjugacy)
似然:$X | \lambda \sim \text{Exp}(\lambda)$,密度为 $f(x|\lambda) = \lambda e^{-\lambda x}$
先验:$\lambda \sim \text{Gamma}(\alpha, \beta)$
后验:$\lambda | x_1, \ldots, x_n \sim \text{Gamma}\left(\alpha + n, \beta + \sum_{i=1}^n x_i\right)$
参数更新规则:
$$\alpha_{new} = \alpha + n$$$$\beta_{new} = \beta + \sum_{i=1}^n x_i$$2.5 Dirichlet-多项共轭(Dirichlet-Multinomial Conjugacy)
似然:$\mathbf{X} | \mathbf{p} \sim \text{Multinomial}(n, \mathbf{p})$
其中 $\mathbf{p} = (p_1, \ldots, p_k)$,$\sum_{j=1}^k p_j = 1$
先验:$\mathbf{p} \sim \text{Dirichlet}(\alpha_1, \ldots, \alpha_k)$
后验:$\mathbf{p} | \mathbf{X} \sim \text{Dirichlet}(\alpha_1 + n_1, \ldots, \alpha_k + n_k)$
其中 $n_j$ 为第 $j$ 类的观测计数。
参数更新规则:
$$\alpha_{j,new} = \alpha_j + n_j, \quad j = 1, \ldots, k$$特殊情况:
- 对称 Dirichlet 先验:$\alpha_1 = \cdots = \alpha_k = \alpha$
- 无信息先验:$\alpha = 1$(均匀 Dirichlet)
2.6 正态-正态共轭(方差未知)
似然:$X | \mu, \sigma^2 \sim N(\mu, \sigma^2)$
先验:
- $\mu | \sigma^2 \sim N(\mu_0, \sigma^2/\kappa_0)$
- $\sigma^2 \sim \text{Inv-Gamma}(\nu_0/2, \nu_0\sigma_0^2/2)$
后验:
- $\mu | \sigma^2, \mathbf{x} \sim N(\mu_n, \sigma^2/\kappa_n)$
- $\sigma^2 | \mathbf{x} \sim \text{Inv-Gamma}(\nu_n/2, \nu_n\sigma_n^2/2)$
参数更新规则($n$ 个观测,$\bar{x}$ 为样本均值,$s^2 = \sum_{i=1}^n (x_i - \bar{x})^2$):
$$\kappa_n = \kappa_0 + n$$$$\mu_n = \frac{\kappa_0 \mu_0 + n\bar{x}}{\kappa_0 + n}$$$$\nu_n = \nu_0 + n$$$$\sigma_n^2 = \frac{\nu_0\sigma_0^2 + (n-1)s^2 + \frac{\kappa_0 n}{kappa_0 + n}(\bar{x} - \mu_0)^2}{\nu_0 + n}$$3. 共轭先验总结表
| 似然函数 | 共轭先验族 | 后验分布 | 先验参数 |
|---|---|---|---|
| $\text{Binomial}(n, p)$ | Beta | Beta | $\alpha, \beta$ |
| $\text{Poisson}(\lambda)$ | Gamma | Gamma | $\alpha, \beta$ |
| $\text{Exp}(\lambda)$ | Gamma | Gamma | $\alpha, \beta$ |
| $\text{Geometric}(p)$ | Beta | Beta | $\alpha, \beta$ |
| $\text{Uniform}(0, \theta)$ | Pareto | Pareto | $\alpha, x_0$ |
| $N(\mu, \sigma_0^2)$ | Normal | Normal | $\mu_0, \tau_0^2$ |
| $\text{Multinomial}(n, \mathbf{p})$ | Dirichlet | Dirichlet | $\boldsymbol{\alpha}$ |
4. 贝叶斯更新的递推性质
共轭先验的一个重要性质是**递推贝叶斯(sequential Bayes)**的便利性:
$$\text{后验}_n = \text{先验}_{n+1}$$即,第 $n$ 次观测后的后验分布可作为第 $n+1$ 次观测的先验分布。
例子(Beta-Binomial):
- 初始先验:$p \sim \text{Beta}(2, 2)$
- 观测 1 次成功,1 次失败:后验 $\sim \text{Beta}(3, 3)$
- 新观测 2 次成功,0 次失败:新后验 $\sim \text{Beta}(5, 3)$
5. 超参数的先验解释
对于许多共轭先验,其参数具有明确的概率解释:
5.1 Beta 分布
- $\alpha - 1$:先验中"成功"的伪计数
- $\beta - 1$:先验中"失败"的伪计数
- $\alpha + \beta - 2$:先验总伪计数
5.2 Gamma 分布
- $\alpha$:形状参数,对应伪观测的总值
- $\beta$:速率参数,对应伪观测次数
- 先验中位数:$E[X] = \alpha/\beta$
5.3 Dirichlet 分布
- $\alpha_j - 1$:第 $j$ 类的伪计数
- $\sum_j(\alpha_j - 1)$:总伪计数
- $\text{Dir}(\mathbf{1})$(所有 $\alpha_j = 1$)为无信息先验
6. 共轭先验与无信息先验
虽然共轭先验主要是为了计算便利,但某些共轭先验可作为无信息(或弱信息)先验:
| 分布 | 无信息/弱信息先验 | 说明 |
|---|---|---|
| Beta | $\text{Beta}(1, 1)$ | 均匀分布 |
| Gamma | $\text{Gamma}(\epsilon, \epsilon)$,$\epsilon \to 0$ | 非正规化 Jeffreys 先验 |
| Normal | $N(\mu_0, \tau_0^2)$,$\tau_0 \to \infty$ | 方差趋于无穷 |
| Dirichlet | $\text{Dir}(\mathbf{1})$ | 对称无信息先验 |
7. 参考文献
- Gelman, A., et al. (2013). Bayesian Data Analysis (3rd ed.). Chapman and Hall/CRC.
- Robert, C. P., & Casella, G. (2004). Monte Carlo Statistical Methods (2nd ed.). Springer.
- Bernardo, J. M., & Smith, A. F. (2009). Bayesian Theory. Wiley.
- Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.