共轭先验(conjugate prior)是贝叶斯统计中的一个重要概念,使得后验分布与先验分布具有相同的函数形式,大大简化了贝叶斯推断的计算。

1. 共轭先验的定义

1.1 基本定义

设似然函数为 $L(\theta | x) = p(x | \theta)$,先验分布为 $\pi(\theta)$。

定义:如果先验分布 $\pi(\theta)$ 与后验分布 $\pi(\theta | x)$ 属于同一分布族,则称 $\pi(\theta)$ 是似然函数的共轭先验

1.2 数学表述

根据贝叶斯定理,后验分布为:

$$\pi(\theta | x) = \frac{p(x|\theta) \pi(\theta)}{\int p(x|\theta) \pi(\theta) d\theta} \propto p(x|\theta) \pi(\theta)$$

若 $\pi(\theta) \in \mathcal{F}$(某个分布族),且 $\pi(\theta|x) \in \mathcal{F}$,则 $\mathcal{F}$ 对应的分布是似然函数 $p(x|\theta)$ 的共轭先验族。

1.3 共轭先验的优点

  • 计算便利:避免复杂的数值积分,有闭形式解
  • 参数更新:先验参数和观测数据可通过简单规则组合更新
  • 直观理解:超参数具有明确的概率解释
  • 递推贝叶斯:新的后验可作为下一次观测的先验

2. 常见共轭分布对

2.1 正态-正态共轭(Gaussian-Gaussian Conjugacy)

似然:$X | \mu \sim N(\mu, \sigma_0^2)$,$\sigma_0^2$ 已知

先验:$\mu \sim N(\mu_0, \tau_0^2)$

后验:$\mu | X \sim N(\mu_n, \tau_n^2)$

参数更新规则

对单个观测 $x$:

$$\mu_n = \frac{\tau_0^{-2} \mu_0 + \sigma_0^{-2} x}{\tau_0^{-2} + \sigma_0^{-2}}$$$$\tau_n^{-2} = \tau_0^{-2} + \sigma_0^{-2}$$

对 $n$ 个独立观测 $x_1, \ldots, x_n$,$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$:

$$\mu_n = \frac{\tau_0^{-2} \mu_0 + n\sigma_0^{-2} \bar{x}}{\tau_0^{-2} + n\sigma_0^{-2}}$$$$\tau_n^{-2} = \tau_0^{-2} + n\sigma_0^{-2}$$

直观解释:后验均值是先验和数据均值的加权平均,权重与各自的精度(倒数方差)成正比。

2.2 Beta-二项共轭(Beta-Binomial Conjugacy)

似然:$X | p \sim \text{Binomial}(n, p)$

先验:$p \sim \text{Beta}(\alpha, \beta)$

后验:$p | X \sim \text{Beta}(\alpha + x, \beta + n - x)$

参数更新规则

若观测到 $x$ 次成功(共 $n$ 次试验):

$$\alpha_{new} = \alpha + x$$

$$\beta_{new} = \beta + (n - x)$$

直观解释

  • $\alpha$ 可理解为先验中"成功"的伪计数
  • $\beta$ 可理解为先验中"失败"的伪计数
  • 后验参数直接加上观测的成功和失败次数

特殊情况

  • 无信息先验:$\alpha = \beta = 1$(均匀分布)
  • Jeffreys 先验:$\alpha = \beta = 0.5$

2.3 Gamma-Poisson 共轭(Gamma-Poisson Conjugacy)

似然:$X | \lambda \sim \text{Poisson}(\lambda)$

先验:$\lambda \sim \text{Gamma}(\alpha, \beta)$

后验:$\lambda | X \sim \text{Gamma}(\alpha + x, \beta + 1)$

参数更新规则(单个观测):

$$\alpha_{new} = \alpha + x$$

$$\beta_{new} = \beta + 1$$

对 $n$ 个独立观测 $x_1, \ldots, x_n$:

$$\alpha_{new} = \alpha + \sum_{i=1}^n x_i$$

$$\beta_{new} = \beta + n$$

直观解释

  • $\alpha$ 为形状参数,可理解为先验观测的总事件数
  • $\beta$ 为速率参数,可理解为先验观测的周期数
  • 后验参数加上观测的事件总数和周期数

2.4 Gamma-指数共轭(Gamma-Exponential Conjugacy)

似然:$X | \lambda \sim \text{Exp}(\lambda)$,密度为 $f(x|\lambda) = \lambda e^{-\lambda x}$

先验:$\lambda \sim \text{Gamma}(\alpha, \beta)$

后验:$\lambda | x_1, \ldots, x_n \sim \text{Gamma}\left(\alpha + n, \beta + \sum_{i=1}^n x_i\right)$

参数更新规则

$$\alpha_{new} = \alpha + n$$

$$\beta_{new} = \beta + \sum_{i=1}^n x_i$$

2.5 Dirichlet-多项共轭(Dirichlet-Multinomial Conjugacy)

似然:$\mathbf{X} | \mathbf{p} \sim \text{Multinomial}(n, \mathbf{p})$

其中 $\mathbf{p} = (p_1, \ldots, p_k)$,$\sum_{j=1}^k p_j = 1$

先验:$\mathbf{p} \sim \text{Dirichlet}(\alpha_1, \ldots, \alpha_k)$

后验:$\mathbf{p} | \mathbf{X} \sim \text{Dirichlet}(\alpha_1 + n_1, \ldots, \alpha_k + n_k)$

其中 $n_j$ 为第 $j$ 类的观测计数。

参数更新规则

$$\alpha_{j,new} = \alpha_j + n_j, \quad j = 1, \ldots, k$$

特殊情况

  • 对称 Dirichlet 先验:$\alpha_1 = \cdots = \alpha_k = \alpha$
  • 无信息先验:$\alpha = 1$(均匀 Dirichlet)

2.6 正态-正态共轭(方差未知)

似然:$X | \mu, \sigma^2 \sim N(\mu, \sigma^2)$

先验

  • $\mu | \sigma^2 \sim N(\mu_0, \sigma^2/\kappa_0)$
  • $\sigma^2 \sim \text{Inv-Gamma}(\nu_0/2, \nu_0\sigma_0^2/2)$

后验

  • $\mu | \sigma^2, \mathbf{x} \sim N(\mu_n, \sigma^2/\kappa_n)$
  • $\sigma^2 | \mathbf{x} \sim \text{Inv-Gamma}(\nu_n/2, \nu_n\sigma_n^2/2)$

参数更新规则($n$ 个观测,$\bar{x}$ 为样本均值,$s^2 = \sum_{i=1}^n (x_i - \bar{x})^2$):

$$\kappa_n = \kappa_0 + n$$$$\mu_n = \frac{\kappa_0 \mu_0 + n\bar{x}}{\kappa_0 + n}$$$$\nu_n = \nu_0 + n$$$$\sigma_n^2 = \frac{\nu_0\sigma_0^2 + (n-1)s^2 + \frac{\kappa_0 n}{kappa_0 + n}(\bar{x} - \mu_0)^2}{\nu_0 + n}$$

3. 共轭先验总结表

似然函数共轭先验族后验分布先验参数
$\text{Binomial}(n, p)$BetaBeta$\alpha, \beta$
$\text{Poisson}(\lambda)$GammaGamma$\alpha, \beta$
$\text{Exp}(\lambda)$GammaGamma$\alpha, \beta$
$\text{Geometric}(p)$BetaBeta$\alpha, \beta$
$\text{Uniform}(0, \theta)$ParetoPareto$\alpha, x_0$
$N(\mu, \sigma_0^2)$NormalNormal$\mu_0, \tau_0^2$
$\text{Multinomial}(n, \mathbf{p})$DirichletDirichlet$\boldsymbol{\alpha}$

4. 贝叶斯更新的递推性质

共轭先验的一个重要性质是**递推贝叶斯(sequential Bayes)**的便利性:

$$\text{后验}_n = \text{先验}_{n+1}$$

即,第 $n$ 次观测后的后验分布可作为第 $n+1$ 次观测的先验分布。

例子(Beta-Binomial):

  • 初始先验:$p \sim \text{Beta}(2, 2)$
  • 观测 1 次成功,1 次失败:后验 $\sim \text{Beta}(3, 3)$
  • 新观测 2 次成功,0 次失败:新后验 $\sim \text{Beta}(5, 3)$

5. 超参数的先验解释

对于许多共轭先验,其参数具有明确的概率解释:

5.1 Beta 分布

  • $\alpha - 1$:先验中"成功"的伪计数
  • $\beta - 1$:先验中"失败"的伪计数
  • $\alpha + \beta - 2$:先验总伪计数

5.2 Gamma 分布

  • $\alpha$:形状参数,对应伪观测的总值
  • $\beta$:速率参数,对应伪观测次数
  • 先验中位数:$E[X] = \alpha/\beta$

5.3 Dirichlet 分布

  • $\alpha_j - 1$:第 $j$ 类的伪计数
  • $\sum_j(\alpha_j - 1)$:总伪计数
  • $\text{Dir}(\mathbf{1})$(所有 $\alpha_j = 1$)为无信息先验

6. 共轭先验与无信息先验

虽然共轭先验主要是为了计算便利,但某些共轭先验可作为无信息(或弱信息)先验:

分布无信息/弱信息先验说明
Beta$\text{Beta}(1, 1)$均匀分布
Gamma$\text{Gamma}(\epsilon, \epsilon)$,$\epsilon \to 0$非正规化 Jeffreys 先验
Normal$N(\mu_0, \tau_0^2)$,$\tau_0 \to \infty$方差趋于无穷
Dirichlet$\text{Dir}(\mathbf{1})$对称无信息先验

7. 参考文献

  • Gelman, A., et al. (2013). Bayesian Data Analysis (3rd ed.). Chapman and Hall/CRC.
  • Robert, C. P., & Casella, G. (2004). Monte Carlo Statistical Methods (2nd ed.). Springer.
  • Bernardo, J. M., & Smith, A. F. (2009). Bayesian Theory. Wiley.
  • Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.