共轭先验 | 博客于文

共轭先验（conjugate prior）是贝叶斯统计中的一个重要概念，使得后验分布与先验分布具有相同的函数形式，大大简化了贝叶斯推断的计算。

1. 共轭先验的定义

1.1 基本定义

设似然函数为 $L(\theta | x) = p(x | \theta)$，先验分布为 $\pi(\theta)$。

定义：如果先验分布 $\pi(\theta)$ 与后验分布 $\pi(\theta | x)$ 属于同一分布族，则称 $\pi(\theta)$ 是似然函数的共轭先验。

1.2 数学表述

根据贝叶斯定理，后验分布为：

$$\pi(\theta | x) = \frac{p(x|\theta) \pi(\theta)}{\int p(x|\theta) \pi(\theta) d\theta} \propto p(x|\theta) \pi(\theta)$$

若 $\pi(\theta) \in \mathcal{F}$（某个分布族），且 $\pi(\theta|x) \in \mathcal{F}$，则 $\mathcal{F}$ 对应的分布是似然函数 $p(x|\theta)$ 的共轭先验族。

1.3 共轭先验的优点

计算便利：避免复杂的数值积分，有闭形式解
参数更新：先验参数和观测数据可通过简单规则组合更新
直观理解：超参数具有明确的概率解释
递推贝叶斯：新的后验可作为下一次观测的先验

2. 常见共轭分布对

2.1 正态-正态共轭（Gaussian-Gaussian Conjugacy）

似然：$X | \mu \sim N(\mu, \sigma_0^2)$，$\sigma_0^2$ 已知

先验：$\mu \sim N(\mu_0, \tau_0^2)$

后验：$\mu | X \sim N(\mu_n, \tau_n^2)$

参数更新规则：

对单个观测 $x$：

$$\mu_n = \frac{\tau_0^{-2} \mu_0 + \sigma_0^{-2} x}{\tau_0^{-2} + \sigma_0^{-2}}$$$$\tau_n^{-2} = \tau_0^{-2} + \sigma_0^{-2}$$

对 $n$ 个独立观测 $x_1, \ldots, x_n$，$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$：

$$\mu_n = \frac{\tau_0^{-2} \mu_0 + n\sigma_0^{-2} \bar{x}}{\tau_0^{-2} + n\sigma_0^{-2}}$$$$\tau_n^{-2} = \tau_0^{-2} + n\sigma_0^{-2}$$

直观解释：后验均值是先验和数据均值的加权平均，权重与各自的精度（倒数方差）成正比。

2.2 Beta-二项共轭（Beta-Binomial Conjugacy）

似然：$X | p \sim \text{Binomial}(n, p)$

先验：$p \sim \text{Beta}(\alpha, \beta)$

后验：$p | X \sim \text{Beta}(\alpha + x, \beta + n - x)$

参数更新规则：

若观测到 $x$ 次成功（共 $n$ 次试验）：

$$\alpha_{new} = \alpha + x$$

$$\beta_{new} = \beta + (n - x)$$

直观解释：

$\alpha$ 可理解为先验中"成功"的伪计数
$\beta$ 可理解为先验中"失败"的伪计数
后验参数直接加上观测的成功和失败次数

特殊情况：

无信息先验：$\alpha = \beta = 1$（均匀分布）
Jeffreys 先验：$\alpha = \beta = 0.5$

2.3 Gamma-Poisson 共轭（Gamma-Poisson Conjugacy）

似然：$X | \lambda \sim \text{Poisson}(\lambda)$

先验：$\lambda \sim \text{Gamma}(\alpha, \beta)$

后验：$\lambda | X \sim \text{Gamma}(\alpha + x, \beta + 1)$

参数更新规则（单个观测）：

$$\alpha_{new} = \alpha + x$$

$$\beta_{new} = \beta + 1$$

对 $n$ 个独立观测 $x_1, \ldots, x_n$：

$$\alpha_{new} = \alpha + \sum_{i=1}^n x_i$$

$$\beta_{new} = \beta + n$$

直观解释：

$\alpha$ 为形状参数，可理解为先验观测的总事件数
$\beta$ 为速率参数，可理解为先验观测的周期数
后验参数加上观测的事件总数和周期数

2.4 Gamma-指数共轭（Gamma-Exponential Conjugacy）

似然：$X | \lambda \sim \text{Exp}(\lambda)$，密度为 $f(x|\lambda) = \lambda e^{-\lambda x}$

先验：$\lambda \sim \text{Gamma}(\alpha, \beta)$

后验：$\lambda | x_1, \ldots, x_n \sim \text{Gamma}\left(\alpha + n, \beta + \sum_{i=1}^n x_i\right)$

参数更新规则：

$$\alpha_{new} = \alpha + n$$

$$\beta_{new} = \beta + \sum_{i=1}^n x_i$$

2.5 Dirichlet-多项共轭（Dirichlet-Multinomial Conjugacy）

似然：$\mathbf{X} | \mathbf{p} \sim \text{Multinomial}(n, \mathbf{p})$

其中 $\mathbf{p} = (p_1, \ldots, p_k)$，$\sum_{j=1}^k p_j = 1$

先验：$\mathbf{p} \sim \text{Dirichlet}(\alpha_1, \ldots, \alpha_k)$

后验：$\mathbf{p} | \mathbf{X} \sim \text{Dirichlet}(\alpha_1 + n_1, \ldots, \alpha_k + n_k)$

其中 $n_j$ 为第 $j$ 类的观测计数。

参数更新规则：

$$\alpha_{j,new} = \alpha_j + n_j, \quad j = 1, \ldots, k$$

特殊情况：

对称 Dirichlet 先验：$\alpha_1 = \cdots = \alpha_k = \alpha$
无信息先验：$\alpha = 1$（均匀 Dirichlet）

2.6 正态-正态共轭（方差未知）

似然：$X | \mu, \sigma^2 \sim N(\mu, \sigma^2)$

先验：

$\mu | \sigma^2 \sim N(\mu_0, \sigma^2/\kappa_0)$
$\sigma^2 \sim \text{Inv-Gamma}(\nu_0/2, \nu_0\sigma_0^2/2)$

后验：

$\mu | \sigma^2, \mathbf{x} \sim N(\mu_n, \sigma^2/\kappa_n)$
$\sigma^2 | \mathbf{x} \sim \text{Inv-Gamma}(\nu_n/2, \nu_n\sigma_n^2/2)$

参数更新规则（$n$ 个观测，$\bar{x}$ 为样本均值，$s^2 = \sum_{i=1}^n (x_i - \bar{x})^2$）：

$$\kappa_n = \kappa_0 + n$$$$\mu_n = \frac{\kappa_0 \mu_0 + n\bar{x}}{\kappa_0 + n}$$$$\nu_n = \nu_0 + n$$$$\sigma_n^2 = \frac{\nu_0\sigma_0^2 + (n-1)s^2 + \frac{\kappa_0 n}{kappa_0 + n}(\bar{x} - \mu_0)^2}{\nu_0 + n}$$

3. 共轭先验总结表

似然函数	共轭先验族	后验分布	先验参数
$\text{Binomial}(n, p)$	Beta	Beta	$\alpha, \beta$
$\text{Poisson}(\lambda)$	Gamma	Gamma	$\alpha, \beta$
$\text{Exp}(\lambda)$	Gamma	Gamma	$\alpha, \beta$
$\text{Geometric}(p)$	Beta	Beta	$\alpha, \beta$
$\text{Uniform}(0, \theta)$	Pareto	Pareto	$\alpha, x_0$
$N(\mu, \sigma_0^2)$	Normal	Normal	$\mu_0, \tau_0^2$
$\text{Multinomial}(n, \mathbf{p})$	Dirichlet	Dirichlet	$\boldsymbol{\alpha}$

4. 贝叶斯更新的递推性质

共轭先验的一个重要性质是**递推贝叶斯（sequential Bayes）**的便利性：

$$\text{后验}_n = \text{先验}_{n+1}$$

即，第 $n$ 次观测后的后验分布可作为第 $n+1$ 次观测的先验分布。

例子（Beta-Binomial）：

初始先验：$p \sim \text{Beta}(2, 2)$
观测 1 次成功，1 次失败：后验 $\sim \text{Beta}(3, 3)$
新观测 2 次成功，0 次失败：新后验 $\sim \text{Beta}(5, 3)$

5. 超参数的先验解释

对于许多共轭先验，其参数具有明确的概率解释：

5.1 Beta 分布

$\alpha - 1$：先验中"成功"的伪计数
$\beta - 1$：先验中"失败"的伪计数
$\alpha + \beta - 2$：先验总伪计数

5.2 Gamma 分布

$\alpha$：形状参数，对应伪观测的总值
$\beta$：速率参数，对应伪观测次数
先验中位数：$E[X] = \alpha/\beta$

5.3 Dirichlet 分布

$\alpha_j - 1$：第 $j$ 类的伪计数
$\sum_j(\alpha_j - 1)$：总伪计数
$\text{Dir}(\mathbf{1})$（所有 $\alpha_j = 1$）为无信息先验

6. 共轭先验与无信息先验

虽然共轭先验主要是为了计算便利，但某些共轭先验可作为无信息（或弱信息）先验：

分布	无信息/弱信息先验	说明
Beta	$\text{Beta}(1, 1)$	均匀分布
Gamma	$\text{Gamma}(\epsilon, \epsilon)$，$\epsilon \to 0$	非正规化 Jeffreys 先验
Normal	$N(\mu_0, \tau_0^2)$，$\tau_0 \to \infty$	方差趋于无穷
Dirichlet	$\text{Dir}(\mathbf{1})$	对称无信息先验

7. 参考文献

Gelman, A., et al. (2013). Bayesian Data Analysis (3rd ed.). Chapman and Hall/CRC.
Robert, C. P., & Casella, G. (2004). Monte Carlo Statistical Methods (2nd ed.). Springer.
Bernardo, J. M., & Smith, A. F. (2009). Bayesian Theory. Wiley.
Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.

1. 共轭先验的定义#

1.1 基本定义#

1.2 数学表述#

1.3 共轭先验的优点#

2. 常见共轭分布对#

2.1 正态-正态共轭（Gaussian-Gaussian Conjugacy）#

2.2 Beta-二项共轭（Beta-Binomial Conjugacy）#

2.3 Gamma-Poisson 共轭（Gamma-Poisson Conjugacy）#

2.4 Gamma-指数共轭（Gamma-Exponential Conjugacy）#

2.5 Dirichlet-多项共轭（Dirichlet-Multinomial Conjugacy）#

2.6 正态-正态共轭（方差未知）#

3. 共轭先验总结表#

4. 贝叶斯更新的递推性质#

5. 超参数的先验解释#

5.1 Beta 分布#

5.2 Gamma 分布#

5.3 Dirichlet 分布#

6. 共轭先验与无信息先验#

7. 参考文献#

1. 共轭先验的定义

1.1 基本定义

1.2 数学表述

1.3 共轭先验的优点

2. 常见共轭分布对

2.1 正态-正态共轭（Gaussian-Gaussian Conjugacy）

2.2 Beta-二项共轭（Beta-Binomial Conjugacy）

2.3 Gamma-Poisson 共轭（Gamma-Poisson Conjugacy）

2.4 Gamma-指数共轭（Gamma-Exponential Conjugacy）

2.5 Dirichlet-多项共轭（Dirichlet-Multinomial Conjugacy）

2.6 正态-正态共轭（方差未知）

3. 共轭先验总结表

4. 贝叶斯更新的递推性质

5. 超参数的先验解释

5.1 Beta 分布

5.2 Gamma 分布

5.3 Dirichlet 分布

6. 共轭先验与无信息先验

7. 参考文献