协方差矩阵
方差和协方差的定义
方差:用来度量单个随机变量的离散程度
$$\sigma_{x}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}$$
为什么样本方差的分母是n-1?
最简单的原因,是因为因为均值已经用了n个数的平均来做估计在求方差时,只有(n-1)个数和均值信息是不相关的。而你的第n个数已经可以由前(n-1)个数和均值 来唯一确定,实际上没有信息量。所以在计算方差时,只除以(n-1)。
协方差:一般用来刻画两个随机变量的相似程度
$$\sigma(x, y)=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)$$
在公式中,符号 $\bar{x}, \bar{y}$ 分别表示两个随机变量所对应的观测样本均值,据此,我们发现:方差 $\sigma_{x}^{2}$ 可视作随机变量 x 关于其自身的协方差 $\sigma(x, x)$ .
从方差/协方差到协方差矩阵
根据方差的定义,给定 $d$ 个随机变量 $x_{k},k=1,2,\ldots,d$ ,则这些随机变量的方差为
$$\sigma\left(x_{k},x_{k}\right)=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{k i}-\bar{x}_{k}\right)^{2},k=1,2,\ldots,d$$
$x_{k i}$ 表示随机变量 $x_{k}$ 中的第 $i$ 个观测样本,$n$ 表示样本量,每个随机变量所对应的观测样本数量均为 $n$ 。
对于这些随机变量,我们还可以根据协方差的定义,求出两两之间的协方差,即
因此,协方差矩阵为 $$\Sigma=\left[\begin{array}{ccc}\sigma\left(x_{1}, x_{1}\right)&\cdots&\sigma\left(x_{1},x_{d}\right)\\vdots&\ddots&\vdots\\sigma\left(x_{d},x_{1}\right)&\cdots&\sigma\left(x_{d},x_{d}\right)\end{array}\right]\in\mathbb{R}^{d\times d}$$
其中,对角线上的元素为各个随机变量的方差,非对角线上的元素为两两随机变量之间的协方差,根据协方差的定义,我们可以认定:矩阵 $\Sigma$ 为对称矩阵(symmetric matrix),其大小为 $d$ x $d$ 。
多元正态分布与线性变换
多元正态分布—n维的多元正态分布,也称为多元高斯分布
假设一个向量 $x$ 服从均值向量为 $\boldsymbol{\mu}$ 、协方差矩阵为 $\Sigma$ 的多元正态分布(multi-variate Gaussian distribution)【第二章】,则 $$p(\boldsymbol{x})=|2 \pi \Sigma|^{-1 / 2} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)$$
联立理解:多元正态分布
令该分布的均值向量为 $\boldsymbol{\mu}=\mathbf{0}$ ,由于指数项外面的系数 $|2 \pi \Sigma|^{-1 / 2}$ 通常作为常数,故可将多元正态分布简化为 $$p(\boldsymbol{x}) \propto \exp \left(-\frac{1}{2} \boldsymbol{x}^{T} \Sigma^{-1} \boldsymbol{x}\right)$$
再令 $\boldsymbol{x}=(y, z)^{T}$ ,包含两个随机变量 $y$ 和 $z$ ,则协方差矩阵可写成如下形式: $$ \Sigma=\left[\begin{array}{ll}\sigma(y, y) & \sigma(y, z) \ \sigma(z, y) & \sigma(z, z)\end{array}\right] \in \mathbb{R}^{2 \times 2} $$
用单位矩阵(identity matrix) $I$ 作为协方差矩阵,随机变量 $y$ 和 $z$ 的方差均为1,则生成如干个随机数如图所示。
知识补充:单位矩阵
单位矩阵是个方阵,从左上角到右下角的对角线(称为主对角线)上的元素均为1。除此以外全都为0。任何矩阵与单位矩阵相乘都等于本身
在生成的若干个随机数中,每个点的似然为 $$ \mathcal{L}(\boldsymbol{x}) \propto \exp \left(-\frac{1}{2} \boldsymbol{x}^{T} \boldsymbol{x}\right) $$
知识补充:线性变换
视频教学
线性性质一:直线在变换后仍然保持为直线,不能弯曲;线性性质二:原点是固定不变的
对图[二元正态分布]中的所有点考虑一个线性变换(linear transformation):$\boldsymbol{t}=A \boldsymbol{x}$ ,我们能够得到图
在线性变换中,矩阵 $A$ 被称为变换矩阵(transformation matrix),为了将图1中的点经过线性变换得到我们想要的图2,其实我们需要构造两个矩阵:
- 尺度矩阵(scaling matrix): $$S=\left[\begin{array}{cc}s_{y}&0\0&s_{z}\end{array}\right]$$
- 旋转矩阵(rotation matrix): $$R=\left[\begin{array}{cc}\cos(\theta)&-\sin(\theta)\\sin(\theta)&\cos(\theta)\end{array}\right]$$
其中, $\theta$ 为顺时针旋转的度数。
补充知识:变换矩阵、尺度矩阵和旋转矩阵三者的关系式
$A=R S$
在这个例子中,尺度矩阵为 $S=\left[\begin{array}{l l}1&0\0&\frac{1}{2}\end{array}\right]$ ,旋转矩阵为 $R=\left[\begin{array}{c c}\cos\left(-\frac{\pi}{6}\right)&-\sin\left(-\frac{\pi}{6}\right)\\sin\left(-\frac{\pi}{6}\right)&\cos\left(-\frac{\pi}{6}\right)\end{array}\right]=\left[\begin{array}{c c}\frac{\sqrt{3}}{2}&\frac{1}{2}\-\frac{1}{2}&\frac{\sqrt{3}}{2}\end{array}\right]$ ,故变换矩阵为 $A=R S=\left[\begin{array}{cc}\frac{\sqrt{3}}{2}&\frac{1}{4}\-\frac{1}{2}&\frac{\sqrt{3}}{4}\end{array}\right]$
另外,需要考虑的是,经过了线性变换,$t$ 的分布是什么样子呢?
将 $\boldsymbol{x}=A^{-1} \boldsymbol{t}$ 带入前面给出的似然 $\mathcal{L}(\boldsymbol{x})$ ,有 $\mathcal{L}(\boldsymbol{t}) \propto \exp \left(-\frac{1}{2}\left(A^{-1} \boldsymbol{t}\right)^{T}\left(A^{-1} \boldsymbol{t}\right)\right)$
$=\exp \left(-\frac{1}{2} \boldsymbol{t}^{T}\left(A A^{T}\right)^{-1} \boldsymbol{t}\right)$
由此可以得到,多元正态分布的协方差矩阵为 $$\Sigma=A A^{T}=\left[\begin{array}{cc}\frac{\sqrt{3}}{2} & \frac{1}{4} \ -\frac{1}{2} & \frac{\sqrt{3}}{4}\end{array}\right]\left[\begin{array}{cc}\frac{\sqrt{3}}{2} & -\frac{1}{2} \ \frac{1}{4} & \frac{\sqrt{3}}{4}\end{array}\right]=\left[\begin{array}{cc}\frac{13}{16} & -\frac{3 \sqrt{3}}{16} \ -\frac{3 \sqrt{3}}{16} & \frac{7}{16}\end{array}\right]$$
协方差矩阵的特征值分解
回到我们已经学过的线性代数内容,对于任意对称矩阵 $\Sigma$ ,存在一个特征值分解(eigenvalue decomposition, EVD): $$\Sigma=U \Lambda U^{T}$$ 其中, $U$ 的每一列都是相互正交的特征向量,且是单位向量,满足 $U^{T}U=I$ , $\Lambda$ 对角线上的元素是从大到小排列的特征值,非对角线上的元素均为0。
当然,这条公式在这里也可以很容易地写成如下形式: $$\Sigma=\left(U \Lambda^{1 / 2}\right)\left(U \Lambda^{1 / 2}\right)^{T}=A A^{T}$$
其中,$A=U \Lambda^{1 / 2}$ ,因此,通俗地说,任意一个协方差矩阵都可以视为线性变换的结果。
在上面的例子中,特征向量构成的矩阵为 $$U=R=\left[\begin{array}{cc}\cos (\theta) & -\sin (\theta) \ \sin (\theta) & \cos (\theta)\end{array}\right]=\left[\begin{array}{cc}\frac{\sqrt{3}}{2} & \frac{1}{2} \ -\frac{1}{2} & \frac{\sqrt{3}}{2}\end{array}\right]$$
特征值构成的矩阵为
$$\Lambda=S S^{T}=\left[\begin{array}{cc}s_{y}^{2} & 0 \ 0 & s_{z}^{2}\end{array}\right]=\left[\begin{array}{ll}1 & 0 \ 0 & \frac{1}{4}\end{array}\right]$$
到这里,我们发现:多元正态分布的概率密度是由协方差矩阵的特征向量控制旋转(rotation),特征值控制尺度(scale),除了协方差矩阵,均值向量会控制概率密度的位置,在图1和图2中,均值向量为 $0$ ,因此,概率密度的中心位于坐标原点。