协方差矩阵

方差和协方差的定义

方差：用来度量单个随机变量的离散程度

$$\sigma_{x}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}$$

为什么样本方差的分母是n-1？

最简单的原因，是因为因为均值已经用了n个数的平均来做估计在求方差时，只有(n-1)个数和均值信息是不相关的。而你的第ｎ个数已经可以由前(n-1)个数和均值　来唯一确定，实际上没有信息量。所以在计算方差时，只除以(n-1)。

协方差：一般用来刻画两个随机变量的相似程度

$$\sigma(x, y)=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)$$

在公式中，符号 $\bar{x}, \bar{y}$ 分别表示两个随机变量所对应的观测样本均值，据此，我们发现：方差 $\sigma_{x}^{2}$ 可视作随机变量 x 关于其自身的协方差 $\sigma(x, x)$ .

从方差/协方差到协方差矩阵

根据方差的定义，给定 $d$ 个随机变量 $x_{k},k=1,2,\ldots,d$ ，则这些随机变量的方差为
$$\sigma\left(x_{k},x_{k}\right)=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{k i}-\bar{x}_{k}\right)^{2},k=1,2,\ldots,d$$

$x_{k i}$ 表示随机变量 $x_{k}$ 中的第 $i$ 个观测样本，$n$ 表示样本量，每个随机变量所对应的观测样本数量均为 $n$ 。
对于这些随机变量，我们还可以根据协方差的定义，求出两两之间的协方差，即

因此，协方差矩阵为 $$\Sigma=\left[\begin{array}{ccc}\sigma\left(x_{1}, x_{1}\right)&\cdots&\sigma\left(x_{1},x_{d}\right)\\vdots&\ddots&\vdots\\sigma\left(x_{d},x_{1}\right)&\cdots&\sigma\left(x_{d},x_{d}\right)\end{array}\right]\in\mathbb{R}^{d\times d}$$
其中，对角线上的元素为各个随机变量的方差，非对角线上的元素为两两随机变量之间的协方差，根据协方差的定义，我们可以认定：矩阵 $\Sigma$ 为对称矩阵(symmetric matrix)，其大小为 $d$ x $d$ 。

多元正态分布与线性变换

多元正态分布—n维的多元正态分布，也称为多元高斯分布

多元正态分布图

假设一个向量 $x$ 服从均值向量为 $\boldsymbol{\mu}$ 、协方差矩阵为 $\Sigma$ 的多元正态分布(multi-variate Gaussian distribution)【第二章】，则 $$p(\boldsymbol{x})=|2 \pi \Sigma|^{-1 / 2} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)$$

联立理解：多元正态分布

令该分布的均值向量为 $\boldsymbol{\mu}=\mathbf{0}$ ，由于指数项外面的系数 $|2 \pi \Sigma|^{-1 / 2}$ 通常作为常数，故可将多元正态分布简化为 $$p(\boldsymbol{x}) \propto \exp \left(-\frac{1}{2} \boldsymbol{x}^{T} \Sigma^{-1} \boldsymbol{x}\right)$$
再令 $\boldsymbol{x}=(y, z)^{T}$ ，包含两个随机变量 $y$ 和 $z$ ，则协方差矩阵可写成如下形式： $$ \Sigma=\left[\begin{array}{ll}\sigma(y, y) & \sigma(y, z) \ \sigma(z, y) & \sigma(z, z)\end{array}\right] \in \mathbb{R}^{2 \times 2} $$
用单位矩阵(identity matrix) $I$ 作为协方差矩阵，随机变量 $y$ 和 $z$ 的方差均为1，则生成如干个随机数如图所示。

图1二元正态分布

知识补充：单位矩阵
单位矩阵是个方阵，从左上角到右下角的对角线（称为主对角线）上的元素均为1。除此以外全都为0。任何矩阵与单位矩阵相乘都等于本身

在生成的若干个随机数中，每个点的似然为 $$ \mathcal{L}(\boldsymbol{x}) \propto \exp \left(-\frac{1}{2} \boldsymbol{x}^{T} \boldsymbol{x}\right) $$

知识补充：线性变换
视频教学
线性性质一：直线在变换后仍然保持为直线，不能弯曲；线性性质二：原点是固定不变的

对图[二元正态分布]中的所有点考虑一个线性变换(linear transformation)：$\boldsymbol{t}=A \boldsymbol{x}$ ，我们能够得到图

图2 经过线性变换的二元正态分布，先将图1的纵坐标压缩0.5倍，再将所有点逆时针旋转30°得到

在线性变换中，矩阵 $A$ 被称为变换矩阵(transformation matrix)，为了将图1中的点经过线性变换得到我们想要的图2，其实我们需要构造两个矩阵：

尺度矩阵(scaling matrix)： $$S=\left[\begin{array}{cc}s_{y}&0\0&s_{z}\end{array}\right]$$
旋转矩阵(rotation matrix)： $$R=\left[\begin{array}{cc}\cos(\theta)&-\sin(\theta)\\sin(\theta)&\cos(\theta)\end{array}\right]$$
其中， $\theta$ 为顺时针旋转的度数。

补充知识：变换矩阵、尺度矩阵和旋转矩阵三者的关系式
$A=R S$

在这个例子中，尺度矩阵为 $S=\left[\begin{array}{l l}1&0\0&\frac{1}{2}\end{array}\right]$ ，旋转矩阵为 $R=\left[\begin{array}{c c}\cos\left(-\frac{\pi}{6}\right)&-\sin\left(-\frac{\pi}{6}\right)\\sin\left(-\frac{\pi}{6}\right)&\cos\left(-\frac{\pi}{6}\right)\end{array}\right]=\left[\begin{array}{c c}\frac{\sqrt{3}}{2}&\frac{1}{2}\-\frac{1}{2}&\frac{\sqrt{3}}{2}\end{array}\right]$ ，故变换矩阵为 $A=R S=\left[\begin{array}{cc}\frac{\sqrt{3}}{2}&\frac{1}{4}\-\frac{1}{2}&\frac{\sqrt{3}}{4}\end{array}\right]$

另外，需要考虑的是，经过了线性变换，$t$ 的分布是什么样子呢？

将 $\boldsymbol{x}=A^{-1} \boldsymbol{t}$ 带入前面给出的似然 $\mathcal{L}(\boldsymbol{x})$ ，有 $\mathcal{L}(\boldsymbol{t}) \propto \exp \left(-\frac{1}{2}\left(A^{-1} \boldsymbol{t}\right)^{T}\left(A^{-1} \boldsymbol{t}\right)\right)$
$=\exp \left(-\frac{1}{2} \boldsymbol{t}^{T}\left(A A^{T}\right)^{-1} \boldsymbol{t}\right)$

由此可以得到，多元正态分布的协方差矩阵为 $$\Sigma=A A^{T}=\left[\begin{array}{cc}\frac{\sqrt{3}}{2} & \frac{1}{4} \ -\frac{1}{2} & \frac{\sqrt{3}}{4}\end{array}\right]\left[\begin{array}{cc}\frac{\sqrt{3}}{2} & -\frac{1}{2} \ \frac{1}{4} & \frac{\sqrt{3}}{4}\end{array}\right]=\left[\begin{array}{cc}\frac{13}{16} & -\frac{3 \sqrt{3}}{16} \ -\frac{3 \sqrt{3}}{16} & \frac{7}{16}\end{array}\right]$$

协方差矩阵的特征值分解

回到我们已经学过的线性代数内容，对于任意对称矩阵 $\Sigma$ ，存在一个特征值分解(eigenvalue decomposition, EVD)： $$\Sigma=U \Lambda U^{T}$$ 其中, $U$ 的每一列都是相互正交的特征向量，且是单位向量，满足 $U^{T}U=I$ ， $\Lambda$ 对角线上的元素是从大到小排列的特征值，非对角线上的元素均为0。

当然，这条公式在这里也可以很容易地写成如下形式： $$\Sigma=\left(U \Lambda^{1 / 2}\right)\left(U \Lambda^{1 / 2}\right)^{T}=A A^{T}$$
其中，$A=U \Lambda^{1 / 2}$ ，因此，通俗地说，任意一个协方差矩阵都可以视为线性变换的结果。
在上面的例子中，特征向量构成的矩阵为 $$U=R=\left[\begin{array}{cc}\cos (\theta) & -\sin (\theta) \ \sin (\theta) & \cos (\theta)\end{array}\right]=\left[\begin{array}{cc}\frac{\sqrt{3}}{2} & \frac{1}{2} \ -\frac{1}{2} & \frac{\sqrt{3}}{2}\end{array}\right]$$
特征值构成的矩阵为
$$\Lambda=S S^{T}=\left[\begin{array}{cc}s_{y}^{2} & 0 \ 0 & s_{z}^{2}\end{array}\right]=\left[\begin{array}{ll}1 & 0 \ 0 & \frac{1}{4}\end{array}\right]$$
到这里，我们发现：多元正态分布的概率密度是由协方差矩阵的特征向量控制旋转(rotation)，特征值控制尺度(scale)，除了协方差矩阵，均值向量会控制概率密度的位置，在图1和图2中，均值向量为 $0$ ，因此，概率密度的中心位于坐标原点。