# 协方差矩阵

# 1.矩

原点矩:设X,Y是随机变量,若

存在,称它为的k阶原点矩,简称阶矩。

中心矩:若

存在,称其为阶中心矩。

混合矩:若

存在,称它为阶原点矩,简称阶混合矩。

混合中心矩:若

存在,称其为阶混合中心矩。

的数学期望的一阶原点矩,方差的二阶中心矩,协方差的二阶混合中心矩。

# 2.协方差介绍

方差是离散度的度量,可以定义为数据与给定数据集均值的分布。

协方差是在两个变量之间计算的,用于衡量两个变量的相关程度。

协方差矩阵定义为方阵,其中对角线元素表示方差,非对角线元素表示协方差。

两个变量之间的协方差可以为正、负和零。正协方差表明两个变量具有正相关关系,而负协方差表明它们具有负相关关系。如果两个元素协方差为零,那么它们不一起变化。

协方差用来衡量多维度数据不同维度之间的相关性

如二维数据集,可以求得其协方差矩阵为:

[0.51.51.54.5]

# 3.协方差计算公式

[var(X1,X1)...cov(Xn,X1).........cov(X1,Xn)...var(Xn,Xn)]

总体方差

var(X)=i=1n(Xiμx)2n

总体协方差

cov(X,Y)=i=1n(Xiμx)(Yiμy)n

样本方差

var(X)=i=1n(XiX¯)2n1

样本协方差

cov(X,Y)=i=1n(XiX¯)(YiY¯)n1

是整体的均值,是样本的均值,是样本的数量,是第个观测样本维度上的观测值。

# 协方差计算示例

有以下数据:

Student Math (X) Science (Y)
1 92 80
2 60 30
3 100 70

样本数据可以写成

  • 均值,

  • 的样本方差,

  • 的均值,

  • 的样本方差,

  • 求样本协方差,

  • 结果

    \begin{bmatrix} 448&520 \\ 520&700 \end{bmatrix}


    使用numpy计算可得:

import numpy as np

x = np.array([[92,60,100], [80,30,70]])
np.cov(x)

# array([[448., 520.],
#        [520., 700.]])