方差的计算公式是S^2={(x1-m)^2+(x2-m)2+(x3-m)2+…+(xn-m)^2}/n,公式中M为数据的平均数,n为数据的个数,S^2为方差。
方差是和中心偏离的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差,记作S^2。 在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。计算公式为:
S^2=1/n[(x1-x)^2+(x2-x)^2+……+(xn-x)^2]
其中:x为这组数据中的数据,n为大于0的整数。
1. 非负性。方差是数据的平方的平均偏差,它始终是非负的。如果一个数据集的方差为零,那么所有的数据点都是相同的。
2. 极值的敏感性。方差对数据的极值(最大值和最小值)非常敏感。如果数据集中存在极端值,那么这些值会显著影响方差的大小。这是因为方差计算中涉及到了每个数据与均值之差的平方,极端值与均值之间的差异较大,因此会对方差产生较大影响。
3. 线性变换性质。如果数据集中的每个数值都进行线性变换(如乘以常数或加上常数),那么新的方差与原方差之间存在一定的关系。具体来说,如果数据集中的每个数值都乘以一个常数k,那么新的方差会是原方差的k²倍;如果数据集中的每个数值都加上一个常数,那么新的方差与原方差相同。这是因为方差计算的是数据与均值之间的偏离程度,而非绝对大小,因此这种线性变换性质得以体现。
4. 加法性质。对于两个数据集(两个随机变量),其合并的方差并非简单的两个数据集方差的和,而是需要考虑两个数据集之间的相关性等因素。但在某些特定情况下,如两个数据集相互独立,其合并的方差等于各自方差的和。这一性质在统计学中具有重要的应用价值。
协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的,结合下面的2理解,每个样本有很多特征,每个特征就是一个维度。
根据公式,计算协方差需要计算均值,那是按行计算均值还是按列,协方差矩阵是计算不同维度间的协方差,要时刻牢记这一点。