自由度:统计学自由度怎么算中的核心概念

通过chatGPT来回答一波(感觉回答的还是挺靠谱的):自由度的定义当然我的初衷是想知道自由度低对分析的数据会产生什么后果, 以下是GPT的回答:在统计学中,自由度是指数据样本中可自由变化的独立信息的数量。当自由度较低时,可能会出现以下问题:限制统计推断的可靠性:自由度低可能会导致统计推断的可靠性受到限制。例如,在 t 检验中,自由度越低, t 值越大,这可能会导致错误地拒绝原假设。增加误差:自由度低可能会增加误差,因为样本数据中的变化较少,难以准确地反映总体的特征。例如,在线性回归中,如果自由度过低,可能会导致拟合的模型无法很好地描述数据。减少模型的复杂度:自由度低可能会限制模型的复杂度,导致不能很好地拟合数据。例如,在多元回归中,如果自由度太低,可能只能使用较简单的模型,而无法使用更复杂的模型来解释数据的变异。因此,在统计分析中,应该尽量避免自由度过低的情况,以确保推断和预测的准确性和可靠性。
本文皆为个人看法,才疏学浅,如果有不妥不准确的对方,还请指正。有些数学推导可能显得不严谨,主要是为了数学基础薄弱的同学能看懂。“自由度”是统计学中一个很不好懂的概念,因为它的定义有好几个,而每个定义都是从不同的侧面来解说,所以对它的理解要求你有一定的数学知识,因为只有具备了足够的数学知识你才发现这几个定义是相通的,否则你会感到无所适从。某一种定义你觉得自己懂了,然后去运用它,发现在有些情况下你无法运用你所懂的自由度知识去分析问题。但是如果运用另一种自由度的定义则可以解释清楚。插播一条广告:如果觉得自己数学不够好,需要快速复习和补课,可以看《 数据科学(人工智能)数学基础》 课程。首先我们要明白统计学中的自由度到底有什么用。出现自由度的地方一般都会出现某种检验方法,比如 t 检验,独立性卡方检验,回归模型的模型显著性检验等等。要不是这些地方需要自由度,个人感觉统计学中的“自由度”就没必要出现了。统计学中有三大分布:T分布,卡方分布和F分布,其中T分布和F分布都和卡方分布有关。两个独立的卡方分布统计量就能形成一个F分布的统计量,标准正态分布和卡方分布在一起又能构成一个T分布,要确定卡方分布的密度函数就必须先确定卡方分布的自由度,否则统计量的概率就没办法计算。统计学中所有检验方法如果需要自由度,则都会告诉你自由度怎么计算,对于我们普通人来讲其实根本不需要知道计算自由度的原理,只有你在设计新的检验方法,并且其中涉及到和卡方分布有关的分布时你才需要知道怎么得到自由度,因为你要告诉使用你检验方法的人计算自由度。设计新的检验方法,对于一般人来讲有点太遥远了。下面讲讲统计学中自由度的不同定义。第零种定义:独立偏差/离差的个数称为自由度。偏差/离差指的是:数据减去均值,{x_{i}-\bar{x}} 。这种定义简单明了,缺点是没告诉我们如何计算自由度。下面介绍一些更复杂的定义。第一种定义:总体参数估计量中变量值独立自由变化的个数。比如样本方差是用来估计总体方差的,样本方差我们首先是计算样本均值 \bar{x} ,只有在 \bar{x} 确定后才能计算样本方差,即在计算样本方差的时候\bar{x}是一个已知常量。然后计算离差平方和: SS=\sum_{i=1}^{n}({x_{i}-\bar{x}})^2 ,其中 \bar{x}=\frac{1}{n}\sum_{i=1}^{n}({x_{i}}) ,最后用SS除以 n 或者n-1(通常是除以n-1,因为这样样本方差是无偏估计)得到样本方差。样本方差的自由度等于 SS 的自由度,为什么?因为SS和样本方差一样都是统计量,SS是对总体离差平方和的估计,SS和样本方差之间是一个倍数关系,二者变量值独立自由变化的个数是一样的。假设样本是x1,x2,x3,样本均值 \bar{x}=\frac{x_{1}+x_{2}+x_{3}}{3} \rightarrow x_3=3\bar{x}-x_1-x_2 , SS=(x_1-\bar{x})^2+(x_2-\bar{x})^2+(x_3-\bar{x})^2 ,得 SS=(x_1-\bar{x})^2+(x_2-\bar{x})^2+(2\bar{x}-x_1-x_2)^2(这里x1或者x2用其它两个变量替换都可以,并不影响我们最终的结果) ,在计算SS时 \bar{x} 是一个常量,SS中很明显只有自由变量x1,x2,并不存在另一个自由变量x3,所以自由度 df=3-1=2,由此不难推出如果样本容量为n,则SS自由度公式为 n -1 。SS中有两个独立离差 (x_1-\bar{x})、(x_2-\bar{x}),按照第零种定义,也容易得出SS自由度为2。第二种定义:自由度是样本容量n减去独立限制因素的个数。计算样本方差的时候 \bar{x}=\frac{1}{n}\sum_{i=1}^{n}({x_{i}}) 就是一个限制因素。从第二种定义可以很轻松的计算出SS的自由度是n-1。有时候我们会有多个限制因素,限制因素之间也可能相关,如果有3个限制因素,其中一个和其它限制因素相关,那么总的独立限制因素就不是3个,这点要切记。第三种定义:看总体参数估计量中使用了几个总体参数估计量,假设使用了m个,则自由度是样本容量n减m。计算样本方差的时候使用了一个总体参数估计量“样本平均值”,所以SS的自由度是n-1。以上三种定义碰到简单的情况还好,稍微复杂点就不好计算了。比如经典线性回归里面的回归平方和SSR的自由度。第四种定义:自由度是一个随机向量的自由维度数,也就是一个向量能被完整描述所需的最少标准单位向量数(单位矩阵的列向量也叫“标准单位向量”)。说的有点绕,现在用大白话解释下:一个向量可以表达为其它向量的线性组合,假设可以表达为 k 个线性无关向量的线性组合,则该向量的自由维度数就是 k。也就是向量只能在这个k个线性无关向量所张成的k维空间里活动。Fisher 给“Student(t分布的发现者)”解释自由度的时候是这么来解释的:将容量为n的样本的n个随机变量构造成一个随机向量,那么这个向量可以看成是n维空间的一个点,每有一个独立约束条件,则向量的自由维度减1。比如n个样本在求样本方差的时候要先计算样本均值,就会导致其中一个和其它n-1个相关,这样随机向量只能有n-1个元素可以在n-1维空间自由取值。在Fisher指出老皮尔逊的卡方检验方法自由度计算错误的时候他是用“约束”这个词来解释的,这个“约束”有点像上面的定义二。如果所研究的问题能抽象为线性模型,使用第四种定义计算自由度并不是一个很难的事情。样本容量为n的样本有n个随机变量,这n个随机变量可以表示为 Iy ,y是n个随机变量形成的n维随机向量,I是n维单位矩阵,因为 I 的列空间是n维,Iy=y,所以y一定在 I 的列空间中,y的n个元素可以在n维空间自由取值,得出y的自由度是n。下面计算线性回归拟合值(回归方程部分)的自由度。y=\tilde{y}+\varepsilon,\tilde{y}=X\tilde{\beta},X是设计矩阵,\tilde{\beta} 是估计出来的回归系数向量,很显然,拟合值向量 \tilde{y} 一定在设计矩阵X的列空间中,X列空间维度是回归系数个数,假设有p个预测变量,加上截距则回归系数个数是p+1,所以拟合值向量的自由维度就是p+1。回归平方和 SSR=\sum_{i=1}^{n}({\tilde{y}-\bar{y}})^{2},\bar{y} 是样本因变量的平均值,计算SSR之前需要把它计算出来,而拟合值其实是样本因变量的线性组合(因为 \tilde{y}=X(X'X)^{-1}X'y ),因此会受到 \bar{y} 的约束而失去一个自由度,所以SSR的自由度是拟合值的自由度减1,即p。因变量y的自由度是n,拟合值的自由度是p+1,那么残差向量的自由度是n-(p+1),为什么? y=\tilde{y}+\varepsilon ,残差向量 \varepsilon 垂直于“设计矩阵列空间”,也就是它在设计矩阵列空间的垂直补空间中,y是n维,设计矩阵列空间是 p+1维,p+1<=n,则残差向量维度是 n-(p+1),也就是残差向量的自由度为n-(p+1),接着可以推出残差平方和 SSE=\sum_{i=1}^{n}(\varepsilon_i)^{2} 的自由度是 n-(p+1)。第五种定义:一个二次型的自由度就是二次型矩阵的秩。平方和其实就是一个二次型,如果能把平方和表达成二次型的形式,那直接计算二次型矩阵的秩即可得到平方和自由度。这种定义很多统计学家并不推荐,原因就是要求数学知识起点有些高。为什么二次型矩阵的秩就是自由度呢? y'Qy=y'PAP'y=(P'y)'A(P'y) ,Q是对称矩阵,则Q一定可以正交对角化为PAP',P为正交矩阵,A为对角矩阵,对角元素就是Q的特征值,特征值不为0的个数等于Q的秩,Q的秩设为r。设随机向量P'y的元素是 z_{1},z_{2},...z_{i} ,很显然 z_{i} 是原随机变量 y_{1},y_{2},...,y_{i} 的线性组合,假设P=(e_{1},e_{2},...,e_{i}),有z_{1}= e_{1}'y,z_{2}= e_{2}'y,...,z_{i}= e_{i}'y , e_{1},e_{2},...,e_{i}是相互正交的 , z_{i} 可以看成是 y 在 e_{i} 上的投影,很明显就能推出 z_{i} 互不相关,(Py)'A(Py) 展开后必然有 r 个 z_{i} 的平方相加,这 r 个 z_{i} 互不相关,意味着有 r 个可以自由变化的随机变量 。就推导出二次型 y'Qy 的自由度为 r。这里额外说下,如果 y 符合多元正态分布,则 z_{i} 是正态分布随机变量。 举个例子,比如样本方差的离差平方和SS=\sum_{i=1}^{n}({x_{i}-\bar{x}})^2=(X-\bar{X})'(X-\bar{X})=\{[I-(1_n1_n')/n]X\}'\{[I-(1_n1_n')/n]X\}=X'[I-(1_n1_n')/n]'[I-(1_n1_n')/n]X X表示样本n个观测值的随机向量,I是单位矩阵,1n是全为1的n维向量。二次型SS的二次型矩阵是 [I-(1_n1_n')/n]'[I-(1_n1_n')/n] ,其秩是n-1,所以得平方和SS的自由度为n-1。不好意思,还需要再插播一条广告:如果觉得自己 线性代数 不够好,需要快速复习和补课,可以看 《线性代数-数据科学数学 》 课程。这6种方法中后面的5种其实可以看成是第零种定义的复杂版。现在来解释下第零种定义的真实含义。离差( {x_{i}-\bar{x}} )进行平方就是离差平方,离差平方除以变量(假设变量xi符合正态分布)的方差就是标准正态随机变量的平方,一个独立标准正态随机变量平方服从1个自由度的卡方分布。计算样本方差的离差平方和SS除以变量的方差如果符合自由度为n-1的卡方分布,则可以认为是n-1个独立标准正态随机变量的平方和。更准确的说法应该是:“SS除以随机变量的方差”是n-1个独立标准正态分布随机变量的平方和,符合n-1的卡方分布。由此可以看出,无卡方分布,则无自由度。SS的自由度说的其实是:SS/方差 得到的统计量卡方分布的自由度。只有分布才会有自由度,一个普通的平方和哪里来的自由度!为什么很多人搞不明白样本方差分母n-1是自由度,因为教科书从来都没有讲明白,直接来一个n-1是自由度,然后所有人蒙圈。如果说样本方差计算中的离差平方和除以随机变量的方差得到的卡方统计量自由度是n-1,谁还会蒙圈啊,是不是!关于样本方差是n-1的看法可以看我的另一篇文章:样本方差分母为n-1的看法。第一,二,三,四定义个人认为是同一个东西。将它们翻译一下就是,有n个变量,这n个变量有m个独立的约束,n个变量放在n维空间进行降维可以完美降维到n-m维空间,n-m就是自由度。举个例子,x,y是两个随机变量,存在函数关系y=a+bx(这是一个独立约束)。在二维空间画出x,y的散点图就是二维平面的一条直线,将坐标轴移动并旋转,让直线成为新坐标轴的一个轴,在新坐标轴下只需要一个变量就可以代表这条直线。说到这里,估计一些人会想到主成分分析,对,道理是类似的。两个变量完美降维到一个变量,并且没有任何信息损失,也就是两个变量的信息一个变量即可表达。没有任何信息损失是因为x和y是完全相关(相关系数为1或-1),主成分分析变量间并不是完全相关,所以降维后有信息损失。自由度有时候是非整数的,比如独立两样本t检验中,如果方差不齐,我们会有方差不齐的检验统计量,这个统计量的自由度计算出来后通常是非整数。假设两个独立样本的样本容量分别为n1,n2,那么样本均值差的方差=s1方/n1+s2方/n2,检验统计量是t=均值差/样本均值差的标准差,这个t分布的自由度是 n1+n2-2吗?不是的,如果你按照n1+n2-2来算的话,严重高估了实际自由度,会造成检验的不准确。方差分析中的多重比较有方差不齐的比较方法,这些方法的自由度计算出来一般也是非整数。碰到这一类的自由度计算,以上介绍的方法都不适用。当你学习一个新的统计推断方法的时候你一定要看看它的自由度是如何计算的,有可能它的计算很复杂。卡方分布定义中说得非常明确,自由度是一个整数,不存在小数一说。那么这些非整数自由度是个什么鬼东西?以下为个人观点,仅供参考-------------------- begin某些符合卡方分布的统计量的自由度的确定是一件非常不容易的事情,只能得到一个非精确的非整数自由度,得不到其精确整数自由度。卡方分布的期望等于其自由度,对一个表达式非常复杂的符合卡方分布的统计量求期望,通常会使用泰勒近似,最后会得到一个非整数期望(即自由度)。以上为个人观点,仅供参考-------------------- end统计学中计算概率绝大部分得到的都是近似概率,所以用一个非整数自由度去近似完全没有问题。最后我想说的是,自由度并不神秘,因为它就是卡方分布的一个参数,仅此而已。-------------------------------------------------------------------------------------------这绝对是最后一条广告了:《完美统计学》目前网上最完整详细的统计学视频教程!看完此文,神秘的自由度至此不再神秘!
本文皆为个人看法,才疏学浅,如果有不妥不准确的对方,还请指正。有些数学推导可能显得不严谨,主要是为了数学基础薄弱的同学能看懂。“自由度”是统计学中一个很不好懂的概念,因为它的定义有好几个,而每个定义都是从不同的侧面来解说,所以对它的理解要求你有一定的数学知识,因为只有具备了足够的数学知识你才发现这几个定义是相通的,否则你会感到无所适从。某一种定义你觉得自己懂了,然后去运用它,发现在有些情况下你无法运用你所懂的自由度知识去分析问题。但是如果运用另一种自由度的定义则可以解释清楚。插播一条广告:如果觉得自己数学不够好,需要快速复习和补课,可以看《 数据科学(人工智能)数学基础》 课程。首先我们要明白统计学中的自由度到底有什么用。出现自由度的地方一般都会出现某种检验方法,比如 t 检验,独立性卡方检验,回归模型的模型显著性检验等等。要不是这些地方需要自由度,个人感觉统计学中的“自由度”就没必要出现了。统计学中有三大分布:T分布,卡方分布和F分布,其中T分布和F分布都和卡方分布有关。两个独立的卡方分布统计量就能形成一个F分布的统计量,标准正态分布和卡方分布在一起又能构成一个T分布,要确定卡方分布的密度函数就必须先确定卡方分布的自由度,否则统计量的概率就没办法计算。统计学中所有检验方法如果需要自由度,则都会告诉你自由度怎么计算,对于我们普通人来讲其实根本不需要知道计算自由度的原理,只有你在设计新的检验方法,并且其中涉及到和卡方分布有关的分布时你才需要知道怎么得到自由度,因为你要告诉使用你检验方法的人计算自由度。设计新的检验方法,对于一般人来讲有点太遥远了。下面讲讲统计学中自由度的不同定义。第零种定义:独立偏差/离差的个数称为自由度。偏差/离差指的是:数据减去均值,{x_{i}-\bar{x}} 。这种定义简单明了,缺点是没告诉我们如何计算自由度。下面介绍一些更复杂的定义。第一种定义:总体参数估计量中变量值独立自由变化的个数。比如样本方差是用来估计总体方差的,样本方差我们首先是计算样本均值 \bar{x} ,只有在 \bar{x} 确定后才能计算样本方差,即在计算样本方差的时候\bar{x}是一个已知常量。然后计算离差平方和: SS=\sum_{i=1}^{n}({x_{i}-\bar{x}})^2 ,其中 \bar{x}=\frac{1}{n}\sum_{i=1}^{n}({x_{i}}) ,最后用SS除以 n 或者n-1(通常是除以n-1,因为这样样本方差是无偏估计)得到样本方差。样本方差的自由度等于 SS 的自由度,为什么?因为SS和样本方差一样都是统计量,SS是对总体离差平方和的估计,SS和样本方差之间是一个倍数关系,二者变量值独立自由变化的个数是一样的。假设样本是x1,x2,x3,样本均值 \bar{x}=\frac{x_{1}+x_{2}+x_{3}}{3} \rightarrow x_3=3\bar{x}-x_1-x_2 , SS=(x_1-\bar{x})^2+(x_2-\bar{x})^2+(x_3-\bar{x})^2 ,得 SS=(x_1-\bar{x})^2+(x_2-\bar{x})^2+(2\bar{x}-x_1-x_2)^2(这里x1或者x2用其它两个变量替换都可以,并不影响我们最终的结果) ,在计算SS时 \bar{x} 是一个常量,SS中很明显只有自由变量x1,x2,并不存在另一个自由变量x3,所以自由度 df=3-1=2,由此不难推出如果样本容量为n,则SS自由度公式为 n -1 。SS中有两个独立离差 (x_1-\bar{x})、(x_2-\bar{x}),按照第零种定义,也容易得出SS自由度为2。第二种定义:自由度是样本容量n减去独立限制因素的个数。计算样本方差的时候 \bar{x}=\frac{1}{n}\sum_{i=1}^{n}({x_{i}}) 就是一个限制因素。从第二种定义可以很轻松的计算出SS的自由度是n-1。有时候我们会有多个限制因素,限制因素之间也可能相关,如果有3个限制因素,其中一个和其它限制因素相关,那么总的独立限制因素就不是3个,这点要切记。第三种定义:看总体参数估计量中使用了几个总体参数估计量,假设使用了m个,则自由度是样本容量n减m。计算样本方差的时候使用了一个总体参数估计量“样本平均值”,所以SS的自由度是n-1。以上三种定义碰到简单的情况还好,稍微复杂点就不好计算了。比如经典线性回归里面的回归平方和SSR的自由度。第四种定义:自由度是一个随机向量的自由维度数,也就是一个向量能被完整描述所需的最少标准单位向量数(单位矩阵的列向量也叫“标准单位向量”)。说的有点绕,现在用大白话解释下:一个向量可以表达为其它向量的线性组合,假设可以表达为 k 个线性无关向量的线性组合,则该向量的自由维度数就是 k。也就是向量只能在这个k个线性无关向量所张成的k维空间里活动。Fisher 给“Student(t分布的发现者)”解释自由度的时候是这么来解释的:将容量为n的样本的n个随机变量构造成一个随机向量,那么这个向量可以看成是n维空间的一个点,每有一个独立约束条件,则向量的自由维度减1。比如n个样本在求样本方差的时候要先计算样本均值,就会导致其中一个和其它n-1个相关,这样随机向量只能有n-1个元素可以在n-1维空间自由取值。在Fisher指出老皮尔逊的卡方检验方法自由度计算错误的时候他是用“约束”这个词来解释的,这个“约束”有点像上面的定义二。如果所研究的问题能抽象为线性模型,使用第四种定义计算自由度并不是一个很难的事情。样本容量为n的样本有n个随机变量,这n个随机变量可以表示为 Iy ,y是n个随机变量形成的n维随机向量,I是n维单位矩阵,因为 I 的列空间是n维,Iy=y,所以y一定在 I 的列空间中,y的n个元素可以在n维空间自由取值,得出y的自由度是n。下面计算线性回归拟合值(回归方程部分)的自由度。y=\tilde{y}+\varepsilon,\tilde{y}=X\tilde{\beta},X是设计矩阵,\tilde{\beta} 是估计出来的回归系数向量,很显然,拟合值向量 \tilde{y} 一定在设计矩阵X的列空间中,X列空间维度是回归系数个数,假设有p个预测变量,加上截距则回归系数个数是p+1,所以拟合值向量的自由维度就是p+1。回归平方和 SSR=\sum_{i=1}^{n}({\tilde{y}-\bar{y}})^{2},\bar{y} 是样本因变量的平均值,计算SSR之前需要把它计算出来,而拟合值其实是样本因变量的线性组合(因为 \tilde{y}=X(X'X)^{-1}X'y ),因此会受到 \bar{y} 的约束而失去一个自由度,所以SSR的自由度是拟合值的自由度减1,即p。因变量y的自由度是n,拟合值的自由度是p+1,那么残差向量的自由度是n-(p+1),为什么? y=\tilde{y}+\varepsilon ,残差向量 \varepsilon 垂直于“设计矩阵列空间”,也就是它在设计矩阵列空间的垂直补空间中,y是n维,设计矩阵列空间是 p+1维,p+1<=n,则残差向量维度是 n-(p+1),也就是残差向量的自由度为n-(p+1),接着可以推出残差平方和 SSE=\sum_{i=1}^{n}(\varepsilon_i)^{2} 的自由度是 n-(p+1)。第五种定义:一个二次型的自由度就是二次型矩阵的秩。平方和其实就是一个二次型,如果能把平方和表达成二次型的形式,那直接计算二次型矩阵的秩即可得到平方和自由度。这种定义很多统计学家并不推荐,原因就是要求数学知识起点有些高。为什么二次型矩阵的秩就是自由度呢? y'Qy=y'PAP'y=(P'y)'A(P'y) ,Q是对称矩阵,则Q一定可以正交对角化为PAP',P为正交矩阵,A为对角矩阵,对角元素就是Q的特征值,特征值不为0的个数等于Q的秩,Q的秩设为r。设随机向量P'y的元素是 z_{1},z_{2},...z_{i} ,很显然 z_{i} 是原随机变量 y_{1},y_{2},...,y_{i} 的线性组合,假设P=(e_{1},e_{2},...,e_{i}),有z_{1}= e_{1}'y,z_{2}= e_{2}'y,...,z_{i}= e_{i}'y , e_{1},e_{2},...,e_{i}是相互正交的 , z_{i} 可以看成是 y 在 e_{i} 上的投影,很明显就能推出 z_{i} 互不相关,(Py)'A(Py) 展开后必然有 r 个 z_{i} 的平方相加,这 r 个 z_{i} 互不相关,意味着有 r 个可以自由变化的随机变量 。就推导出二次型 y'Qy 的自由度为 r。这里额外说下,如果 y 符合多元正态分布,则 z_{i} 是正态分布随机变量。 举个例子,比如样本方差的离差平方和SS=\sum_{i=1}^{n}({x_{i}-\bar{x}})^2=(X-\bar{X})'(X-\bar{X})=\{[I-(1_n1_n')/n]X\}'\{[I-(1_n1_n')/n]X\}=X'[I-(1_n1_n')/n]'[I-(1_n1_n')/n]X X表示样本n个观测值的随机向量,I是单位矩阵,1n是全为1的n维向量。二次型SS的二次型矩阵是 [I-(1_n1_n')/n]'[I-(1_n1_n')/n] ,其秩是n-1,所以得平方和SS的自由度为n-1。不好意思,还需要再插播一条广告:如果觉得自己 线性代数 不够好,需要快速复习和补课,可以看 《线性代数-数据科学数学 》 课程。这6种方法中后面的5种其实可以看成是第零种定义的复杂版。现在来解释下第零种定义的真实含义。离差( {x_{i}-\bar{x}} )进行平方就是离差平方,离差平方除以变量(假设变量xi符合正态分布)的方差就是标准正态随机变量的平方,一个独立标准正态随机变量平方服从1个自由度的卡方分布。计算样本方差的离差平方和SS除以变量的方差如果符合自由度为n-1的卡方分布,则可以认为是n-1个独立标准正态随机变量的平方和。更准确的说法应该是:“SS除以随机变量的方差”是n-1个独立标准正态分布随机变量的平方和,符合n-1的卡方分布。由此可以看出,无卡方分布,则无自由度。SS的自由度说的其实是:SS/方差 得到的统计量卡方分布的自由度。只有分布才会有自由度,一个普通的平方和哪里来的自由度!为什么很多人搞不明白样本方差分母n-1是自由度,因为教科书从来都没有讲明白,直接来一个n-1是自由度,然后所有人蒙圈。如果说样本方差计算中的离差平方和除以随机变量的方差得到的卡方统计量自由度是n-1,谁还会蒙圈啊,是不是!关于样本方差是n-1的看法可以看我的另一篇文章:样本方差分母为n-1的看法。第一,二,三,四定义个人认为是同一个东西。将它们翻译一下就是,有n个变量,这n个变量有m个独立的约束,n个变量放在n维空间进行降维可以完美降维到n-m维空间,n-m就是自由度。举个例子,x,y是两个随机变量,存在函数关系y=a+bx(这是一个独立约束)。在二维空间画出x,y的散点图就是二维平面的一条直线,将坐标轴移动并旋转,让直线成为新坐标轴的一个轴,在新坐标轴下只需要一个变量就可以代表这条直线。说到这里,估计一些人会想到主成分分析,对,道理是类似的。两个变量完美降维到一个变量,并且没有任何信息损失,也就是两个变量的信息一个变量即可表达。没有任何信息损失是因为x和y是完全相关(相关系数为1或-1),主成分分析变量间并不是完全相关,所以降维后有信息损失。自由度有时候是非整数的,比如独立两样本t检验中,如果方差不齐,我们会有方差不齐的检验统计量,这个统计量的自由度计算出来后通常是非整数。假设两个独立样本的样本容量分别为n1,n2,那么样本均值差的方差=s1方/n1+s2方/n2,检验统计量是t=均值差/样本均值差的标准差,这个t分布的自由度是 n1+n2-2吗?不是的,如果你按照n1+n2-2来算的话,严重高估了实际自由度,会造成检验的不准确。方差分析中的多重比较有方差不齐的比较方法,这些方法的自由度计算出来一般也是非整数。碰到这一类的自由度计算,以上介绍的方法都不适用。当你学习一个新的统计推断方法的时候你一定要看看它的自由度是如何计算的,有可能它的计算很复杂。卡方分布定义中说得非常明确,自由度是一个整数,不存在小数一说。那么这些非整数自由度是个什么鬼东西?以下为个人观点,仅供参考-------------------- begin某些符合卡方分布的统计量的自由度的确定是一件非常不容易的事情,只能得到一个非精确的非整数自由度,得不到其精确整数自由度。卡方分布的期望等于其自由度,对一个表达式非常复杂的符合卡方分布的统计量求期望,通常会使用泰勒近似,最后会得到一个非整数期望(即自由度)。以上为个人观点,仅供参考-------------------- end统计学中计算概率绝大部分得到的都是近似概率,所以用一个非整数自由度去近似完全没有问题。最后我想说的是,自由度并不神秘,因为它就是卡方分布的一个参数,仅此而已。-------------------------------------------------------------------------------------------这绝对是最后一条广告了:《完美统计学》目前网上最完整详细的统计学视频教程!看完此文,神秘的自由度至此不再神秘!

我要回帖

更多关于 统计学自由度怎么算 的文章