首先说点估计。点估计就是用一个数据(data)的函数(通常称为估计统计量,estimator)来给出一个未知参数的估计值。
即使是固定的参数真值(虽然我们不知道这个值),由于数据的随机性,不同的数据代入这个函数往往会得出不同的估计值(estimation )。所以我们往往在点估计的基础上包裹上一个邻域,即得到一个区间估计。
那么点估计周围的这个邻域的大小是怎么确定的呢?一个最直接的答案就是:确定一个百分比,p%,使得给定任意数据集,参数的估计值(estimation)落在这个邻域内的概率为p%。那么,确定邻域大小的问题就变成了确定参数估计量(estimator)的分布的问题了。
首先,如果我们假设数据服从正态分布。那么可以证明,统计量作为随机变量的函数,往往会服从从正态分布中推导出来的一系列分布(如t分布,chi-square分布和F分布),那么通过统计量(estimator)的分布,我们可以很轻松的得到所求邻域的大小。
接下来的问题就是,在日常生活中,数据并不一定服从正态分布的。如果数据不是正态分布的,那么估计统计量(estimator)很可能也不服从t分布,chi-square分布和F分布这些我们已知的分布。如果我们不知道统计量的分布,就无法确定应该给这个点估计包裹一个多大的邻域。
于是我们退而求其次,由于在满足一定正则条件的情况下,很多数据的分布都会在数据量趋近于无穷的情况下趋近于正态分布。如果数据的分布恰好落在这个范围内,那么我们说,在数据量趋近于无穷的前提下,我们仍然相信统计量服从t分布,chi-square分布和F分布这些我们已知的分布。并以此为基础得到区间估计。而中心极限定理(CLT)就是用来保证数据分布的极限为正态分布的定理。
最后,如果正则条件不满足,CLT无法适用。数据分布即使在数据量趋于无穷的情况下仍然不是正态分布,这时候,采用传统方法得到区间估计的办法就行不通了。需要采用更加先进的方法(比如bootstrapping寻找区间估计;比如彻底抛弃parametric model转用semi- non-parametric model等等)。
编辑*:其实CLT不单单在找区间估计的时候用到。很多假设检验的问题都依赖于统计量(或者数据等)的分布是正态分布这一假设。所以如果假设统计量本身就是正态的,那么当然可以以这些统计量为基础进行假设检验。但是如果分布不是正态的,那很有可能就需要CLT来帮助(至少建立在极限状态下的正态性)证明假设检验(包括区间估计)的正当性:因为如果统计量不是正态的,那么得出来的东西根本对不上号,假设检验也就没啥大意义了。
来源:知乎 www.zhihu.com
作者:Junyi Hou
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载
此问题还有 3 个回答,查看全部。
延伸阅读:
数独和魔方之间有联系吗?
复数和向量是否可以比较,如果可以有什么联系和区别?