|
2#
楼主 |
发表于 2012-7-4 00:23:06
|
只看该作者
区间估计 区间估计(Interval Estimation)是依据抽取的样本,根据一定的正确度与精确度的要求,估算总体的未知参数可能的取值区间。区间估计一般是在一个既定的置信水平下计算得到总体均值或者总体概率的置信区间(Confidence Interval),一般会根据样本的个数和标准差计算得到总体的标准误差,根据点估计中用样本均值或样本概率估计总体均值或总体概率,进而得出一个取值的上下临界点。
u# t7 t; }# N8 D9 z 我们可以将样本标准差记作S,如果我们抽样获取的有n个样本,那么总体的标准差σ就可以用样本标准差估算得到:1 D: U) \& d; w; `9 p
9 w( H3 O$ T0 W7 Z3 b& r# R" `. A
从这个公式中我们可以看到大数定理的作用,当样本个数n越大时,总体指标差σ越小,样本估计值越接近总体的真实值。Excel的图表里面也提供了添加“误差线”的功能:
2 |# p; ~9 m* |( R! V+ i2 l2 A/ Z ! Z9 Y. k" l& s/ M9 U6 D
6 x' M6 x- p9 I" I5 W A
有了总体的标准差σ,我们就可以使用区间估计的方法计算总体参数在一定置信水平下的置信区间,置信区间(Confidence Interval)给出了一个总体参数的真实值在一定的概率下会落在怎么样的取值区间,而总体参数落在这个区间的可信程度的这个概率就是置信水平(Confidence Level)。$ p9 d' ]" r) A$ x2 N m
根据Z统计量的计算公式:
+ g& \! n1 C4 ?1 `% A( w. P9 b0 V
& U1 A, k$ {& T8 H' G$ X2 |0 x$ q( i
假如在1-α的置信水平下,则总体均值μ的置信区间为:: ~+ j5 [7 T+ H
) b0 q1 ]* g) D0 c$ u7 d2 n, i
& |8 x" u$ h( E8 L$ W' J 这里样本均值和标准差都可以根据抽样的结果计算得到,所以在既定置信水平的条件下,我们只要查Z值表(Z-Score)得到相应的Z值就可以计算得到总体均值的置信区间。对于置信水平或者叫置信度的选择,在统计学中一般认为95%的置信度的结果具有统计学意义,但其实在互联网领域数据的分析中不需要这么高的置信度,我们有时也会选择80%或者90%的置信度,相应的Z值见下表:; D# z R- J0 Z7 v
% O! @1 ]- h! N/ k, S+ n. _
置信水平1-α 对应Z值Zα/2 ]% \; Q1 P2 F2 J$ d. Z) G2 ?
95% 1.96 ! E# U. d+ L0 J% m
90% 1.65
% u0 D( P+ ~7 e. C5 z0 Y, `80% 1.28 【内乡社区网www.neixiangshequ.cn创始人边缘温馨推荐】# E& K- @, l! ~
因为我们是专业出售短信群发软件的,所以我们的短信群发质量是最精确,价格是最低廉!\网站制作\彩页\名片\喷绘写真\条幅【内乡社区网6月活动】单次短信20万条,送400电话(价值3800元)联系18037711789
/ r4 }& L& b! u1 x6 j; }" Y/ W 对于总体概率的估计,在具备足够样本数量的条件下,我们用样本概率p预估总体概率,而总体概率的标准差则是sqrt(p(1-p)/n),同样可以计算得到置信区间。2 u% e, U3 f6 q9 @$ S* \/ C2 D$ r1 B
其实这篇文章的内容大部分都可以在统计学书籍或者网上Wiki里面找到,当然写到博客里面不是为了做科普,这里的每篇“数据分析方法”类目下的文章都是跟相应的网站数据分析的应用文章结合,这篇也不例外,如果你对相关内容感兴趣,请关注后续发布的文章,或者订阅我的博客吧。
) \8 C9 a. i& Z5 t; A8 L) r
0 ^8 O4 {) ?/ k" l 本文采用 BY-NC-SA 协议,转载请注明来源:网站数据分析 » 《参数估计与置信区间》
0 `6 F2 T4 R" J, a+ X* J; L |
|