欢迎来到我的范文网!

chi2,分布临界值

自我介绍 时间:2020-04-03

【www.myl5520.com--自我介绍】

第六讲方差分析
篇一:chi2,分布临界值

第五章 方

第一节 概述

前面介绍了两样本均数比较的t检验,但在实际研究中经常需要多组均数的比较。如:例5.1 患有某种肿瘤的大白鼠接受不同实验处理后(对照未服药;服抗癌A药;服抗癌B药;服抗癌C药),2周后体内存活的肿瘤细胞数如表5.1所示,比较不同实验处理后的平均存活肿瘤细胞数是否有差异。

表5.1 不同实验处理后存活肿瘤细胞数(有丝分裂细胞/10个高倍镜视野)

对照 48 50 46 52 48 5 48.80 2.28

服抗癌A药

45 51 47 48 47 50 6 48.00 2.19

服抗癌B药

23 20 22 19 21 5 21.00 1.58

服抗癌C药

5 6 0 2 2 4 6 3.17 2.23

合计 22 33.45 20.14

N

s

本例中共有4种实验处理,在实验设计中称为一个因素中的4个水平:第一个水平为对照处理;第二个水平为服用A药处理;第三个水平为服用B药处理;第四个水平为服用C药处理。根据本例的研究问题,相应的假设检验为

H0:1=2=3=4 vs H1:1,2,3,4不全相同  不能用t检验进行两两比较,第一类错误会增大。

由于本例共有4组的均数需要比较。如果用t检验进行两两比较,共要进行C46次

2

t检验。如果每次t检验犯第一类错误的概率为0.05,则不犯第一类错误的概率为0.95,

6次都不犯第一类错误的概率为0.9560.7351,因此在6次t检验中至少有一次犯第一类错误的概率为10.9560.26490.05。由此可见用t检验进行多组均数的比较会增大犯第一类错误的概率。

 要用方差分析或多组的秩和检验(Kruskal Wallis test)的方法进行多组比较:

方差分析的英文全称为Analysis of Variance,缩写简称为ANOVA。  统计分析策略

 如果每一组资料服从正态分布(或大样本),并且方差齐性,则可以用方差分析的方

法进行比较。

 如果方差不齐或小样本而非正态分布,则用Kruskal Wallis 进行检验。

第二节 完全随机设计资料的方差分析

一、完全随机设计

表5.1 不同实验处理后存活肿瘤细胞数(有丝分裂细胞/10个高倍镜视野)

对照(i=1) 服抗癌A药(I=2) 服抗癌B药(I=3) 服抗癌C药(I=4) 合计

48 45 23 5

50 51 20 6 46 47 22 0 52 48 19 2 48 47 21 2 50 4 n 5 6 5 6 22

48.00 21.00 3.17 33.45 48.80

s 2.28 2.19 1.58 2.23 20.14

例5.1就是完全随机设计的资料。该例中的处理因素是不同的实验处理(即服用不同药物情况),共有4个水平,对照未服药、服抗癌A药、服抗癌B药和服抗癌C药,观察指标是大白鼠体内存活肿瘤细胞数,观察结果及部分描述统计量见表5.1。

二、变异的分解(以本例为例)

组间变异SS组间n1(1)n2(2)n3(3)n4(4)

其中1,2,3,4为第1组,第2组,第3组和第4组的样本均数,为所有数据的平均数。 自由度v=4-1=3

组内变异SS组内(n11)S1(n21)S2(n31)S3(n41)S4

2

2

2

2

S1,S2,S3,S4为各组的样本标准差。

自由度v=22-4=18 可以证明:

 H0:1=2=3=4成立时,SS组间较小  H0:1=2=3=4不成立时,SS组间较大

 H0:1=2=3=4是否成立与组内变异SS组内无关。  SS总=SS组间+SS组内,其中

SS总(x11)2(x21)2(x51)2(x12)2(x64)2

(xij)

j1

i4

2

其中表示所有资料的平均数,用N表示总样本量(本例N=5+6+5+6=22)。 资料Xij越离散,SS越大,反之亦然。

SS还与样本的自由度(degree of freedom)=N-1有关(N为总样本量),自由度增大,SS增大。

组内变异自由度为组内Nk

由于组间变异和组内变异与自由度有关,所以不能直接比较离均差平方和。将各部分的离均差平方和除以各自的自由度,得到相应的平均变异指标:均方(mean square,记为MS)。组间变异和组内变异的均方可通过公式5.7和公式5.8计算得到。

MS组间

SS组间

组间

SS组内

(5.7)

MS组内

组内

(5.8)

均方消除了自由度的影响,因而可以进行比较。将组间均方除以组内均方,就得到方差分析的检验统计量F。chi2,分布临界值。

F

MS组间MS组内

(5.9)

可以证明,当H0成立时,则 F服从自由度为k-1和N-k的F分布;若H0不成立,则F不服从F分布,且大多数情况下,F远大于1。因此,可通过F的大小判断H0的成立与否。

三、方差分析的步骤

1.建立假设并确定检验水准 根据例5.1的题意,可作如下假设:

H0:不同实验组大白鼠体内存活的肿瘤细胞数的总体均数相同,即1234; H1:不同实验组大白鼠体内存活的肿瘤细胞数的总体均数不全相同。

检验水准:0.05

2、计算检验统计量 根据表5.3的计算公式,可计算各变异部分的离均差平方和、自由度、均方和检验统计量F值。

表5.3 完全随机设计资料方差分析的计算公式(k个样本)

变异来源 组间变异 组内变异 总变异

离均差平方和(SS) 自由度(υ) 均方(MS) F值

n(jjj

i

.j

)2 .j)2

2

k1

SS组间

组间

SS组内

MS组间MS组内

(x

i

j

ij

Nk N1

组内

(xij)

本例计算为用Stata软件计算如下

由于本例样本量较少,正态性检验有些困难。可以采用各组资料减去相应的样本均数,然后再检验。

因此先计算各组的样本均数,Stata命令 tab group,su(x)

gen d=0

replace d=x-48.8 if group==1 replace d=x-48 if group==2 replace d=x-21 if group==3 replace d=x-3.166667 if group==4 d称为残差。 进行正态性检验 sktest d

Skewness/Kurtosis tests for Normality

------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- d | 0.853 0.181 2.03 0.3633 没有证据认为资料偏态分布。

Stata命令:oneway 观察变量 分组变量,t 本例命令: oneway x group,t

统计方法3 分布拟合
篇二:chi2,分布临界值

统计方法3 概率分布,参数估计和假设检验

第一节 概率分布

1.概率密度函数

y=pdf(name,x,A)

返回单参数分布name的在X处的概率密度值,A是参数。

y=pdf(name,x,A,B) 或 y=pdf(name,x,A,B,C)返回两参数和三参数的概率密度。

也可以这样求

表 概率密度函数(pdf)

2注意: Y=normpdf (X, MU, SIGMA)的SIGMA是指标准差, 而非.

2.绘制概率密度图像

x=-4:0.1:4;

y=normpdf(x,0,1);

plot(x,y)

title('N(0,1)的概率密度曲线图')

3.分布函数

表 累积分布函数(cdf)

例 求服从标准正态分布的随机变量落在区间[-2, 2]上的概率.

〉〉P=normcdf ([-2, 2])

ans = 0.0228 0.9772

>> P(2)-P(1)

ans = 0.9545

4.逆分布函数,求分位数

表 逆累积分布函数(icdf)

例 求分位数

(1)u0.9

u_alpha=norminv(0.9,0,1) u_alpha = 1.2816

50(2)0.025

X2_alpha=chi2inv(0.025,50) X2_alpha = 32.3574

第二节 参数估计

1. 点估计

例 从某厂生产的滚珠中随机抽取10个,测得滚珠的直径(mm)如下:

15.14,14.81,15.11,15.26,15.08,15.17,15.17,15.12,14.95,15.05,14.87

若滚珠的直径服从正态分布N(,),求参数,的点估计和置信水平为90%区间估计。

2

>> x=[15.14 14.81 15.11 15.26 15.08 15.17 15.17 15.12 14.95 15.05 14.87];

>> [muhat,sigmahat,muci,sigmaci]=normfit(x,0.1)

%muhat,sigmahat返回参数的极大似然估计

% muci,sigmaci返回区间估计

muhat =

15.0664

sighat =

0.1369

muci =

14.9915

15.1412

sigmaci =

0.1012

0.2181

表 统计工具箱中的参数估计函数 (fit / like) 注binofit (x,n,alpha)根据试验成功的次数x和总的试验次数n, 对中的p进行最大似然估计, 同时返回置信度为100(1-alpha)%的置信区间pci

例 化肥厂用自动包装机包装化肥,某日测得9包化肥的质量(kg)如下:

49.4 50.5 50.7 51.7 49.8 47.9 49.2 51.4 48.9 设每包化肥的质量服从正态分布,是否可认为每包化肥的平均质量为50kg,取显著性水平0.05

x=[49.4 50.5 50.7 51.7 49.8 47.9 49.2 51.4 48.9];

[h,p,muci,stat] = ttest(x,50,0.05)

h =

p =

0.8961

muci =

48.9943 50.8945

stat =

tstat: -0.1348

df: 8

sd: 1.2360

表 统计工具箱中的假设检验 (test / rank)

对于未知的总体的分布,我们可以利用一些拟合的方法进行探索。

1. 经验分布函数

可以利用样本数据构造一个分布函数,理论上可以证明它很接近于那个未知分布。这个分布函数就叫做经验分布函数。

0iFn(x)fkk1

1xx(1)x(i)xxi1(i1,...,l1) xx(l)

经验分布函数的图像式阶梯状的。

Matlab统计工具箱提供了cdfplot和ecdf函数,用来绘制样本经验函数图,可以把经验分布函数图和某种理论分布函数图叠加,对比它们的区别。

y = evrnd(0,3,100,1);%产生参数为0,3的极值分布随机数

cdfplot(y)

hold on

x = -20:0.1:10;

f = evcdf(x,0,3);% 参数为0,3的极值分布的理论分布函数

plot(x,f,'m')

legend('Empirical','Theoretical','Location','NW')

2.频率直方图

将观测值按从小到大进行排序,划分为若干区间,统计各区间内得频率。在x轴上,以各区间为底,以频率为高,绘出频率直方图。频率直方图可以用来估计概率密度(或分布

第五章计量作业
篇三:chi2,分布临界值

5-3 1

Dependent Variable: Y Method: Least Squares Date: 10/01/04 Time: 14:29 Sample: 1 60

Included observations: 60

Variable C X

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

Coefficient 9.347522 0.637069

Std. Error 3.638437 0.019903

t-Statistic 2.569104 32.00881

Prob. 0.0128 0.0000 119.6667 38.68984 7.272246 7.342058 7.299553 1.790431

0.946423 Mean dependent var 0.945500 S.D. dependent var 9.032255 Akaike info criterion 4731.735 Schwarz criterion -216.1674 Hannan-Quinn criter. 1024.564 Durbin-Watson stat 0.000000

(2)首先,用Goldfeld-Quandt法进行检验。

=2495.84

F(20,20)2.12

给定0.05,查F分布表,得临界值为0.05

比较临界值与F统计量值,有F=4.1389>F0.05(20,20)2.12,说明该模型的随机误差项存在异方差。

其次,用White法进行检验。具体结果见下表

Heteroskedasticity Test: White F-statistic

6.301373 Prob. F(2,57)

0.0034 0.0044 0.0070

2chi2,分布临界值。

Obs*R-squared Scaled explained SS

10.86401 Prob. Chi-Square(2) 9.912825 Prob. Chi-Square(2)

给定

,在自由度为2下查卡方分布表,得5.9915。

2

2

比较临界值与卡方统计量值,即nR10.86405.9915,同样说明模型中的随机误差项存在异方差

3.做加权最小二乘估计

Dependent Variable: Y Method: Least Squares Date: 10/01/04 Time: 19:38 Sample: 1 60chi2,分布临界值。

Included observations: 60 Weighting series: 1/SQR(X)

Variable

X C

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

R-squared Adjusted R-squared S.E. of regression Durbin-Watson stat 检验: 然后对其White

Heteroskedasticity Test: White F-statistic

2.982376 Prob. F(2,57)

0.0586 0.0583 0.1831

Coefficient 0.632671 10.10908

Std. Error 0.018379 2.980789

t-Statistic 34.42341 3.391409

Prob. 0.0000 0.0013 112.9123 18.33568 7.086817 7.156628 7.114124 1.874009

119.6667 38.68984 4735.718

Weighted Statistics

0.953338 Mean dependent var 0.952533 S.D. dependent var 8.232480 Akaike info criterion 3930.877 Schwarz criterion -210.6045 Hannan-Quinn criter. 1184.971 Durbin-Watson stat 0.000000

Unweighted Statistics

0.946378 Mean dependent var 0.945454 S.D. dependent var 9.036056 Sum squared resid 1.795491

Obs*R-squared Scaled explained SS

5.683897 Prob. Chi-Square(2) 3.395015 Prob. Chi-Square(2)

5.4

1.Y01X12X23X34X45X5

Dependent Variable: Y

Method: Least Squares Date: 10/01/04 Time: 18:58 Sample: 1 12

Included observations: 11

Variable C X1 X2 X3 X4 X5

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

Coefficient -0.842575 0.028096 0.002450 0.199336 0.008717 0.043016

Std. Error 10.06586 0.028271 0.082682 0.536547 0.006309 0.021402

t-Statistic -0.083706 0.993809 0.029637 0.371517 1.381640 2.009894

Prob. 0.9365 0.3659 0.9775 0.7255 0.2256 0.1007 91.78455 78.88744 8.707029 8.924063 8.570220 1.721511

0.978984 Mean dependent var 0.957969 S.D. dependent var 16.17311 Akaike info criterion 1307.848 Schwarz criterion -41.88866 Hannan-Quinn criter. 46.58372 Durbin-Watson stat 0.000340

2

2

从回归结果可以看出,模型的R和值都较高,F统计量也显著。但是X的系数均不显著,模型可能存在多重共线性。

修正多重共线性影响的回归结果为:

Dependent Variable: Y Method: Least Squares Date: 10/01/04 Time: 19:02 Sample: 1 12

Included observations: 12

Variable C X3 X4

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

Coefficient 14.74802 1.352291 0.009691

Std. Error 8.035139 0.138317 0.004489

t-Statistic 1.835441 9.776764 2.159071

Prob. 0.0996 0.0000 0.0592 96.62750 77.06446 8.848259 8.969485 8.803376 2.482223

0.954584 Mean dependent var 0.944492 S.D. dependent var 18.15656 Akaike info criterion 2966.945 Schwarz criterion -50.08955 Hannan-Quinn criter. 94.58409 Durbin-Watson stat 0.000001

2.White 检验: Heteroskedasticity Test: White F-statistic

0.630414 Prob. F(5,6)

0.6854 0.5304 0.4680

Obs*R-squared Scaled explained SS

4.132927 Prob. Chi-Square(5) 4.589760 Prob. Chi-Square(5)

2

nR24.1329270.05(5)11.0705

接受原假设,模型不存在异方差。

5.5

(1)建立样本回归模型。

ˆ192.99440.0319XY

(0.1948)(3.83)

R0.4783,s.e.2759.15,F14.6692

(2)利用White检验判断模型是否存在异方差

给定0.05和自由度为2下,查卡方分布表,得临界值5.9915,而

White统计量

22

nR25.2125,有nR0.05(2),则不拒绝原假设,说明模型中不存在异方差。

2

2

(3

)有Glejser检验判断模型是否存在异方差。经过试算,取如下函数形式

e

得样本估计式

ˆe

(4.5658)

R0.2482

由此,可以看出模型中随机误差项有可能存在异方差。 (4)对异方差的修正。取权数为w1/X,得如下估计结果

2

ˆ243.49100.0367XY

(1.7997)(5.5255)

2R0.1684,s.e.694.2181,F30.5309

5.6

回归结果如下: ˆ0.890.237200XY

i

i

t(4.356086) (15.89724) se=(0.204312)(0.014921)

R22=0.929817 DW=1.363966 F=252.7223

e

21i

0.3 e

22i

e2.024 F=e

22i21i

6.7467F0.05(8,8)=3.44

拒绝原价设,模型存在异方差。 取权数为

,加权后回归结果:

ˆ0.7529230.249487XYii

se=(0.098255)( 0.011723)t(7.662934) (21.28124)

R22=0.752348 DW=1.240480 F=452.8914

5.7

(1)求回归估计式。

ˆ4.61030.7574XY

(4.2495)(5.0516)

2R0.5864,s.e.3.3910,F25.5183

作残差的平方对解释变量的散点图

由图形可以看出,模型有可能存在异方差。

(2)去掉智利的数据后,回归得到如下模型

ˆ6.73810.2215XY

(2.8254)(0.3987)

R0.0093,s.e.3.3906,F0.1589 作残差平方对解释变量的散点图

2

本文来源:http://www.myl5520.com/fanwendaquan/102892.html

推荐内容