发新话题
打印

华东师大心理统计笔记

华东师大心理统计笔记

华东师大心理统计笔记


第一章     绪论

&1.随机现象与统计学

        确定现象              随机现象

        本人性别              生男生女

        光的速度              学习成绩

        种豆得豆           (人的)反应速度

随机现象:具有以下三个特性的现象称为随机现象

(i)   一次试验有多种可能结果,其所有可能结果是已知的。

(ii)                     试验之前不能预料哪一种结果会出现

(iii)                    在相同条件下可以重复试验

随机事件:随机现象的每一种结果叫做一个随机事件。

随机变量:把能表示随机现象各种结果的变量称为随机变量

统计学的研究对象是随机现象规律性随机变量的分布:

(i)正态分布   eg:学习成绩

  图(略)

(ii)双峰分布 eg::汽车拥挤程度

图(略)

(iii)另一种分布 eg:如下

图(略)

                           &2.总体和样本

总体:是我们所研究的具有某种共同特性的个体的总和

样本:是从总体中抽取的作为观察对象的一部分个体。

(i)                   总体:有限总体:总体所包含的个体数目有限时

无限总体:总体所包含的个体数目无限时           →参数:总体上的各种数字特征

(ii)                 总体→抽样→ 样本:大样本:>30  >50

                          小样本:≤30 ≤50(更精神)

(样本容量:样本中包含的个体数目)           

        →统计量:样本上的数字特征

        根据统计量来估计参数

                            &3.心理统计学的内容

1.   描述统计:

对已获得的数据进行整理,概括,显现其分布特征的统计方法。

   集中量     平均数     #

描述   差异量     标准差S: S大:差异大/不稳定   对个别

                           S小:差异小/稳定   对个别

统计   相关量:相关系数(表示两件事情的相互关系)r.r∈[-1,1](r表示从无关道完全相

关,相关:正相关,相关,负相关)

2.   推断统计

      参数估计:#→μ

                s→σ

推断            r→р

统计   假设检验:参数检验

                 非参数检验

3.   实验设计









           ↓

  

                    初级的,用平均数,百分比

                                 ↓

    后来,平均数   

   T检验(2个对象)

          标准差

                                 ↓

                   中级的,(2个或2个以上对象)(方差分析)下检验。

                                 ↓

                 高级的,相关回归(用相关系数)

                                 ↓

     再高级的,(研究生学) 因素分析(探索性的)两两相关,写相关系数

                                 ↓

               更高级的,协方差结构方程(验证性的)




前程:相同符号的一串→非参数检验中的一种

                        第二章 数据整理

&1.数据种类

一.间断变量与连续变量   eg:人数 ~ 间断

二.四种量表。

1.称名量表。 Eg:307室,学好,电话好吗   不能进行数学运算(也包括不能大小比较)

2.顺序量表。Eg:名次。能力大小,不能运算

3.等距量表。可以运算(做加减法),不能乘除

             要求:没有绝对0

                   年龄有绝对0

                   时间(年代,日历。。。)位移无绝对0,可能有相对0,即有正负

4.等比量表。可做乘除法。

             要有绝对零。

成绩中的,0分不是绝对0(因为并不说明此人一窍不通)

分数代表的意义。Eg:0~10分

                与90~100分。   每一分的“距离”不一样

因为严格来说,成绩是顺序量表。但为了实际运用中的各种统计,把它作为等距量表

                           &2.次数分布表

一.  简单次数分布表

eg:  组别            次数(人次)

100                                                          2

90~99             5

80~89             14

70~79             15

60~69             7

60分以下           3

1.   求全距  R=Max – Min(连续变量)

           (间断变量)——R=Max-Min+1

2.   定组数  K(组数)=1.87(N-1)。。。  →取整 N-总数  

3.   定组距  I=R/K。一般,取奇数或5的倍数(此种更多)。

4.   定各组限

5.   求组值  X=(上限+下限)/2     上限——指最高值加或取10的倍数等)

6.   归类划记

7.   登记次数

例题:      99   96  92  90  90           (I) R=99-57+1=43

            87   86  84  83  83

82            82  80  79  78            (II)K=1.87(50-1)。。。≈9

78            78  78  77  77

77            76  76  76  76

75            75  74  74  73            (III)I=R/K =43/9≈5

72            72  72  71  71

71            70  70  69  69

68            67  67  67  65            (iu)组别      组值       次数

64   62  62  61  57              95~99      97           2

                                 90~94      92           3

                                 85~89      87           2

                                 80~84     82           6

                                 75~79     77           14

                                 70~74     72           11

                                 65~69     67            7

                                 60~64     62            4        

                                 55~59     57            1

                                 总和                     50

二.  相对(比值)次数分布表。  累积次数分布表

相对(比值)累积次数:累积次数值/总数N

注:一般避免不等距组(“以上”“以下”称为开口组)



相对次数       累积次数(此处意为“每组上限以下的人次)”小于制“

.04               50      

.06               48

.04               45

.12               43

.28               37

.22               23

.14               12

.08                5

.02                1

1.00



                                        &3.次数分布图

一.直方图

1.   标出横轴,纵轴(5:3)标刻度

2.   直方图的宽度(一个或半个组距)

3.   编号,题目

4.   必要时,顶端标数) 图

二.次数多边图

1.   画点,组距正中

2.   连接各点

3.   向下延伸到左右各自一个组距的中央

最大值即y轴最大值

相对次数分布图,只需将纵坐标改为比率。(累积次数,累积百分比

也同样改纵坐标即可)”S形”曲线是正态分布图的累积次数分布图   图(略)

                             第三章  常用统计量数

                                     &1.集中量

一.算术平均数

公式

算术平均数的优缺点。P36~37

算术平均数的特征。Σ(X-#)=0  离(均数)差

                  Σ(X-#)(X-#)取#时,得最小值

                  即:离差平方和是一最小值

二.几何平均数

#g= 略

long#g=1/NσlogXi

根据按一定比例变化时,多用几何平均数

eg:      91年     92      93       94      95      96

        12%      10%    11%     9%     9%     8%

求平均增长率

xg=

加权平均数

甲:600人         #=70分

乙:100人         #=80分

加权平均数:#=(70*600+80*100)/(600+100)  (总平均数)eg:600人,100人

简单平均数:(70+80)/2

三.中(位)数。(Md)

1.原始数据计算法

    分:奇、偶。

2.频数分布表计算法(不要求)

3.优点,缺点,适用情况(p42)

四.众数(Mo)

1.理论众数

   粗略众数

2.计算方法:Mo=3Md-2#

             Mo=Lmo+fa/(fa+fb)*I

             计算不要求

3.优缺点

平均数,中位数,众数三者关系。

                            &2.差异量数

一.全距

R=Max-Min

二.平均差(MD或AD)

MD={Σ|x-#(或Md)|}/N

三.方差

总体方差的估计值

S2 =Σ(X - #)2     反编

样本的方差:σ2 x有编

N很小时,用S2 估计总体

N>30时,用S2 或σ2 x 都可以

计算方法:σ2 x=Σx2 /N - (ΣX/N) 2

标准差σx=σ2 x2/1  

四.差异系数(CV)

CV=σx/# *100%  CV∈[5%,35%]

3个用途

五.偏态量与锋态量(SK)

1.偏态量:sk=(#-Mo)/σx

动差(一级~四级)   a3= Σ(x-#)3 、 / N/σx3      三级动差计算偏态系数)

2.峰态量:高狭峰 a4>0 (a4=0 ——正态峰)

           低调峰。A4<0

           用四级动差 a4=Σ(X - #)4/N/σx4-3

                           &3.地位量数

一.百分位数

eg:P30=60(分) “60分以下的还有30%的人”

二.百分等级

30→60(在30%的人的位置上,相应分数为60)

So→Md

                        第四章 概率与分布

                            &1.概率

一.概率的定义

            W(A)=m/n (频率/相对频数)

后验概率:  

            P(A)=lim m/n

先验概率:不用做试验的

二.概率的性质和运算

1.性质:o≤P≤1

         p=1  必然可能事件

         p=0  不可能事件

2.加法。

        P(a+b)=P(a)+P(b)

        “或”:两互不相克事件和。

        推广:“有限个” P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)

        eg:(1)A=出现点数不超过4(x≤4)

               P(A)=P(x=1)+P(x=2)+P(x=3)+P(x=4)=1/6+…1/6=4/6=2/3

            (2)完全凭猜测做判断题,(共2道),做对1题的概率为:

              A={T.Ti  B={F.Ti C={T.Fi  D={F.Fi

              P=P(B)+P(C)=1/4+1/4=0.5

3.乘法:

        P(A1,A2…An)=P(A1),P(A2)…P(An)

        Eg:(1)四选1。(十道)完全凭猜测得满分得概率:(1/4)*(1/4)…*(1/4)=1/410

                                       &2.二项分布

一.二项分布

P(x)=Cnxpxgn-x   做对的概率      px :做错的概率  gn-x :X:对的数量pxgn-x  ——每一种

分情况的概率。一种情况:pxgn-x   再乘上系数。

Eg:产品合格率为90%  取n=3(个)

                  TTT的情况         90 * 90*90=P3   0.729

                  TFT                90*0.10*90=P2g1  0.081

两个合格的情况→  TTF

                  FTT

其概率  C32P2g1=3p2g1.

        Cn0P0gn+CnP1gn-1+…+CnPng0=1

注:二项分布可能的结果只有两种。F 0r T

                               合格  Or   不合格

                               选对  Or   选错

例:(1)10道是非题,凭猜测答对5,6,7,8,9,10题的概率?至少答对5题的概率?

   P(x=5)=C510P5g5=C510(1/2)51/2)5=.24609

   P(x=6)=C610P6g4=C610(1/2)6(1/2)4=.20508

   P(x=7)=C710P7g3=C710(1/2)7(1/2)3=.11719

                                 =.04395

                                 =.00977

   +P(x=10)=C1010P10g0=(1/2)10    =.000098

  至少答对5题:P(X≥5) = 0.62306

(2)四选一,猜中8,9,10题的概率?

  P(x=8)=C819P8g2=C819(1/4)8(3/4)2=.0039

二.二项分布图(P84~85)

三.二项分布的平均数与标准差(前提np≥5且ng≥5)

平均数——M=np        标准差——r=npg1/2

                                &3.正态分布

一.正态分布曲线

二.标准正态分布。(P387附表可查面积P)

    Z=(x-ц)/r  (x:原始分数)

    标准分数(有正有负) ΣZ=0

三.正态分布表的使用

查表       P(0≤Z≤1)=0.34134——Z的范围中的人数比例(百分数)

           P(0≤Z≤1.645)=0.4500

                   1.64 - .44950=0.45

                   1.65 - .45053=0.45

          之上,标准分数高于2个标准差,则非常聪明。

          Eg:1.  μ=70(分)  σ=10

                P(70≤x≤80)=p(o≤z≤1)

                P(60≤x≤70)=P(-1≤z≤0)

            2.μ

               P(0≤z≤1)=P(μ≤x≤μ+σ)

               P(-1≤z≤0)=P(μ-σ≤x≤μ)

图(略)

例:某地区高考,物理成绩 μ=57。08(分)  σ=18。04(分)

总共47000人。  (1)成绩在90分以上多少人?

                (2)成绩在(80,90)多少人?

                (3)成绩在60分以下多少人?

解: X~N(57.08,18.042) —— 参数(μ,σ2)

Normal 表示符合正态分布

令Z= (x-57.08)/18.04) ,则Z~N(0,12)标准分数平均数一定为0,标准差一定为1。

(1)Z1=(90-57。08)/18.04=1.82

P(Z>1.82)=.0344

N1=np=47000*0.0344=1616(人)

(2)Zz=(80-57.08)/18.04=1.27

P(1.27<Z<1,82)=.46562-.39796=0.677

N2=NP=3177(人)

(3)Z3=(60-57.08)/18.04=0.16

P(Z<0.16)=.56356

N3=26487(人)

四.正态分布的应用

T=KZ+C  T~N(C,K2)

IQ=15Z+100  IQ=100 一般

             IQ≥130  ——超常

               (30=2x*15)

             IQ<70  —— 弱智

             70几  ——bndenline

eg:1.某市参加一考试2800人,录取150人,平均分数75分,标准差为8。问录取分数定为多少分?

解:  X~N(75.82)

      Z=(x-#)/σx=(x-15)/8 ~N(0,12)

      P=150/2800=0.053

        0.5-0.053=0.447

              Z=1.615

            X=1.615*8+75≈88(分)

2.某高考,平均500分,标准差100分,一考生650分,设当年录取10%,问该生是否到录取分?

解:  Zo=(650-500)/100=1.5  (X~N(500,1002)(Z~N(0,12)

      Po=0.5-0.43319=0.06681=6.681%<10%

      所以可录取。

第五章  抽样分布(概率P)

                                             &1.抽样方法

一.  简单随机抽样

二.  等距抽样

三.  分层抽样

四.  整群抽样

五.  有意抽样

&2.抽样分布

(1)      (2)     (3)     (4)     (5)

20         25        30        35         40

           (1)    #=20      22.5      25        27.5        30

           (2)     22.5        25       27.5       30         32.5

           (3)     25         27.5      30        32.5        35

           (4)     27.5        30       32.5       35         37.5

           (5)     30         32.5      35        37.5        40

总体分布    图

抽样分布    图

一.平均数

E(#)=μ

二。标准差,方差。

  σx=σ/n1/2   σ#2=σ2/n

                         &3.样本均值(#)的抽样分布

一.总体方差σ2已知时,#的抽样分布

1.正态总体,σ2  已知时,#的抽样分布

    设(X1,X2,…Xn)为抽自正态总体X~N(μ, σ2 )

的一个简单随机样本,则其样本均值#也是一个正态分布的随机变量,且有:

  E(#)=μ, σx2  =σ2 /n

    即#~N(μ, σ2 /n)

     Z=(#-μ)σ/n1/2  

   Eg:一次测验,μ=100  σ=5

   从该总体中抽样一个容量为25的简单随机样本,求这一样本均值间于99到101的概率?

解:     已知X~N(100,52)

           n=25.

        则#~N(100,12)

        Z=(#-100)/1 ~ N(0,1)

        当#=99时,Z=-1

        当#=101时,Z=1

        所以P(99≤#≤101)

           =P(-1≤Z≤1)=.68268

2.非正态总体,σ2已知时,#的抽样分布

   设(X1,X2,…Xn)是抽自非正态总体的一个简单1随机样本。当n≥30时,其样本均值#

接近正态分布,且有:

E(#)=μ, σx2  =σ2 /n

即#~N(μ, σ2 /n)

若是小样本,题目无解。

Eg(1)一种灯具,平均寿命5000小时,标准差为400小时(无限总体)从产品中抽取100盏灯,

问它们的平均寿命不低于4900小时的概率。

解:已知:μ=5000,σ=400,n=100>30是大样本

所以#近似正态分布

#~N(5000,402)

当#=4900时,Z=(4900-5000)/400/1001/2=-2.5

    P(#≥4900)=P(Z≥-2.5)=0.99379

3.有限总体的修正系数

(引出)(2)同上题,从2000(有限总体)盏中不放回地抽取100盏,问。。。。。

(概念)设总体是有限的总体,其均值为μ,方差为σ2  (X1,X2…Xn)是以不放回形式从该总

体抽取的一个简单随机样本。则样本均值#的数学期望(E(#))与方差为

E(#)=μ#=μ   和σ2  =(N-n)/(N-1)*( σ2  /n)

N→∞时,修正系数不计。 σ=[(N-n)/(N-1)*( σ2  /n)]1/2  

.n/N≥0.05%,要用修正系数

如题(2),n/N=0.05 所以要用修正系数

所以解题2:σx2 =(N-n)/(N-1) *( σ2  /n)=2000-100)/2000-1=4002  /100=1520

           σ#=15201/2  =38.987

           Z=(4900-5000)/38.987= -2.565

           P(Z≥-2.565)=.9949

二.总体方差σ2 未知时,样本均值#的抽样分布。

用S2(总体方差的估计值)代替  σ2

  t=(x-μ)/s/n1/2   ~tn-1→dp(自由度)=n-1

设(X1,X2,…Xn)

为抽自正态总体的一个容量为n的简单随机样本,即t=(x-μ)/s/n1/2符合自由度为n-1的t分布



当总体为非正态分布,且σ2 未知。

则样本   小:无解

         大:接近七分布 t≈  t=(x-μ)/s/n1/2  ~ tn-1

                         Z≈  t=(x-μ)/s/n1/2 ~ N(0,1)(也可用Z)

总体均值为80,非正态分布,方差未知,从该总体中抽一容量为64的样本,得S=2,问样本均值大

于80.5得概率是多少?

解:因为64>30  是大样本

   P(#>80.5)=P(t>(x-μ)/s/n1/2 )=P(t>2) df=63  P≈0.025

   若用Z,P(Z>z) ≈0.02275

  (若N24,总体正态,则Z分布1不能用,只能用七分布)

           非正态总体:小样本——无解

                       大样本——Z≈(x-μ)/σ/n1/2

σ2 已知     

           正态总体    Z=≈(x-μ)/σ/n1/2

             非正态总体:小样本 —— 无解

σ2  未知:             大样本——t≈(x-μ)/σ/n1/2 ≈Z

正态总体:小样本——t=(x-μ)/σ/n1/2

                       大样本——Z≈t=(x-μ)/σ/n1/2

                            &3.两个样本均值之差(#1-#2)的抽样分布

若#1是独立地抽自总体X1~N(μ1,σ2  )的一个容量为n,的简单随机样本的均值;

#是。。。X2~N(μ2, σ22 )的。。。n2.的。。。则两样本均值之差(#1-#2)~N(μ1-μ2,σ12/n1,σ22/n2)

复杂计算



一种钢丝的拉强度,服从正态分布

总体均值为80,总体标准差6,抽取容量为36的简单随机样本,求样本均值∈[79,81]的概率

X~N(80,62)

Z~N(0,12)

Z=(x-μ)/6/361/2    =(x-8)/1

x∈[79,8081]

Z ∈[-1,1]

P=.68268

若σ不知。S=b,则 X~(80, σ2   )

用公式t=(# -μ)/s/n1/2    ~ tn-1  =t35

  某种零件平均长度0.50cm,标准差0.04cm,从该总零件中随机抽16个,问此16个零件的平均长度小

于0.49cm的概率无解。

抽100个,则概率?

Z≈(x-μ)/σ/n1/2 =(# - 0.50)/0.004

#<0.49  P(Z<-0.01/0.004)

       =P(Z<-2.5)=.49379=

从500件产品中不放回地抽25件。

25/500=0.05 要修正系数(N-n)/(N-1)≈.95

   某校一教师采用一种他认为有效的方法,一年后,从该师班中随机抽取9名学生的成绩,平均分

84.5分,S=3。而全年级总平均分为82分,试问这9名学生的#<84.5分的概率为多大?

  #~N(82, σ2 )  t~t8

  t=(# -μ)/s/n1/2 =84.5-82)/3/3=2.5

  df=8

  0.975≤P(t<2.5)

  说明方法有效

  (S=3是σ的估计值,两组数据都很整齐。图(略)

&4.有关样本方差的抽样分布

一.f2分布

1.f2 分布的密度函数  f(x)=1/2n/2*r*n/2)* e-x/2*xn/2-1   (x>0)

                     f(x)=0                      (x≤0)     图(略)

2.定理:

     设(X1,X2,X3…Xn)为抽自正态总体 X~N(μ,σ2 )的一个容量为n的简单随机样本,

则#=∑(X-#)2/n-1为相互独立的随机变量,且#~N(μ, σ2 /n)

    ∑(X-#)2 /σ2 =(n-1)S2 /σ2 ~X2n-1(I=1,2,…n)

     若抽自非正态总体:小样本 —— 无解

                       大样本 —— X2≈((n-1)S2 /σ2

二.F分布

1.F分布的密度函数

  f(x)= [(n1+n2)/2]/(n1/2)(n2/2) (n1/n2)(n1/n2*X)n1/2-1(1+n1/n2*X)-n1+n2/2     (x≥0)

  f(x)=0                                                        (x<0)

2.定理

  设(X1,X2,…Xn)为抽自X~N(μ1, σ2 1)的一个容量为n1的简单~(y1,y2…yn)为抽自正态总体

y~N(μ2, σ2 2)的一个容量n2的简单~,则:

  当σ2 1=σ2 2时,

  F=S21/S22~F(n1-1,n2-1)  n1~分子自由度  n2~分母自由度

                      第六章 参数估计(置信水平下的区间估计)

                            &1.点估计

  E(X)(即#)=∑x/N→μ

  (拿一个点来估计参数)

D(X)= ∑(x-#)2 /N-1→σ2

                           &2.总体均值的区间估计

一.总体均值的区间估计,σ2 已知。

正态总体 x~N (μ, σ2 )

        #~N((μ, r2/n)  Z=(# -μ)/ σ/n1/2

1.   某种零件的长度符合正态分布。σ=1.5,从总体中抽200个作

为样本,#=8.8cm,试估计在

2.   95%的置信水平下,全部零件平均长的置信区间。

解:  已知X~N(μ,1.52 )

       n=200, #=8.8

1-a=0.95 →a-0.05

Z0.025=1.96

P(#-Za/2σ/n1/2 <μ<#+Za/2 n1/2

=P(8.59<μ<9.01)=0.95

10%>5%



若不放回地从2000个(总体)中抽出200个。——需修正系数

          所以用(N-n)/(n-1)1/2   P(# +- 1.96*σ/n1/2 *(N-n)/(n-1)1/2   =0.95=P(8.60,9.00)

  二 σ2 未知

  P(#-t(a/2,n01)S/ n1/2 <μ<#+t(a/2,n-1) S/ n1/2 )=1-a

为了制定高中学生体锻标准,在某区随机抽36名男生测100米,36名学生平均成绩13.5

秒,S=1.1秒,试估计在95%地置信水平下,高中男生100米跑成绩的置信区间。

P(# + - 2.03* S/ n1/2 )=P(13.5+- 2.03*1.1/361/2 )=9.5

(13.5+-0.37)

即(13.13,13.87)

得(13.14,13.86)

TOP

你会万福的!!!!!!!!!!!

TOP

发新话题

当前时区 GMT+8, 现在时间是 2008-9-5 20:27

蜀ICP备05000763号


清除 Cookies - 联系我们 - 5432考研网 - Archiver - WAP - TOP