二、简答题 1.简要区别 描述统计与 推断统计? 答:
描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等方法。
推断统计是研究如何利用样本数据来推断总体特征的统计方法。
2.一组数据的 分布特征可以从哪几个方面进行测度? 答:数据分布特征一般可从 集中趋势、 离散程度、 偏态和 峰度几方面来测度。常用的指标有 均值、 中位数、 众数、 极差、方差、 标准差、 离散系数、 偏态系数和 峰度系数。
3.在列联分析中,简述2统计量的 计算步骤?
4.简述 单因素方差分析的基本步骤? (1)
提出原假设 (2)
构造 检验 的 统计量 计算各样本的均值 计算全部观测值的总均值 计算各误差平方和:
总平方和(SST)=组间平方和(SSA)+组内平方和(SSE)
计算统计量 (3)
统计决策 ( (4 )
方差分析表 ( (5 )用 用 l Excel 进行方差分析 5.简述 双因素方差分析的基本步骤? (1)
提出假设 ( (2 )
构造检验的统计量 (3)
统计决策 6.简述 方差分析的基本思路和原理? ( (1 )
图形描述 (2)
误差分解 (3)
误差分析 7.简述2分布、t 分布、F 分布及正态分布之间的 关系? 这是三大抽样分布,他们都是 基于 正态分布建立起来的。
8.回归分析 主要解决哪几方面的问题? (1)从一组样本数据出发, 确定变量之间的数学关系式。
(2)对这些关系式的 可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的 影响显著,哪些不显著。
(3)利用所求的关系式,根据一个或几个变量的取值来 预测或 控制另一个特定变量的取值,并给出这种预测或控制的 可靠程度。
9. 回归分析与 相关分析的区别? (1)
相关分析中,变量 x x 变量 y y 处于 平等的地位; 回归分析中,变量 y y
称为 因变量,处在 被解释的地位,变量 x x 称为 自变量,用于 预测因变量的变化。
(2)
相关 分析中所涉及的变量 x x 和 y y 都是 随机变量; 回归分析中,因变量 y y 是随机变量,自变量 x x 可以是 随机变量,也可以是 非随机的确定变量。
(3)
相关分析主要是描述 两个变量之间 线性关系的 密切程度;回归分析不仅可以揭示变量 x x 对变量 y y 的 影响大小,还可以由回归方程进行 预测和 控制。
10.简述 一元线性关系的检验步骤? ( (1 )
提出假设 ( (2 )
计算检验统计量 F F ( (3 )
作出决策
三、名词解释 1. 拉氏价格指数:以 现期价格购买一个 基期 选定的商品组合的成本相对于以 基期价格购买 同一组合的成本的比值。
2. 帕氏价格指数:以 现期价格购买一个 现 期 选定的商品组合的成本相对于以 基期价格购买 同一组合的成本的比值。
3. 集中趋势:指一组数据向某一中心值 靠拢的 程度,它反映了一组数据 中心点的 位置所在。
4. 置信区间:由样本统计量所构造的 总体参数的 估计区间。
5. 置信水平:将构造置信区间的步骤 重复多次,置信区间中包含 总体参数真值的 次数所占的 比例。
6. 弃真错误:当原假设为 真时 拒绝原假设,所犯的就称为 第一类错误,又称 弃真错误,即 α α 错误。
7. 取伪错误:当原假设为 假时 没有拒绝原假设,所犯的就是第二类错误,又称 取伪错误,即 β β 错误。
8. 多重共线性:当回归模型中 两个或两个以上的自变量 彼此相关时,则称回归模型中存在 多重共线性。
9. 趋势:是 时间序列在 长期内呈现出来的某种持续 上升或持续 下降的变动。
10. 线性趋势:指 现象随着时间的推移而呈现出稳定 增长或 下降的线性变化规律。
11. 回归方程:描述 因变量 y y 的 期望值如何 依赖于 自变量 x x 的方程方程。
12. 最小二乘估计:通过使因变量的 观测值 i y 与 估计值 iyˆ之间的 离差平方和达到 最小来估计 0 和 1 的方法。
13. 判定系数:
回归平方和占 总平方和的比例。
14. 估计标准误差:说明 实际值与其 估计值之间 相对偏离程度的指标。
15. 残差:是因变量的 观测值i y与根据估计的回归方程求出的预测值iyˆ之差。
16. 拟合优度:指 回归直线对 观测值的 拟合程度。
17. 组内误差:来自 水平内部的数据误差。
18. 间接误差:
间接测量的误差。
19. 系统误差:在重复性条件下,对 同一被测量进行 无限多次测量所得结果的 平均值与被测量的 真值之差。
20. 回归模型:描述 因变量 y y 如何 依赖于 自变量 x x 和 误差项 ε ε的方程。
四、计算题 4.2 随机抽取 25 个网络用户,得到他们的年龄数据如下:
19
15
29
25
24
23
21
38
22
18
30
20
19
19
16
23
27
22
34
24
41
20
31
17
23
(1)计算众数、中位数:0M =19 和 23;eM =23 (2)根据定义公式计算四分位数:
1 Q =19; 3 Q =26.5 (3)计算平均数和标准差:
x =24;s=1) (2nx x i=6.65 (4)计算偏态系数和峰态系数:
SK=33) 2 )( 1 () (s n nx x ni =1.08 K=42 2 4) 3 )( 2 )( 1 () 1 ( ] ) ( [ 3 ) ( ) 1 (s n n nn x x x x n ni i =0.773 (5)对网民年龄的分布特征进行综合分析:
样本数据的均值为 24 岁,但标准差较大,说明网民年龄之间差异较大。从偏态和峰度系数来看,网民年龄呈现右偏尖峰分布。
7.11 某企业生产的袋装食品采用自动打包机包装,每袋标准重量为 l00g。现从某天生产的一批产品中按重复抽样随机抽取 50 包进行检查,测得每包重量(单位:g)如下:
每包重量(g)
包数 96~98 98~100 100~102 102~104 104~106 2 3 34 7 4 合计 50 已知食品包重量服从正态分布,要求:
(1)确定该种食品平均重量的 95%的置信区间。
解:大样本,总体方差未知,用 z 统计量 xzsn 0,1 N ; x =101.4,s=1.829 置信区间:
2 2,s sx z x zn n 1 =0.95,2z =0.025z =1.96 2 2,s sx z x zn n =1.829 1.829101.4 1.96 ,101.4 1.9650 50 =(100.89,101.91)
(2)如果规定食品重量低于 l00g 属于不合格,确定该批食品合格率的 95%的置信区间。
解:总体比率的估计 大样本,总体方差未知,用 z 统计量 1pzp pn 0,1 N;p=(50-5)/50=0.9 置信区间: 2 21 1,p p p pp z p zn n 1 =0.95,2z =0.025z =1.96 2 21 1,p p p pp z p zn n = 0.9 1 0.9 0.9 1 0.90.9 1.96 ,0.9 1.9650 50 =(0.8168,0.9832)
7.18 某居民小区共有居民 500 户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了 50 户,其中有 32 户赞成,18 户反对。
(1)求总体中赞成新措施的户数比例的置信区间(α=0.05)
)
, (为:
户数比例的 总体中赞成该项改革的, , , , 已知:.77 0 51 . 0 即13 . 0 64 . 0500.64) - 0.64(196 . 1 64 . 0np) - (1z的置信区间 95%1.96 z 0.05 64 . 050320 5 nα/20.05/2 ppp (2)如果小区管理者预计赞成的比例能达到 80%,要求估计误差不超过 10%。应抽取多少户进行调查(α=0.05)? 621 . 0) 80 . 0 1 ( 80 . 0 96 . 1 ) 1 ( ) (zn1.96 z 0.05 80 . 02222/20.05/2 E 应抽取的样本量为:, , 已知:
7.20 顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取 10 名顾客,他们在办理业务时所等待的时间(单位:分钟)如下:
方式 1 6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7 方式 2 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10 要求:
(1)构建第一种排队方式等待时间标准差的 95%置信区间。
解:估计统计量: 2221~ 1n Sn
样本标准差:22s =0.2272 置信区间: 2 222 22 1 21 11 1n S n Sn n 1 =0.95,n=10, 221 n = 20.0259 =19.02, 21 21 n = 20.9759 =2.7 2 22 22 1 21 1,1 1n S n Sn n =9 0.2272 9 0.2272,19.02 2.7 =(0.1075,0.7574)
因此,标准差的置信区间为(0.3279,0.8703)
(2)构建第二种排队方式等待时间标准差的 95%置信区间。
解:估计统计量: 2221~ 1n Sn
样本标准差21s =3.318 置信区间: 2 222 22 1 21 11 1n S n Sn n 1 =0.95,n=10, 221 n = 20.0259 =19.02, 21 21 n = 20.9759 =2.7 2 22 22 1 21 1,1 1n S n Sn n =9 3.318 9 3.318,19.02 2.7 =(1.57,11.06)
因此,标准差的置信区间为(1.25,3.33)
(3)根据(1)和(2)的结果,你认为哪种排队方式更好? 答:第一种方式好,标准差小!
8.4 糖厂用自动打包机打包,每包标准重量是 100 千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9 包重量(单位:千克)如下:99.3
98.7
100.5
101.2
98.3
99.7
99.5
102.1
100.5 已知包重服从正态分布,试检验该日打包机工作是否正常(a=0.05)? 解:
H 0 :
μ =100; H 1 :
μ ≠100 经计算得:
x =99.9778;S=1.21221 检验统计量:
0xts n =99.9778 1001.21221 9=-0.055 当 α =0.05,自由度 n -1=8 时,查表得 2 / α t =2。
因为 t <2t ,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常。
8.10 装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各抽取 12 件产品,记录各自的装配时间(单位:分钟)如下:
甲:31
34
29
32
35
38
34
30
29
32
31
26 乙:26
24
28
29
30
29
32
26
31
29
32
28 两总体为正态总体,且方差相同。问两种方法的装配时间有无显著不同(a=0.05)? 解:建立假设 H 0 :
μ 1 - μ 2 =0; H 1 :
μ 1 - μ 2 ≠0 总体正态,小样本抽样,方差未知,方差相等,检验统计量 1 21 21 1px xtsn n 根据样本数据计算,得 1n =12,2n =12, 1x =31.75,1s =3.19446, 2x =28.6667,2s =2.46183。
2 21 1 1 2 21 21 12pn s n ssn n
= 2 212 1 0.92216 12 1 0.7106712 12 2
=8.1326 1 21 21 1px xtsn n=2.648 当 α =0.05 时,临界点为 2 1 22 t n n = 0.02522 t =2.074,此题中 t >2t ,故拒绝原假设,认为两种方法的装配时间有显著差异。
8.14 某工厂制造螺栓,规定螺栓口径为 7.0cm,方差为 0.03cm。今从一批螺栓中抽取 80 个测量其口径,得平均值为 6.97cm,方差为 0.0375cm。假定螺栓口径为正态分布,问这批螺栓是否达到规定的要求?(α=0.05)
20 : H =7; 21 : H 7 0025 . 00549 . 180 / 03 . 07 97 . 6/ nx 不能拒绝原假设。
8.15 有人说在大学中男生的学习成绩比女生的学习成绩好。现从一个学校中随机抽取了 25 名男生和 16 名女生,对他们进行了同样题目的测试。测试结果表明,男生的平均成绩为82 分,方差为 56 分,女生的平均成绩为 78 分,方差为 49分。假设显著性水平 α=0.02,从上述数据中能得到什么结论? 解:首先进行方差是否相等的检验:
建立假设 H 0 :21 =22 ; H 1 :21 ≠22
n1=25,21s =56,n2=16,22s =49, 2122sFs =5649=1.143 当 α =0.02 时, 224,15 F =3.294, 1 224,15 F =0.346。由于 1 224,15 F < F < 224,15 F ,检验统计量的值落在接受域中,所以接受原假设,说明总体方差无显著差异。
检验均值差:
建立假设 H 0 :
μ 1 - μ 2 =0; H 1 :
μ 1 - μ 2 =0 总体正态,小样本抽样,方差未知,方差相等, 检验统计量 1 21 21 1px xtsn n, 根据样本数据计算,得1n =25,2n =16, 1x =82,21s =56,2x =78,22s =49 2 21 1 1 2 21 21 12pn s n ssn n =53.308 1 21 21 1px xtsn n=1.711 α =0.02 时,临界点为 1 22 t n n = 0.0239 t =2.125,t< t ,故不能拒绝原假设,不能认为大学中男生的学习成绩比女生的学习成绩好。
推荐访问:统计学