§8.1 成对数据的统计相关性
学习目标
1.结合实例,了解样本相关系数的统计含义.2.了解样本相关系数与标准化数据向量夹角的关系.3.结合实例,会通过样本相关系数比较多组成对样本数据的相关性.
知识点一 相关关系
1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系. 思考 相关关系是函数关系吗?
答案 不是.函数关系是唯一确定的关系. 2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势; ②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势. (2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关. 知识点二 相关关系的刻画
1.散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点
1 / 18
表示出来,由这些点组成的统计图,叫做散点图. 2.样本相关系数
(1)我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r=
xi-xyi-y
i=1
.
2
n
xi-x
i=1
n
yi-y2
i=1
n
(2)样本相关系数r的取值范围为[-1,1]. ①若r>0时,成对样本数据正相关; ②若r<0时,成对样本数据负相关;
③当|r|越接近1时,成对样本数据的线性相关程度越强; ④当|r|越接近0时,成对样本数据的线性相关程度越弱.
1.函数关系是一种确定关系,而相关关系是一种不确定关系.( √ ) 2.样本相关系数r越大,两变量的相关性越强.( × ) 3.散点图可以直观地分析出两个变量是否具有相关性.( √ ) 4.若变量x,y满足函数关系,则这两个变量线性相关.( × )
一、变量间相关关系的判断
例1 (1)(多选)下列关系中,属于相关关系的是( ) A.正方形的边长与面积之间的关系 B.农作物的产量与施肥量之间的关系 C.出租车费与行驶的里程
2 / 18
D.降雪量与交通事故的发生率之间的关系 答案 BD
解析 A中,正方形的边长与面积之间的关系是函数关系;B中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;C为确定的函数关系;D中,降雪量与交通事故的发生率之间具有相关关系.
(2)某种产品的广告支出费x与销售额y之间有如下对应数据(单位:百万元):
x y
①画出散点图;
②从散点图中判断销售金额与广告支出费成什么样的关系?
解 ①以x对应的数据为横坐标,y对应的数据为纵坐标,所作的散点图如图所示.
2 30 4 40 5 60 6 50 8 70
②从图中可以发现广告支出费与销售金额之间具有相关关系,并且当广告支出费由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系. 反思感悟 两个变量是否相关的两种判断方法 (1)根据实际经验:借助积累的经验进行分析判断.
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
跟踪训练1 (多选)在下列所示的四个图中,每个图的两个变量具有相关关系的图是( )
3 / 18
答案 BC
解析 图A的两个变量具有函数关系;图BC的两个变量具有相关关系;图D的两个变量之间既不是函数关系,也不是相关关系. 二、样本相关系数的性质 例
(1)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r如下表:
r
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( ) A.甲 B.乙 C.丙 D.丁 答案 D
解析 |r|越接近1,相关性越强,故选D.
(2)在一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( ) 1
A.y=-x+1
2C.y=x+1 答案 A
解析 ∵这组成对样本数据的样本相关系数为-1,
∴这一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,且是负相关. ∴可排除B,C,D,故选A. 反思感悟 样本相关系数的性质
B.y=x-1 D.y=-x2 甲 0.82 乙 0.78 丙 0.69 丁 0.85 2
4 / 18
(1)r的绝对值越接近0,相关性越弱. (2)r的绝对值越接近1,相关性越强. 跟
踪
训
练
2
(1)对变量x,y有成对样本数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有成对样本数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关 答案 C
解析 由这两个散点图可以判断,变量x与y负相关,u与v正相关. (2)(多选)对两个变量的样本相关系数r,下列说法正确的是( ) A.|r|越大,相关程度越大 B.|r|越小,相关程度越大
C.|r|趋近于0时,没有线性相关关系 D.|r|越接近1时,线性相关程度越强 答案 AD
解析 对于A,|r|越大,相关程度越大,A正确;对于B,|r|越小,相关程度越小,B错误;对于C,|r|趋近于0时,线性相关关系越弱,C错误;对于D,|r|越接近1时,线性相关程度越强,D正确.综上,正确的是AD. 三、样本相关系数的计算及应用
5 / 18
例3 某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x y
(1)画出(x,y)的散点图;
(2)计算x与y之间的样本相关系数,并刻画它们的相关程度. 解 (1)画出(x,y)的散点图如图所示.
2 30 4 40 6 50 8 70
(2)x=5,y=47.5, 4i=1
4i=1
4i=14
i=120,y2i=9 900,xiyi=1 080, x2
xiyi-4xy
故样本相关系数r=
i=1
4
4
i=1
222x2i-4xyi-4yi=1
=
≈0.982 7. 120-4×529 900-4×47.52
1 080-4×5×47.5
由样本相关系数r≈0.982 7,可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高.
反思感悟 线性相关强弱的判断方法
(1)散点图:散点图只是粗略作出判断,其图象越接近直线,相关性越强.
(2)样本相关系数:样本相关系数能够较准确的判断相关的程度,其绝对值越大,相关性越强.
6 / 18
跟踪训练3
假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x y
5
计算y与x之间的样本相关系数(精确到0.001,已知≈8.9,2≈1.4).
2+3+4+5+6
解 ∵x==4,
5
2.2+3.8+5.5+6.5+7.0
=5.
5
i=1
5i=1
5
79
i=1
2 2.2 3 3.8 4 5.5 5 6.5 6 7.0 i=90,y2i≈140.8,xiyi=112.3,x2
y=5
xiyi-5
i=15
xy=112.3-5×4×5=12.3,
i-5x2=90-5×42=10, x2i=15
i-5y2=140.8-125=15.8, y2i=1
5
xiyi-5xy
∴r=
i=1x2i-5
=i1
=
x
2
2
y2i-5yi=15
5
12.312.312.312.3
==≈≈0.987.
8.910×15.81582×791.4×
1.(多选)下列命题正确的是( ) A.任意两个变量都具有相关关系
7 / 18
B.圆的周长与该圆的直径具有相关关系
C.某商品的需求量与该商品的价格是一种非确定性关系 D.当两个变量相关且样本相关系数r>0时,表明两个变量正相关 答案 CD
解析 A显然不对,B是函数关系,CD正确.
2.若变量y与x之间的样本相关系数r=-0.983 2,则变量y与x之间( ) A.不具有线性相关关系 B.具有线性相关关系
C.它们的线性相关关系还需要进一步确定 D.不确定 答案 B
解析 变量y与x之间的样本相关系数r=-0.983 2,|r|=0.983 2接近1,样本相关系数的绝对值越大,相关性越强,∴变量y与x之间有较强的线性相关关系,故选B. 3.两个变量x,y的样本相关系数r1=0.785 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强 B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强 C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强 D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强 答案 C
解析 由样本相关系数r1=0.785 9>0知x与y正相关,由样本相关系数r2=-0.956 8<0知u,v负相关,又|r1|<|r2|,∴变量u与v的线性相关性比x与y的线性相关性强.故选C.
4.据两个变量x,y之间的成对样本数据画出散点图如图,这两个变量是否具有线性相关关系________.(填“是”或“否”)
9,两个变量u,v的样本相关系数r2=-0.956
8 / 18
答案 否
解析 图中的点分布杂乱,两个变量不具有线性相关关系.
5.部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元):
固定资产价值 工业增加值
根据上表资料计算的样本相关系数约为________. 答案 0.991 8
3+3+5+6+6+7+8+9+9+10
解析 x==6.6,
10
15+17+25+28+30+36+37+42+40+45
=31.5.
10
10
xi-xyi-yi=1
3 15 3 17 5 25 6 28 6 30 7 36 8 37 9 42 9 40 10 45 y=
∴r=≈0.991 8.
xi-x2
i=1
10
yi-y2
i=1
10
1.知识清单: (1)相关关系. (2)散点图.
(3)正相关、负相关、线性相关、非线性相关.
9 / 18
(4)样本相关系数. 2.方法归纳:数形结合.
3.常见误区:相关关系与函数关系不分,样本相关系数绝对值的大小与相关程度的关系.
1.若“名师出高徒”成立,则名师与高徒之间存在什么关系( ) A.相关关系 C.无任何关系 答案 A
2.(多选)给出下列关系,其中有相关关系的是( ) A.人的年龄与他(她)拥有的财富之间的关系 B.曲线上的点与该点的坐标之间的关系 C.苹果的产量与气候之间的关系
D.森林中的同一种树木,其截面直径与高度之间的关系 答案 ACD
3.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
B.函数关系 D.不能确定
A.①②③ B.②③① C.②①③ D.①③② 答案 D
10 / 18
解析 对于(1),图中的点成带状分布,且从左到右上升,是①正相关关系;对于(2),图中的点没有明显的带状分布,是③不相关;对于(3),图中的点成带状分布,且从左到右是下降的,是②负相关关系.故选D. 4.(
多
选)某校地理学兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是( )
A.沸点与海拔高度呈正相关 B.沸点与气压呈正相关 C.沸点与海拔高度呈负相关
D.沸点与海拔高度、沸点与气压的相关性都很强 答案 BCD
解析 由左图知气压随海拔高度的增加而减小,由右图知沸点随气压的升高而升高,所以沸点与气压呈正相关,沸点与海拔高度呈负相关,由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,故B,C,D正确,A错误.
5.变量X与Y相对应的一组成对样本数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U与V相对应的一组成对样本数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的样本相关系数,r2表示变量V与U之间的样本相关系数,则( ) A.r2 6.如图所示的两个变量不具有相关关系的有________.(填序号) B.0 答案 ①④ 解析 ①是确定的函数关系;②中的点大都分布在一条曲线周围;③中的点大都分布在一条直线周围;④中点的分布没有任何规律可言,x,y不具有相关关系. 7.给出下列x,y值的数据如下: x y 则根据数据可以判断x和y的关系是________.(填“确定关系”“相关关系”或“没有关系”) 答案 确定关系 解析 由表中数据可以得到x,y之间是一种函数关系:y=2x+1,所以x,y是一种确定的关系,即函数关系. 8.对某高三学生在连续9次数学测试中的成绩(单位:分)进行统计得到如图所示的散点图.下面关于这位同学的数学成绩的分析中,正确的序号有________. 1 3 2 5 4 9 8 17 ①该同学的数学成绩总的趋势是在逐步提高; ②该同学在这连续九次测试中的最高分与最低分的差超过40分; ③该同学的数学成绩与测试序号具有线性相关性,且为正相关. 答案 ①②③ 解析 散点图从左向右看呈上升趋势,所以该同学的数学成绩总的趋势是在逐步提高,①正确;该 12 / 18 同学在这连续九次测试中的最高分大于130分,最低分小于90分,极差超过40分,②正确;该同学的数学成绩与测试序号具有比较明显的线性相关性,且为正相关,③正确. 9.某个男孩的年龄与身高的统计数据如下表所示: 年龄x(岁) 身高y(cm) (1)画出散点图; (2)判断y与x是否具有线性相关关系,如果相关,是正相关还是负相关. 解 (1)散点图如图所示. 1 78 2 87 3 98 4 108 5 115 6 120 (2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系,且是正相关关系. 10.关于两个变量x和y的7组数据如下表所示: x y 求变量y与x的样本相关系数,并判断变量y与x之间是正相关还是负相关. 1 解 x=(21+23+25+27+29+32+35)≈27.4, 71 y=(7+11+21+24+66+115+325)≈81.3, 77 i=212+232+252+272+292+322+352=5 414, x2i=1 21 7 23 11 25 21 27 24 29 66 32 115 35 325 13 / 18 7 xiyi=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542, i=17 i=72+112+212+242+662+1152+3252=124 393, y2i=1 7 xiyi-7xy ∴r= i=1x2i-7 i=1 x 2 2 y2i-7yi=17 7 = 5 414-7×27.42124 393-7×81.322 948.66 ≈0.837 5. 3 520.92 18 542-7×27.4×81.3 ≈ ∵r>0,∴变量y与x之间是正相关关系. 11.两个变量y与x的模型中,分别选择了4个不同模型,它们的样本相关系数r如下,其中拟合效果最好的模型是( ) 模型 样本相关系数r A.模型1 B.模型2 C.模型3 D.模型4 答案 A 12.某统计部门对四组成对样本数据进行统计分析后,获得如图所示的散点图,关于样本相关系数的比较,其中正确的是( ) 模型1 0.98 模型2 0.80 模型3 0.50 模型4 0.25 14 / 18 A.r4 B.r2 解析 去掉D组数据之后,剩下的4组数据成线性相关关系. 14.高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看: 15 / 18 (1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________; (2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________. 答案 (1)乙 (2)数学 解析 (1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是乙;(2)由高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级的排名情况的散点图可知,两个图中,同一个人的总成绩是不会变的.第二个图看,丙是从右往左数第5个点,即丙的总成绩在班里倒数第5.在左边的图中,找到倒数第5个点,它表示的就是丙,发现这个点的位置比右边图中丙的位置高,所以语文名次更“大”,即数学的成绩更靠前. 15.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下: 月份 人均销售额 利润率(%) 根据表中数据,下列说法正确的是( ) A.利润率与人均销售额成正比例函数关系 B.利润率与人均销售额成反比例函数关系 C.利润率与人均销售额成正相关关系 D.利润率与人均销售额成负相关关系 答案 C 解析 根据题意,画出利润率与人均销售额的散点图,如图所示. 1 6 12.6 2 5 10.4 3 8 18.5 4 3 3.0 5 4 8.1 6 7 16.3 16 / 18 由散点图可知,利润率与人均销售额成正相关关系.故选C. 16.现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试数学成绩(y),数据如下表: 学生号 x y 计算这10个学生的两次数学考试成绩的样本相关系数r,并判断两者是否具有线性相关关系. 解 x= 1 ×(120+108+…+99+108)=107.8, 10 1 120 84 2 108 64 3 117 84 4 104 68 5 103 69 6 110 68 7 104 69 8 105 46 9 99 57 10 108 71 1 y=×(84+64+…+57+71)=68, 1010 i=1202+1082+…+992+1082=116 584, x2i=1 10 i=842+642+…+572+712=47 384, y2i=1 10 xiyi=120×84+108×64+…+108×71=73 796, i=1 ∴样本相关系数为 73 796-10×107.8×68 r= 116 584-10×107.8247 384-10×682 17 / 18 ≈0.750 6, ∴这10个学生的两次数学考试成绩具有线性相关关系. 18 / 18 因篇幅问题不能全部显示,请点此查看更多更全内容