1、相关关系的概念
当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系.
相关关系是非随机变量与随机变量之间的关系,函数关系是两个非随机变量之间的关系,是一种因果关系,而相关关系不一定是因果关系,所以相关关系与函数关系不同,其变量具有随机性,因此相关关系是一种非确定性关系(有因果关系,也有伴随关系).因此,相关关系与函数关系的异同点如下:
相同点:均是指两个变量的关系.
不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.
2、回归分析
对具有相关关系的两个变量进行统计分析的方法叫做回归分析.通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性.
3、散点图
表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度.粗略地看,散点分布具有一定的规律.
4、正相关、负相关
从散点图可以看到点散布的位置是从左下角到右上角的区域,即一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.
反之,如果两个变量的散点图中的点的散布的位置是从左上角到右下角的区域,即一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.
5、回归直线
设所求的直线方程为
其中a、b是待定系数.
则
.于是得到各个偏差
.
显见,偏差
的符号有正有负,若将它们相加会造成相互抵消,所以它们的和不能代表几个点与相应直线在整体上的接近程度,故采用n个偏差的平方和.

表示n个点与相应直线在整体上的接近程度.

上述式子展开后,是一个关于a、b的二次多项式,应用配方法,可求出使Q为最小值时的a、b的值.即

相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析.
特别指出:
1、对回归直线方程只要求会运用它进行具体计算a、b,求出回归直线方程即可.不要求掌握回归直线方程的推导过程.
2、求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.否则,求出的回归直线方程毫无意义.因此,对一组数据作线性回归分析时,应先看其散点图是否成线性.
3、求回归直线方程,关键在于正确地求出系数a、b,由于求a、b的计算量较大,计算时仔细谨慎、分层进行,避免因计算产生失误.
4、回归直线方程在现实生活与生产中有广泛的应用.应用回归直线方程可以把非确定性问题转化成确定性问题,把“无序”变为“有序”,并对情况进行估测、补充.
例1、对变量x, y 有观测数据(xi,yi)(i=1,2,…,10),得散点图1;对变量u,v 有观测数据(ui,vi)(i=1,2,…,10),得散点图2.由这两个散点图可以判断.

图1 图2
A.变量x 与y 正相关,u 与v 正相关
B.变量x 与y 正相关,u 与v 负相关
C.变量x 与y 负相关,u 与v 正相关
D.变量x 与y 负相关,u 与v 负相关
解析:
由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,选C.
例2、已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( )
A.
=1.23x+4 B.
=1.23x+5
C.
=1.23x+0.08 D.
=0.08x+1.23
解析:
回归直线必过点(4,5),故其方程为
-5=1.23(x-4),即
=1.23x+0.08.
答案:C
例3、已知10只狗的血球体积及红血球的测量值如下
x |
45 |
42 |
46 |
48 |
42 |
35 |
58 |
40 |
39 |
50 |
y |
6.53 |
6.30 |
9.25 |
7.50 |
6.99 |
5.90 |
9.49 |
6.20 |
6.55 |
7.72 |
x(血球体积,mm),y(血红球数,百万).
(1)画出上表的散点图;
(2)求出回归直线并且画出图形.
解:
(1)见视频
(2)
.
.
设回归直线为
=bx+a,
计算得
所以所求回归直线的方程为
.
例4、已知x、y之间的一组数据如下表:
对于表中数据,甲、乙两同学给出的拟合直线分别为
与
,试利用最小二乘法判断哪条直线拟合程度更好?
解:
用
作为拟合直线时,所得y值与y的实际值的差的平方和为

用
作为拟合直线时,所得y值与y的实际值的差的平方和为

∵Q2<Q1,故用直线
拟合程度更好.