【4.2】线性回归

一、线性回归描述

  • 父亲身高与儿子身高存在相关(相关关系)
  • 可否通过父亲身高预测儿子的身高?
  • 新生儿的体重与体表面积存在相关
  • 可否通过体重预测体表面积?(依存关系)

例11-­1 为研究大气污染物一氧化氮(NO)的浓度是否受到汽车流量、 气候状况等因素的影响,选择24个工业水平相近的城市的一个交通点, 统计单位时间过往的汽车数(千辆)、同时在低空的相同高度测定了 该时间段平均气温(°C)、空气湿度(%)、风速(m/s)以及空气 中一氧化氮(NO)的浓度(ppm),数据如表11­1所示。

研究目的

  • 通过探讨与一氧化氮(NO)浓度相关的影响因素,为控 制空气污染提供依据。
  • 研究一个变量的变化(如空气中NO浓度)受到另外一个 或一些变量(如车流量)变化的制约。这些问题在统计 学中采用线性回归模型(linear regression model)来进 行分析。
  • 回归分析中,若Y 随X1,X2,…,Xm的改变而改变,则称Y为反 应变量(response variable),又称为因变量(dependent variable);
  • X1,X2,…,Xm为解释变量(explanatory variable),又称为 自变量(independent variable),通常我们把自变量看作影响 因素(factors)。
  • 简单线性回归(simple linear regression)
  • 多重线性回归(multiple linear regression)
  • X 可以是随机变量,也可以是人为选择的数值
  • Y 是按某种规律变化的连续型随机变量

二、简单线性回归模型

以例11­1为例,只考虑NO浓度与车流量的关系,以NO 浓度为因变量,车流量为自变量,采用线性回归分析。 问题如下:

问题

  1. NO浓度随车流量的增加而增加吗?
  2. 是直线趋势还是曲线趋势?
  3. 如何采用回归方程定量地描述车流量对大气中NO浓度的 影响?
  4. 车流量每增加100辆,NO浓度平均会增加多少?
  5. 车流量对NO浓度的影响有统计学意义吗?
  6. 车流量对NO浓度的影响(贡献)有多大?
  7. 如何由车流量预测大气中NO平均浓度?
  8. 如何通过控制车流量达到控制空气中NO浓度的目的?

回归系数的含义

β 的统计学意义是 X 每增加(或减少)一个单 位,Y 平均改变β个单位(即 Y 的均数 µ Y|X 改变β个单位)。 β 越大表示Y 随 X 增减变化的趋势越陡。

β的意义:

  • β >0,表明Y 与X呈同向线性变化趋势;
  • β <0,表明Y 与X呈反向线性变化趋势;
  • β =0,表明Y 与X无线性回归关系,但并不 表明没有其它关系。

最小二乘估

  1. 最小二乘估计(least square estimation,LSE)
  2. 其想法是找一条直线,使得实测点至该直线的纵向距离 (即残差)的平方和最小,此平方和称为残差平方和, 记为SS残差。残差平方和越小,该直线对散点趋势的代 表性越好。

$$SS_{残差} = \sum(Y - \bar Y)^{2} $$

a和b的计算:

$$ b = \frac{\sum (X- \bar X)(Y- \bar Y)}{\sum (X- \bar X)^{2}}$$ $$ a = \bar Y - b \bar X$$ $$ \hat {Y} = -0.1353 + 0.1584X$$

二、线性回归的假设检验

$$ \hat {Y} = -0.1353 + 0.1584X$$ 这样的回归方程有统计学意义么?

假设检验包括两个方面:

  1. 回归模型是否成立(model test):方差分析
  2. 总体回归系数是否为零(parameter test): t 检验。

回归模型的假设检验:

H0 :总体回归方程不成立或总体中自变量 X 对因变量Y 没有贡献 H1 :总体回归方程成立或总体中自变量 X 对因变量Y 有贡献 α=0.05

$$ F = \frac{SS_{回归}/v_{回归}}{SS_{残差}/v_{残差}} = \frac{MS_{回归}}{MS_{残差}}$$

对例 10­-1 的回归方程进行方差分析,结果如表 10­2 所示(假设检验步骤略)。

表10­2 简单线性回归模型方差分析表

变异来源 SS df MS F P
回归 0.0530 1 0.0530 41.376 <0.0001
残 差 0.0282 22 0.0013
总变异 0.0812 23

由表 10­-2 首行末列可见,P<0.0001,按 α =0.05 水准, 可认为 NO 浓度与车流量之间的回归方程具有统计学 意义。

回归系数的假设检验:

H0 : β =0
H1 : β ≠0 
α =0.05

接上例,经计算得(假设检验步骤略): SY.X =0.0358,Sb=0.0246,|t|= √F=6.432,v = n-2=22

由统计量 t 得 P <0.0001,按 α =0.05水准,拒绝 H0 ,故可认为该回归系数具有统计学意义。

注意:对于服从双变量正态分布的同样一组资料,若 同时做了相关分析和回归分析,则相关系数的 t 检验与回归系数的t检验等价,且tr =tb

总体回归系数的区间估计:

b ± tα/2,vSb

0.1584±2.074×0.0246=(0.1074,0.2095)

车流量对NO浓度的影响有多大?

决定系数R2 =SS回归/SS

R2 = SS回归/SS = 0.0530/0.0812 = 0.6527 = 65.27%

线性回归分析的前提条件:LINE

  1. 线性(linear):反应变量与自变量的呈线性变化趋势。
  2. 独立性(independence):任意两个观察值相互独立,一个个体的取值不受其他个体的影响。
  3. 正态性(normal distribution):在给定值X时,Y 的取值服从正态分布
  4. 等方差性(equal variance): 对应于不同的X 值,Y值的总体变异相同 。

三、简单线性回归的应用

3.1统计应用

个体的容许区间: 预测是回归分析的重要应用之一,医 学上常用在给定 X 值(预报因子)时,计算个体 Y 值的容 许区间。所谓个体 Y 值的容许区间是指总体中 X 为某定值 时,个体Y 值的波动范围。

当车流量为1300辆时, ˆY = -0.1353 + 0.1584 * 1.300=0.0707, 空气中一氧化氮95%容许区间为 0.0707±2.074 * 0.0358 * √(1+ 1/24 +(1.3-1.4035)2/2.1124)=(0.0000~0.1467) ppm

均数的置信区间: 当 X 为某定值和在给定置信度的情况 下,欲知 Y 的总体均数的分布如何?我们可以估计总体中当X为某定值Xi时,Y的总体均数 µY|X 的 (1-α)置信区间。

当车流量为1300辆时,ˆY = -0.1353 + 0.1584 *1.300=0.0707

空气中一氧化氮平均值的95%置信区间为 0.0707 ± 2.074 * 0.0358 √(1/24 + (1.3 - 1.4035)2/2.1124) =(0.05465~0.08675)ppm

3.2统计控制

根据空气污染指数分级,当空气质量状况不超过II级时, 要求空气中氮氧化物含量不超过0.100ppm~0.150ppm。 该城市为降低空气中NO的含量,拟对车流量做适当控制

依据估计的回归方程

ˆY =-0.1353+0.1584X 和以上标准,分别计算得:

Y1 =0.100ppm 时,X1 =(Y1-a)/b=1.485(千辆)

Y2 =0.150ppm 时,X2 =(Y2 -a)/b=1.801(千辆)

该城市单位时间内车流量应控制在 1500 辆以内,超过此限可能导致轻度污染;当车流量大于 1800 辆时,可能导致空气中度污染。

3.3 结果报告

简单线性回归分析通常需要报告以下内容 :

  1. 分析目的;
  2. 拟合简单线性回归方程的估计方法;
  3. 是否符合前提条件(LINE);
  4. 参数估计结果;
  5. 模型的拟合优度及其假设检验;
  6. 对结果的专业解释。

参考资料

中山大学课程 《医学统计学》方积乾

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn