论文导读:根据上述回归预测原理。就可以建立某器材的线性回归模型。(3)在建立了预测模型后要进行相关分析。
关键词:线性回归,相关分析,预测,订货数量
1 引言
回归分析法属于定量预测技术,它是一种从事物变化的因果关系出发进行预测的方法。它利用数理统计基本原理,在大量统计数据基础上,通过寻求数据变化规律来推测、判断和描述事物未来的发展趋势。
事物变化的因果关系千差万别,但大致可分为两类,一类是确定的关系,自变量为已知时,就可以利用确定的函数关系准确地求出因变量。另一类是相关的关系,或称非确定关系。它们之间没有明显的数学表达式,但自变量与因变量客观地存在着密切关系。我们可以通过观察或试验,积累数据,应用统计方法,大致或平均地说明这种统计关系,找出变量之间函数关系的近似表达式,通常称经验公式。建立这类经验公式的目的,是把实践中所积累的某些经验,提高到理论上加以分析。回归分析法正是这样,根据相互关系,建立回归方程,利用回归方程进行预测的一种方法。论文参考。
航空器材的消耗与哪些因素有关呢?通过调查可知,主要与飞行训练时间的长短有关,当然还与一些辅助因素有关,如:工作人员的责任心、保管质量等。本文着重分析航空器材的消耗与飞行训练时间的关系。
2 线性回归模型
运用回归分析法进行预测的关键是建立回归方程。线性回归模型有多种,在实际应用中最常用的是一元线性回归。
对于有一定联系的两个变量X与Y,在观测或实验中可以得到若干对数据:
自变量:X1 X2 … Xi … Xn
因变量:Y1 Y2 … Yi … Yn
将这若干对数据(X1、Y1),(X2、Y2)…(Xn、Yn),标在以X为横轴,Y为纵轴的平面图上,就得到这n对数据的散点图,如图1所示。

图1 数据的散点图
如果点的分布呈直线趋势,能够拟合成一条直线作为描述散布点的直线趋势的预测线,则直线方程为:
Y=a+bX
这个经验公式称为回归方程,它的关键是确定a和b,这里的b通常叫做回归系数。
从散点图来看、要找出a、b是不困难的:在散点图上划这样一条直线,“使该直线总的来看最接近这n个点”,于是这直线在Y轴上的截距就是所求的a,它的斜率是所求的b,如图2所示。
图2 自变量与因变量之间的线性关系
“使该直线总的看来最接近这n个点”这个基本思想,提出了如下要求:回归直线尽可能接近或通过各个数据点,以反映事物变化的趋势,使得线外散布点的总偏差值最小,这是确定回归方程中两个系数a、b值的唯一根据。
对于平面上任意一条直线,我们用数量[Yi-(a+bX)]2来刻划点(Xi、Yi)到直线Y=a+bX的远近程度,从解析几何知识得到,[Yi-(a+bX)]的几何意义是点(Xi、Yi)沿着平行于Y轴的方向到Y=a+bX的铅直距离,于是公式:

就定量的描述直线Y=a+bX跟这n个点的远近程度,很显然,这个量是随着不同的直线而变化的。论文参考。直线是a、b的二元函数,记为Q(a、b)。论文参考。
Q(a、b)=
由于Q(a、b)是n个平方之和,所以“使Q(a、b)最小”的原则称为平方和最小原则,习惯上也称为最小二乘原则。
利用微积分中极值原理可以求得回归方程中系数a、b的计算公式:
(1)
(2)
因此只要掌握了预测事物的实际数据Xi、Yi值,就可以利用上式求得模型中a、b的值,建立线性回归方程模型。[1]
3 航材订货数量的预测
根据上述回归预测原理,结合航空器材历年的消耗数据,就可以建立某器材的线性回归模型,从而预测该器材的未来消耗数量,为更好的作出订货计划提供理论依据。
表1是海航某机场航材股某器材历年来的消耗数据(为了保密,没有给出具体器材):
表1 某器材历年的消耗数据与飞行训练时间
年 份 |
91 92 93 94 95 96 97 98 99 00 |
飞行训练时间(h) 器材消耗数量(个) |
105 99 102 83 52 67 79 97 100 93 15 13 14 10 6 8 11 13 14 12 |
根据表1,进行统计计算,可得:
, , 
, ,n=10,将这些数据代入公式(1)和(2)得到如下结果:
a=-2.75
b=0.1634
由此得到回归模型为:Y=-2.75+0.1634X(3)
若2001年的飞行训练时间为120小时,则该器材应消耗:
Y=-2.75+0.1634×120=16.86≈17(个)
4 结果与讨论
4.1 相关性检验
上面我们确定了该器材消耗的线性回归模型,那么,飞行训练时间和该器材的消耗数量是否线性相关呢?我们可以通过计算其相关系数来进行判断。相关系数反映因变量Y与自变量X的相关程度。根据统计学原理,相关系数的计算公式为:[2]

将数据代入上式得到:

由上述结果可以看出,该器材的消耗数量与飞行训练时间存在很强的相关关系,即该器材的消耗数量98%取决于飞行训练时间的长短,而只有2%取决于其它原因。
4.2 置信区间
在实际问题中|r|=1的情况几乎是没有的,预测值与实际实现的值总会有偏差,预测的愿望总希望能尽可能的接近实际值,不超出一定的范围或区间,在统计学中要求实际值位于这个区间范围的概率达到95%以上,这个区间称为预测值的置信区间。[3]
置信区间说明回归模型的适用范围或精确程度,一般地,在统计学的误差分析中,数据点在回归直线附近大致接近于正态分布时,规定这个区间为Y±2σ,σ为标准离差,[2]其计算公式为:
式中:Yi:第i个预测值;yi:第i个实际值
这样就可以得出置信区间上、下限的两条控制线。即:
上限为:Y1=a+bX+2σ
下限为:Y2=a+bX-2σ
应用公式(3)对表1进行预测计算,得到表2的结果:
表2 由预测模型得到的预测数据
年 份 |
91 92 93 94 95 96 97 98 99 00 |
飞行训练时间(h) 器材实际消耗数量yi(个) 预测消耗数量Yi(个) |
105 99 102 83 52 67 79 97 100 93 15 13 14 10 6 8 11 13 14 12 14.4 13.4 13.9 10.8 5.7 8.2 10.2 13.1 13.6 12.4 |
根据表2可以求得:σ≈0.48,所以所得模型的置信区间为:
Y1=-2.75+0.1634X+0.96
Y2=-2.75+0.1634X-0.96
因此,上述器材2001年的预测结果为:17±1个。
由此可以看出,在相关系数为98%时,其预测误差是比较小的。
4.3 应用中应注意的问题
(1)该方法在应用时应选择每年消耗数量比较多的器材;
(2)作出器材消耗数量与飞行训练时间的散点图,若它们近似呈线性关系,即可应用线性回归方法进行预测,否则不宜应用该方法;
(3)在建立了预测模型后要进行相关分析,只有和飞行训练时间存在很强相关关系的器材所建立的预测模型才可靠,所求得的置信区间才较小,预测的结果才更接近实际值,即误差较小。
参考文献:
[1] 唐纳德•沃特斯著.管理科学实务教程.北京:华夏出版社,2000.(148~166)
[2] 浙江大学数学系编.概率与数理统计.北京:高等教育出版社,1979.(284~320)
[3] 窦在祥等编.现代管理理论与方法.青岛:海军航空技术学院出版,1997.(114~131)
|