设有n个点(x1,y1),(x2,y2),…,(xn,yn),对于平面上的任意一条直线l:
y=a+bx,
我们用点(xi,yi)沿着平行于y轴方向到l的铅直距离(而不是沿着垂直于l的方向到l的通常距离)来刻画该点偏离直线l的程度,即用数量
来刻画点(xi,yi)到直线的远近程度.只要将上述所有这些绝对误差相加,就可以定量地刻画直线l与这n个点之间总的远近程度.可是,这样做的结果并不理想.一是由于对绝对值进行运算很不方便,二是这样做对于大小不等的绝对误差没有区别对待.
当一个观察点离它的回归直线越远时,其绝对误差也就越大.为了使回归直线与所有的已知点配合得更好,我们宁愿有几个小的绝对误差,也不愿要一个大的绝对误差.因此,应寻找一种方法来处理大的绝对误差,以便在实际工作中尽量避开它们.只要在这些单项绝对误差求和之前,先将它们每一个加以平方,就可达此目的.
将每一单项的绝对误差加以平方,可以同时取得两个效果:
(1)去掉绝对值符号,便于运算;
(2)使大的绝对误差得以放大,使之处于不利的地位.
这种利用“误差的平方和为最小”求回归直线的方法,称为最小平方法,习惯上又称为最小二乘法.
上述的“误差的平方和”,即
定量地刻画了直线l与n个点(xi,yi)的总的远近程度.当这n个点已知时,这个量是因直线的不同而变化的;或者说,它是随不同的a与b而变化的;因此它是a与b的二元函数,不妨记为Q(a,b).于是有
因此,要求一条回归直线,使该直线总的看来“最靠近”这n个点的问题,就转化为下面的问题:
由(23.1)式可得
即
由(23.2)式可得
利用(23.3)式,可由上式解得
现在回到例1,用最小二乘法求y关于x的回归直线方程.利用表23.2中的数据先算出
表23.2 a和b的计算过程
续 表
然后将有关数据代入(23.4)式:
再用(23.3)式就可得到
于是所求的回归直线方程为
其中回归系数b为0.859.它的意义是:当拉伸倍数(x)每增加一个单位(即1倍)时,强度(y)平均增加0.859个单位(kg/mm2).
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。