3

我的问题是讨论How to fit the 2D scatter data with a line with C++的延伸。现在我想进一步扩展我的问题:在估计适合 2D 散射数据的线时,如果我们可以不同地处理每个 2D 散射数据会更好。也就是说,如果散点远离直线,我们可以给点低权重,反之亦然。因此,问题就变成了:给定一个二维散点数组以及它们的权重因子,我们如何估计通过它们的线性线?这种方法的一个很好的实现可以在这篇文章中找到(加权最小回归)。但是,那篇文章中的算法的实现太复杂了,因为它涉及到矩阵计算。因此,我试图找到一种无需矩阵计算的方法。该算法是简单线性回归的扩展,为了说明该算法,我编写了以下 MATLAB 代码:

function line = weighted_least_squre_for_line(x,y,weighting);


part1 = sum(weighting.*x.*y)*sum(weighting(:));

part2 = sum((weighting.*x))*sum((weighting.*y));

part3 = sum( x.^2.*weighting)*sum(weighting(:));

part4 = sum(weighting.*x).^2; 

beta = (part1-part2)/(part3-part4);

alpha = (sum(weighting.*y)-beta*sum(weighting.*x))/sum(weighting);

a = beta;
c = alpha;
b = -1;
line = [a b c];

在上述代码中,x,y,weighting分别表示x坐标、y坐标和权重因子。我用几个例子测试了算法,但仍然不确定它是否正确,因为这种方法使用Polyfit得到了不同的结果,它依赖于矩阵计算。我现在在这里发布实现并征求您的意见。你认为这是一个正确的实施吗?谢谢!

4

3 回答 3

3

如果您认为降低远离线的点是一个好主意,您可能会被http://en.wikipedia.org/wiki/Least_absolute_deviations所吸引,因为计算这一点的一种方法是通过http://en .wikipedia.org/wiki/Iteratively_re-weighted_least_squares,这将减少远离线的点的权重。

于 2012-07-19T19:04:48.423 回答
1

如果您认为您的所有点都是“好数据”,那么根据它们与初始拟合的距离来天真地加权它们是错误的。但是,丢弃“异常值”是一种相当普遍的做法:如果一些数据点与拟合相去甚远,并且您有理由相信存在可能生成一小部分“坏”数据点的错误机制,您可以只需从数据集中删除不合理的点以获得更好的拟合。

就数学而言,我建议硬着头皮尝试找出矩阵数学。也许你可以找到一篇不同的文章,或者一本书有更好的介绍。我不会评论您的 Matlab 代码,只是说看起来您在从 减去时会遇到一些精度问题part4part3并且可能还会part2part1

于 2012-07-19T18:50:21.770 回答
0

不完全符合您的要求,但您应该研究稳健回归。MATLAB 具有该功能robustfit(需要统计工具箱)。

甚至还有一个交互式演示,您可以使用它来比较常规线性回归与稳健回归:

>> robustdemo

这表明在存在异常值的情况下,稳健回归往往会给出更好的结果。

截屏

于 2012-07-20T22:35:46.317 回答