同意 @Jichun Si 不太同意 @王芊的说法。

Andrew Ng的推导应该只是说明了,在Gaussian噪声的假设下,最大似然可以推导出最小二乘,仅此而已,个人认为并没有说明最小二乘的必要性。

最小二乘是在欧氏距离为误差度量的情况下,由系数矩阵所张成的向量空间内对于观测向量的最佳逼近点。

为什么用欧式距离作为误差度量 (即MSE),09年IEEE Signal Processing Magzine 的 《Mean squared error: Love it or leave it?》这篇文章做了很好的讨论。链接:http://www2.units.it/ramponi/teaching/DIP/materiale/mse_bovik09.pdf

这篇文章在”WHY DO WE LOVE THE MSE?”中说,MSE:

  • 1. 它简单。
  • 2. 它提供了具有很好性质的相似度的度量。例如:
  • 1)它是非负的;
  • 2)唯一确定性。只有x=y的时候,d(x,y)=0;
  • 3)它是对称的,即d(x,y)=d(y,x);
  • 4)符合三角性质。即d(x,z)<=d(x,y)+d(y,z).
  • 3. 物理性质明确,在不同的表示域变换后特性不变,例如帕萨瓦尔等式。
  • 4. 便于计算。通常所推导得到的问题是凸问题,具有对称性,可导性。通常具有解析解,此外便于通过迭代的方式求解。
  • 5. 和统计和估计理论具有关联。在某些假设下,统计意义上是最优的。

然而,MSE并非没有缺点。并不是所有的问题都可以套用该准则,在“IMPLICIT ASSUMPTIONS WHEN USING THE MSE”说,它基于了以下几点对于信号的假设:

  • 1. 信号的保真度和该信号的空间和时间顺序无关。即,以同样的方法,改变两个待比较的信号本身的空间或时间排列,它们之间的误差不变。例如,[1 2 3], [3 4 5]两组信号的MSE和[3 2 1],[5 4 3]的MSE一样。
  • 2. 误差信号和原信号无关。只要误差信号不变,无论原信号如何,MSE均不变。例如,对于固定误差[1 1 1],无论加在[1 2 3]产生[2 3 4]还是加在[0 0 0]产生[1 1 1],MSE的计算结果不变。
  • 3. 信号的保真度和误差的符号无关。即对于信号[0 0 0],与之相比较的两个信号[1 2 3]和[-1 -2 -3]被认为和[0 0 0]具有同样的差别。
  • 4. 信号的不同采样点对于信号的保真度具有同样的重要性。

本文后面还讨论了MSE对于图像和语音这些具有空间和时间信息的信号来说,并非就是完美的,并举了不少例子。有兴趣的可以下下来论文自己看。对于本问题来说,我觉得这些讨论已经够了。

— 完 —

本文作者:W Xue

【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)

此问题还有 32 个回答,查看全部。
延伸阅读:
最小二乘法和梯度下降法的区别?
如何理解线性代数?

分享到