最小二乗法と最小絶対誤差—250年前の議論

May 08 2022
ガウスと統計の誕生から現代のデータサイエンスと機械学習まで
通常の最小二乗(OLS)回帰は、統計またはデータサイエンスの入門コースのメニューの最初の項目の1つです。しかし、なぜエラーを二乗する必要があるのでしょうか。高校生でもよくある質問です。
著者によるチャート、ウィキメディアコモンズの背景画像

通常の最小二乗(OLS)回帰は、統計またはデータサイエンスの入門コースのメニューの最初の項目の1つです。

しかし、なぜエラーを二乗する必要があるのでしょうか。

高校生でもよくある質問です。結局のところ、エラーのサイズ(絶対値)を比較する方が簡単で自然なようです。

これまで、私は教えられたのと同じ方法でこの質問に答えてきました。「二乗和は微分可能関数であり(絶対差の合計とは異なり)、微積分を使用して最小化するのが簡単になります」。

しかし、この説明はいつも私には少し奇妙に思えました。街灯の下で紛失した鍵を探している男性のように、そこで見やすいからです。二乗和は扱いやすいかもしれませんが、より正確ですか?

UnsplashのLiviuFlorescuによる背景画像

ありがたいことに、数学で最も興味深い質問のように、これは長年にわたって多くの賢い人々によって調査され、議論されてきました。この記事では、両側の議論と、最小二乗法が回帰への「通常の」アプローチになった経緯を紹介します。

議論の動機付けとして、ちょっとした思考実験から始めましょう…

思考実験—予測と報酬

1から10までのランダムな整数を選択します。均一にランダムではなく、与えられた確率分布から選択します。以下の分布を示したとしましょう。

著者によるすべてのグラフ

あなたの仕事はランダムな整数を予測することです。
これらのケースのそれぞれで、どのように予測を行いますか?

  • ケース1:整数を正しく予測した場合は$ 1000を差し上げますが、それ以外の場合は何も差し上げません。
  • ケース2:予測と実際の値の差を差し引いた$1000を差し上げます。
  • ケース3 :予測値と実際の値の差の2乗を差し引いた$1000を差し上げます。
  • ケース1:最も確率の高い値であるモードを予測する必要があります。
  • ケース2:中央値(この場合は8)を予測する必要があります。

離散確率分布を取得し、確率に100を掛けて、100個の値を含むデータセットを取得できます。以下のヒストグラムは、各値の中央値からの絶対誤差/差異を示しています(中央値より下の場合は青、上の値の場合はピンク)。

報酬を最大化するには、平均絶対誤差を最小化する必要があります。これは、絶対誤差の合計を最小化することと同じです。

ここで、予測が中央値より1つ大きいと想像してください。中央値より大きい40の値の絶対差は1減少しますが、中央値以下の60の値の差は1増加します。これにより、全体の合計が20増加します。

予測が中央値よりも小さければ、同様の増加が起こります。

中央値mは、両方

Pr(X < m)<0.5およびPr(X > m)<0.5

したがって、この引数を使用して、中央値が絶対誤差を最小化する推定値であることを証明できます。(同様の推論を連続確率密度関数に適用できます。)

中央値と最小絶対誤差の方法との間のこの関係は、以下でさらに説明するように、外れ値が存在する場合の方法の堅牢性に関連しています。

ケース3平均/平均/期待値を予測する必要があります。

繰り返しますが、明らかではありません!しかし、ここで微積分が役立ちます:

私にとって興味深いのは、ケース3の報酬が最も直感的ではないということですが、それは期待値につながります。これは、間違いなく最も直感的な「最良の推測」です。

算術平均と最小二乗法の間のこの関係は、ガウスなどによる開発の中心でした。

ガウス、レジェンドレ、最小二乗法の起源

歴史家は一般に、ガウスとレジェンドレが独立して最小二乗回帰の方法を導き出したことに同意しています(出典)。彼らは両方とも天文学の問題に取り組んでおり、ランダムエラーの影響を受ける測定値のサンプルに基づいて天体の真の位置を推定していました。

ガウスは1801年に科学の有名人になり、24歳のときに、行方不明の準惑星セレスの位置を正確に予測できる唯一の数学者でした。彼は後に、最小二乗回帰が利用可能なデータから最良の推定値を取得するための彼のプロセスの一部であったと説明しました。

レジェンドレは1805年に最小二乗法を最初に発表しました。ガウスが1809年に「ああ…それは新しい方法だと思いましたか?実際、私はそれを14年間使用しています。」

The fact that Gauss, the “prince of mathematicians”, chose least squares as the best tool for the job of astronomical estimation, speaks very highly for the method. A key reason he did so is the connection between the least-squares estimate and the arithmetic mean.

Background images: Wikimedia commons

In his 1809 work Theory of Motion of the Celestial Bodies, Gauss used this axiom of the arithmetic mean and the method of least squares to derive the normal (Gaussian) distribution, which is now, without doubt, the most common model for the random errors. His result also implied that if errors were normally distributed, the method of least squares is the maximum-likelihood estimator.

The following year, Laplace extended Gauss’ work to prove the Central Limit Theorem: that sample means from any distribution approach a normal distribution as the sample size approaches infinity. This helped to explain why random errors do often naturally follow a Gaussian distribution, as a measurement error can be thought of as a weighted sum or “sample mean” of errors from many contributing sources.

In his 1823 work (Theory of the combination of observations least subject to error), Gauss went further and laid the foundations for the Gauss-Markov Theorem, which states that

“the ordinary least squares (OLS) estimator has the lowest sampling variance within the class of linear unbiased estimators, if the errors in the linear regression model are uncorrelated, have equal variances and expectation value of zero. The errors do not need to be normal, nor do they need to be independent and identically distributed.” (source)

Not 100% clear on what that all means? Don’t worry, neither am I!
What it means for the purposes of this article is that Gauss’ version of least squares became the de facto method for solving regression problems for the next 100 years.

Euclidean Distance Argument

Another argument in favor of the least-squares model is that it agrees with our standard geometric model of distance. Geometrically, the sum of absolute errors is like a Manhatten (Taxicab) distance, which makes it seem less intuitive.

For a sample of n data points, we need to extend this model to a Euclidean distance in n dimensions. The perpendicularity corresponds to the assumption that the errors are independent of each other.

I’m sure Gauss was aware of the analogy. But as far as I’m aware he did not choose to use this Euclidean distance argument to justify the least-squares model. This suggests to me that, although it’s a pleasing analogy, it probably does not carry any real mathematical weight.

Boscovich and the Method of Least Absolute Deviation

Interestingly, the method of least absolute deviation was published almost 50 years earlier, by Charles Boscovich in 1757. He used this procedure while working on the problem of estimating the shape of the earth.

Rather than using calculus, Boscovich took an algorithmic approach to solve the minimization problem iteratively. His work has been described as a “pre-historic” version of linear programming (source), which was not invented until the 20th century!

Regression using the least absolute errors is a “robust” method, meaning the method is more reliable in the presence of outliers. This was known in the early 1800s, as evident by this statement by Bowditch in his translation of Laplace’s Celestial Mechanics:

“The method of least squares, when applied to a system of observations, in which one of the extreme errors is very great, does not generally give so correct a result as the method proposed by Boscovich […]; the reason is, that in the former method, this extreme error [like any other] affects the result in proportion to the second power of the error; but in the other method, it is as the first power.” — Bowditch (c.1830) (source)

Eddington vs Fisher

About 100 years after Gauss’ established least squares regression and the theory of normally distributed errors, British physicist Arthur Eddington had the audacity to challenge the status quo.

Similar to Gauss and Legendre, Eddington was also working on estimation problems in astronomy. In his 1914 work Stellar Movements and The Structure of The Universe, he states that

“in calculating the mean error of a series of observations it is preferable to use the simple mean residual irrespective of sign rather than the mean square residual …
… this is contrary to the advice of most textbooks, but it can be shown to be true’”— Eddington (1914) (source)

Ronald Fisher (24 years old at the time) responded to Eddington in support of the least-squares model, which was more “efficient” in the sense of the estimates having smaller variance.

Stigler (2006) claims that not only that Fisher was correct, but also that “Eddington replied in July 1919, agreeing that his statement had been wrong”.

But Huber (1981) argues that while Fisher was correct for normal distributions, there are many real-world cases of heavy-tailed distributions for which the absolute deviations are more efficient. Especially for small samples.

“thus it becomes painfully clear that the naturally occurring deviations from the idealized model are large enough to render meaningless the traditional asymptotic optimality theory”. — Peter Huber (1981)

Huber and the Rise of the Robustness

The concept of “robust statistics”, which are less sensitive to errors, outliers, or broken assumptions, took off in the latter half of the 20th century.

Peter Huber has been a leader in the field. His Huber loss function is a hybrid function that combines least squares and least absolute error functions:

Image by author

The parameter δ can be altered depending on the number and size of outliers present.

Hampel (1968) introduced the concept of a “breakdown point” for a statistical estimator, which measures the proportion of erroneous data the estimator can withstand. (source)

For example, the breakdown point of the sample mean is zero, because by increasing the size of just one data point, the sample mean can be made arbitrarily large.

“From the breakdown point characterization of robustness, the sample mean is the worst estimator ever invented.” — Geyer (2006) (source)

But to be fair to Gauss, his statement in support of the sample mean did contain the phrase “…several observations, made under the same circumstances and with equal care”, which seems to contain an assumption that the sample does not contain erroneous outliers.

Modern Data Science

So here we are in the 21st century. Statistics has evolved into data science and machine learning allows GPT to write articles that can fool humans (this one was written by a human — I promise! )

冒頭で述べたように、最小二乗回帰は依然としてデータサイエンス教育の基本的な部分です。しかし、ニューラルネットワークとそのコスト関数を導入する場合、平均二乗誤差(MSE / L2ノルム)と平均絶対誤差(MAE / L1ノルム)の両方が、さまざまなアプリケーションの長所と短所とともに一般的に説明されます。

しかし、これで記事を終了し(楽しんでいただければ幸いです)、コメントで議論を続けたいと思います…

  • 最小二乗回帰またはロバスト回帰を使用しますか?
  • ニューラルネットワークにどのコスト関数を選択しましたか?
  • アプリケーションまたはデータのどの機能が選択につながりましたか?
  • 「ベルカーブ」がとても普通な理由

© Copyright 2021 - 2022 | hachiwiki.com | All Rights Reserved