なぜ平均二乗誤差よりもクロスエントロピー法が好ましいのですか？これはどのような場合に耐えられませんか？

Question

上記の方法はどちらも予測の精度を高めるためにより良いスコアを提供しますが、それでもクロスエントロピーが好ましいです。それはすべての場合においてですか、またはMSEよりもクロスエントロピーを好むいくつかの独特なシナリオがありますか？

lejlot · Accepted Answer

classificationにはクロスエントロピーが優先されますが、regressionには平均二乗誤差が最適な選択肢の1つです。これは問題自体のステートメントから直接得られます-分類では、可能な出力値の非常に特定のセットで作業するため、MSEは不適切に定義されます（この種の知識がないため、互換性のない方法でエラーにペナルティを科します）。現象をよりよく理解するには、

クロスエントロピー
ロジスティック回帰（バイナリクロスエントロピー）
線形回帰（MSE）

従属変数についての仮定が異なるだけで、両方とも最尤推定量と見なすことができます。

クロスエントロピー
ロジスティック回帰（バイナリクロスエントロピー）
線形回帰（MSE）

従属変数についての仮定が異なるだけで、両方とも最尤推定量と見なすことができます。

Duc Nguyen · Answer

確率と分布の側面からコスト関数を導き出すと、2項分布を仮定したときに誤差が正規分布とクロスエントロピーに続くと仮定するとMSEが発生することがわかります。つまり、MSEを使用すると暗黙的に回帰（推定）を実行し、CEを使用すると分類を実行します。それが少し役立つことを願っています。

Julian · Answer

たとえば、ロジスティック回帰を行う場合、シグモイド関数を使用して確率を推定し、クロスエントロピーを損失関数として、勾配降下を最小化して使用します。これを行うが、損失関数としてMSEを使用すると、局所的最小値を見つけることができる非凸問題につながる可能性があります。クロスエントロピーを使用すると、最適なソリューションが見つかる可能性のある凸面の問題が発生します。

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

ここにも興味深い分析があります： https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-または、ニューラルネットワーク分類子トレーニングの平均二乗誤差/