こちらとこちらの👆記事で確率変数の「複雑さ」と「距離」的な概念について書きました.
今回はこれらの概念を組み合わせた交差エントロピーというのについてです.
これは機械学習でも用いられている指標なので簡単にメモしておきます.
まずモチベーションの話なのですが
機械学習をするにあたっては基本的にたくさんあるデータの中からある程度柔軟な法則性を導きたいという目標があります.
例えば天気を予測したいという設定にしましょう.
まず明日の天気は確率変数と捉えることができます.つまり\(X\)を明日の天気の予測として
- \(P(X =晴れ) = 0.7\)
- \(P(X =曇り) = 0.2\)
- \(P(X =雨) = 0.1\)
というようにできるということです.ここでこの\(0.7\)とか\(0.2\)とかいう値は今までのデータから予測したものとしましょう.
この予測の精度を高めたいです.自分たちが求められるのは予測のみですが,実際の天気それ自体も確率変数でモデル化できるとしましょう.それを\(Y\)とします.
このケースにおいて機械学習の目標は
- 予測値\(X\)をできるだけ\(Y\)に近づける
ということですよね.なので確率変数の「距離」である相対エントロピー\(D(Y\| X) \)の最小化をすればよい予測が得られることになります.
ですが相対エントロピーがそのまま機械学習での指標となることはあまりなく,交差エントロピーが用いられることが多いです.
では定義します.
1.交差エントロピーの定義
交差エントロピー (Cross Entropy, CE)
確率変数\(Y,\ X\)の交差エントロピー\(CE\)は\[CE(Y, X) = D(Y\|X) + H(Y) = -\sum_{x \in \mathscr{X}} P(Y = x) \text{log} P(X = x)\]
ただし\(D, H\)はそれぞれ相対エントロピーとエントロピーを表している.
これは\(Y\)を\(X\)でどれだけうまく表せているかの指標であり,機械学習においては交差エントロピーを最小化するように\(X\)を調整していく場合がある.
ということでこのような定義になります.ちょっと違和感ありますが
\[CE(目的変数, 説明変数) = D(目的変数\|説明変数) + H(目的変数)\]です.
別に\(Y\)をうまく表現できるような\(X\)を探すというだけなら相対エントロピーの最小化で事足りている気がします.
実際\(H(Y)\)はモデル化しようとしている対象を変更することはないでしょうから一定です.なので交差エントロピーの最小化は相対エントロピーの最小化と等価です.
しかし交差エントロピーを用いるメリットとしてまず一つに計算がやや簡便であることが挙げられます.
そしてもう一つ最尤推定の観点からすると妥当な方法であることを見てみたいと思います.
2.交差エントロピーの最小化が尤度最大化である
モデル化したい確率変数\(Y\)が集合\(\mathscr{X}\)にある値をとるとします.
この確率変数で\(N\)サンプルとったとしましょう.\(N\)は十分に大きいとしておきます.
すると大数の法則から\(N\)サンプルの内\(x \in \mathscr{X}\)が出た回数を\(n_x \)とすると\[n_x \simeq NP(Y = x)\]と表せます.
状況としては\(Y\)をうまく表現する\(X\)を探すということです.
なので\(X\)が\(x \in \mathscr{X}\)をとる確率をパラメータとした最尤推定に帰着させることを念頭に置いておきます.つまり\[P(X = x) = p_x \ (x \in \mathscr{X})\]で\(p_x\)がパラメータということです.
さてでは交差エントロピーの式変形をしていきましょう.
\begin{align*}
CE(Y, X) &= -\sum_{x \in \mathscr{X}} P(Y = x) \text{log} P(X = x) \\
&= -\frac{1}{N}\sum_{x \in \mathscr{X}} NP(Y = x) \text{log} P(X = x) \\
&\simeq -\frac{1}{N}\sum_{x \in \mathscr{X}} n_x \text{log} P(X = x) \\
&= -\frac{1}{N} \underset{対数尤度}{\underline{\text{log}\prod_{x \in \mathscr{X}} p_x^{n_x}}} \\
\end{align*}
ということで交差エントロピーの最小化は実は尤度最大化と等価であることがわかりました.
こうすると相対エントロピーではなく交差エントロピーを指標に用いることに少し納得感が増すのではないでしょうか.

最後までお読みいただきありがとうございました
コメント