確率変数の離れ具合 相対エントロピー【情報理論】

こちらの記事👆で確率変数の複雑さを表す量としてシャノンエントロピーを定義しました.

今回は確率変数の離れ具合を定式化しましょう.つまり2つの確率変数があったときそれらがどれだけ異なっているかということです.

これが相対エントロピーです.カルバックライブラーダイバージェンスとか様々な名前があります.
ということで今回は相対エントロピーの定義とその性質を確認したいと思います.

まずは離れ具合というのがどのような性質をもてばよいのかを考えてみます.

数学的に離れ具合を話すのであれば第一手段としては距離を入れればよいわけですが,相対エントロピーは距離の性質として対称性も三角不等式も満たさないです.
しかし相対エントロピーはよく確率分布の離れ具合を表す概念として用いられています.

離れ具合を定式化したいので,値が大きいほど確率変数どうしが離れており,値が0なら確率変数が一致している,そんな式を見つけましょう.

さてでは複雑さとしてシャノンエントロピーを定義したのと同様に,今回近さを考える上でも確率変数の情報量に注目していくこととします.

確率変数\(X\)と\(Y\)があるとします.2つの確率変数がとりうる値の集合は\(\mathscr{X}\)としておきましょう.

情報量を基準にして確率変数の近さを考えると,情報量の差をそのまま離れ具合に採用すればよさそうですね.つまり実現値\(x \in \mathscr{X}\)に対して\(X\)を基準として\(Y\)の離れ具合は\[I_Y(x) -I_X(x) = \text{log}\frac{P(X = x)}{P(Y = x)}\]とできますね.

実際\(X = Y\)でしたら値は\(0\)になってくれますね.

よってこの情報量の差の平均をとってあげれば確率変数の離れ具合の1つの定式化と見なせますね.

注意したいことは\(X\)を基準としているので,\(X\)の分布に従って期待値をとってあげるという点です.

ということで

相対エントロピー

\(\mathscr{X}\)に値をとる確率変数\(X,\ Y\)の相対エントロピーを\[D(X \| Y) = E_X [I_Y -I_X] = \sum_{x \in \mathscr{X}} P(X = x) \text{log}\frac{P(X = x)}{P(Y = x)} \]と定める.これは\(X\)を基準とした\(Y\)の離れ具合を表現している.

このように定義した相対エントロピーが確率変数の離れ具合に相当します.

記号として\(D(X \| Y)\)のように二重の縦棒を用いることが多いと思います.
縦棒1本だとなんだか条件付の量という感じがしますので,それと区別するために二重になっているのですかね.

さて相対エントロピーが非負であることを証明していきましょう.

証明はイェンゼンの不等式を用います.

\begin{align*}
D(X \| Y) &= \sum_{x \in \mathscr{X}} P(X = x) \text{log}\frac{P(X = x)}{P(Y = x)} \\
&= -\sum_{x \in \mathscr{X}} P(X = x) \text{log}\frac{P(Y = x)}{P(X = x)} \\
&\underset{\overline{-\text{log}にイェンゼン}}{\geq} -\text{log} \left( \sum_{x \in \mathscr{X}} P(X = x) \frac{P(Y = x)}{P(X = x)} \right) \\
&= -\text{log} \left( \sum_{x \in \mathscr{X}} P(Y = x) \right) \\
&= -\text{log} 1 \\
&= 0
\end{align*}

ということで相対エントロピーが非負であることがわかりました.

コメント

タイトルとURLをコピーしました