確率変数の複雑さ シャノンエントロピー【情報理論】

こちらの記事で情報量をどのようにして数式で表すかというのを考えました.

結局のところ,情報量というのは確率変数\(X\)がどのような実現値\(x\)をとるかという確率を用いて捉えることができ,\(I_X (x) = -\text{log}(P(X=x))\)と表現されるということでしたね.

確かに情報量の定義はlogでよいですし,もっというとlogしかないわけです.

では確率変数\(X\)がもつ「複雑さ」というのの定式化を考えましょう.

この「複雑さ」というのがシャノンエントロピーの定義につながることを確認したいと思います.

どちらかというと定義を知ったうえでそれが確率変数の「複雑さ」につながるなという認識が自然な順番だと思うのですが,今回は確率変数の「複雑さ」というのがどんなイメージかを考えてみて,そこからエントロピーの定義につなげてみたいと思います.
少しでも納得感があれば幸いです.

ということで以下ではいつもにまして感覚的な話をして,半ば強引にエントロピーの定義に持っていきます.

確率変数\(X\)が「複雑」というのが情報量を用いてどのように捉えることができるか考えてみたいと思います.

まず複雑ということばをネットで調べてみましょう.すると

入り組んでいて、簡単に理解・説明できないこと。

という感じの意味がでてきますね.

ということで確率変数が複雑であるというのは,確率変数がどのような実現値をとるのかを予測するのが難しいということです.

例えば\(X\)が確率\(1\)で\(a\)という実現値をとるような場合を考えましょう.情報量は\[I_X (a) = -\text{log}(1) = 0\]となります.このような確率変数\(X\)はいつでも\(a\)になっているわけですから,「常に\(a\)をとります」と言えば簡単に完全に説明が尽くせていますよね.

つまり情報量が小さいと複雑さは小さそうです.

一方で別の確率変数\(X’\)が\({1, \cdots, n}\)の値を等確率\(P(X = i) = 1 / n \ \forall i = 1, \cdots, n\)で実現するとしましょう.このとき情報量は\[I_{X’} (i) = \text{log}\ n\]となりますね.等確率で\(1, \cdots, n\)のどれかの値をとる確率変数というのは複雑ですよね.なぜならばどの値をとるかは完全にランダムなわけです.\(1, \cdots, n\)の内どの値が出やすいかという傾向のようなものもないわけです.ということで先ほどの例で考えた確率変数\(X\)のように,どのような値を実現するかが簡単に説明できるとは言えません.

\(X\)と\(X’\)とを比較すると情報量は\(X’\)の方が大きく\(X’\)の方が複雑です.

ここで注意したいのは,情報量というのは確率変数\(X\)が実現値\(x\)をとるという前提で求められた量です.つまり変数は\(X\)と\(x\)の2つあったわけです.一方で複雑さというのを考えた場合は確率変数\(X\)に対して定まるもので,実現値は変数に含まれていないという点です.

ということで確率変数の情報量が大きいほど複雑さが大きくなりそうで,複雑さというのは実現値によらない量ですから,確率変数の情報量の平均値が複雑さであると定義してよさそうです.

ということで

シャノンエントロピー

確率変数\(X\)の実現値の集合を\(\mathscr{X}\)とする.\(X\)のシャノンエントロピー\(H(X)\)を\[H(X) = E[I_X] = \sum_{x \in \mathscr{X}} P(X = x)(-\text{log} P(X=x))\]と定める.これは確率変数\(X\)の複雑さを定量化したものである.

とすると複雑さを表す量としてシャノンエントロピーという量を定義できたことになりますね.

ぶつぶつり
ぶつぶつり

最後までお読みいただきありがとうございました

コメント

タイトルとURLをコピーしました