“情報量”をあらわす数式【情報理論】

私たちは普段,いろんな話を見聞きしますよね.
そして話を聞くとそれは自分の”知っていること”が増えることにつながります.

例えば,今日はとても心地よい快晴で,明日も晴れそうだなと思っているとしましょう.
こんなときに

「明日は晴れだよ」

と言われても,そうだろうなって感じで明日の天気について”知っていること”はあまり増えません.
ただ一方で,

「明日は雨だよ」

と言われたら,え,ほんとにって意外に思うじゃないですか.明日の天気について”知っていること”は増えそうです.

別の例として,今日が月曜日だったとしましょう.

「明日は火曜日だよ」

と言われても,はい知ってますってなりますよね.”知っていること”は少しも増えません.

では,このように話を聞いたときに”知っていること”というのは,どのように変化するのでしょうか?
もっと言えば,どのような数式で表現するのが適切なのでしょうか?

この記事では”知っていること”を数式で表す”情報量”について書きたいと思います.

さきほどの例をもとに情報量がどんな性質をもっているか,考えてみます.

明日晴れそうだなって思っている自分を想像します.具体的には,

  • 70%で晴れ
  • 20%で曇り
  • 10%で雨

と思っているとします.確率として書けば,

明日の天気確率
晴れ0.7
曇り0.2
0.1

という感じです.この状態だとすると,ほとんど明日が晴れなもんだと思っているわけですから,曇りや雨だったら,驚きますよ.知っていることが増えます.逆に明日が晴れだったら,そうだろうなって思ってたわけですから,知っていることあまり増えません.つまり,

「明日が雨」の情報量 > 「明日が曇り」の情報量 >「明日が晴れ」の情報量

という関係が成り立ってほしいです.そうすると,今の段階で情報量というのは

  • 確率を用いて定式化できそう
  • 確率が大きいほど,情報量は小さくなりそう

という性質を満たしていてほしいですね.

もう一つ満たしてほしい性質があります.それは情報量についての足し算の性質です.

例えば,明日の朝ご飯について考えてみましょう.残りもののカレーが冷蔵庫にあるので,たぶんカレーが出てくるんだろうなと思っています.確率としては,

明日の朝ご飯確率
カレー0.9
別のもの0.1

という感じです.この状態で明日を迎えます.すると,雨が降っていて朝ごはんはカレーでした.

このとき,さきほどの確率を使います.確率を\(P\)で表します.

\[ \begin{align*} P(雨が降っていて朝ごはんはカレー) &= P(雨が降る) P(朝ごはんはカレー) \\
&= 0.1 \cdot 0.9\\
&= 0.09
\end{align*}
\]

という風に計算できます.

同じ状況を情報量について考えてみます.今,雨が降っていて朝ごはんはカレーだったというように,「雨が降る」ということと「朝ごはんはカレー」だということを同じタイミングで知った状況を考えています.

一方で例えば起きたばかりでカーテンを開け「雨が降る」ことを知り,その後で食卓につくと「朝ごはんはカレー」だと,別々のタイミングで知ったとしても,最終的に”知っていること”は変わっていないですね,情報量は同じであってほしいです.つまり情報量を\(I\)で表すことにすると,

\[ I(雨が降っていて朝ごはんはカレー) = I(雨が降る) + I(朝ごはんはカレー) \]

が満たすべき性質です.

まとめますと,情報量は以下の性質を満たすべきです.

  • 確率で表せる
  • 確率が大きいほど,情報量は小さい
  • 同時に起きた確率についての情報量は,それぞれの情報量の足し算になる

さてさてということで,情報量の満たしてほしい性質が分かりましたので,結論です.
確率変数\(X\)(これは”明日の天気”とか”明日の朝ごはん”とかに対応します)が実現値\(x\)(こっちは”雨”とか”カレー”とかに対応します)をとるときの情報量は,

\[ I_X(x) = \text{log}(1 / P(X = x))\]

と定義します.さきほどの性質を満たすことを確認しましょう.

確率で表せる
情報量を確率の逆数の対数で定義したのでOKです.

確率が大きいほど,情報量は小さい
\(\text{log}(x)\)は単調増加ですから,確率が大きくなると,逆数が小さくなり,その対数も小さくなりますね.

同時に起きた確率についての情報量は,それぞれの情報量の足し算になる
\(\text{log}(x)\)の性質として,

\[\text{log}(xy) = \text{log}(x) + \text{log}(y)\]

があるのでOKですね.

ということで情報量は満たしてほしい性質をすべて満たしてくれています.

今は情報量を定義し,その定義が満たしてほしい性質を満たしていることだけ確認しました.一方で情報量が連続になることを性質に追加すると,性質を満たすような関数は\(\text{log}\)の定数倍だけだということが示せます.(以下の記事に書きました)

最後まで読んでくださいましてありがとうございました

コメント

タイトルとURLをコピーしました