情報量がlog以外ではダメな理由【情報理論】

以下の記事で情報量を\(I_X(x) = -\text{log}(P(X = x))\)と表すとよいということを書きました.

情報量がlogで定義できてよかったなって思います.
でも逆にlog以外で情報量を定義するのっていけるのでしょうか?

今回は,

  • \(I(xy) = I(x) + I(y)\)
  • \(I(x)\)は連続関数
  • \(I\)の定義域は正の実数,値域は実数

という条件を満たす関数は\(\text{log}\)(の定数倍)しかないことをCauchyの関数方程式の議論から導きます.これにより,情報量の満たすべき性質を満たす関数は\(log\)を使わないといけないことがわかります.

まず次の定理が成り立ちます.

Cauchyの関数方程式

連続関数\(f: \mathbb{R} \to \mathbb{R}\)が,

\[f(x + y) = f(x) + f(y)\]

を満たすとき,\(f\)は一次関数\(f(x) = c x,\quad c = f(1)\)である.

示したいことは一次関数になることで,

\[f(x) = f(1)x \]

です.つまり,\(f\)の中身の\(x\)を\(x \cdot 1\)として\(x\)だけ外に出せるということを確認すればよいです.そのために,

  • \(x\)が整数
  • \(x\)が有理数
  • \(x\)が実数

の3段階で示していくのがよいです.

(1) \(x\)が整数のとき

まず自然数\(n\)をとりましょう,すると条件式を繰り返し使うことで,

\[\begin{align*} f(n) = f(1 + (n – 1)) &= f(1) + f(n – 1) \\
&= f(1) + f(1) + f(n – 2) \\
&= \cdots \\
&= nf(1)
\end{align*}\]

となりOKです.次に\(0\)について考えましょう.\(0 + 0 = 0\)なので,

\[f(0) = f(0 + 0) = 2f(0)\]

➡ \(f(0) = 0\)

となるのでこれもOKです.次に負の整数について考えていきましょう.
準備として\(-1\)について考えます.

\[0 = f(0) = f(1 + (-1)) = f(1) + f(-1)\]

➡ \(f(-1) = -f(1)\)

となります.では残りの負の整数を考えます.\(m\)を\(-1\)より小さい負の整数とすると\(-m\)は自然数ですから,これまで確認したことから外に出せて,

\[f(m) = f((-m) \cdot (-1)) = -mf(-1) = -m \cdot(-f(1)) = mf(1)\]

ということで\(x\)が整数なら,\(f(x) = f(1)x \)となることがいえました.

(2) \(x\)が有理数のとき

整数のときの議論を使っていけば大丈夫です.まず分子が\(1\)であるような有理数\(1 / m\)について示します.\(m\)は整数なので外に出せることに注意すると,

\[f(1) = f(m \cdot \frac{1}{m}) = mf(\frac{1}{m})\]

➡ \(\frac{1}{m}f(1) = f(\frac{1}{m})\)

となりますね.一般の有理数\(n / m\)は

\[\frac{n}{m} = n \cdot \frac{1}{m}\]

と分解すればどちらも外に出せるので,

\[f(\frac{n}{m}) = f(n \cdot \frac{1}{m}) = nf(\frac{1}{m}) = \frac{n}{m}f(1) \]

となってOKです.

(3) \(x\)が実数のとき

いよいよ最後です.実数\(x\)に対して,有理数の稠密性から\(x\)に収束するような有理数の列\({q_n}\)をとることができます.よって\(f\)の連続性から,

\[\begin{align*}
f(x) &= f(\lim_{n \to \infty} q_n) \\
&= \lim_{n \to \infty}f(q_n) \\
&= \lim_{n \to \infty}q_nf(1) \\
&= xf(1)
\end{align*}\]

となり示せました.

この定理を使います.

先ほど見たCauchyの関数方程式の条件式は情報量の性質\(I(xy) = I(x) + I(y)\)に近いですので,むりやりこの形にしたいと思います.

正の数\(a\)をとってあげると,今\(x,y\)は正の数としていますから,

\[x = a^X,\quad y = a^Y\]

とかけますね.これを情報量の性質に代入すると,

\[I(a^{X + Y}) = I(a^X) + I(a^Y)\]

となって,Cauchyの関数方程式の条件をみたします.よって,

\[I(a^X) = cX, \quad c = I(a^1)\]

➡ \(I(x) = c\text{log}_a(x), \quad c = I(a)\)

となって情報量は\(\text{log}\)の定数倍以外許してもらえないことがわかりました.

最後まで読んでくださいましてありがとうございました

コメント

タイトルとURLをコピーしました