以下の記事で情報量を\(I_X(x) = -\text{log}(P(X = x))\)と表すとよいということを書きました.
情報量がlogで定義できてよかったなって思います.
でも逆にlog以外で情報量を定義するのっていけるのでしょうか?
今回は,
- \(I(xy) = I(x) + I(y)\)
- \(I(x)\)は連続関数
- \(I\)の定義域は正の実数,値域は実数
という条件を満たす関数は\(\text{log}\)(の定数倍)しかないことをCauchyの関数方程式の議論から導きます.これにより,情報量の満たすべき性質を満たす関数は\(log\)を使わないといけないことがわかります.
1.Cauchyの関数方程式
まず次の定理が成り立ちます.
Cauchyの関数方程式
連続関数\(f: \mathbb{R} \to \mathbb{R}\)が,
\[f(x + y) = f(x) + f(y)\]
を満たすとき,\(f\)は一次関数\(f(x) = c x,\quad c = f(1)\)である.
示したいことは一次関数になることで,
\[f(x) = f(1)x \]
です.つまり,\(f\)の中身の\(x\)を\(x \cdot 1\)として\(x\)だけ外に出せるということを確認すればよいです.そのために,
- \(x\)が整数
- \(x\)が有理数
- \(x\)が実数
の3段階で示していくのがよいです.
(1) \(x\)が整数のとき
まず自然数\(n\)をとりましょう,すると条件式を繰り返し使うことで,
\[\begin{align*} f(n) = f(1 + (n – 1)) &= f(1) + f(n – 1) \\
&= f(1) + f(1) + f(n – 2) \\
&= \cdots \\
&= nf(1)
\end{align*}\]
となりOKです.次に\(0\)について考えましょう.\(0 + 0 = 0\)なので,
\[f(0) = f(0 + 0) = 2f(0)\]
➡ \(f(0) = 0\)
となるのでこれもOKです.次に負の整数について考えていきましょう.
準備として\(-1\)について考えます.
\[0 = f(0) = f(1 + (-1)) = f(1) + f(-1)\]
➡ \(f(-1) = -f(1)\)
となります.では残りの負の整数を考えます.\(m\)を\(-1\)より小さい負の整数とすると\(-m\)は自然数ですから,これまで確認したことから外に出せて,
\[f(m) = f((-m) \cdot (-1)) = -mf(-1) = -m \cdot(-f(1)) = mf(1)\]
ということで\(x\)が整数なら,\(f(x) = f(1)x \)となることがいえました.
(2) \(x\)が有理数のとき
整数のときの議論を使っていけば大丈夫です.まず分子が\(1\)であるような有理数\(1 / m\)について示します.\(m\)は整数なので外に出せることに注意すると,
\[f(1) = f(m \cdot \frac{1}{m}) = mf(\frac{1}{m})\]
➡ \(\frac{1}{m}f(1) = f(\frac{1}{m})\)
となりますね.一般の有理数\(n / m\)は
\[\frac{n}{m} = n \cdot \frac{1}{m}\]
と分解すればどちらも外に出せるので,
\[f(\frac{n}{m}) = f(n \cdot \frac{1}{m}) = nf(\frac{1}{m}) = \frac{n}{m}f(1) \]
となってOKです.
(3) \(x\)が実数のとき
いよいよ最後です.実数\(x\)に対して,有理数の稠密性から\(x\)に収束するような有理数の列\({q_n}\)をとることができます.よって\(f\)の連続性から,
\[\begin{align*}
f(x) &= f(\lim_{n \to \infty} q_n) \\
&= \lim_{n \to \infty}f(q_n) \\
&= \lim_{n \to \infty}q_nf(1) \\
&= xf(1)
\end{align*}\]
となり示せました.
この定理を使います.
2.情報量の性質からlogに限られることの確認
先ほど見たCauchyの関数方程式の条件式は情報量の性質\(I(xy) = I(x) + I(y)\)に近いですので,むりやりこの形にしたいと思います.
正の数\(a\)をとってあげると,今\(x,y\)は正の数としていますから,
\[x = a^X,\quad y = a^Y\]
とかけますね.これを情報量の性質に代入すると,
\[I(a^{X + Y}) = I(a^X) + I(a^Y)\]
となって,Cauchyの関数方程式の条件をみたします.よって,
\[I(a^X) = cX, \quad c = I(a^1)\]
➡ \(I(x) = c\text{log}_a(x), \quad c = I(a)\)
となって情報量は\(\text{log}\)の定数倍以外許してもらえないことがわかりました.

最後まで読んでくださいましてありがとうございました
コメント