コラム 人と星とともにある数学 数学

数式鑑賞劇場|第8回 シャノンの情報エントロピー

電子計算機の基礎を作ったクロード・シャノン

クロード・エルウッド・シャノン(1916-2001)は、アメリカの電気工学者・数学者です。電気工作が好きだったクロードは1932年にミシガン大学に入学、1936年に電気工学と数学の学士号を取得して卒業しました。ここでクロードは後に大発明となるきっかけに出会います。それがジョージ・ブールの数学──ブール代数です。

その後クロードはマサチューセッツ工科大学の電気工学科に進みます。1937年、クロードはブール代数と電気回路の融合の着想を得ます。それは修士論文「リレーとスイッチ回路の記号論的解析」としてまとめられました。情報を0と1で表す2進法を導入することで、あらゆる論理演算が計算機に可能であることを証明しました。

その後のコンピュータの回路はすべて2進法を基にデザインされることになりました。論理演算が電気回路で実現できることを示したクロードの着想は、現在の電子計算機──コンピュータの礎となるイノベーションです。

かくして、クロード・シャノンはフォン・ノイマンとアラン・チューリングとともにコンピュータの基礎を作った人物に挙げられるようになりました。

ところで、論理演算が電気回路で実現できることを示した日本人エンジニアがいます。それもクロードよりも先行して。

中嶋章(1908-1930)はクロードよりも2年前の1935年に論文「継電器回路の構成理論」を発表しました。中嶋の理論はクロードと同様のものでしたが、ブール代数であることは指摘していなかった点が異なっています。

情報量の単位ビット(bit)を使い始めたクロード・シャノン

情報量の単位として知られているビット(bit)の生みの親はアメリカの数学者ジョン・テューキー(1915-2000)で、"binary digit"を短縮してbitを生みだしました。これを初めて使用したのがクロードです。

bitが最初に使われたのが、クロードの1948年の論文「通信の数学的理論」です。この論文をかみ砕いて解説したワレン・ウィーバーによる解説「通信の分析的研究の一般的背景に関する導入的研究」の中に以下の記述を見つけることができます。

情報量の単位は「ビット(bit)」と呼ばれ、この語はジョン・W・テューキーが"binary digit"を縮めた語として最初に考案したものである。数値が2進数によって表示される場合、2つの数字、すなわち0と1しか出現しない。これは、0から9の10種の数字が出現する、10を底とした10進数と同様である。0と1は、上で述べたとおり、任意の2つの選択肢を記号で表しているものとみなしてよい。その結果、"binary digit"または"bit"は、情報量の基本単位である2つの選択肢という状況と自然に結びつく。

ワレン・ウィーバーによる解説
「通信の分析的研究の一般的背景に関する導入的研究」より

情報理論の創始者クロード・シャノン

クロードの1948年の論文「通信の数学的理論」により、「情報」について定量的な扱いを可能にする定義がなされました。これにより情報についての理論(情報理論)という新しい数学的理論が創始されました。

  • シャノンの第一基本定理
    シャノンの情報源符号化定理とも呼ばれます。情報を最も効率よく符号化した際に、どこまで短く変換できるかを示す定理で、平均符号長の最小値が情報エントロピーに一致するとき、最も効率の良い符号化であるというものです。
  • シャノンの第二基本定理
    シャノンの通信路符号化定理とも呼ばれます。雑音があるにもかかわらず任意の正確さと通信路容量に任意に近い伝送レートで情報を通信路を介して送信できることを示すものです。

簡単に言えば、通信量を減らす理論がシャノンの第一基本定、誤りを減らすのがシャノンの第二基本定理ということです。これらの定理は現在の通信技術の基礎理論となっています。

そして、シャノンの第一基本定理に登場するのが本題の情報エントロピーです。1948年の論文「通信の数学的理論」は上述したワレン・ウィーバーによる解説を付けて『通信の数学的理論』として出版されました。邦訳本は『通信の数学的理論』(筑摩書房、2009)。

この本の中でクロードは情報エントロピーを展開することになります。情報エントロピーを語るにはシャノンの情報量が必要になります。なぜなら、情報エントロピーとは情報量の期待値だからです。

『通信の数学的理論』(筑摩書房、2009)

シャノンの情報量

いよいよ情報エントロピーを語っていきます。クロードが行ったことは、曖昧な「情報」というものを数値で表したということです。

2択の問題「AとBのどれ?」に対して答えを決定するには1つの質問があればいい。では4択の問題「A、B、C、Dのどれ?」に対して答えを決定するにはいくつの質問が必要でしょうか。最初の質問「(A、B)、(C、D)どちらのグループ?」、次の質問「(A、B)のどれ?」とすればいいので答えは2つです。

このように「どっち?」という2択の質問を行うことで1つの質問ごとに選択肢を半分に絞ることができます。2の3乗=8択の問題であれば3つの質問、2の10乗=1024択の問題であれば10の質問で答えを1つに絞ることができます。

ここで、選択肢を情報、質問の数を情報量と言い換えます。2通りの情報→質問1つ→情報量1、4通りの情報→質問2つ→情報量2、8通りの情報→質問3つ→情報量3、1024通りの情報→質問10→情報量10という具合です。

この情報量の単位がビット(bit)です。したがって、2通りの情報→情報量1bit、4通りの情報→情報量2bit、8通りの情報→情報量3bit、1024通りの情報→情報量10bitとなります。

クロードによる情報量の定義は、選択肢の数の代わりに確率を用いています。n個の選択肢の中から最後は1つが選ばれる状況を、確率1/nとしました。すると情報量は確率pを用いて次のように計算されます。

情報量=logn=−log1/n (bit)=−logp (bit)

2通りの情報→情報量log2=1(bit)
2通りの情報→確率1/2→情報量−log1/2=1(bit)

4通りの情報→情報量log4=2(bit)
4通りの情報→確率1/4→情報量−log1/4=2(bit)

8通りの情報→情報量log8=3(bit)
8通りの情報→確率1/8→情報量−log1/8=3(bit)

1024通りの情報→情報量log1024=10(bit)
1024通りの情報→確率1/1024→情報量−log1/1024=10(bit)

これが底を2としたときの情報量(単位:bit)の定義です。

ちなみに、情報量を選択肢の数(組合せの数)の対数をとればそのまま正値ですが、確率で定義すると負値になるので「マイナス」をつけて正値にしています。この状況は化学におけるpHの定義に似ています。

水素イオン濃度[H+](mol/L)を底を10とする対数を取り「マイナス」をつけたものがpHです。水素イオン濃度も確率も1より小さい数値なので対数値は負になります。マイナスをつけて正値にしています。

この情報量の「マイナス」が情報エントロピーHの定義にあるシグマ記号の前にある「マイナス」になります。

情報量の計算例

サイコロで情報量の計算をしてみましょう。サイコロを1回振るとき、出目が6であった場合の情報量は、確率が1/6なので、−log1/6=2.58…(bit)。

同じくサイコロを1回振るとき、出目が偶数であった場合の情報量は、確率が3/6=1/2なので、−log1/2=1(bit)。

シャノンの情報エントロピー

ようやく情報エントロピーを語る準備ができました。情報エントロピーとは、情報量の期待値のことです。期待値は平均値のことでもあるので情報エントロピーは平均情報量とも説明されます。

期待値を説明するのに持ち出される例がサイコロの出目です。1回サイコロを振ったときの出目は1から6でそれぞれの確率が1/6の場合、出目の期待値は
Σ(出目)×(確率)=1×1/6+2×1/6+3×1/6+4×1/6+5×1/6+6×1/6=3.5
と計算されます。1の目当たり10円賞金(6の目が出れば60円)が獲得できるとすれば、1回サイコロを振ることで35円の賞金が“期待”できるという意味です。

サイコロと同じように、情報量の期待値を計算してみます。確率pの情報量が−logpなので、情報量の期待値は
Σ(情報量)×(確率)=Σ(−logp)×p=−Σplogp
となります。

情報エントロピーとは何か

情報エントロピーを情報の価値という観点で捉えてみましょう。前述した情報量の例をもう一度みてみます。
8通りの情報→確率1/8→情報量−log1/8=3(bit)
1024通りの情報→確率1/1024→情報量−log1/1024=10(bit)

起こる確率が小さい(1/1024)ほど情報量は大きく(10bit)、逆に起こる確率が大きい(1/8)ほど情報量は小さく(3bit)なります。そして、確率が1つまり必ず起こる事象の情報量は−log1=0(bit)です。

このことから情報量(bit)は情報の価値の大きさを表すと捉えることができます。情報量が大きいとは情報の価値が大きいことを表します。必ず起こる事象の情報量が0とは情報の価値も0だということです。

例えば、雨が降るか降らないかの情報量の期待値を考えてみます。どちらも確率1で降る降らないがわかっていればその情報には価値がありません。言い換えると、雨が降る降らないの確率に対する情報への“期待”はないということです。

つまり、わかりきっていることの情報エントロピーは0ということです。これが、降るか降らないかの確率が1/2ならば、降るか降らないかの情報を知りたいすなわち情報に対する期待が最大になります。これが情報エントロピーが最大になるということです。

情報エントロピーが大きいとは、「情報の価値が大きいこと」「結果の予測ができない状態」「情報が曖昧な状況」ことを表します。平均情報量としての情報エントロピーが大きいとは、平均として多くの情報を含んでいることを意味します。

情報エントロピーとは、その情報源がどれだけの情報を持っているかを測る尺度ともいえます。

『通信の数学的理論』(筑摩書房、2009、p34)

情報エントロピーの計算例

50名のクラスがあります。男子30名、女子20名です。Xのアカウントを持っている男子は20名、女子は18名です。このとき、クラスから一人を選びだすときのエントロピーは?

選び出された一人がアカウントを持っている確率は38/50、持っていない確率は12/50だから、
エントロピーH=−Σplogp=−38/50 log38/50−12/50 log12/50=0.795…(bit)

  • この記事を書いた人
  • 最新記事

桜井進(さくらいすすむ)様

1968年山形県生まれ。 サイエンスナビゲーター®。株式会社sakurAi Science Factory 代表取締役CEO。 (略歴) 東京工業大学理学部数学科卒、同大学大学院院社会理工学研究科博士課程中退。 東京理科大学大学院非常勤講師。 理数教育研究所Rimse「算数・数学の自由研究」中央審査委員。 高校数学教科書「数学活用」(啓林館)著者。 公益財団法人 中央教育研究所 理事。 国土地理院研究評価委員会委員。 2000年にサイエンスナビゲーターを名乗り、数学の驚きと感動を伝える講演活動をスタート。東京工業大学世界文明センターフェローを経て現在に至る。 子どもから大人までを対象とした講演会は年間70回以上。 全国で反響を呼び、テレビ・新聞・雑誌など様々なメディアに出演。 著書に『感動する!数学』『わくわく数の世界の大冒険』『面白くて眠れなくなる数学』など50冊以上。 サイエンスナビゲーターは株式会社sakurAi Science Factoryの登録商標です。

あわせて読みたい

-コラム, 人と星とともにある数学, 数学
-