Adjusted Mutual Information

イントロダクション

クラスタリングの性能を評価する指標に、AMI (Adjusted Mutual Information)というものがある。Wikipediaに英語の記事はあったが、日本語で解説している記事を見つけられなかったのでここに日本語でまとめる。

結局のところ、AMIはARI(Adjusted Rand Index)と同じような補正をしている。すなわち、真のクラスタとクラスタリングにより推定されたクラスタ間の相互情報量から、ランダム予測をした時の相互情報量の期待値を差し引くような補正をしている。

${N}$ 個の要素からなる集合 ${S=\{s_1,...,s_N\}}$ に対して、この ${R}$ 個への分割 ${U=\{U_1,...,U_R\}}$ と $C$ 個への分割 $V=\{V_1,...V_C\}$ を考える。ここで考えているのはいわゆる堅いクラスタ、すなわち、

を満たすようなクラスタである。このU,Vの情報はR×Cの行列Mを用いて

として表せる。要素をランダムに選択した時、クラスタ $U_i$ の要素が選ばれる確率は

であり、分割U,Vのエントロピーは

である。二つの分割U,Vの相互情報量は

ここで、

ある分割の組U,Vが与えられている時の、相互情報量の期待値は

ただし、

これを用いて補正された相互情報量AMI(U,V)は

と表せる.

読書備忘録

安宅和人氏の著作である「イシューからはじめよ」を最近読んでいまして、とりわけ思い出せる所を備忘のために書き連ねようと思います。

イシューの分解について
- 3Cとかwhere what howとか、分野ごとに分解の型は存在するから使おう。一方で型にはめようとしすぎると悪影響。
- 分解するときにMECE(漏れなく、ダブりなく)は必須。
- MECEでも分解の仕方で必要な解析や結論は変わる。そのためどのような分解をするべきか上流からの検討が欠かせない。
- イシューの分解は段階によって果たす役割が違うが、最初から最後まで重要な役目を担いこれは生き物のように有機的な営みである。決して単なる機械的な操作ではない。序盤から、問題の明確化、吟味検証と解析の方向付け、最終的な結論、メッセージの構造形成というような流れになっている。
ストーリーライン
- 2つタイプがある支持する理由を多面的に述べるタイプと、空雨傘タイプ