Adjusted Mutual Information - 興味深い現象

イントロダクション

クラスタリングの性能を評価する指標に、AMI (Adjusted Mutual Information)というものがある。Wikipediaに英語の記事はあったが、日本語で解説している記事を見つけられなかったのでここに日本語でまとめる。

結局のところ、AMIはARI(Adjusted Rand Index)と同じような補正をしている。すなわち、真のクラスタとクラスタリングにより推定されたクラスタ間の相互情報量から、ランダム予測をした時の相互情報量の期待値を差し引くような補正をしている。

${N}$ 個の要素からなる集合 ${S=\{s_1,...,s_N\}}$ に対して、この ${R}$ 個への分割 ${U=\{U_1,...,U_R\}}$ と $C$ 個への分割 $V=\{V_1,...V_C\}$ を考える。ここで考えているのはいわゆる堅いクラスタ、すなわち、

を満たすようなクラスタである。このU,Vの情報はR×Cの行列Mを用いて

として表せる。要素をランダムに選択した時、クラスタ $U_i$ の要素が選ばれる確率は

であり、分割U,Vのエントロピーは

である。二つの分割U,Vの相互情報量は

ここで、

ある分割の組U,Vが与えられている時の、相互情報量の期待値は

ただし、

これを用いて補正された相互情報量AMI(U,V)は

と表せる.