Adjusted Mutual Information
イントロダクション
クラスタリングの性能を評価する指標に、AMI (Adjusted Mutual Information)というものがある。Wikipediaに英語の記事はあったが、日本語で解説している記事を見つけられなかったのでここに日本語でまとめる。
結局のところ
結局のところ、AMIはARI(Adjusted Rand Index)と同じような補正をしている。すなわち、真のクラスタとクラスタリングにより推定されたクラスタ間の相互情報量から、ランダム予測をした時の相互情報量の期待値を差し引くような補正をしている。
相互情報量
個の要素からなる集合 に対して、この 個への分割と個への分割を考える。ここで考えているのはいわゆる堅いクラスタ、すなわち、
を満たすようなクラスタである。 このU,Vの情報はR×Cの行列Mを用いて
として表せる。要素をランダムに選択した時、クラスタの要素が選ばれる確率は
であり、分割U,Vのエントロピーは
である。二つの分割U,Vの相互情報量は
ここで、
ある分割の組U,Vが与えられている時の、相互情報量の期待値は
ただし、
これを用いて補正された相互情報量AMI(U,V)は
と表せる.