「Rで学ぶクラスタ解析」を読んだ。ざっと読んだが、かなり新しい情報を提供してくれ、勉強になった。よかったところは次の通り。
- クラスタリング結果の評価指標についての言及。エントロピー、純度、F尺度、精度の考え方は、たとえば決定木やナイーブベイズなど判別モノの評価にも使える。
- 自然言語の分析に関して、IDFやTF*IDFなどについて丁寧に解説。テキストマイニングをする上で必須の情報。
- スペクトラルクラスタリング他、最新の手法について言及。さらにそのRソースまでついているという優しさ。
- 数学的展開もしっかりフォロー。
混合分布モデルやファジイクラスタリングなど、model basedな手法についてとても丁寧に解説されています。Rソースがついているから十分なんだけど、もうこのソース、パッケージとして配布してくれないかなぁ、と思うのはRに慣れてきたからか、手抜きの癖がついたからか。
とにかく良書です!
我が身を振り返って、階層的クラスタリングしか学ぼうとしなかったことを反省。心理学業界全体の問題だろうけど、新しい分析方法について疎くなってしまうんだよな。根本的な原因は、たぶん学び手の意欲で、それでないなら「頭が悪い」ってやつだな。一つ言い訳をさせてもらうと、クラスタリングだけではやっていけないというところがあるからです。やはり心理学の王道は、因子分析→構造方程式モデリング、だと思われ。
誰の誰に対するコメントになってるのかわからなくなって参りました。この辺で。
追記)Rインストールの際、ctvを使ったClustering関係のパッケージリストをみたのだが、ここにlca、poLCAなんかも含まれるんだなぁ。これみているだけで幸せな気分になれます。