HFM for R!

やっと少し時間が取れたので、RでHFMをやってみようと思いまして。関数を作りました。次の通りです。

これで、例えば先日の北京五輪、野球一次予選のデータを分析してみよう。8チームの総当たり、非対称行列なのでHFMの例示にもってこいですな。
次のプログラムを実行してください。

上二行がデータ入力、三行目がhfm関数の実行。四行目はプロット。より詳しい解説は、本家サイトKosugitti Laboにreadme等といっしょにパッケージングしたものを置いてありますので、そちらからDLして使ってみてください。
結果の一部を書きますと、

となる。第一次元の寄与率が68%、第二次元が17%。二次元目までで85%だから、どこまで使うかが考え処なんだけど、それよりも注目すべきは固有値の符号。正と負が入り乱れてます。これはつまり、データ全体にある単位(ノルム)を決めるのが難しい*1ということ。語弊を恐れずに簡略化して言えば、一つのモノサシで決められるほどはっきりした構造を保ってないということです。

第一次元をプロットしたのが冒頭の図。台湾を軸に、上と下に分かれています。非対称関係なので、上が台湾より強い、下が台湾より弱い、と考えてもらえばいいでしょう。原点から一番遠いのがキューバ。キューバは8試合で52点とって23点取られてます。原点からの距離で言えば、次は韓国かアメリカか。同じぐらいのポジションです。中身を見てみると、韓国は41点取って22点取られてる。アメリカは40点とって23点取られてる。しかも、韓国vsアメリカは8-7で韓国の勝ち。この辺が図の微妙な位置関係に、ちゃんと反映されているのが見て取れます。

星野さんは「勝ったものが強い」という迷言を吐いてましたが、これを見ると日本は金メダルがとれようはずもなく、予選の結果だけで行けばキューバが金なのです。実際は韓国が金、キューバが銀、アメリカ銅でした。上位2チームが入れ替わったのは、いつかも述べたように、また分析結果が綺麗な距離空間に落とし込めなかったように、尺度が安定しない、あるいは、勝負のアヤというのが効いてくる競技だからでしょう。

*1:不定量計量空間を構成している、という

コメントは受け付けていません。