求まる

今日わかったこと。

重み付けのない最小二乗法(ULS)は、主因子法の解と一致する。
が、主因子法のアルゴリズムはちょっと緩いので、「理論的に」一致するのだが、「実装上」「近似値として」「実際には」一致しない。イテレーションの数と収束判定基準を厳しくすれば、改善されるようだ。

因子抽出、ということについて、共通性の初期推定値、固有値分解法、(狭義の)抽出法、という用語が統一されていない。初心者に向けてしっかり語られることがないようだ。特にSPSSでは。

まず、共通性の初期推定値だが、主成分法は対角項に1.0を入れる=標本相関係数を固有値分解する。
その他の抽出法(最尤法、最小二乗法など)では、一般にSMCを使っているようだ。
SMCは相関行列の逆行列から求められるという便利さがあるから、というのがその理由だろう。別に当該項目の行における相関係数の最大値を入れてもいいのだけど。これがあまりにも当然のように使われているんだけど、いいのかな?マニュアルなどに、もっと明記して欲しいものだ。

主因子法は、固有値分解に関係する。第一固有値を抜いた残差行列から第二行列を求める、というやり方だからだ。つまり、パワー法である。ヤコビ法やハウスホルダ法を使えば、必ずしもこの限りではない。一般に、ハウスホルダ法やQR法が使われるようだ。計算を高速にするため、三重対角化などが行われてから使われるのが多いようである。

抽出法については、多くのテキストで触れているので、中〜上級の人間だと一通り知っているはずである。
これは要するに、最小二乗法と最尤法の二つを抑えておけば、問題ないだろう。これらはデータに対する考え方が違う。最小二乗法は標本相関係数と因子構造のズレを最小にすること、が目的である。つまり、標本が主体。最尤法は、標本はあくまでも標本であって、母集団に合う形で考えるとどうするのが最も尤もらしいだろうか、という考え。母集団が主体、といえばいいかな。
最小二乗法は、重み付けをしなかったり、一般化したり、重みづけたりといろんなやり方があるみたいであるが、「標本が主体」という骨子を押さえておけばいいだろう。

個人的には、アルファ法(抽出後の因子のアルファ係数が最大になるように)やイメージ法(共通性の推定を避ける!)がもっと注目されればいいのに、と思う。

ものの数秒で終わる計算の中に、これほどいろいろな理論、概念、哲学が含まれているのに、それを逐一教えてくれる本というのはない。専門書は勿論いろいろあるのだけど、統計の専門書には数値計算アルゴリズムがないものが多いし、マニュアルにもそれは書いてない。書いてしまうと著作権というか、オリジナリティというか、まぁ商品としての価値が無くなるわけだ。俺みたいな人間が、クローンソフトを作りかねないので。

もっとも、こんな所にこだわる実務家はいない。私はこだわるけど、統計の専門家としても、数値計算の専門家としても中途半端だ。もちろん、実務家としてもね(笑)

でも、気になったら仕方がないのだ。

俺式因子分析ソフトを、いよいよ作ろうという気になってきた。
少なくとも、ピアソンもポリコリック相関係数も算出でき、因子分析するときに一旦因子数を決めてからでないと先に進めず、カテゴリカルデータで因子得点を求めるときはIRTモデルに則ること、が目標である。

それにしても豊田先生には感謝である。項目反応理論について、入門編に被験者母数のML推定値とベイズ推定値(MAP)について、二階微分まで書いてくれてあったから、ニュートン法でθを求めるプログラムがすぐできた。もっとも、ベイズ推定は理論編を読んで、すこし式を展開する必要があったけど。