社会調査士のためのこれからの因子分析

R Advent Calendarに参加しちゃったので,なんか考えないと行かんなあ,ということで今までやってきたことをぐるりと振り返ると,やっぱり心理学的調査の業界で生きてきたので,調査データの因子分析というのが(俺の中の)王道なわけです。なので,思うところを書いてみます。
枕が長くなりますので,Rを使ったお話だけ分かればいいやという人は,こちらのサイト(Rpubsコード)に飛んでください。

さて。

私が学生だった15年ほど前は,まだ大学でもメインフレームにTSSで接続するような時代で,調査実習もSPSS/PCをつかうという頃。一回の因子分析に20分かかったので,因子数の決定にも慎重に,ドキドキしながらやったものです。

そういう「ちょっと古い」時代をしっている人間は,データは5〜7件法でとって,それを因子分析するときは主因子解で,Varimax回転するというのが王道だと習いました。斜交回転や最尤法といった技は,97-98年頃,SPSSのバージョンが8?9?にあがった頃にオプションとしてついたのであって,それまでは理論はあるけど計算機がついてこないという時代だったのです。

大学を卒業する頃には最尤法,promax回転できまり!という時代が来たわけだけど,「データは5件法で」というあたりは特に問題視されることもなくスルーされていました。統計学者に言わせると,7件法でギリギリ,9か11件法ぐらいでないと間隔尺度水準と見なすことができないとなることは知られていたんだけど,「だってしょうがないじゃない」という感じで普通に因子分析をしておったわけです。間隔尺度水準がアヤシイとされる3,4件法になるんなら,もういっそ数量化三類(=双対尺度法。名義尺度水準の分析法ですな)にしなさいと言われたり。

ところが10年ほど前から,この「似非間隔尺度水準,実質は順序尺度水準じゃないか」というデータに対して,統計業界から項目反応理論(IRT) を使えばいいじゃない,という話が出てきた。IRTの中でも段階反応モデル(GRM)は,反応が段階でとれるものに対するモデルであり,順序尺度水準のままで分析できるときたもんだ。しかもGRMは数学的にはカテゴリカル因子分析と同じ,すなわち因子分析の姿を変えただけのものであり,ポイントは普通の因子分析を始める時につかう積率相関係数のかわりに,ポリコリック相関係数を使えばいいだけ,という。まあ理解もしやすいわけですね。

じゃあそのポリコリック相関係数が算出できるソフトは,といえば,やはりR。IRTを扱う専門ソフトはBILOG-MGとかあったし,GRM(PCM)を扱うソフトはParscaleというのがあったんだけど,海外ソフトを輸入して買うという,お金がないとやってられないじだいだったわけです。
Rもまだまだヨチヨチ歩きのころで,周りに十分なテキストや解説サイトがなかったので,私も敷居が高く感じていました。

お金がないから仕方がない,とRに手を出したのが,私とRとのそもそもの出会いでもあったわけで。
さて,Rのパッケージltmにpolycor関数が入っている!これで勝つる!と思われたけど,ひとつ問題が。それは,IRTはテスト理論を背景にしていることから,基本的に一因子モデルなんですね。これは困る。心理屋さんは基本的に多因子モデルが好きなんです。もちろん,単純構造を目指すという原則があるから,因子数がわかれば因子ごとにIRT(GRM)をやって因子得点の算出に向かえばいいんだけど,やはり多因子でないとねえ・・・。

ところがどっこい。最近,mirtパッケージがこの問題を解決してくれたのです。なんと因子間相関までみとめて頂ける!モデルも結構自由に書ける!
いやー,Rの発展,展開は最近目覚ましいものがありますね。これで今のところ,変に新しいソフトを買ってその使い方を習熟して,という苦労することなく(Parscaleをdisっているわけではない。パー助はパー助で可愛かったんです。),いつものRスクリプトでやりたいことが全部できるようになっちゃった。

ということで,話が長くなりましたが,これからの因子分析は
1.5件法ぐらいであれば,ポリコリック相関係数をもとに並行分析等で因子数を決定し,
2.多次元段階反応モデルwith最尤推定&プロマックス回転で尺度水準,抽出法,回転法もばっちり!
という方向性に進んでいくと思われます。

「5件法をまんま主因子法varimax回転」が許されるのは小学生までだよねー!

という時代が来るかどうか分かりませんが・・・ウヒヒ。

さあでは,実際にRでやってみましょう。以下ではコードと出力の一部を書いていきますが,結果を伴うRpubsの方にもリンクを貼っておきます。

それでは4件法の順序尺度水準で得られたデータを因子分析する例についてお話します。
従来通りの因子分析の方法,段階反応モデルを使った方法,多次元IRTを使う方法,の三段階にわけて比較検討しながら進めてまいります。

今回は次のパッケージをご用意ください。

サンプルデータはltmパッケージにあるScienceデータを使います。4件法で7つの項目があります。

従来はこうした4件法であっても,(無理矢理)間隔尺度水準とみなして分析していたわけです。
すなわち,相関係数の出し方がピアソンの積率相関係数で,それに基づく因子分析だった。
ちょっとやってみます。まず間隔尺度水準に置き換えます。

積率相関係数とポリコリック相関係数を比較します。ポリコリック相関係数は,ltmパッケージが読み込むpolycorパッケージにあるhetcor関数で,変数の型にあった適切な相関係数を出してくれる関数。

これが結果。ピアソンの積率相関係数。

ポリコリック相関係数はこちら。

結果をみると,ポリコリック相関係数のほうが数値が大きい。逆に言うと,順序尺度水準の変数を無理矢理間隔尺度水準とみなして積率相関係数を出すことは,不適切なモデル適用によって値が過小評価されちゃうことでもあるわけです。

で,普通の因子分析というのは,連続変数とみなしたデータに対して固有値分解し,因子数を決めたりするわけですね。
因子数の決定には,psychパッケージのfa.parallel関数による並行分析がいいかも。

まあ結果は変わらないんですけどね。

因子分析も連続変数と見なした古典的方法と,ポリコリック相関係数をつかった方法,両方で見てみましょう。
まずは古典的方法から。

ポリコリック相関係数を使った方。

これまた結果は大きく変わらないのですが,後者の方がやや大きい負荷量が算出されている。前者の方がやや「目減り」していたわけです。

後者がカテゴリカル因子分析のやり方ですが,いったんhetcor関数でポリコリック相関係数を算出させるあたりがちょっといやですね。
ということで,ルートとしては,この因子分析の結果を受けてIRT(GRM)ということが考えられます。
最近,psychパッケージにirt.faというポリコリック相関係数から因子分析できる関数が追加されました。
変数は数値型(Factor型ではない)で渡す必要がありますが,次のようにします。

結果の全体像をみるには,print関数でshort=Fオプションをつけましょう。

まあ他にも色々できるようですが,まだちょっと関数の挙動が怪しかったりします。

IRT(GRM)をやるには,以前からある専門のltmパッケージ使った方が確実かも。
今回第一因子はTechnology,Environment,Industryからなり,第二因子はFuture,Work,第三因子はBenefit,Comfortからなるわけですから,ltmパッケージのgrm関数を使って,

とすることができます。

もっとも,これだと因子間相関がでないですね。IRT(GRM)は基本的に単因子モデルですから。
これを多次元モデルにするのがmirtパッケージのmirt関数です。数値型の変数を渡して,

となります(警告が出るのでちょっと推定がうまくいってないかもです)

ちなみにmirt関数は確認的にモデルを書くこともできます。
confmirt.model()関数で3つの因子と対応する項目番号から,次のようにモデルを描くことができます。

とまあ,このようにかなりカテゴリカルな因子分析ができる環境が整ってきているわけです。
ltmは安定した答えを出してくれますが,psychパッケージやmirtパッケージはまだちょっと不十分かな,とおもうところがなくはありません。
その辺は今後に期待ということで。

余談ですが,もっとちゃんとしたいという人は,M-plusというソフトがありますよ。

補遺)時代背景については,あくまでも私の個人史からのお話ですので,ご容赦ください。ちなみに私は1994年にKUに入学,1998年〜2003年はKGにおりました。

コメントは受け付けていません。