IRTのICCのSum of Categoriesの。

ここ数日、というか正確には二週間ばかり、悩んでいる問題。

M-plusのVer4.2になってから、IRTのグラフ表現が非常に改良されて、ボタン一つでICCが描けるようになっている。
綺麗に描けるし、JPGなどに出力できるから、「もう(BILOG-MGやParscaleじゃなくて)これでいいやん」と思っている。

さて一因子カテゴリカル因子分析は段階反応モデルの異なる表現と考えることができるのだが、M-plusでこの一因子FAをやるとICCなどのプロットを書いてくれる(PLOT3オプションを指定のこと)。このプロット画面、複数の項目を表示させることもできれば、複数のカテゴリを表示させることもできる。さらに面白いことに、複数のカテゴリをSum upして表現することも可能なのだ。

で、これが悩みの種になったのだ。

例えば、0〜4で反応する五件法があったとして、1と反応する場合のICC、2と反応する場合のICCがそれぞれ描けるし、この二つを足したカーブを描く、ということも可能である。ここまでは直観的な操作で進めることができた。だとすると、0から4まで全てのカテゴリを累積したようなカーブを書いたらどうなろう?と思ってやったところ、2母数ロジスティックモデルのような綺麗なS字カーブが描けたのである。見て、あぁなるほど、θが低い人は反応しにくくて、最終的に1(確率100%)になるのね、と納得しちゃったのが間違いでした。

これが描けるのなら、じゃあ困難度母数bのような一つの数字で項目を表現できたら便利じゃない、と思って、このグラフからどうやってbを求めればいいんだ、とウンウン言っていたような次第です。で、二日ほど前に、なんだかそれっぽい答えを得たような気がした。筋はあってる、と直観したアレです。

さて、今日も今日とて、その問題をウンウン考えていて、ふとひらめいた。あれ、これって何かヘンじゃないか、って。

まず、カテゴリカル因子分析で算出される閾値τは、数学的に同じといっても流石にそのままbjになるわけではなくて、変換しなければならない。変換された値はbj*で、これは*のないbjと区別する必要があることに注意。*がないのが位置母数。*があるのは困難度母数、というみたい。困難度母数はθがuj>=cと反応する確率を表すときに用いられる母数で、この「>=(大なりイコール)」のあたりがミソ。ややこしいんだ、これが。数学的発想に慣れてない私どもとしましては、この辺で実感を飛び越えて数式モードとして理解していかねばならぬのが辛いんです、T先生。

で、これに沿って変換して、ICCを描くとそりゃあ綺麗なものが描けるのです。今回はMaximaで描いてたのですけど。で、この五本のICCを足し算するでしょう。するとなんと!1になるんですねー。横棒一直線。あたりまえですよねー。

全カテゴリの0から4まで足したって、2PLのS字カーブなんてできるはずないんです。累積したらp(θ)=1ですよ。
じゃあMplusのあれはなんだっつーの。

色々実験して、わかりました。以下の論考は、あくまでも図上で確認したモノで、数学的証明があるモノじゃないから要注意ですよ。

さてまず、一番小さなカテゴリ、つまり0ですが、これに反応するカーブはS字の逆みたいな形です。これは理論通り。
0と1の累積を取ると、一つの山形ができて、しかもこれはカテゴリ1だけのICCより、少し確率が増えているようです。
0から2までの累積を取ったとしましょう。これも同じくカテゴリ2だけのICCと比べて、山が少しふっくらしているようです。確率が増えたのでしょう、累積した分がなにかあるのかしら。
ところが、中間ポイント、例えば1と2とか、2と3とかの累積を取ると、これは大きい方のICCに一致してしまいます。つまり、例えば1と2の累積ICCは、2単独のICCに一致するのです。どうやら大きいカテゴリの方に喰われる(この表現が正しいかどうかはともかく)ようです。
ということは、そう、0から4まで全てのICCを累積したもの、というのは、(Mplusのルールでは)カテゴリ4単独のICCに一致するというわけですな。

とても乱暴な表現をしますが、カテゴリ1のICCの描き方は、b0*-b1*です。同じく2のICCはb1*-b2*です。関数であるこの二つを足すと、b0*-b2*になります。何でこれがb1*-b2*に一致するんだろう?
Mplusのサポートに聞いてみたい気もしますが、購入したのが1年以上前なので、質問する権利を失ってしまいました。
科研費が当たれば、大学用に購入して、聞いてみてやろう。

「なんでか」はともかく、「なにか」はわかったので、とりあえずこれで一旦中断します。
なぜなら、この悩みは現在執筆中の論文における論理的道筋を邪魔しないからです。本筋じゃないんですね。言いたいことは、表現を変えれば簡単に言える。問題は、図として表示するときに、その図の意味は何か、と問われたら困るということです。自分が知らない図を載せるわけにも行かないので。
で、考えていたら、こうなったというわけ。

機会があれば、統計の専門家にも聞いてみよう。
先日思いついた方法も、筋としては間違ってないハズなんだよな。推定値と実測値を行ったり来たりするのが、理論的には問題なのかもしれんけど。もし可能なら、GRMでもS字カーブを書いて、困難度母数bひとつで表現できることになる。それができたら、だいぶんユーザーが増えるんじゃないだろうか?

それにしても、S先生が言ったように、理論が広まるには「簡単であること」というのは重要だな。
IRTは道筋が少し、こんがらがりすぎている。困難度、識別力、位置母数などの表現も、売れるためにはイマイチなんだろうなぁ。

あとはつくづく、自分の頭の悪さですな。こりゃ死ななきゃ直らないレベルです。トッホッホ。

コメントは受け付けていません。