講義でIRTを教えているもんですからね,自分のテストの項目が良問だったかどうか,当然チェックしたいわけです。
内容が重複する二つの講義が毎年あって,片方は100人超の大講義なので,普通紙マークシートに回答してもらっています。おかげさまでほとんど読み取りミスもなく,マークシート読取君3とFUJITSU ScanSnap S1500 FI-S1500で集計は一気に終了。ここからRを使っての項目分析(採点の祭典)となるわけです。
毎年のデータをマージして,共通の項目で等価。二年経った今でも300ケースないので項目母数は安定しないけど(そんなときはMCMCで推定してみたりして)。まあ基本的に,ltmパッケージのltm関数でやります。
で,項目母数を見ながら考えるのです。あー,この項目は難しかったか,これは簡単すぎるなあとか。今回のテストのピークはどの変だったろうか,と言ったことを。
これを見ていると,サンプルサイズがまだまだ小さいということはあるにせよ,項目母数の中にはひどいものがあるわけです。というか,ひどい方が多いかなあ。
まあしっかり能力推定,というより合格してもらうために,基礎的な知識を問う客観テストにしているし,何より持ち込み可でやるもんだから,精度を求めるもんではないんですが。
そんな中でも,これは綺麗なICCだなあというベスト3がこちら。
Qid7は「次の統計量を表す数式を数式群の中から選び,数式に付与された数字をマークしなさい」という問いのひとつ。
「妥当性」
で,数式群のなかに正解がないから,答えは「(8) 該当するものがない」です。
識別力がかなり緩やかで,困難度も低いけど,これでダメだったらダメだね,ってのがよく分かる問題じゃないかしら。
同様に困難度がもう少し低いのがQid43で,「プロクラステス回転は直交回転の一つである。正しければ1,間違っていれば2にマークせよ」です。綺麗なS字ですね。
お手本のようなS字カーブはQid105「因子分析の基本モデルについて,次の記号は何を意味するか。該当する番号を語群から選びマークしなさい」という問いで,は?というやつ。正解は「独自因子の因子得点」なんですけど,識別力3.11,困難度-0.184ぐらい。ちょうどええ。
こういう良問は残していって,悪問(識別力が負になるのが結構ある(´Д` ))を駆逐していく。項目はプールしてあって,Qidという統一のIDが振られているから,従来のデータに基づいて困難度を適当に選びつつ問題を構成してます。
被験者母数を線形変換して採点するんだけど,結局小数点は丸めるし,なにより合計点(正答数の総和)との相関が0.9以上になるんだけどね。
ええ,ただの趣味ですよ。ええ。