採点の祭典と項目遊び

講義でIRTを教えているもんですからね,自分のテストの項目が良問だったかどうか,当然チェックしたいわけです。

内容が重複する二つの講義が毎年あって,片方は100人超の大講義なので,普通紙マークシートに回答してもらっています。おかげさまでほとんど読み取りミスもなく,マークシート読取君3FUJITSU ScanSnap S1500 FI-S1500で集計は一気に終了。ここからRを使っての項目分析(採点の祭典)となるわけです。

毎年のデータをマージして,共通の項目で等価。二年経った今でも300ケースないので項目母数は安定しないけど(そんなときはMCMCで推定してみたりして)。まあ基本的に,ltmパッケージのltm関数でやります。

で,項目母数を見ながら考えるのです。あー,この項目は難しかったか,これは簡単すぎるなあとか。今回のテストのピークはどの変だったろうか,と言ったことを。

これを見ていると,サンプルサイズがまだまだ小さいということはあるにせよ,項目母数の中にはひどいものがあるわけです。というか,ひどい方が多いかなあ。

まあしっかり能力推定,というより合格してもらうために,基礎的な知識を問う客観テストにしているし,何より持ち込み可でやるもんだから,精度を求めるもんではないんですが。

そんな中でも,これは綺麗なICCだなあというベスト3がこちら。

RplotICC

Qid7は「次の統計量を表す数式を数式群の中から選び,数式に付与された数字をマークしなさい」という問いのひとつ。

「妥当性」

で,数式群のなかに正解がないから,答えは「(8) 該当するものがない」です。

識別力がかなり緩やかで,困難度も低いけど,これでダメだったらダメだね,ってのがよく分かる問題じゃないかしら。

同様に困難度がもう少し低いのがQid43で,「プロクラステス回転は直交回転の一つである。正しければ1,間違っていれば2にマークせよ」です。綺麗なS字ですね。

お手本のようなS字カーブはQid105「因子分析の基本モデルについて,次の記号は何を意味するか。該当する番号を語群から選びマークしなさい」という問いで,u_{ij}は?というやつ。正解は「独自因子の因子得点」なんですけど,識別力3.11,困難度-0.184ぐらい。ちょうどええ。

 

こういう良問は残していって,悪問(識別力が負になるのが結構ある(´Д` ))を駆逐していく。項目はプールしてあって,Qidという統一のIDが振られているから,従来のデータに基づいて困難度を適当に選びつつ問題を構成してます。

 

被験者母数を線形変換して採点するんだけど,結局小数点は丸めるし,なにより合計点(正答数の総和)との相関が0.9以上になるんだけどね。

ええ,ただの趣味ですよ。ええ。