試験と採点

普通紙マークシート読み取りソフトを採用し,今期の試験のいくつかはマークシート試験にしている。

いつもは論述させる試験が多いのだが,系列効果が出やすく,何度も読み直してレイティングし,重みづけて・・・というのが大変だと感じていた。人数が少ない授業のそれだと,ダメだダメだとわかってはいても,受験生の名前がわかってしまうこともあるし,前後の回答に引きずられ評価が歪んでないか?と自問自答を繰り返すのである。自分の中では公平にしているつもりだが,ここで悩むのも辛い。

ということで,機械的に採点できるマークシートにしたのだ。
設問は30〜40問ぐらい用意した。多肢選択でもいいのだが,エラーをなくすために○×問題にし,○なら1,×なら2にマークせよ,という形式にしてみた。
本学は学籍番号が10桁あるので,すべてマークさせると無駄だから,受験番号を別途割り振るという作業もいるが,おおむねマークシートを使った試験はうまくいったように感じている。

試験を作り,読み直すときに,同時に自分もマークしてみる。これが模範解答となり,実際の試験の回答とあわせて読み込んで,模範解答指定をしてやると,自動的に採点してくれる機能がソフトについている。試験問題の推敲や読み取りのチェックなどがここでできるので,一石二鳥である。
100人近い受験生でも,入力はScanSnapのおかげですぐにできる。学生の受験番号入力エラー率は2%ほどで,個別の訂正で十分対応できるレベル。
採点は基本的に0/1にし,csvを吐き出してくれるので,Rで読み込んで項目分析をする。

ltmパッケージで1PL,2PL,3PLモデルをやってみる。
大講義ものでも100人ぐらいだから,項目母数としては安定した推定になっているとは思えない。それでも,IT相関が負になるような(=識別力が負になるような)項目はふさわしくなかろう,と除外したり,Ablityの推定なんかをしてみる。ちなみに,Abilityは素点の総和と相関が0.8〜0.98ぐらいあるので,項目を落としてもほぼ実態とかわらない。

サンプルが少ないのでうまく当てはまらないこともあるが,それよりも興味深かったのはpsychパッケージのirt.faをしたときだ。「社会心理学」の試験結果が二因子構造になったのだ。基本的に試験だから一因子のほうが望ましいと思ったが,項目をみてみるとどうも基礎的な知識の正誤因子と,論理的に考えて回答する項目因子に分かれたようだ。しかもそれぞれの因子間相関がほぼ0であったことが興味深い。
この試験は,マークシートに加えて論述問題も一問用意しておいたのだが,そこの採点との相関もそれぞれ0.3以下であった。論述はまた違う能力なのかもしれない。
そこで,IRTでの各因子のAbilityを推定し,論述問題の得点とあわせて重み付き総和で採点した。重みはやや論理的思考の方に大きくつけた。

心理学測定法のほうは,基礎的知識を問う問題がおおかったので,TICが負の方向で高く,高い能力についての弁別力のない試験であることが明らかになった。これはまあ,テストとしてはどうかというところもあるが,そこを狙いにして作ったのだからある意味狙い通りである。

来年は,このデータをもとに良問による試験問題プールを増やしていきたいなあと思う次第である。

ちなみに,IRTは100人ぐらいの試験だと項目母数があまり安定しないが,MCMCpackパッケージのMCMCirt1dをつかって推定すると,まぁまぁ収束して,それっぽい値がでた。MCMCってすげえな,とも思った。

試験のたびに統計のお勉強にもなっている。

[amazonjs asin=”B00FYN95ZO” locale=”JP” title=”マークシート読取君3″]