みーの医学

2016年3月に110回医師国家試験に合格しました.医療従事者のためのWebサービスであるLafLaboの開発者です.

CBTは本当に公平なのか?

先日CBTを受験しました.1日パソコンルームに6時間こもってディスプレイ上で問題を解き続けるのは,正気の沙汰ではなかったです.今までで最も酷い眼精疲労がみーの目を襲いました.

さて,CBTが終わった感想を友達を話をしていて,CBTは本当に公平なのか?と疑問に思ったので,ここにまとめておきます.

まず,CBTのシステムを簡単に整理します.

CBTはコンピューターを用いて問題プールから受験生ごとに異なる問題がランダムに出題されます.ランダムに出題されても受験生ごとの平均難易度に差がないように調整されます.平均難易度については既に受験生ごとの出題問題セット間の差が極めて小さいことが明らかとなっておりさらに出題問題の組合せ段階で難易度に差がないよう調整される.また統計処理法(項目反応理論 Item response theory IRT)に基づいて難易度の検討を行い不公平がないように調整されます.

http://www.cato.umin.jp/02/0301cbt_outline.html より

CBTの試験では,プール問題形式なので,用意されている問題群から受験生毎にランダムに問題が出題されるわけです.

もちろん,たくさんの問題から320問の問題をランダムに出題したら,統計学的に平均点は毎年同じになるはずです.同一母集団からの無作為抽出というやつです.実際,CBTの全国平均点は毎年ほぼ同じ点数で推移しているらしいです.

さて, みーが疑問に思ったのは,問題の難易度の評価の方法が適切かどうかです.CBTのサイトから,評価方法についての記述を引用します.

各問題には難しいもの(正答率の低いもの)易しいもの(正答率の高いもの)があるが各受験生が受けた問題セット(320設問)の総合的な難しさを見るために各学生が受験した問題セット(320設問)についての正答率を平均するとその問題セットの予測正答率が計算できる. http://www.cato.umin.jp/02/0301cbt_outline.html より

つまりCBTでは問題の難易度を正答率から導き出していると考えられます.

ここで,以下の2つの問題の難易度を考えてみたいと思います.

問題1 インスリンの分泌を促進する作用をもつ薬剤を選べ.

  1. α-グルコシダーゼ阻害薬

  2. ビグアナイド薬

  3. スルホニルウレア(SU) 薬

  4. DPP-4阻害薬

  5. アンジオテンシンII受容体拮抗薬(ARB)

問題2 放射線の種類によって異なる放射線の単位を選べ.

  1. Bq

  2. Gy

  3. Sv

  4. eV

  5. J

 (注:これらの問題は問題集より改変したもので,CBTでみーに出題された問題ではありません)

問題1は,それぞれの薬剤の作用機序を知らないと正答できない問題です.それなりに骨があります.

問題2は,放射線のエネルギーはeVで表すことを思い出せば4. eVを選択できますが,吸収線量に放射線荷重係数をかけて線量当量(Sv)を算出することを思い出してしまうと3. Svを選択してしまいます.線量当量は人体の部位によっても異なるので,「放射線の種類によって異なる」という部分に完全に当てはまるわけではないので不正解なのだそうです.

これらの問題を大勢の人に問いてもらって平均点を算出することはみー個人の力では不可能ですが,両方とも同じような正答率になると思います.CBT的にはこれらの問題は同じ難易度ということになるわけですが,適切な知識があればだれでも正解を選べる問題1と,問題の捉え方次第で回答が割れる問題2の難易度を比較するのは不可能だと思います.

CBTで出題された問題を公開することは禁じられているのでこのような問題例で論じるのが精一杯ではありますが,実際の試験にて,問題2のような回答が割れそうな問題がちらほらと見受けられました.

まとめると,「2つの問題の正答率が等しいならば,難易度は常に等しい」というCBTの説明に公平性を見いだせないわけであります.