「テストの科学」

人の資質や能力を測る「テスト問題」。いくら作り手が「良い」と思われる問題を作っても、測定としては無意味な場合があるのです。

TestnoKagaku-s.jpg
「テストの科学 ― 試験にかかわるすべての人に」
【池田央(著)、1992年刊、日本文化科学社】

■きちんとしたテストを作る方法
アチーブメントテストでも心理測定テストでも、テストを行うからにはその目的にできるだけ沿った質問項目を作成したいものです。そんな仕事に関わる人には必読の書物の一つでしょう。本書はすでに14年も前に出版された書籍(さらのその前身だった新書版は1978年刊)。著者は、心理・教育測定の第一人者です。

たとえば一人の人の体重を測るとしましょう。仮にある時の身体の厳密な質量60.0kgの人が普通の状態で正確な体重計に乗れば、「60.0」(kg)という数字が測定されるはずです。しかしながら

・測定に使う体重計によってばらつきが出るかもしれない
・測定を行う時間によっても当然に体重のぶれがあるでしょう
・測定を行う場所によっても計測値に違いが出てくるかもしれません(※)

(※ 厳密に言えば、体重計で測る数値は「質量」ではなく「重さ」です。重力が1Gの場所で体重計に乗ったときには「60.0」(kg)と測定されますが、重力が1/6Gの月の表面で同じ人が同じ体重計に乗れば、そこで測定される数値は「10.0」(kg)となります)

このように体重でさえも、測定する装置および測定する条件が異なれば、測定値は異なってきてしまう可能性があります。ましてや人の特性や能力の測定を行うツールである「テスト」に携わる場合、そのブレとうまく付き合う技術が必要となるわけです。ブレをなくすことはできませんが、ブレを少なくするための努力はしなければなりません。

■テストのブレを防ぐ方法
あるテストを同じ人が複数回受けたとき、被験者の特性が変わらない限り、理論的には同じ測定結果(評点)が出てくるはずです。しかし当然ながら、与えられる課題が違えば評点は異なってくるでしょう。また記述式など客観テストではない場合、同じ解答であっても、採点者が異なれば異なる評点が付けられる可能性が高いでしょう。

そんないろいろな「ブレ」をもたらす要因のうち、どの要因は回避する必要があるのか、どの要因は必要最小限のブレとして許容する必要があるのかなど、著者の長い研究からわかりやすく導いています。

目的によってその結論は一意に決めることはできませんが、測定の信頼性を重視したとき、概ね次のようなことが言えるとしています。

(a) 「問題内容の違い」より「評価者の違い」が大きなブレをもたらす可能性が高い
(b) 問題の絶対「数」が少ないと、大きなブレをもたらす可能性が高い
(c) 一つの問題に複数の評価要素を同時に含めようとすると、測定目的がブレやすい
(d) 問題の「形式」が揃っていないと、本来の目的と異なる要素が紛れ込みやすい

これらの帰結として「択一式の問題を数多く集めた客観テスト」が、測定ツールとして大変優秀であることを論理的に説明しています。

■テストについてのかたくなな“神話”
当社(というか、この評を書いている私)もこれまで何度か、社会人向けの能力測定テストの開発や、特定企業における評価・育成システム構築に携わってきた経験があります。その経験から言うと、一般に次のような意見が(少なくとも社会人向け教育の世界では)一般的です。

(1) 択一式ではまぐれで良い点を取る人が出てくるかもしれないから、論文のような書かせるテストのほうがよいだろう…
(2) 機械的な採点じゃあてにならない。やっぱり人が直接採点しなければ…
(3) 人のさまざまな能力をみたいのだから、1つの問題にさまざまな評価要素を盛り込んだ良い問題を作ってくれ…
(4) 問題の内容によっていろいろな問題形式を作ればよいではないか。問題に書かれた要件を良く読まないのは受験者に責任がある…

上の(a)~(d)を踏まえて考えると、(1)~(4)はすべて間違った考え方だということになります。つまり、

(1′) 得点のブレが出ないためには、論文より客観式テストがよい
(2′) あてになる得点を導くには、うまく客観式テストを積み上げるのがよい
(3′) 人の能力を目的通り測定するには、評価要素を絞って問題作りをするのがよい
(4′) 人の能力を正確に測定するには、できるだけ問題の形式も揃えたほうがよい

ということです。しかしながらこれらの考え方は、日本社会での「社会人教育」とか「検定試験」とかに携わっている人たちには本能的に受け入れがたいものがあるようです。「論理的でない神話がはびこっている」などと言うと、私の愚痴になってしまうのでしょうか。

個人的に少し付け加えると、やはり
→ テストという「測定=アセスメント」のステップと、最終的に「評価=イバリュエーション」するためのステップを同一視しない
ことに重要なカギがあると考えています(人事測定と人事評価の違い参照)。もう一つ、
→ 測定に役立つ問題作りと、教育・育成に役立ちそうな問題作りとを同一視しない
という視点も大事だと考えていますが、どうでしょうか。

少し私の個人的な意見が先にたってしまいました。理論のいろいろなバックグラウンドやテスト問題の実践的な開発方法などは、本書にわかりやすく説明されています。また、テストのあり方だけでなく、偏差値の話、日本の風土の話など、もう少し広いテーマに言及していますので、ぜひ参考にされてください。

おすすめです。

目次
1章 学力測定の難しさ
2章 評点システムの検討
3章 細目積み上げ方式のすすめ
4章 客観テストの設計
5章 よい問題を作るために
6章 偏差値について
7章 採点と決定のモデル
8章 テストと日本の風土
9章 未来のテストに向けて