「テスト・検定」タグアーカイブ

「テストの科学」

人の資質や能力を測る「テスト問題」。いくら作り手が「良い」と思われる問題を作っても、測定としては無意味な場合があるのです。

TestnoKagaku-s.jpg
「テストの科学 ― 試験にかかわるすべての人に」
【池田央(著)、1992年刊、日本文化科学社】

■きちんとしたテストを作る方法
アチーブメントテストでも心理測定テストでも、テストを行うからにはその目的にできるだけ沿った質問項目を作成したいものです。そんな仕事に関わる人には必読の書物の一つでしょう。本書はすでに14年も前に出版された書籍(さらのその前身だった新書版は1978年刊)。著者は、心理・教育測定の第一人者です。

たとえば一人の人の体重を測るとしましょう。仮にある時の身体の厳密な質量60.0kgの人が普通の状態で正確な体重計に乗れば、「60.0」(kg)という数字が測定されるはずです。しかしながら

・測定に使う体重計によってばらつきが出るかもしれない
・測定を行う時間によっても当然に体重のぶれがあるでしょう
・測定を行う場所によっても計測値に違いが出てくるかもしれません(※)

(※ 厳密に言えば、体重計で測る数値は「質量」ではなく「重さ」です。重力が1Gの場所で体重計に乗ったときには「60.0」(kg)と測定されますが、重力が1/6Gの月の表面で同じ人が同じ体重計に乗れば、そこで測定される数値は「10.0」(kg)となります)

このように体重でさえも、測定する装置および測定する条件が異なれば、測定値は異なってきてしまう可能性があります。ましてや人の特性や能力の測定を行うツールである「テスト」に携わる場合、そのブレとうまく付き合う技術が必要となるわけです。ブレをなくすことはできませんが、ブレを少なくするための努力はしなければなりません。

■テストのブレを防ぐ方法
あるテストを同じ人が複数回受けたとき、被験者の特性が変わらない限り、理論的には同じ測定結果(評点)が出てくるはずです。しかし当然ながら、与えられる課題が違えば評点は異なってくるでしょう。また記述式など客観テストではない場合、同じ解答であっても、採点者が異なれば異なる評点が付けられる可能性が高いでしょう。

そんないろいろな「ブレ」をもたらす要因のうち、どの要因は回避する必要があるのか、どの要因は必要最小限のブレとして許容する必要があるのかなど、著者の長い研究からわかりやすく導いています。

目的によってその結論は一意に決めることはできませんが、測定の信頼性を重視したとき、概ね次のようなことが言えるとしています。

(a) 「問題内容の違い」より「評価者の違い」が大きなブレをもたらす可能性が高い
(b) 問題の絶対「数」が少ないと、大きなブレをもたらす可能性が高い
(c) 一つの問題に複数の評価要素を同時に含めようとすると、測定目的がブレやすい
(d) 問題の「形式」が揃っていないと、本来の目的と異なる要素が紛れ込みやすい

これらの帰結として「択一式の問題を数多く集めた客観テスト」が、測定ツールとして大変優秀であることを論理的に説明しています。

■テストについてのかたくなな“神話”
当社(というか、この評を書いている私)もこれまで何度か、社会人向けの能力測定テストの開発や、特定企業における評価・育成システム構築に携わってきた経験があります。その経験から言うと、一般に次のような意見が(少なくとも社会人向け教育の世界では)一般的です。

(1) 択一式ではまぐれで良い点を取る人が出てくるかもしれないから、論文のような書かせるテストのほうがよいだろう…
(2) 機械的な採点じゃあてにならない。やっぱり人が直接採点しなければ…
(3) 人のさまざまな能力をみたいのだから、1つの問題にさまざまな評価要素を盛り込んだ良い問題を作ってくれ…
(4) 問題の内容によっていろいろな問題形式を作ればよいではないか。問題に書かれた要件を良く読まないのは受験者に責任がある…

上の(a)~(d)を踏まえて考えると、(1)~(4)はすべて間違った考え方だということになります。つまり、

(1′) 得点のブレが出ないためには、論文より客観式テストがよい
(2′) あてになる得点を導くには、うまく客観式テストを積み上げるのがよい
(3′) 人の能力を目的通り測定するには、評価要素を絞って問題作りをするのがよい
(4′) 人の能力を正確に測定するには、できるだけ問題の形式も揃えたほうがよい

ということです。しかしながらこれらの考え方は、日本社会での「社会人教育」とか「検定試験」とかに携わっている人たちには本能的に受け入れがたいものがあるようです。「論理的でない神話がはびこっている」などと言うと、私の愚痴になってしまうのでしょうか。

個人的に少し付け加えると、やはり
→ テストという「測定=アセスメント」のステップと、最終的に「評価=イバリュエーション」するためのステップを同一視しない
ことに重要なカギがあると考えています(人事測定と人事評価の違い参照)。もう一つ、
→ 測定に役立つ問題作りと、教育・育成に役立ちそうな問題作りとを同一視しない
という視点も大事だと考えていますが、どうでしょうか。

少し私の個人的な意見が先にたってしまいました。理論のいろいろなバックグラウンドやテスト問題の実践的な開発方法などは、本書にわかりやすく説明されています。また、テストのあり方だけでなく、偏差値の話、日本の風土の話など、もう少し広いテーマに言及していますので、ぜひ参考にされてください。

おすすめです。

目次
1章 学力測定の難しさ
2章 評点システムの検討
3章 細目積み上げ方式のすすめ
4章 客観テストの設計
5章 よい問題を作るために
6章 偏差値について
7章 採点と決定のモデル
8章 テストと日本の風土
9章 未来のテストに向けて

人事測定と人事評価の違い

「測定」と「評価」は一見似ていますが、はっきり区別するのが人材マネジメントで必要だと考えています。

fig01.gif
人事測定と人事評価の違い

■テストの得点は高ければ良いわけではない?
能力主義、成果主義の世の中になり、どこの企業でもそこで働いている人たちの能力または実績を評価する必要性が高まっています。新規に社員を雇用するときにも、何らかの手段で応募者(入社候補者)を評価して、できるだけ必要とする人材を選び出さなければなりません。その際に、人の評価につながる何らかの「テスト」を実施することが多いでしょう。零細企業を除けば、入社時の適性検査、職務内容につながる知識テスト、英語力のテストなどを組織のシステムとして利用している企業が一般的です。

また、世の中には多種多様の「検定試験」と呼ばれるテストがあります。ビジネス向けだけをとっても本当に数多くあります。テスト業界という一つの“産業”を成しているといっても過言でないでしょう。向上意欲の高い人ほどこうした検定試験に興味を持ち、果敢にトライしています。

こうしたテストの得点は、一般的には高いほうが良いものがほとんどです。得点が高いほどその人に能力があると評価され、または適性があると認められるものだと思います。しかし一方で、「テストの得点」と「人の実質的な評価」とは少し違うものであることにもすぐに気付きます。ごく一例を挙げれば、

・学生時代に英語の成績がよく、かつ英語力テストでも高得点の人

・実際に英語でコミュニケーションをとり、ビジネスを進めることができる人

は、(一致することももちろん多々ありますが)時に異なるものです。英語テストなどの「得点」は、英語でビジネスを進めるための一要素にすぎないことがその一つの理由でしょう。

場合によっては、なまじ英語読解などの能力が高いため、文書や公式的意見にとらわれすぎて、現場で交渉相手の真の狙いを読み取れないといったマイナスの作用をもたらす場合もあろうかと思います。少し乱暴な言い方をしてしまうと、「(英語)テストの得点が高いことが、泥臭いコミュニケーションの現場でマイナスになる」ことさえあるわけです。

■客観的な「アセスメント」と目的にあわせた「イバリュエーション」
人の能力を何らかの科学的・客観的な方法によって測定することを「人事測定」または「(人事)アセスメント」と呼びます(※)。業者によって用意されている適性検査や能力測定テストはアセスメント・ツールの一種です。

これに対して、特定の企業、特定の職務において、人の実績、現在発揮されている能力のレベル、将来の可能性などを見定めることを「人事評価」または「(人事)イバリュエーション」と呼びます。昇進昇格・能力給の裁定などに直接つながる指標は、基本的にはイバリュエーションのはずです。

アセスメント(assessment)とイバリュエーション(evaluation)は、日本語にするとどちらも「評価」になってしまいます。現実に、両者を特に区別しない考え方があることも事実です。しかし本来の性質として、両者はかなり異なるものです。

「アセスメント」は、あくまでも客観的に“モノサシ”をあてて測ることです。身長、体重、体脂肪率、視力といった物理的な量や性質と同様に、人の能力や性格、その他の特性を切り取って定量化したものです。人の特性を定量化することは簡単なことではありませんが、きちんと数字で人の能力などを表すことができれば、対象(ここでは人)を客観化することにつながります。特定の組織や関係者の思惑に左右されない普遍性が求められます。

「イバリュエーション」はこれと異なり、“ある特定の目的をふまえたときに”ふさわしい能力や適性があるかを判断することです。もちろんここでもできるだけ客観的な評価基準を持つことが求められますが、より大事なことは「現実に適合するか」だと考えます。つまり、現実の仕事に適した人であるかどうか、現実に業績向上にふさわしい働きをしたかどうかなどを判断することに他ならないわけです。そのとき、アセスメントによる数字は一つの「参考値」にすぎず、定性的な事柄も含めた何らかの総合的な判断が求められます。結果として「A評価」だの「B評価」だのという定量化がされることも多いものですが、それは評価結果をあらためて定量的な手法で表現したにすぎません。

「アセスメント」では、理想的には世界中のどの国のどの組織が測定しても、同じ対象に対して同じ結果が出ることが望まれます(…そんな理想的な人事測定ツールはまずないでしょうが…)。一方「イバリュエーション」では、当事者である組織の事情なり、評価の目的なり、独自性なり、時には属人性なりが入り込んでしかるべきものです。でなければ、どうしてビジネスの現場に即した判断ができるといえましょう。だから国により組織により仕事の内容によって、同じ人でもその評価は異なります。

■人事評価は、手間ひまがかかるもの
経営システムは常に合理性を求めるものなので、何か有効なテストを持ってきてそれを従業員にあてがえば昇進昇格も給与も簡単にはじき出せるといった、そんな万能なツールを求めがちです。しかし、きちんと測定結果を定量化できるアセスメント・テストとは、本質的にその切り口が鋭利なものです。測定内容が一面的で物足りないからといって、「もっと総合的な人材能力を測るテストはないのか」とか言い出す経営者や人事担当者がたくさんいますが、それは「測定」の本質を理解していないことといわざるを得ません。

また、一般的に利用されている適性テストが自社に合わないからといって、「自社にカスタマイズしてくれないと困る」とか言い出すのも困りものです。測定と評価を混同していると、そうした発想につながりやすくなります。

現在の企業社会で、人事評価は人事担当者だけが携わるものではないことは明らかです。日常的に仕事をしながら、部下など(いわゆる「360度評価」の場合は上司や同僚も含め)を評価するのは大変なことですが、組織人としてはできるだけ「納得できる人事評価」をしたいものです。その意味で、人事測定による客観的な判断要素を用意したうえで、自信を持って人事評価をできる環境を整えるべきかと考えます。どうしても手間ひまがかかるものでしょう。それでもなお、組織において人事測定・人事評価のプロセスは欠かせないものと思いますが、いかがなものでしょうか。

※アセスメント(assessment)という言葉の定義は必ずしも一定していません。ここでは「アセスメント≒測定」と定義しましたが、実際には人事評価に近いものを含めてアセスメントと呼ぶこともあります。

「数字で考える「人」「チーム」「組織」入門」

誰でも読んでいただけそうな部分と、少し専門的に入り込んだ部分と、少し極端な要素が同居しています。広く一般的な話題を展開しつつ特定のテーマについてピンポイントで狙いをつけて踏み込もうとしたわけなのですが、結果として成功したかどうか、なんともいえません。

suuji_hito2.jpg
【明日香出版社刊、2003年】

弊社松山が執筆した書籍です。人材マネジメントといっても、本書ではサッカー、野球、陸上、水泳といったスポーツに関する話題をいくつも盛り込んでいます。…「巨人の星」の星飛雄馬まで題材に用いてしまいました(笑)…。難しいことを考えなくても、人材マネジメントなどまったく専門外の人であっても楽しく読めるようにしたつもりですが、本当のところどうだったでしょうか。お読みになった方があれば、ぜひご意見を伺いたく思っています。

表題通り「数字」で人事マネジメントについていろいろ考えてみよう、というのが大きなテーマです。ただし、人や組織を数字で「規定」してしまおうという考えでは決してありません。狙いはむしろ逆で、数字というツールを使って人や組織を客観的に見つめながらも、その「客観」と当事者の「主観」の違いをきちんと認識し、創造性が発揮できるよう工夫していこうというスタンスを持っています。「客観」と「主観」を区分けるための重要な要素として「人事測定(≒アセスメント)」と「人事評価(≒意思決定・判断に直結するもの)」を厳然と区別すべきことを、本書を通じて強調しています。

そして最後の第6章Section3では、「項目反応理論」(Item Response Theory:略して「IRT」)という得点付けの方法について少し細かく説明しています。表計算ソフトなどを用いた数値解析を行い、具体的にIRTによるテストの点数付けを行った例(小さなモデルにすぎませんが)を示しました。このあたりの記述は、人事測定の専門書を除けば他の書物にないユニークなところだと思います。

第1章 個人と組織の関係を考えよう
Section1 人事・組織とは
Seciton2 人や組織を数字で“測る”とは
第2章 個人の力を高める
Section1 個人の能力を把握するには
Section2 個人の性格を測る
Section3 社会で必要とされる基礎能力
Section4 資格試験/検定試験の利用
第3章 仲間・コーチとの協力
Section1 チームワーク
Section2 コーチング
第4章 チーム作り
Section1 チーム作りと戦略・戦術
Section2 コンピテンシー
第5章 組織の運営
Section1 組織特性の測定
Section2 評価・報酬制度と数値化
Section3 研修・教育のシステム作り
第6章 カリキュラムとモノサシ作り
Section1 人材育成カリキュラム策定の基本
Section2 テストと測定
Section3 項目反応理論の応用