[雑感017] 誤差の範囲
測定には誤差がつきものだということ。リサーチメソッドの授業や論文指導で、学生自身がそういう目で事象を捉えられるようなレベルでの理解を得るのが最も難しいのは、だからこそ重要なのは、実はこのことかもしれないと感じる。私は統計の専門家でもなんでもないのだが、だからこそ当たり前のこととせずちゃんと分かるように説明すべきだと感じること。
日本橋ヨヲコの『プラスチック解体高校』という作品に、主人公の三成が97点だか98点だかのテスト結果を嬉々として家に持ち帰ると、兄・一誠に「点を取るとはこういうことだ」と100点の答案の束を突きつけられるという少年時代の回想がある。完璧主義で弟に壁として立ちはだかる兄を印象づけるシーンだが、後に数学教師となった兄は、測定誤差と天井効果についてきちんと考えてくれただろうか(特進クラスでクラメールの連関係数などを教えていたように思うのだが)。
測定の誤差については、ちょっと考えれば誰でも実感として分かるものだ。例えば自分が100m走で毎回必ず同じタイムで走れるかどうか考えてみるとよい(100mを走りきれないという人は除外)。仮に毎回ベストのパフォーマンスを発揮したとしても、タイムが百分の一秒や千分の一秒単位で同じになることはないだろう。そりゃ、ちゃんと本気で走って16秒台のタイムの人が突然10秒台を出すことはない。準備運動したりレッドブルを飲んだり、ゴール地点でセリヌンティウスに待機してもらったりしても、16秒台の人はその前後1,2秒がせいぜい、仮にメロスばりに艱難辛苦に見舞われても(途中棄権しなければ)20数秒でゴールできるはず。早く服を着たまえよ。
能力は目に見えない。だから、紙のテストや実技や面接など、なんらかの「測定」を通じてどれくらいその能力があるか「推測」をするわけだ。さて、あなたの「100mを走る能力」はいかほどか。いかほどと表現しようか。おそらく計測した走り全て、あるいは納得のいく走りの平均タイム、今季のベストタイムなどでそれを表現しようとするだろう。しかしあなたは、自分がその平均タイムより速く走れる場合もあることや、毎回ベストタイムで走れるわけではないことを承知しているはずだ。その数値は能力そのものではないのだから。もちろん記録会や代表の選考でその一回の記録が問題になることはあるだろう。しかしそれは、測定結果に対する価値判断の問題であって、その1回の記録がその人の能力そのものと言えるわけではない。
今のは個人のパフォーマンスに伴う誤差の話。それもある。「だから先生は、1回のパフォーマンスで生徒の能力を決めつけないで」という話をしてもいい *1。私の母ちゃんの作る味噌汁が昨日はちょっとしょっぱく、今日はちょっと味が薄いなんてことはざらでも、母ちゃんは味噌汁を作り続けたしあんまり感謝して頂いてなかったけどもそんな毎日をこそ幸せとぞ思うべけれ(母ちゃんを批判しているわけではありません)。
だがそれ以上に目を向けて欲しいのは、テスト自体の誤差もあるということだ。同じことを測定しているテストでも(当然だが)同じ問題を出題しているわけではないので、問題によって難易度の違いが生じるからだ。例えばTOEICで満点を取ったのは素晴らしい。おめでとう、自慢したければ好きに自慢するがよい(私はそういう人は嫌いだけれど)。だがその前に考えて欲しいのは、その満点がたまたまじゃないとどうして言い切れるかということだ。その回の問題が簡単だったというラッキーパンチの可能性はないの?次の回に受けた時にも満点が取れるの?陸上の話と同様、TOEICの特定のスコアは、その人の(主として読む聴くにかかわる)英語運用能力そのものではない。
TOEICの公式ページで過去数回の平均得点と標準偏差(データの散らばり具合)を確認してみるとよい。当然ながら同じではない。でもみんなは、違う回のスコアを共通のモノサシとして使っている。モノサシとして使うのは自由だが、解釈には注意したい。特に、特定のスコアを固定した能力とみなすような解釈は、上で述べてきたことからも既に明らかだと思われるが、ほとんどの場合誤ったものである。
ここで TOEICの仕組みについて詳しい解説をするつもりはないのだが、結論から言えば、同じ人が複数回受けたTOEICのスコアのおおよそ±70点は誤差の範囲である可能性が高い(各パート±35) *2。別の言い方をすると、TOEICによって測定し得るその人の能力の真の値は約68%の確率で±70の範囲にあり、約95%の確率で±138の範囲にあると推測できるということになる*3。ずいぶん広いなと思うかもしれないが、TOEICとはそもそもそれぐらいの精度のものなのだ(逆に言えば、それぐらいの精度を保つのもめっさ大変だということだ)。もちろんそのスコアが実際の読んだり聞いたりのパフォーマンスのレベルとビタッとはまる人もいるが、報告されたTOEICのスコアと実際の能力がかみ合わない感じがするというのは、英語教師を中心に多くの人が経験していることだろう。
だから、あなたと誰かのTOEICスコアに30点の差があるとき、それは実際に能力の違いを反映している可能性もあるが、「わい、あんたより英語できまっせ!(ドヤ」と断定できるほど確実な差とは言えないのである。これを知って悲しく思う人は、テストや資格・検定、もっと言うと測定行為や人の評価を過信しすぎなのだろうと思う。私の母ちゃんが炊く米はちょっとカタめだったりちょっとヤワかったり…(略)、何が言いたいかというと、「能力」の「測定」もせめて米の炊き加減やパスタの茹で加減ぐらいの幅で捉えられないかということ。必死になるのもわからなくはないけど、大事なのは「芯」でしょう?本当に自分の能力に自信があるなら、生徒の能力を信じているなら、もっとユルく構えて泰然自若としてりゃいい。Take it easyだよ、意味は分からんけども。
スコア主義者はもとより、スコア主義批判もスコア主義批判批判も、上記のことを十分わかった上でやいのやいの言っているのか疑問に思うことがある。スコア主義者に満点を何度も取ってその回数を誇るような人もいるが、熟達度テストの考え方からすれば「TOEICで測れる以上の能力を持っていて天井効果が出ているのなら、さっさと次のステージに進んで、もっと正確に自分の力を測るか、測定は十分と考えて必要なだけ、好きなだけ英語を運用すればいいのに」と思うばかりだ。受験や満点獲得が自己目的化している人は趣味の領域なので勝手にどうぞという感じだが、測定ということで言えば990という数字にそれほどの意味はない。冒頭のマンガの兄・一誠的な感覚として、そこに特別な意味をもたせたくなるエリート主義的心情はわからなくもない。だが測定の精度上、満点並みの英語力を示したいと考えている人が950点を取ったとして、その真の能力は満点以上なのかもしれないのだから、その人がその得点でよしとするのはなんら批判されるべきことではないのだ(というか、評価・指導をする立場でない限り、他人のスコアなんてどうでもいいよね…)。
*1 体育の授業で、1回限りのテストで成績をつけられることに納得がいかないことが多かったのも、「今回のパフォーマンスだけで俺の能力を決めつけるなよメーン」という思いだったわけだ。体育の先生も色々つらいだろうとは思うけども。
*2 こんな時は、けいろー先生のお世話になろう。こちらの記事を参照。あるいは、「TOEIC スコア 誤差」あたりでググってみるとよい。こんな記事やその他似たような記述をたくさん見つけられるだろう。
*3 同じテストを受けた受験者同士の比較の場合、この幅は少し異なる。±50が68%で誤差の範囲で、±98が95%で誤差の範囲、たぶん。解説は省く。こちらで紹介した本や、そこで紹介されている本を芋づる式に当たって勉強してたもれ。
Our lives within the margin of error.
故けいろー先生と、この誤差の件でやり取りしたことがあるのですが、誤差の数字でやる気を萎えさせる方が罪深いのではないかといわれ、教育者としての姿勢を考えたものです。