アルカディア学報
米国のラーニング・アウトカム測定 長期にわたる標準試験の開発
第2サイクルへと入りつつある日本の認証評価の課題の一つに、いかに学習成果(以下ラーニング・アウトカム)を測定し、その結果を示すかということがある。事実、OECDが開発した大学生がいかなる知識と技能を高等教育の成果として獲得したかを測定するテストであるAHELO(Assessment of Higher Education Learning Outcomes)への参加が現在調整されている。AHELOは「一般的技能」「専門分野別技能」「付加価値」「機関の特徴」の四領域から構成され、日本では、「専門分野別技能」の領域に「工学」分野が予備調査として参加している。AHELOがモデルとした一つにアメリカで開発された標準試験であるCLA(Collegiate Learning Assessment)がある。21世紀に向けての人材育成を目標として、高等教育機関が学生の成果をどう具体的に測定できるようにするために、高等教育をどう改革するかが課題となったスペリング委員会報告以降、アメリカの高等教育機関では、より具体的かつ明確な成果を示すことがアカウンタビリティであるとされ、高等教育の認証評価を担っている地域基準協会も個別の機関に対して学習成果を何らかの指標を用いて明示することを要求するようになっているのが最近の動向である。
アカウンタビリティの要求に応える形で、多くの大学がラーニング・アウトカムを測定する目的で標準試験を活用するようになってきたが、そうした標準試験の一つがCLAである。CLAは一般教育の成果を測定する目的で開発されたCAAP(Collegiate Assessment of Academic Proficiency)あるいはMAPP(Measure of Academic Proficiency and Progress)と共通点はあるが、それ以上に大学で学んだ成果全体を標準的に測定し、大学間での比較を可能にするような測定ツールとして開発された標準試験である。
本稿では、知識の獲得を測定するというよりは、「クリティカル・シンキング」、「分析的理由づけ」、「問題解決」、「文章表現」を包摂した包括的あるいは汎用的能力を測定するために開発されたCLAをめぐるアメリカでの議論を紹介しながら、標準試験開発の複雑性について検討してみたい。
標準試験の多くは、前述したように一般教育の成果測定や文章力や批判的思考力(クリティカル・シンキング)の測定を意図して開発されているが、アメリカでは標準試験の測定方法や内容に関する研究が長い時間をかけて蓄積されてきた。1998年に出版されたThe Mental Measurements Yearbookには、369種類にものぼる標準試験の内容と700人から成る評者からの標準試験の検証と評価が掲載されている。ここで展開されている標準試験の評価においては、多くの学生に適用されることを目的として開発されたテストの信頼性と教授内容、その結果として学生が習得した能力やスキルが偏りなく反映されているかという妥当性の検証に多くの頁が割かれている。現在でも、一連の標準試験の信頼性と妥当性を巡る議論が活発に行われ、論文ジャーナル誌でも頻繁に特集として取り上げられている。その中でも、様々な標準試験の妥当性についての方向性は一定ではないことに留意する必要がある。
一般教育の成果測定として開発されたCAAPやMAPPは多肢選択式でのテストであることから、その妥当性については、近年その研究が進展してきたIRT(Item Response Theory:項目応答理論)に基づいて得点の等化が複数回検証されてから汎用化されるようになっている。日本でもIRTを活用して開発した標準試験が少数であるが、最近利用されるようになってきた。
CAAPやMAPPが、多肢選択式が設計の基本となっているのとは異なり、CLAは大学で学んだ成果全般を標準的に測定し、大学間での比較を可能にするような測定ツールとして開発された標準試験である。したがって、多肢選択ではなく、「クリティカル・シンキング」「分析的理由づけ」「問題解決」「文章表現」を包摂した包括的な能力を測定することに重きが置かれている。そのため、「make-an-argument task」「break-an-argument task」というパフォーマンス・タスクを基本とした問題構成、すなわち、実生活を想定した場面において、問題解決や理由づけのスキルや力を提示するような設定がなされている。採点方法も機械的ではなく、記述内容に基づいて採点を人が行うという方式が採用されている。
活用に際しては、大学間での教育効果を比較するために、低学年時(1学年次)にCLAを受けた学生に上級学年時(4学年次)にも再度CLAを受けさせるという
「value added」方式により、一定の期間での得点の伸張を測定することが一般的である。この場合には、各機関における学生の経験や関与が多大な影響力を得点の変化に与えていると仮定できる。そうなると経験や関与をいかに測定するかも重要な要素となる。学生の経験や関与の度合いを測定するために開発された学生の自己評価を基本とした間接評価である学生調査と組み合わせることによって、直接評価のみでは把握できない成果にいたる過程を測定することが可能となる。それゆえ、直接評価としてのCLAと間接評価としての標準型学生調査を組み合わせて活用している機関も少なくない。
入学に際しての標準試験であるSATとの相関性が高く、学生にCLAの受験を義務付けていないことから、受験者はまだ少数にとどまっている。それゆえ、CLAの結果を一般化できず、機関によっては、CLA受験準備をした少数の学生の得点と無作為に選ばれて準備をしないまま受験した学生の結果を比較することの妥当性についても疑問が呈されている。そのような背景から、現時点ではそれほど多くの機関で導入されているとはいえないが、機関の教育力を測定するうえでのCLAの効果は前向きに評価されている。さらに、CLAの結果から専門分野間の差異はそれほど大きくはなく、分野を超えての共通性を測定する試験としての意義があると評価されている。
CLAが高等教育機関に導入されてからの期間はそれほど長くはないが、CLAはアメリカでの長期にわたる開発の成果や関連の研究蓄積をベースとして開発されてきた。CLAの開発に際しては、大学院の入学に際しての標準試験であるGRE、大学の入学に際しての標準試験であるSAT、多肢選択方式による一般教育の成果を測定するCAAPやMAPP等の知見も参考にされている。特に1933年から47年にかけて登場したGREは認知心理学研究からのアプローチから開発された標準試験の最初のケースであり、その後、認知心理学研究からのアプローチに基づく多様な試験が登場する分岐点になったと指摘されている。このように、長期間にわたる認知心理学の研究蓄積の上に標準試験の開発が進められ、実践を通して改良が加えられてきたことが、現在のCLAにつながっていると見ることができる。つまり、アメリカでは、長い年月の間に蓄積されてきた研究をベースに開発されてきた標準試験であるからこそ、大学教育の成果として掲げられている能力やスキルをラーニング・アウトカムとして測定することができるという論理が成り立つといえるだろう。
現在、CLAをめぐる信頼性と妥当性の論争は収斂していないが、年々CLAを利用する大学も増加し、多くの学生と機関が継続的に参加することにより、内容や実施方法にも改善がなされ、研究と実践が両軸となって発展していくことが期待できると筆者は見ている。日本においても、ラーニング・アウトカムの測定をめぐる議論がより活発になっていくとすれば、標準試験の内容や測定方法の信頼性、妥当性についての研究も不可欠となるのではないだろうか。