Upgrade to Pro — share decks privately, control downloads, hide ads and more …

科学教育における機械学習を用いた評価方法の現状と課題

Daiki Nakamura
December 18, 2022

 科学教育における機械学習を用いた評価方法の現状と課題

2022年12月18日
2022年度第4回研究会(若手活性化委員会開催)
@明治学院大学

Daiki Nakamura

December 18, 2022
Tweet

More Decks by Daiki Nakamura

Other Decks in Education

Transcript

  1. 研究の背景|機械学習の技術の応用 2 ⚫ 教育分野における応用事例 • 機械学習の技術を用いて大学卒業時のGPAを 97.98% の精度で予測(Tenkin, 2014) •

    学生が書いた進化に関する説明文を人間と同等の 精度で評価(Beggrow et al., 2014) • 中学生時の質問紙から、高校卒業時の文系・理系 選択を72%の精度で予測(中村・松浦,2022) 自然言語処理 画像認識 音声認識 強化学習 ⇒ それ、機械学習 の技術です!
  2. 機械学習の特徴 3 ◼ 従来の統計学 データを生成したと考えられる確率 モデルを人間が設定し、その適合性 をデータに基づき検討 ◼ 機械学習(Breiman, 2001)

    データ生成のモデルを人間が考える ことを放棄する代わりに、アルゴリ ズムにデータを学習させて、予測精 度を検討する <入力データ> 生徒の回答 自由記述 スケッチ 発話 活動履歴 ⋮ 予測 <出力データ> 生徒の成績 回答の分類 将来の学習到達度 適切なフィードバック ⋮ 機械学習アルゴリズム 杉山(2022)
  3. 教育評価に機械学習を応用するメリット 4 1. 従来よりも複雑なモデルやデータを扱える 特定の分布を前提とせず非線形の関係も扱えるため、より複雑なモデル表現が 可能となる。また、文字・音声・画像・動画・生理指標といった多様なデータ に対応できる。⇒ より妥当な評価へ 2. 分析の自動化

    評価の自動化は教師の業務負担の軽減や意思決定の支援 に貢献できる可能性がある。 3. 教育の個別最適化や適応学習 過去の大量のデータをアルゴリズムが学習することで、学習者に最適な課題の 選択や個人の躓きに応じたフィードバックを提供できる可能性がある。
  4. 科学教育における機械学習を用いた評価の歴史 5 ⚫ これまでの研究のレビュー(Zhai et al., 2020a) ◼ 初期の研究(2000年~2016年頃) 商業的な機械学習プログラムの出現を契機として始まり、内容理解に関する学習者の

    記述データを効率的に採点する方法を検討してきた 例)SPSS Text Analysis, LightSide(e.g., Moharreri et al. 2014), c-rater ML(e.g., Gerard & Linn, 2016), RapidMiner (e.g., Jovic et al. 2014) ◼ 近年の研究(2017年~現在) より高度な認知能力を調べるためのパフォーマンス評価に機械学習の技術を応用する研究 例)科学的モデリング(Zhai et al., 2022),シミュレーション(Gobert et al., 2015) ◆これまでのレビューの問題点 • 今後の研究へ向けた成果と課題が十分に整理されていない • 評価の目的や評価方法の一般化可能性(転移可能性)が検討されていない。
  5. 本研究の目的と方法 6 ⚫ 本研究の目的 科学教育における機械学習を用いた評価方法の先行研究をレビューし、 研究の現状と課題を明らかにすることを目指す ⚫ 研究の方法 Zhai et

    al.(2020a) 49件の文献 新規に追加した文献 英語8件+日本語3件 複数のデータベースでキーワード検索 ‘machine learning’ AND science OR physics OR biology OR chemistry OR geography OR life science ⇒ 計60件の論文を対象にレビューを実施 ◼ コーディング項目 文献情報 調査対象者の学校種,サンプルサイズ, 評価が行われた領域(物理/化学/生物/地学/全般) 評価内容(理解/思考/情意),回答形式 機械学習のアルゴリズム
  6. 結果|全体的な傾向 8 ⚫ 調査対象者の学校種 小学生 1件、中学校 28件、高校生 14件、大学生 26件 長い文章をタイピングすることが困難な低年齢の学習者を対象とした研究は少ない傾向

    ⚫ サンプルサイズ(アルゴリズムの学習に用いたデータサイズ) 平均 1296 、中央値 343 、標準偏差 2497 ⚫ 評価領域・内容 科学全般 21件、物理 10件 、化学 3件 、生物 20件、地学 7件 ⚫ 評価内容 理解 20件 、思考 44件 、情意 4件 ⚫ 回答形式 自由記述(42件)、シミュレーション(6件)、描画(2件)
  7. 採用されている機械学習アルゴリズム 9 ⚫ 採用数ランキング ◼ 教師あり機械学習 サポートベクターマシン(20件) 決定木(9件) ナイーブベイズ(6件) サポートベクター回帰(5件)

    ランダムフォレスト(2件) ブースティング(2件) ◼ 教師なし機械学習 自己組織化マップ(2件) ◼ 深層学習 畳み込みニューラルネットワーク(CNN)(1件) BERT (1件) https://kit.socinno.com/2_3_ai/ https://xtech.nikkei.com/atcl/learning/lecture/19/00065/00003/
  8. 事例:Zhai et al. (2022) モデル描画の自動評価 11 Proficient (2点) Developing (1点)

    Beginning (0点) 畳み込みニューラルネットワーク(CNN)
  9. 考察|研究の現状 12 ⚫ 機械学習の技術を採用する動機 • 従来の評価の妥当性に関する問題意識から、より真正な文脈で得られる多様な 情報を評価に組み込みたい(e.g., シミュレーション、自由記述) • 採点やフィードバックを自動化したい

    ⚫ 典型的な研究の枠組み 自由記述とその採点済みデータを1000件程度用意し、任意の機械学習アルゴリズ ムによってデータからどのような特徴量が得点につながるかを学習させ、採点の 自動化を実現 ⚫ 採点の精度 人間の採点と機械の採点の一致率は研究間でばらつきがあるものの、おおむね9割 程度の精度を達成していた
  10. 考察|今後の課題 13 ⚫ 研究知見の蓄積 • 研究の蓄積が十分とは言えない • 特に、日本語の記述を対象とした評価の研究が求められる ⚫ 転移問題の解決

    • ある評価問題について学習したアルゴリズムは、ほとんどの場合、その他の問題に使用 することができない(転移問題) • 多くの問題で使用することのできるより汎用的なアルゴリズムを検討していく必要があ る ➢ Sung et al. (2021) で使用されたBERTは、パラメータ数が約3億と複雑ではあ るものの、事前学習済みのモデルが公開されており、小規模な改良によって様々 な問題で使用することが可能 • 特定の問題に特化した機械学習からより汎用化した転移学習へとシフトしていくことが 今後の課題
  11. まとめ 14 ◼ 採用されていたアルゴリズム サポートベクターマシン(20件) 決定木(9件) ナイーブベイズ(6件) サポートベクター回帰(5件) ⋮ ⚫

    本研究の目的 科学教育における機械学習を用いた評価方法の先行研究をレビューし、 研究の現状と課題を明らかにすることを目指す ⚫ 研究の方法 ⚫ 研究の結果 Zhai et al.(2020a) 49件の文献 新規に追加した文献 英語8件+日本語3件 ◼ 研究の現状 • 評価の真正性(妥当性)と自動化の追求 • 短い自由記述を人間と同程度の精度で採点できる ◼ 今後の課題 • 特定の問題に特化した機械学習からより汎用化し た転移学習へ
  12. 参考・引用文献 15 • Beggrow, E. P., Ha, M., Nehm, R.

    H., Pearl, D., & Boone, W. J. (2014): Assessing scientific practices using machine- learning methods: How closely do they match clinical interview performance?. Journal of Science education and Technology, 23(1), 160-182. • Breiman, L. (2001): Statistical modeling: The two cultures (with comments and a rejoinder by the author). Statistical science, 16(3), 199-231. • Gerard, L. F., & Linn, M. C. (2016): Using automated scores of student essays to support teacher guidance in classroom inquiry. Journal of Science Teacher Education, 27(1), 111-129. • Lee, H. S., Gweon, G. H., Lord, T., Paessel, N., Pallant, A., & Pryputniewicz, S. (2021): Machine learning-enabled automated feedback: supporting students’ revision of scientific arguments based on data drawn from simulation. Journal of Science Education and Technology, 30(2), 168-192. • Moharreri, K., Ha, M., & Nehm, R. H. (2014): EvoGrader: an online formative assessment tool for automatically evaluating written evolutionary explanations. Evolution: Education and Outreach, 7(1), 1-14. • 中村大輝, 松浦拓也 (2022): 文系・理系の自己認識の形成時期に関する一考察.日本科学教育学会年会論文集, 46, 564-567. • 杉山聡 (2022): 本質を捉えたデータ分析のための分析モデル入門. ソシム. • Tekin, A. (2014): Early prediction of students’ grade point averages at graduation: A data mining approach. Eurasian Journal of Educational Research, 54, 207-226. • Zhai, X., He, P., & Krajcik, J. (2022): Applying machine learning to automatically assess scientific models. Journal of Research in Science Teaching. • Zhai, X., Yin, Y., Pellegrino, J. W., Haudek, K. C., & Shi, L. (2020a): Applying machine learning in science assessment: a systematic review. Studies in Science Education, 56(1), 111-151.