Admire IRT Model's Fomula

IRTの数式を愛でる会  2019/04/19  データAI部てつろう

はじめに  みなさんは「テスト」がなぜあるのか考えたことありますか？

テストが果たす意味  そうです。テストは学習成果を測定したいために実施されます素点の点数により、習熟度を評価

• 点数素点：あるテストにおける達成度合い • 平均点：あるテストにおける平均水準 • 順位
ランキング：あるテストにおける順位 • 偏差値：あるテストにおける分布の相対尺度テストで測定できる指標偏差値の求め方素点をに従うように標準化処理をしているだけ！

ちょっとまって  テストで測りたいのは学習成果なのに、テストの制約条件が存在

古典的テスト理論(Classical Test Theory)が登場！   古典的テスト理論とは - テストやテストの得点を科学的対象として扱う学問分野 - テストの性質やテストを受けた受験者の状態がわかるテストの標準化
テストの標準化とは - テストの尺度化：テスト品質を評価し能力測定の物差しをつくる - テストの等化：テストの品質を複数のテスト間で統一する

古典的テスト理論(CTT)で抑えておきたいポイント   • 各項目の統計学的特徴 • 解答率 • 正答率 • 項目テスト相関
• 項目リメインダ相関 • テスト全体の信頼性係数

項目反応ってなに  項目反応は各テストの回答の有無と正答の有無のこと人が項目からなるテストを受けたとき、受験者が項目に回答したかを回答観測欠測：
＝また、受験者の項目に対する項目反応を正答誤答：＝とする

解答率と正答率  解答率は受験者が提示された項目に解答を起こした割合項目の解答率 ≦ ≦ 正答率は項目を提示されたもののうち、正答した率通過率ともいう項目の正答率
≦ ≦

項目テスト相関と項目リメインダ相関   項目テスト相関→項目得点と和得点のピアソンの積率相関係数 ≦ ≦ 相関係数がに近い → 当該項目で正答した人ほど和得点が高い
相関係数がに近い → 当該項目で正答した人ほど和得点が低い後者の場合、項目としては不適切であると判断する項目リメインダ相関は和得点から当該項目を除外した時の相関

信頼性係数  古典的テスト理論における最大の貢献 - テストは再現性が低い - 信頼性係数はテストの再現性を評価する指標基本的な考え - 観測された得点は真値と誤差に分解できる -
：測定値、：真値、：誤差とすると、 - この式の分散は信頼性係数の定義全体の得点の分散に占める真値の分散割合

もっともポピュラーな信頼性係数   クロンバックのα係数基本的な考え - 弱平行測定項目測定力が等しい仮定に従っている場合 - 各項目は能力に対して等しく
の測定力を持つとする定義式

古典的テスト理論での受験者能力の考え方   基本的な考え - 和得点で評価する弱平行性の仮定があるため - つまり作問が完璧に機能する前提近年では計算力向上やeテスティング普及等で利用されなくなったこの後に継承していくもの
- テストの信頼性の考え方 - テストの品質管理

古典テスト理論を計算してみるの巻   サンプルのテストデータを準備します人問題項目反応データ

古典テスト理論を計算してみるの巻   テストデータだけあってまあまあやん

台頭してくるIRT  項目反応(応答)理論：IRT Item Response Theory

古典的テスト理論の限界と項目反応理論のメリット   古典的テスト理論の限界 - 項目分析、標準化からの知見が被験者の特性の分布に依存してしまう - 項目分析、標準化からの知見がテストそのものに依存してしまう項目反応理論のメリット - 複数のテスト間の結果の比較が容易
- 測定精度をきめ細かく確認できる - 平均点をテスト実施前に制御できる - テスト得点の対応表が作成できる - 受験者ごとに最適な問題を瞬時に選び、出題できること受験者集団に依存しない特性θを導入！この能力値パラメータθににより全てが動き出す

古典的テスト理論の限界と項目反応理論のメリット   θ：それは奥ゆかしきパラメータ人の能力を観測することはできないので、潜在因子推定具体的な関数系を一意にできないため標準正規分布の密度関数の累積分布関数を利用＊ f(θ)はθに関する単調増加関数これで項目特性曲線が描ける！
ここから母数正規累積モデルへ！

母数警察が出動します！  ちょっとすみません〜あなたの使っているその母数正しいものでしょうか？最近、母集団や分母に対する誤用だ！誤用だ！が多いので、確認ですよ〜 θ：それは奥ゆかしきパラメータこいつは母数で間違いありません！！

でもね、奥ゆかしさ故に2母数正規累積モデルは計算できないのです   θ：それは奥ゆかしきパラメータ途中計算に積分計算が存在するので、近似解としてロジスティックモデルを利用ナイスなロジスティック回帰だね〜

では、たくさんのIRTモデルの数式を愛でましょう   母数ロジスティックモデル母数ロジスティックモデル母数〃母数〃項目の識別度項目の困難度
項目の当て推量下方漸近線上方漸近線

IRTの3PLを計算してみる 

IRTのテスト精度の測り方  その前に最尤推定の性質から - 標本分布はnが大きくなるにしたがって正規分布に近づく(漸近正規性) - ヒストグラムの平均がnの増大に伴って限りなく真値(θ_i)に近づく - ヒストグラムの分散はnが大きくなるにしたがって、1/I(θ_i)に近くこいつはフィッシャー情報量テスト情報量
インバースをとると、誤差分散 IRTの信頼性係数

項目プール(項目バンク)  を用いると享受できるメリット - 尺度θが求まり、異なる項目のテスト結果の比較が可能になる - 測定精度が求まるので、受験者のレベルや目的に合わせて設計できる - 任意の集団に対して信頼性係数を推定できる - テスト実施前に予測結果を推定できる
必要な要素項目プール(項目バンク) 項目母数が推定された項目の集まり - 単一グループ計画：同一の被験者集団で複数の異なるテストを実施 - 等質グループ計画：被験者の特性値の母数分布が近似できる集団で実施 →後者を等化の等質グループ計画という

等化係数法  項目母数の推定値が等しくない複数の被験者集団の特性値の分布が等しくないそんな時、等化係数を推定し、それを利用して項目母数を変換しちゃう方法添字のついた母数：等化される尺度既尺度添字のついた母数：等化する尺度新尺度

等化によるテスト計画のイメージ   X Y 項目  受験者  共通
受験者  X Y 項目  受験者  共通項目  X Y Z  Z  項目  受験者  共通受験者  共通受験者  (係留テスト)  共通項目  共通受験者  共通項目  係留 

等化を実際に計算してみる  項目パラメータと能力パラメータデータがそれぞれ下記にあるとした場合 paramF paramT paramtheta

等化を実際に計算してみる  のパッケージで計算できます

等化を実際に計算してみる  等化前後のパラメータ比較

さあ、これでキミも新たなニューヒーローだ！明日からグレイトなテスト計画を立てちゃおうぜ！

Appendix  参考文献 - 項目反応理論[入門編]　豊田秀樹[著]　朝倉書店 - 項目反応理論[事例編]　豊田秀樹[編著]　朝倉書店 - 項目反応理論[中級編]　豊田秀樹[著]　朝倉書店 - 項目反応理論[理論編]　豊田秀樹[編著]　朝倉書店
- 学習評価の新潮流　植野真臣荘島宏二郎 [著] 朝倉書店 - Rによる項目反応理論　加藤健太郎山田剛史川端一光 [共著] オーム社

Admire IRT Model's Fomula

Admire IRT Model's Fomula

tetsuroito

More Decks by tetsuroito

Other Decks in Research

Featured

Transcript

IRTの数式を愛でる会  2019/04/19  データAI部てつろう

はじめに  みなさんは「テスト」がなぜあるのか考えたことありますか？

テストが果たす意味  そうです。テストは学習成果を測定したいために実施されます素点の点数により、習熟度を評価

• 点数素点：あるテストにおける達成度合い • 平均点：あるテストにおける平均水準 • 順位

ちょっとまって  テストで測りたいのは学習成果なのに、テストの制約条件が存在

古典的テスト理論(Classical Test Theory)が登場！   古典的テスト理論とは - テストやテストの得点を科学的対象として扱う学問分野 - テストの性質やテストを受けた受験者の状態がわかるテストの標準化

古典的テスト理論(CTT)で抑えておきたいポイント   • 各項目の統計学的特徴 • 解答率 • 正答率 • 項目テスト相関

項目反応ってなに  項目反応は各テストの回答の有無と正答の有無のこと人が項目からなるテストを受けたとき、受験者が項目に回答したかを回答観測欠測：

解答率と正答率  解答率は受験者が提示された項目に解答を起こした割合項目の解答率 ≦ ≦ 正答率は項目を提示されたもののうち、正答した率通過率ともいう項目の正答率

項目テスト相関と項目リメインダ相関   項目テスト相関→項目得点と和得点のピアソンの積率相関係数 ≦ ≦ 相関係数がに近い → 当該項目で正答した人ほど和得点が高い

信頼性係数  古典的テスト理論における最大の貢献 - テストは再現性が低い - 信頼性係数はテストの再現性を評価する指標基本的な考え - 観測された得点は真値と誤差に分解できる -

もっともポピュラーな信頼性係数   クロンバックのα係数基本的な考え - 弱平行測定項目測定力が等しい仮定に従っている場合 - 各項目は能力に対して等しく

古典テスト理論を計算してみるの巻   サンプルのテストデータを準備します人問題項目反応データ

古典テスト理論を計算してみるの巻   テストデータだけあってまあまあやん

台頭してくるIRT  項目反応(応答)理論：IRT Item Response Theory

でもね、奥ゆかしさ故に2母数正規累積モデルは計算できないのです   θ：それは奥ゆかしきパラメータ途中計算に積分計算が存在するので、近似解としてロジスティックモデルを利用ナイスなロジスティック回帰だね〜

では、たくさんのIRTモデルの数式を愛でましょう   母数ロジスティックモデル母数ロジスティックモデル母数〃母数〃項目の識別度項目の困難度

IRTの3PLを計算してみる

等化によるテスト計画のイメージ   X Y 項目  受験者  共通

等化を実際に計算してみる  項目パラメータと能力パラメータデータがそれぞれ下記にあるとした場合 paramF paramT paramtheta

等化を実際に計算してみる  のパッケージで計算できます

等化を実際に計算してみる  等化前後のパラメータ比較

さあ、これでキミも新たなニューヒーローだ！明日からグレイトなテスト計画を立てちゃおうぜ！

Appendix  参考文献 - 項目反応理論[入門編]　豊田秀樹[著]　朝倉書店 - 項目反応理論[事例編]　豊田秀樹[編著]　朝倉書店 - 項目反応理論[中級編]　豊田秀樹[著]　朝倉書店 - 項目反応理論[理論編]　豊田秀樹[編著]　朝倉書店