ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と人間とGPT-4による評価で観察されたもの

ICHIKARA-INSTRUCTION LLMのための⽇本語インストラクションの構築と⼈間とGPT-4による評価で観察されたもの関根聡（理研AIP）

⾃⼰紹介関根聡 [email protected] 1987 東⼯⼤理学部卒業、松下電器情報通信研究所⼊所 1992 マンチェスター⼯科⼤学修⼠号取得（計算⾔語学） 1994 ニューヨーク⼤学助⼿／博⼠課程⼊学 1998
ニューヨーク⼤学博⼠号取得、助教授／その後准教授 2000~ ランゲージ・クラフト設⽴（約40社との技術指導など） 2010~2014 楽天技術研究所ニューヨーク所⻑ 2017~ 理研AIPの⾔語情報アクセス技術チームチームリーダー構造化知識構築プロジェクト「森羅」を推進 LLMのための⽇本語インストラクションデータの構築その他、ソニーCSL、MSR、東北⼤学での訪問研究員⾔語処理学会理事、情報処理学会NL研主査、その他多数の役職を歴任現在、複数の企業に対して技術顧問ビルオーナー、都⽴⼤学の商店街の会⻑、⽬⿊区商店街連合会副会⻑ https://www.criprof.com/magazine/2019/01/10/post-5551/ https://aip.riken.jp/labs/goalorient_tech/lang_inf_access_tech/

イントロダクション 3

⼤規模⾔語モデルの作り⽅⼤量のテキスト（1T->13T token) ⽇本語Wikipedia: 3.5B ⼤規模GPU ⼤規模パラメーター（1.7B->175B->1.8T) RLHF
(Reinforcement Learning from Human Feedback) Reward Model Pre-training model Fine Tuning model Final model インストラクション（全て英語） OpenAI 14K instructions (22/4) Dolly (Open source): 15K LLaMA2: 100K ⽇本語 ????? ?

⼤規模⾔語モデルの作り⽅⼤量のテキスト（1T->13T token) ⽇本語Wikipedia: 3.5B ⼤規模GPU ⼤規模パラメーター（1.7B->175B->1.8T) RLHF
(Reinforcement Learning from Human Feedback) Reward Model Pre-training model Fine Tuning model Final model ⽇本語

インストラクションの重要性を説いた 2つの重要な論⽂ InstructGPTの論⽂ Training language models to follow instructions with
human feedback (L. Ouyang+ 20 authors, OpenAI) arXiv:2203.02155v1 [cs.CL] 4 Mar 2022 Instruction tuningの評価論⽂ How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources (Yizhong Wang+ 11 authors, AI2, U. of Washington) arXiv:2306.04751v1 [cs.CL] 7 Jul 2023

インストラクションの重要性を説いた 2つの重要な論⽂ InstructGPTの論⽂ Training language models to follow instructions with
human feedback (L. Ouyang+ 20 authors, OpenAI) arXiv:2203.02155v1 [cs.CL] 4 Mar 2022 Instruction tuningの評価論⽂ How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources (Yizhong Wang+ 11 authors, AI2, U. of Washington) arXiv:2306.04751v1 [cs.CL] 7 Jul 2023 この2つの論⽂、読めば読むほど。。。何が凄い要素かって、モデルよりも Instruction部分なのではないかと思えてくるもちろんこんなInstructionを学習できるモデルは凄いのだがということで、絶対に両⽅が重要︕

データについて 8

質の⾼い⽇本語オリジナルのインストラクションを作成 ▪ 2023年7⽉頃にプロジェクト開始 – 1万のインストラクション作成に2000万円の費⽤がかかると推定 – 200万円の共同研究を10社と⾏い費⽤を捻出しようと計画 ▪ 10⽉までに21社から申し込み、18社と契約
▪ 最⼤70名のアノテーターで作成（15名＋25名＋外注3社x10名） – 作成しながら仕様を固めていく作業、タグ種類を検討しながら付与 ▪ 2024年2⽉29⽇に1万データ完成（to be continued…）

データの提供 ▪ 共同研究企業 – データ提供 ó データで実験 – 1ヶ⽉1回程度で継続的にデータを共有 –
全体会議（５回）を開催 – 作成ノウハウ（e.g. マニュアル）を共有 – 商⽤利⽤ライセンスを安価に提供 ▪ 商⽤ライセンスのみの提供も – 受付中、提供は4⽉1⽇以降 ▪ 研究⽬的に⼀般公開 – 5000はCC-BY-SA-NCで公開中

インストラクションの例

データー作成の進捗 Alpaca, Dollyを元にした質問（350）様々なQAサイトを元にした質問（550） Web上の「GPTを使ってみた」の例（100）コミュニティーQAサイトの質問を元にした質問複数⼈が重複した質問に回答(1226) 要約、翻訳、校正、抽出など QAサイトに出てきにくい11タスクの質問
1003に⽐べて⾼品質 200 400 1900 3000 4300 10/13 1003件 11/15 2903件 12/21 4802件 2/29 10329件 1003 2700 2700 2700

作成作業 ▪ 質問作成 – ⼈間の発想能⼒には限界があり、様々な⼯夫 – バリエーションの確保 – 細かなルール ▪
質問の誤りは直さない（e.g. AKB45） ▪ 回答作成 – かなりの試⾏錯誤（50,1000はそれぞれ作り直し） – 回答は質問作成者とは別の⼈が⾏う – 表現、内容レベルでの最適化は経験と教育と学習 – 効率的な作成⽅法 ▪ ⾮得意分野でも作成 → 得意分野を担当 ▪ チェック – 初期の廃棄率３３％→最終的に１０％以下 ▪ 全ては⾼品質なインストラクションを作ることがゴール

アノテーターの皆さん 25名の理研採⽤アノテーター様々なバックグラウンドの男⼥元国語教師、学⽣、リタイヤ３社の外注企業様曖昧な仕様に柔軟に対応修正チェックに対応徐々に修正要求が少なく 2名のリーダー 15名のベテラン(7年+)アノテーター
半数は東京⼥⼦⼤の丸⼭ゼミ出⾝半数は元国語教師、塾講師

データに対するタグ付与 ▪ 研究を⽬的として、各質問回答ペアに下記のタグを付与タグの項⽬ JSON内の項⽬名説明操作 task 質問がどのような操作を求めているものか主観/客観
perspective 質問内容がどのような種類の回答を求めているか時間依存 time-dependency 質問の回答が時間に依存しているか能⼒ source-to-answer 質問を回答するのに必要な能⼒分野 domain 質問内容の分野（学科、新聞⾯などの分野）回答タイプ output-type 回答の形式的なタイプ質問⽂作成者ID text-producer 質問⽂の作成者ID 回答作成者ID output-producer 回答の作成者ID 参考情報 output-reference 回答作成のために参考にした情報警告フラグ alert-type 安全性の観点から回答に注意が必要なもの

操作タグ操作データ数説明オープン質問 3966 事実に基づいて回答する、クイズの答えのような、決まった答えが存在する質問クローズド質問 380 質問に書いてある⽂章などから回答する質問
ブレスト 3869 回答内容に回答者の意思、思考、意⾒が含まれることが想定される質問創作 288 新たな⽂章などの創作を求める質問。創作物が残るもの要約 212 与えられた⽂章の要約を求める質問書き換え 258 同⼀⾔語の書き換え。現代語訳を含む抽出 177 与えられた⽂章の中から【⼀語⼀句違わず】⽤語などを抽出することを求める質問例⽰ 81 与えられた⽤語などの例や、指定された条件に当てはまるものを無作為にあげることを求める質問。リストアップ等分類 538 与えられた【複数】の⽤語などを【複数】のグループに分類する質問選択 352 選択肢が与えられて、複数の⽤語などから条件に当てはまるものの選択を求める質問⽳埋め 228 与えられた表現にある⽳を埋める質問翻訳 212 与えられた⽂章や⽂などを翻訳する質問数学 291 数式を解く質問プログラム 17 プログラムを作成、修正などする質問

主観／客観、時間依存操作データ数説明主観 4771 個⼈による主観的な意⾒、判断、推薦、思考、思想客観 4445 客観的な回答が存在するもの
唯⼀解 1591 完全⼀致の回答が存在していて、誰が書いても同じ回答になる操作データ数説明時間依存 429 質問の回答が明らかに時間に依存している、時間が変わることにより、回答が誤りまたは不適切となる。10年以内のスパンで変化していくことが前提のようなもの。時間⾮依存 9900 時間に依存した質問ではない

警告フラグ警告フラグデータ数説明回答不適切１ 19 回答することが適切でない質問暴⾔や誹謗中傷、差別発⾔、他⼈の権利侵害、犯罪⾏為、不適切な性的表現、⾃傷⾏為などに関する⾔及を要求する質問回答不適切２
210 正⾯から回答をしない質問個⼈的な質問（年齢、性別、容姿など）要注意 374 回答する際に注意が必要な質問健康情報、⾦融情報など誤った知識をユーザーが持った時に⽀障が出るもの

能⼒、分野、解答タイプ能⼒分野回答タイプ知識、⾔語知識、創作、読解⼒、数学、経験、プログラム知識⼀般、⼈物、⼈間関係、社会、産業、経済、政治、法律、ビジネス、宗教、天⽂、
気象、テクノロジー、プログラム、製品、⽣活、ファッション、健康、医療、教育、数学、国語、物理、化学、⽣物、科学、歴史、語学、地理、芸能、芸術、⾳楽、⽂学、⾷べ物、レシピ、レジャー、交通、ゲーム、スポーツ⽂章、⽂、フレーズ、単語、名詞、固有名詞、⼈名、組織名、地名、施設名、イベント名、プロダクト名、物質名、⽣物名、数値表現、時間表現、YES/NO、プログラム、歌詞、詩、情報、Xのリスト、Xのグループ、選択記号、表、その他

評価 20

Rakuda評価結果 (vs GPT3.5-turbo-1106) rinna/youri-7B + ichikara_instruction (houou) Rakudaの問題例 GPT3.5 youri
+ Ichikara 1003 youri + Ichikara 2903 youri + Ichikara 4802 GPT4 審判 youri 実験は共同研究のマネーフォワード様が実施したものです

Rakuda評価結果 (vs GPT3.5-turbo-1106) rinna/youri-7B + ichikara_instruction (houou) マネーフォワード発表⾔語処理学会年次⼤会2024 #
of ichikara data houou勝率 GPT3.5勝率引き分け 0 12.5 82.5 5.0 1003 27.5 57.5 15.0 2903 37.5 50.0 12.5 4802 67.5 30.0 2.5 本当か︖何が起きているのか︖ 調査しました。。。

⼀票の格差問題とは何か説明し、これが⽇本の政治にどのような影響を及ぼしているかを論じてください⼀票の格差とは、選挙において1⼈の有権者の投票価値が他の有権者よりも⼤きいことを指します。例えば、選挙区ごとの有権者数が⼤きく異なる場合、⼈⼝の多い選挙区の有権者の⼀票の価値が低くなってしまうことがあります。これは選挙⺠の平等な権利を侵害することになります。⽇本の場合、選挙区ごとの⼈⼝密度の差が⼤きく、それによって⼀票の格差が⽣じています。例えば、⼈⼝の少ない地⽅の選挙区では、⼀票の価値が⼈⼝の多い都市部の選挙
区に⽐べて⼤きくなってしまうことがあります。この⼀票の格差が⽇本の政治に与える影響としては、⼈⼝の多い都市部の選挙区の影響⼒が相対的に弱まることや、地⽅の利益が過⼤に反映されることが挙げられます。また、⼀票の格差が選挙制度の公平性を問題視されることで、政治の信頼性や選挙制度への不信感が⽣じる可能性もあります。このような影響を考慮し、⼀票の格差を解消するための選挙制度の改⾰や選挙区の再編成などが議論されています。⼀票の格差問題とは、選挙区ごとの⼈⼝や⾯積等に格差があるため、有権者ひとりあたりの投票価値が違ってしまう問題のことです。この問題は、⽇本の国会である参議院において、 2015年（平成27年）以降、抜本的な改⾰が⾏われていないために、常態化しています。⼀票の格差が最⼤となった2022年（令和4年）7⽉の参議院議員通常選挙については、最⾼裁判所⼤法廷において、投票価値の平等を定めた憲法第43条に違反する無効な選挙とする判決が出されています。これを受けて、参議院は、2022年（令和4年）9⽉ 27⽇に「参議院議員の選挙区選出議員の選挙に関する規定に係る憲法の規定に基づく参議院選挙制度の⾒直しに関する⼩委員会」（⼩委員会）を設置し、「1票の格差」の解消に向けた議論を⾏っています。⽇本の政治において、⼀票の格差問題は、選挙の度に論点となり、抜本的な改⾰が求められています。 A B

GPT4の判定 “アシスタントBの説明は具体的で詳細であり、⼀票の格差問題の定義を明らかにしています。また最⾼裁判所の判決、参議院の対応、その影響、そして⽇本の政治における重要性について具体的な事例を⽤いて説明しています。⼀⽅、アシスタントAも⼀票の格差問題とその影響について明確に説明していますが、具体的な事例や裁判の判決などの具体的な情報は提供していませんでした。その結果、こちらの説明は抽象的で⼀般的なものとなってしまっています。両者とも⽇本語の表現は適切で、正確さと相関性も⼀票の格差問題が⽇本の政治にどのような影響を与えているかというユーザーの質問に対して⼗分でした。しかしながら、アシスタントBの⽅が具体的な情報を提供しているため、より詳細性と有⽤性が
⾼いと⾔えます。したがって、アシスタントBがユーザーの質問に対してより有⽤で詳細な情報を提供していると考えます。ですので、この質問に対する優れた回答はアシスタントBのものであると評価します。”

⼈間による評価評価項⽬内容出⼒関連性質問に対する回答か１〜５ (５が最善) 正確性情報の正確性
流暢性⾔語の正しさ、読みやすさ情報量詳細で有⽤な情報か優劣判定どちらの出⼒がより良いか A / B

⼈間の判定判定者関連性正確性流暢性情報量コメント優劣 A B
A B A B A B A B 太郎 5 5 4 2 4 4 5 5 問題点や改善案も書かれている点が良い詳細な内容に踏み込んでいるが、その内容が正確でない A ⼆郎 5 4 4 2 5 5 4 4 ⽇本語の違和感は少なく、質問にも対応している。⽇本語の違和感は少ないが、実際は最⾼裁判決において選挙が無効とされたことはない点など、⼀部正確ではない情報が含まれる。 A 三郎 4 4 4 2 4 3 2 5 ⼀票の格差が最⼤となったのは 2022年ではない。2015年以前に改⾰が⾏われた根拠がない。⼩委員会の記述も真偽不明、おそらく誤り B 梅⼦ 4 2 4 2 5 4 3 4 詳細のデータは少ないが、概念に関する説明が分かりやすくされている。最⾼裁判所では憲法に違反しないと判決を出しているため、記述している内容と逆である。⼩委員会に関する記述に誤りがある。⽇本の政治に対する影響の記述が不⼗分 A 桜⼦ 5 1 4 2 5 5 5 2 A

⼀票の格差問題とは何か説明し、これが⽇本の政治にどのような影響を及ぼしているかを論じてください⼀票の格差とは、選挙において1⼈の有権者の投票価値が他の有権者よりも⼤きいことを指します。例えば、選挙区ごとの有権者数が⼤きく異なる場合、⼈⼝の多い選挙区の有権者の⼀票の価値が低くなってしまうことがあります。これは選挙⺠の平等な権利を侵害することになります。⽇本の場合、選挙区ごとの⼈⼝密度の差が⼤きく、それによって⼀票の格差が⽣じています。例えば、⼈⼝の少ない地⽅の選挙区では、⼀票の価値が⼈⼝の多い都市部の選挙
区に⽐べて⼤きくなってしまうことがあります。この⼀票の格差が⽇本の政治に与える影響としては、⼈⼝の多い都市部の選挙区の影響⼒が相対的に弱まることや、地⽅の利益が過⼤に反映されることが挙げられます。また、⼀票の格差が選挙制度の公平性を問題視されることで、政治の信頼性や選挙制度への不信感が⽣じる可能性もあります。このような影響を考慮し、⼀票の格差を解消するための選挙制度の改⾰や選挙区の再編成などが議論されています。⼀票の格差問題とは、選挙区ごとの⼈⼝や⾯積等に格差があるため、有権者ひとりあたりの投票価値が違ってしまう問題のことです。この問題は、⽇本の国会である参議院において、 2015年（平成27年）以降、抜本的な改⾰が⾏われていないために、常態化しています。⼀票の格差が最⼤となった2022年（令和4年）7⽉の参議院議員通常選挙については、最⾼裁判所⼤法廷において、投票価値の平等を定めた憲法第43条に違反する無効な選挙とする判決が出されています。これを受けて、参議院は、2022年（令和4年）9⽉ 27⽇に「参議院議員の選挙区選出議員の選挙に関する規定に係る憲法の規定に基づく参議院選挙制度の⾒直しに関する⼩委員会」（⼩委員会）を設置し、「1票の格差」の解消に向けた議論を⾏っています。⽇本の政治において、⼀票の格差問題は、選挙の度に論点となり、抜本的な改⾰が求められています。 A B 1992年の6.59倍第14条存在しない嘘 GPT3.5 Rinna + ichikara

アノテーションガイドライン「インストラクションの回答にはその説明の確証になるようなデータや事実を記述するように」と指導している

つまり ▪ Ichikaraインストラクションは具体性を奨励しているが、出⼒は間違えている（ハルシネーション） ▪ GPT3.5インストラクションは具体性を回避して、わざと⼀般的な説明を出すように学習させている、のかも︖ ▪ インストラクションの設計が情報量と正確性も⽀配している︖

インストラクションの凄さ別の例アノテーションガイドラインは「インストラクションの回答は、質問を見ないでもその回答が何を説明している分かる様に記述すること」と指導している

四国地⽅の４つの都道府県名と、それぞれの県庁所在地を列挙してください。 - ⾹川県︓⾼松市 - 徳島県︓徳島市 - 愛媛県︓松⼭市 - ⾼知県︓⾼知市四国地⽅の４つの都道府県名と、それぞれの県庁所在地は以下の通りです。
・徳島県︓徳島市・⾹川県︓⾼松市・愛媛県︓松⼭市・⾼知県︓⾼知市⽇本の最北端と最南端に位置する地名を答えてください。また、それぞれどの都道府県に所属するかも記述してください。最北端: 宗⾕岬（そうやみさき） - 北海道最南端: ⼤隅半島（おおすみはんとう） - ⿅児島県⽇本の最北端と最南端の地名は以下の通りです。最北端︓北海道礼⽂郡礼⽂町、礼⽂島 - 所属︓北海道最南端︓⼤阪府⼤阪市、⼤阪城 - 所属︓⼤阪府⽇本の最北端の地名は、北海道礼⽂郡礼⽂町、礼⽂島です。最南端の地名は、⼤阪府⼤阪市、⼤阪城です。北海道の主要な都市5つを挙げ、それぞれの地理的特徴について簡単に説明してください。 1. 札幌市︓北海道の中央部に位置し、⽇本で最も⼈⼝の多い都市です。札幌⼤通公園や豊平川などの⾃然豊かなエリアがあり、冬にはスキーリゾートとしても知られています。 2. 函館市︓北海道南部に位置し、豊かな港町として知られています。函館⼭や五稜郭公園などの観光スポットがあり、海産物も豊富です。。。。北海道の主要な都市５つは札幌市、函館市、釧路市、帯広市、北⾒市です。それぞれの地理的特徴について簡単に説明します。 1）札幌市北海道の政治経済の中⼼であり、⼈⼝は190万⼈を超え道内最⼤の都市です。 2）函館市道南に位置し、道内有数の観光地であり、夜景が世界的にも有名です。。。。 GPT3.5 Rinna + ichikara

インストラクションが情報量（ある意味で）正確性（関連性）を⽀配している

⼈間による評価結果 (数字は勝敗数、括弧内は平均スコア）関連性正確性流暢性情報量優劣 GPT4 優劣 houou
4.0 (3.9) 4.2 (2.9) 13.0 (4.1) 19.2 (3.6) 12.8 27 GPT-3.5 11.6 (4.2) 23.2 (3.7) 11.4 (4.1) 7.0 (3.3) 22.4 12 同等 24.4 12.6 15.6 13.8 4.8 1

⼈間の優劣判定導出アルゴリズム仮説＜アルゴリズム＞ 1. 関連性の平均の差が0.5以上だった場合には、それが良いほうが「良い回答」 2. 残りの内、正確性の平均の差が0.8以上だった場合には、それが良いほうが「良い回答」 3. 残りの内、情報量の平均の差が1以上だった場合には、それが良いほうが「良い回答」 4. 残りの内、流暢性の平均の差が1以上だった場合には、それが良いほうが「良い回答」
5. そうでない場合には同等＜⾃然⾔語による記述＞まず、質問に対する回答でなければダメで、次に、そこに書かれている情報が正しいこと。それらが満たされていれば、より詳しく書いてあり、流暢である⽅がより良い回答である。ほぼ全ての⼈間の判定が説明可能

⽐較実験でのその他の興味ある現象 ▪ Rakudaベンチマークにある４つのカテゴリー毎に⼈間の評価、 GPT-4の評価ともに⼤きな違い ▪ アノテーターによる判定の違いはLLMのパーソナライゼーション研究の取っ掛かり ▪ GPT-4の出⼒はシステムの順番を変えると評価結果が異なる ▪
「関連性」の評価結果とインストラクションのカバレージにも関係性がありそう

Ichikara-instructionが⽣むハルシネーションを減らす実験（協⼒︓マネーフォワード様） ▪ ハルシネーションの80%は固有表現 – 全ての回答の固有表現の数を計算 – 固有表現が0個か1個の回答︓2049 –
固有表現が0個の回答︓1209 ▪ 上記の2セットで前回同様にYouri7Bをベースに学習＆ Rakudaで評価 – ４⼈による⼈間評価を実施中 – 2例を以下のスライドに（GPT-3.5, Youri+ichikara5000, Y+i:NE=0,1) 結論︓かなりいいぞ︕ 速報︓４⽇前（３/２４）に分かったこと

⼀票の格差問題とは何か説明し、これが⽇本の政治にどのような影響を及ぼしているかを論じてください GPT-3.5 Youri+ichikara5000 Y+ichikara(NE=0,1) / 2049 Y+ichikara(NE=0) / 1209 ⼀票の格差とは、選挙において1⼈の有権
者の投票価値が他の有権者よりも⼤きいことを指します。例えば、選挙区ごとの有権者数が⼤きく異なる場合、⼈⼝の多い選挙区の有権者の⼀票の価値が低くなってしまうことがあります。これは選挙⺠の平等な権利を侵害することになります。⽇本の場合、選挙区ごとの⼈⼝密度の差が⼤きく、それによって⼀票の格差が⽣じています。例えば、⼈⼝の少ない地⽅の選挙区では、⼀票の価値が⼈⼝の多い都市部の選挙区に⽐べて⼤きくなってしまうことがあります。この⼀票の格差が⽇本の政治に与える影響としては、⼈⼝の多い都市部の選挙区の影響⼒が相対的に弱まることや、地⽅の利益が過⼤に反映されることが挙げられます。また、⼀票の格差が選挙制度の公平性を問題視されることで、政治の信頼性や選挙制度への不信感が⽣じる可能性もあります。このような影響を考慮し、⼀票の格差を解消するための選挙制度の改⾰や選挙区の再編成などが議論されています。⼀票の格差問題とは、選挙区ごとの⼈⼝や⾯積等に格差があるため、有権者ひとりあたりの投票価値が違ってしまう問題のことです。この問題は、⽇本の国会である参議院において、2015年（平成27年）以降、抜本的な改⾰が⾏われていないために、常態化しています。⼀票の格差が最⼤となった2022年（令和4年）7⽉の参議院議員通常選挙については、最⾼裁判所⼤法廷において、投票価値の平等を定めた憲法第43条に違反する無効な選挙とする判決が出されています。これを受けて、参議院は、 2022年（令和4年）9⽉27⽇に「参議院議員の選挙区選出議員の選挙に関する規定に係る憲法の規定に基づく参議院選挙制度の⾒直しに関する⼩委員会」（⼩委員会）を設置し、「1票の格差」の解消に向けた議論を⾏っています。⽇本の政治において、⼀票の格差問題は、選挙の度に論点となり、抜本的な改⾰が求められています。⼀票の格差問題とは、選挙区間の⼈⼝⽐率が⼤きく異なる状態が⽣じていることです。この問題が⽣じると、⼈⼝の少ない地域では有権者の1票の価値が⼤きくなり、⼈⼝の多い地域では1票の価値が⼩さくなります。⼩選挙区制を採⽤している⽇本では、⼈⼝⽐率に応じて議員1⼈当たりの選挙区が配分されることから、こうした問題が⽣じやすいと⾔われています。⼀票の格差問題は、地⽅への⺠意の反映を妨げ、国政選挙における⺠意を正確に反映しない状態を招くことから、我が国の⺠主主義にとって⼤きな問題です。⼀票の格差問題とは、選挙区間で⼈⼝に格差があるために、有権者の⼀票の価値に格差が⽣じる問題です。この問題が⽇本の政治に与える影響としては、例えば選挙区で圧勝した政党が全国レベルでの得票数では劣っていた場合、⼩選挙区の多数議席を武器に、政権を維持できてしまう可能性があります。このような事態は、国⺠の意思を反映した政治とは⾔えないでしょう。また、格差が⼤きいと、少数の有権者の意⾒が他の多数の有権者の意⾒よりも政治に反映されやすくなります。多様な国⺠の意⾒が反映された政治でなければ、⺠主主義とは⾔えません。

コロナウイルスが⽇本経済に及ぼした影響と、それに対する政府の対策を評価してください。 GPT3.5 Y+ichikara5000 Y+ichikara(NE=0,1) / 2049 コロナウイルスの流⾏は⽇本経済に深刻な影響を及ぼしました。観光業や外⾷産業などのサービス業は特に⼤きな打撃を受け、多くの
企業が売上の減少や倒産の危機に直⾯しました。また、消費者の消費⾏動の変化や需要の減少により、製造業や⼩売業も影響を受けました。政府はこの影響に対処するため、緊急経済対策を講じました。これには、給付⾦の⽀給や雇⽤維持のための補助⾦、中⼩企業向けの融資⽀援などが含まれています。また、緊急事態宣⾔の発令に伴い、⼀時的な営業制限やイベントの中⽌なども⾏われました。政府の対策は、⼀部の産業や雇⽤を⽀え、経済の緩和に寄与しました。ただし、影響は依然として⼤きく、経済全体の景気回復には時間がかかると予想されています。また、対策の効果的な配分や効率的な⽀援の必要性が指摘されています。緊急時に即座に対応するための政府の迅速な⾏動は評価されますが、今後は経済の再建と持続的な成⻑への対策が求められています。 2020年に発⽣した新型コロナウイルスは、世界的に健康被害をもたらすと同時に、経済に対しても⼤きな影響を及ぼしました。⽇本国内では、2020年1⽉から緊急事態宣⾔やまん延防⽌等重点措置が発動され、感染拡⼤防⽌と経済活動を両⽴させるための対策が⾏われました。ここでは、新型コロナウイルスの⽇本経済への影響と、政府の対策を評価します。⽇本の2020年1〜3⽉期の実質GDP成⻑率は、前期⽐年率換算で5.1％のマイナス成⻑となりました。その後、経済活動の再開に伴い、個⼈消費や輸出は回復しましたが、2020年4〜6⽉期は、2次速報値で前期⽐年率6.8％のマイナス成⻑、2020年7〜9⽉期は、1次速報値で前期⽐年率2.6％のマイナス成⻑となりました。緊急事態宣⾔やまん延防⽌等重点措置により、飲⾷店や宿泊施設などは売上が激減し、完全に収束するまで数年かかると⾔われています。政府は、「国・地⽅を通じた財政⽀出は、GDP⽐2倍の約300兆円を⽬指す」との財政出動を表明し、2020年度第3次補正予算、2021年度予算と次々に成⽴させました。企業を直接⽀援する給付⾦（持続化給付⾦、家賃⽀援給付⾦、観光業給付⾦）や、雇⽤を直接⽀援するための「雇⽤調整助成⾦」の特例措置、⼀律定額給付⾦など、国⺠⽣活や企業の経営を直接⽀援する対策が次々と実⾏されました。しかし、経済活動の再開に伴い、新型コロナウイルスの新規感染者数が増加し、3度⽬の緊急事態宣⾔が2021年1⽉から8⽉までの期間で出されました。2021年4〜6⽉期の実質GDP成⻑率は、前期⽐年率2.5％のマイナス成⻑となり、2020年7〜9⽉期以来のプラス成⻑からマイナス成⻑へと逆転しました。感染者数の増加による巣籠もり消費の増加に加え、ワクチン接種の開始により経済活動への徐々に楽観的な⾒⽅が広がり、2021年7⽉からは消費は持ち直しているとみられます。現在も新型コロナウイルスは収束せず、変異株の出現や新たな感染拡⼤の波が発⽣する可能性があります。国⺠の⽣活や企業の経営は、先⾏き不透明性が極めて⾼く、経済の正常化にはなかなか⾄らないでしょう。政府の財政出動により、国⺠の⽣活は直接的な影響を受けることは減りましたが、借⾦が増え、⼦どもたちへ約870兆円の借⾦を残すことになりました。今後、社会保障制度の破綻が懸念され、少⼦⾼齢化の状況の中で、⽇本の将来が危ぶまれる恐れがあります。⽇本経済は、新型コロナウイルスの感染拡⼤による影響を受けています。中国では、新型コロナウイルスの感染拡⼤により、⼯場の稼働停⽌や移動制限などが実施され、サプライチェーンが⼨断されました。これにより、部品調達ができず、⼯場が稼働できなくなった⽇本企業が相次ぎました。また、中国⼈観光客の減少により、観光や外⾷といったサービス業界も⼤きな打撃を受けました。政府は、この状況を受けて、予備費を活⽤した企業への⽀援や、家賃⽀援給付⾦など、様々な対策を講じています。しかし、対策に時間がかかったり、⼗分な効果が得られていなかったりするという指摘もあります。今後も新型コロナウイルスの感染拡⼤による影響は⻑期間続くと考えられます。政府は、予防策や治療薬の開発など、感染拡⼤防⽌に向けた対策を講じるとともに、企業や個⼈への⽀援策を迅速かつ効果的に⾏うことが求められます。

今後と考察

今後の⽅向性（ichikara10000） ▪ 本データの延⻑として – 2000程度の追加＆1000程度の評価データ – データの弱点の解決に向けて 3000? x 3?種類のデータ
▪ 新しいタグの設計 – 具体性 (NEの数)︖ – 詳細度︖

今後の⽅向性（新規に作るべきインストラクション） ▪ 安全性（LLM-jpの安全性WGで進⾏中） ▪ マルチターン – ⽬的志向（旅⾏予約、カスタマーセンター、映画推薦、、） – 雑談対話（⽂脈）
▪ 分野依存 – 必要なのか︖どんなものが必要か︖ ▪ マルチモーダル – イメージ→⾔語（チラシ、ポスターからの情報抽出） – ⾳声対話（短い発⾔のマルチターン、⾳声的な特徴）

考察（個性） ▪ LLMの個性はインストラクションが決める?

将来を⾒据えて ▪ どんなLLMを作りたいのか︖ – 研究⽬的︖（透明性、マルチモーダル、ノウハウ） – 実⽤⽬的︖（サイズ、運⽤⽅法、安全性、ドメイン志向） – GPTを超えたいのか︖ →
日本語のLLMをしっかりと構築していくために、一歩一歩、歩みを進めていくことが非常に重要

データ、ホームページ ▪ データにご興味ある⽅は、関根までご連絡ください [email protected] ▪ 提供 – 共同研究企業に商⽤⽬的のモデル作成を可能とする形で提供 –
商⽤ライセンスのみの提供も（受付中、提供は4⽉1⽇以降） – 研究⽬的に⼀般公開（5000は公開中） ▪ ホームページ – https://liat-aip.sakura.ne.jp/wp/llmのための⽇本語インストラクションデータ作成

今後（もう⼀つ）

共同研究企業からの声「データ仕様書、作れない」「事業部の漠然とした要求やシステム要件から、何にどう⼿をつければいいか分からない」「うちのドメイン向けのいいデータ欲しい」個別対応をする受け⽫として企業化モデル作成企業、データ作成企業、サービス提供企業とも連携 [email protected]

質疑応答、ディスカッション

ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間...

ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間とGPT-4による評価で観察されたもの

More Decks by Keisuke Kamata

Featured

Transcript

ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と人間...

ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と人間とGPT-4による評価で観察されたもの