が提案) • 指示文と応答文のペアデータ(Instruction データ)で学習させる • ChatGPT のバックボーンも Instruction Tuning されたモデル Instruction データの例(QAタスク) Instruction : Why can camels survive for long without water ? Output : Camels use the fat in their humps to keep them filled with energy and hydration for long periods of time. Jason Wei et al. “Finetuned Language Models Are Zero-Shot Learners” (2021) arXiv:2109.01652 ※ 資料上は「指示調整」とも表記させていただきます
Wang et al. “Self-Instruct: Aligning Language Models with Self-Generated Instructions” (2023) arXiv:2212.10560 Edward J. Hu et al. “LoRA: Low-Rank Adaptation of Large Language Models” (2021) arXiv:2106.09685 • Alpaca は 2023年2月に Meta 社が公開した LLaMa 7B を、スタンフォード大学が「text-davinci-003」を用い て生成した Instruction データセット(Alpaca データセット)で指示調整したモデル • そのすぐ後に、省メモリでの指示調整が可能な LoRA で指示調整を行った Alpaca-LoRA も登場 → LoRA の登場により LLM の指示調整を個人の環境(RTX4090)でも実施可能に
A Review of Public Japanese Training Sets https://github.com/AUGMXNT/shisa/wiki/A-Review-of-Public-Japanese-Training-Sets ◦ 翻訳したデータセットは品質が悪いため、Shisa の開発には使わない方針に
A Review of Public Japanese Training Sets https://github.com/AUGMXNT/shisa/wiki/A-Review-of-Public-Japanese-Training-Sets ◦ 翻訳したデータセットは品質が悪いため、Shisa の開発には使わない方針に ×:翻訳データセットには品質に課題があるから使わない 〇:翻訳データセットには品質に課題があるので品質の良いものだけを使う
社、カーネギーメロン大学から発表された LLM を活用したデータクリーニング手法 • ノイズの多いの一部の Web テキストを、特別な指示調整された LLM を用いて異なるスタイル(QA形式 等)に言い換え、そのリフレーズテキストを元のWeb テキストに加えて事前学習する手法 Pratyush Maini et al. “Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling” (2024) arXiv:2401.16380 限りのある日本語 Web コーパスをリユースする方法として有効である可能性
de vin par jour n'est pas une petite dose, c'est plutôt un signe avant gardiste de l'alcoolique. Il n'est pas recommandé de boire de l'alcool avec un agenda régulier, surtout aussi souvent 翻訳結果: 1日1杯のワインは少量ではなく、アルコール依存症の前の兆候です。特に頻繁に、 通常のアジェンダでアルコールを飲むことはお勧めしません。