Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI最新論文読み会2022年12月

 AI最新論文読み会2022年12月

AI最新論文読み会2022年12月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Science

Transcript

  1. AI最新論文読み会2022年12月 YAMAHA MOTOR CO.,LTD. *Yamamoto Atsushi Saitou Takashi Komaike Kunimune

    (文献調査を上記で分担、今回の発表者*) 産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp) 2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)
  2. 1. 簡単にアクセスできるテキストから画像への変換が、人口統計学的なステレオタイプを大規模に増幅する (原文: Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes

    at Large Scale) 2. InstructPix2Pix。画像編集の指示に従うことを学ぶ (原文: InstructPix2Pix: Learning to Follow Image Editing Instructions) 3. トランス推論の効率的なスケーリング (原文: Efficiently Scaling Transformer Inference) 4. BLOOM:176Bパラメータオープンアクセス多言語言語モデル (原文: BLOOM: A 176B-Parameter Open-Access Multilingual Language Model) 5.敵対的な政策がプロフェッショナルレベルの囲碁AIを打ち負かす (原文: Adversarial Policies Beat Professional-Level Go AIs) 6.インコンテキストラーニングによるアルゴリズム推論の教育 (原文: Teaching Algorithmic Reasoning via In-context Learning) 7.大規模言語モデルは人間レベルのプロンプトエンジニアである (原文: Large Language Models Are Human-Level Prompt Engineers) 8. ERNIE-ViLG 2.0:テキストから画像への拡散モデルの改良と知識拡張型Mixture-of-Denoising-Expertsの利用 (原文: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts) 9.一つの会場、二つの会議。中国とアメリカの引用ネットワークの分離 (原文: One Venue, Two Conferences: The Separation of Chinese and American Citation Networks) 10.対照的な復号化。最適化としての自由形式テキスト生成 (原文: Contrastive Decoding: Open-ended Text Generation as Optimization) PaperWithCodeの10本を紹介 【pickup】 https://ml-ocu.s3-ap-northeast-1.amazonaws.com/arxiv-translation/sanity/2022-11-25-top-social.txt
  3. 1.簡単にアクセスできるテキストから画像への変換が、人口統計学的なステレオタイプを大規模に増幅する (原文: Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at

    Large Scale) https://arxiv.org/abs/2211.03759v1 機械学習モデルによって、ユーザーが書いたテキスト説明を自然な画像に変換できるようになった。これらのモデル はオンラインで誰でも利用でき、1日に数百万枚の画像を生成するために利用されている。我々はこれらのモデルを 調査し、危険で複雑な固定観念を増幅することを発見した。さらに、増幅されたステレオタイプは予測が難しく、 ユーザやモデルの所有者によって容易に緩和されないことがわかった。これらの画像生成モデルが、どの程度、ステ レオタイプを永続させ、増幅させるのか、また、その大量展開は、深刻な懸念材料である 目的:画像生成モデルが利用される際における固定概念への影響を調査する 成果:画像生成モデルが利用される際に固定概念を増幅され、またその固定概念の予測が困難であることを確認した 方法:生成された画像に固定概念が増幅されることを確認した 固有名: - 著者所属:Stanford University, Columbia University, Bocconi University, University of Washington
  4. 2. InstructPix2Pix:画像編集の指示に従うことを学ぶ (原文: InstructPix2Pix: Learning to Follow Image Editing Instructions)

    https://arxiv.org/abs/2211.09800v1 我々は、人間の指示から画像を編集する手法を提案する。入力画像と、何をすべきかを指示する文章が与えられると、我々のモデル はその指示に従い画像を編集する。この問題の学習データを得るために、2つの大規模な事前学習済みモデル(言語モデル(GPT- 3)とテキスト-画像モデル(Stable Diffusion))の知識を組み合わせて、画像編集例の大規模データセットを生成する。生成され たデータを用いて学習した条件付き拡散モデルInstructPix2Pixは、推論時に実画像やユーザが書いた指示に対して汎化される。こ のモデルは、フォワードパスで編集を行い、例ごとの微調整や反転を必要としないため、数秒という速さで画像を編集することがで きる。また、様々な入力画像と記述された命令に対して、説得力のある編集結果を示す。 目的:人間の指示で画像を編集する手法を提案 成果:数秒で画像を編集でき、説得力のある編集結果を示す。 方法:2つの大規模な事前学習済みモデル(言語モデル:GPT-3とテキスト-画像モデル:Stable Diffusion)の 知識を組み合わせて、画像編集例の大規模データセットを生成する。 生成されたデータを用いて条件付き拡散モデルInstructPix2Pixで学習する。 固有名: InstructPix2Pix 著者所属: University of California, Berkeley
  5. 先行研究: ・拡散に基づく生成モデルの例 DALL-E 2、 Imagen、 StableDiffusionなど ・画像編集のための生成モデルの課題 類似のテキストプロンプトが、類似の画像を生成するという保証はない。 提案手法: 既存のテキストベースの画像編集(入出力画像のテキストラベル、キャプション、説明文)とは異なり

    モデルに実行させる動作を指示編集できるようにするものである この手法の利点: ・ユーザが自然な文章でモデルに何をすべきかを正確に伝えることができる ・ユーザは、入出力画像の間で変更したくない部位について余分な情報を提供する必要ない ・指示は表現力が豊かで正確、かつ直感的に書くことができるため、ユーザーは変更すべき特定の物体や 視覚的属性を容易に特定することができる
  6. 結論: ー適用範囲: スタイル、媒体、その他の文脈上の変更を含む、多種多様で魅力的な画像編集 ー課題: 物の数を数えることや空間推論に弱い (失敗例は、図13に示すとおりである。 ) 例えば、 「画像の左に移動させる」 「位置を入れ替える」

    「コップを2つテーブルに置き、1つを椅子に置く」 ー課題への対応: ・人間のフィードバックを取り入れたモデルの改善 (例)人間ループ強化学習(人工知能 のトレーニング ループに人間を導入し)のような戦略を適用して、 我々のモデルと人間の意図の間の整合性を向上
  7. 3.トランス推論の効率的なスケーリング (原文: Efficiently Scaling Transformer Inference) https://arxiv.org/abs/2211.05102v1 我々は、Transformerモデルのための効率的な生成推論の問題を、その最も困難な設定の1つである、厳しいレイテンシ目標と長い シーケンス長を持つ大規模なディープモデルにおいて研究している。大規模なTransformerモデルの推論における工学的トレードオ フをより良く理解することは、これらのモデルのユースケースが応用分野全体で急速に増加しているため、重要である。我々は、ア

    プリケーションの要件に基づいて、TPU v4スライスに最適化された最適な多次元分割技術を選択するために、推論効率のためのシ ンプルな分析モデルを開発します。これらの技術と低レベルの最適化を組み合わせることで、500B以上のパラメータモデルにおけ るレイテンシとモデルFLOPS利用率(MFU)のトレードオフにおいて、FasterTransformerの一連のベンチマークを上回る新しい パレートフロンティアを達成しました。さらに、適切なパーティショニングにより、マルチクエリーアテンション(複数のクエリー ヘッドが単一のキー/バリューヘッドを共有する)の低いメモリ要件により、32倍のコンテキスト長までスケーリングが可能であ ることを示しました。最後に、PaLM 540Bのパラメータモデルで2048トークンという長いコンテキスト長をサポートしながら、 int8重み量子化を用いたトークン生成時の低バッチサイズレイテンシを29ms/トークンとし、入力トークンの大規模バッチ処理時 の76%MFUを達成しました。 目的:大規模モデルの推論コストを効率化する 成果:PaLM540Bのモデルにおいて低バッチサイズレイテンシ:29ms/トークンと大規模バッチ処理時に76%MFU を達成した 方法:大規模モデルの推論時の要件に適した分割手法の分析モデルを開発した 固有名:なし 著者所属:Google
  8. 分割手法:順伝播層の分割 チップ数やトークンのサイズによって最適な分割方法が変化する。 この論文では以下の3種類の分割方法を挙げている。 ②2D weight-stationary ・一固まりのチップごとに重みを分割し、入力 トークンを固まりごとに移動させる。 ・①と同様メモリ・演算レイテンシは減少する ・①と異なり一固まりごとで重みを共有するこ とで通信レイテンシーを効率化

    ③(1D / 2D) weight-gathered ・①②と異なり、重みではなく入力トークンを 分割し、重みをチップ毎/固まり毎で移動させる ・バッチサイズ・シーケンス長が大きい場合に 通信レイテンシーを①②に比べ効率化 ①1D weight-stationary ・チップ数に応じて重みを分割し、入力 トークンをチップ間で移動させる。 ・メモリ・演算レイテンシーは減少する ・チップ数に応じて通信レイテンシーが 増加する TPU 重み ☆バッチサイズ・シーケンス長が大きい場合有効 https://cloud.google.com/tpu/ docs/intro-to-tpu?hl=ja ※レイテンシー(latency):アクションとその後の応答の間に経過する時間です。
  9. 評価:PaLM(言語モデル)でのケーススタディ 条件: 推論フレームワーク:JAX ハードウェア:256 TPU v4 モデル:PaLM540B 結果: ①2D vs

    1D チップ数が64コの際はいずれの処理方法でもレイテンシーは95~100ms →チップ数が増えるにつれて2Dのレイテンシーが大きく減少する →まとまりごと扱ったおかげでレイテンシーが減った ②2D Weight Stationary vs 2D Weight Gathered 2D weight stationaryはバッチサイズによらずMFUが一定だが、 2D Weight Gatheredはバッチ数が増えるにつれてMFUが向上する ※レイテンシー(latency):アクションとその後の応答の間に経過する時間です。 チップ数 ※Model Flops Utilization:コンピュータがモデルを利用する計算性能
  10. 分割手法:アテンション層の分割 アテンション層の分割も順伝播層の分割と同様の手法で可能 しかしMulti-head attentionを用いて大きいバッチサイズ・長いテキストを推論する場合、 KVキャッシュを貯める・読み込むコストが非常に大きい →そのためMulti-query attentionを代わりに導入した K/Vを複製するため 通信コストを抑える ヘッド毎→バッチ毎

    にすることでバッチサイズが大 きい場合に通信コストを抑える Multi-headに比べ赤枠部の処理が増えるが、 バッチサイズが大きい場合は増加分の処理コス トより、削減したメモリの方が非常に大きいた め合計のコストは減少する
  11. 評価:FasterTransformerベンチマーク(早いモデル)比較 比較対象 ①PaLM540B ②Megatron 530B ③FasterTransformer 8 ④FasterTransformer 16 ⑤FasterTransformer

    32 結果: FasterTransformerではTP32が33%MFUにとどまって いるにもかかわらず、TP16は44%MFUを達成している →テンソル処理の並列数の増加に伴いチップ間通信がボト ルネックになっている 本手法ではレイテンシーが小さいだけでなく、40%MFU 以上をいずれも達成している。 レイテンシーは小さいほうがよく、 MFUは大きいほうが良い チップ数を増やしても早くなってない
  12. 4. BLOOM:176Bパラメータオープンアクセス多言語言語モデル (原文: BLOOM: A 176B-Parameter Open-Access Multilingual Language Model)

    https://arxiv.org/abs/2211.05100v1 大規模言語モデル(LLM)は、わずかなデモや自然言語の指示に基づき、新しいタスクを実行できることが示されて いる。これらの能力により広く採用されるようになりましたが、ほとんどのLLMはリソースの豊富な組織によって開 発され、一般には公開されていないことが多いのです。この強力な技術を民主化するための一歩として、何百人もの 研究者が協力して設計・構築した176Bパラメータのオープンアクセス言語モデル「BLOOM」を紹介します。 BLOOMはデコーダのみのTransformer言語モデルで、46の自然言語と13のプログラミング言語(合計59)の数百の ソースからなるデータセット、ROOTSコーパスで学習されました。BLOOMは、様々なベンチマークにおいて競争力 のある性能を達成し、マルチタスクによるプロンプトの微調整を経て、より強力な結果を得ることができました。 LLMを用いた今後の研究と応用を促進するため、我々のモデルとコードをResponsible AI Licenseの下で一般に公開 しています。 目的:オープンアクセスできる大規模言語モデル「BLOOM」を紹介する 成果: 1760億個のパラメータを持つ言語モデル「BLOOM」を公開した 方法:数百人規模の研究者が協力し、多言語の大規模言語モデルを開発する 固有名:BLOOM 著者所属:BigScience, Hugging Face, IDRIS, CNRS, GENCI, 他
  13. 5. 敵対的な政策がプロフェッショナルレベルの囲碁AIを打ち負かす (原文: Adversarial Policies Beat Professional-Level Go AIs) https://arxiv.org/abs/2211.00241v1

    我々は、最先端の囲碁対局AIシステムであるKataGoを、凍結したKataGoの犠牲者と対局する敵対的な政策を訓練す ることによって攻撃する。我々の攻撃は、探索を行わないKataGoに対して99%以上の勝率を達成し、KataGoが超人 に近いほどの探索を行った場合には50%以上の勝率を達成しました。私たちの知る限り、これは人間のトッププロと 同レベルの囲碁AIに対する初めてのエンド・ツー・エンド攻撃の成功例です。注目すべきは、敵対者がKataGoより も優れた碁を打つことを学習して勝ったのではなく、人間のアマチュアにも簡単に勝てるという点です。むしろ、敵 対者はKataGoをだまして、敵対者に有利な局面で早々にゲームを終了させることによって勝利するのです。この結果 は、プロレベルのAIシステムであっても、意外な故障モードを持っている可能性があることを示しています。対局の 例については、https://goattack.alignmentfund.org/ をご覧ください。 目的:深層強化学習において敵対的ノイズによる脆弱性は存在するかを検証する 成果:深層強化学習においても脆弱性があることを確認した 方法:自己学習が最も得意とする囲碁においてSOTAであるKataGoに対してエンド2エンド攻撃を行う 固有名:Adversarial Monte-Carlo Tree Search Sample/Recursive (A-MCTS-S/A-MCTS-R) 著者所属:MIT, UC Barkeley, FAR AI
  14. 評価: 攻撃者(敵対的方策)の戦略は 1.攻撃者は4つの角のうち、1つを囲う(10手目~30手目) 2.攻撃者は被害者の地の内側に石を置く(62手目) 3.攻撃者は自分の地を完全に囲った後、パスする(77手目) →この局面で被害者は優勢と判断出来ているが、パスして しまう ⇒お互いがパスすると終局するルールで評価しているため 攻撃者が勝つ (取れる石が残っている限りパスしないルールで対局

    させると被害者が全勝している) ※この評価手法を含めて問題視されている 黒:被害者(KataGo) 白:攻撃者 30手目 10手目 62手目 78手目(終局図) 30手目 深層強化学習モデルであってもこのような脆弱性があることが確認できた。 ⇒金融システムや自動運転車などの高い安全性の求められる 深層強化学習モデルにも同様の脆弱性があると考えられるため、よりロバストな学習方法を検討すべし
  15. 6.インコンテキストラーニングによるアルゴリズム推論の教育 (原文: Teaching Algorithmic Reasoning via In-context Learning) https://arxiv.org/abs/2211.09066v1 大規模言語モデル(LLM)は、モデルとデータサイズの拡大により、インコンテキスト学習の能力が向上していること

    を示している。このような進歩にもかかわらず、LLMはまだアルゴリズム推論問題を解決することができない。最終 的な答えとともに根拠を提供することで、多段階の推論問題においてさらなる改善が見られる一方で、Anilら2022は、 パリティなどの単純なアルゴリズム推論タスクでさえ、解決にはほど遠いことを示した。本研究では、LLMにアルゴ リズム推論をうまく教えるために、(1)アルゴリズムをスキルとして定式化する、(2)複数のスキルを同時に教える (スキル蓄積)、(3)スキルを組み合わせる方法を教える(スキル構成)、(4)スキルを道具として使う方法を教える、 という4段階の鍵を特定し研究している。我々は、アルゴリズムプロンプトと呼ばれる文脈内学習によって、LLMに アルゴリズム推論を教えることが可能であることを示す。本アプローチを様々な算術・数量推論タスクで評価し、既 存のプロンプティング手法よりも性能が大幅に向上することを実証する。特に、ロングパリティ、加算、乗算、減算 において、既存のベースラインと比較して、それぞれ約10倍、9倍、5倍、2倍のエラー削減を達成した。 目的:大規模言語言語モデル(LLM)に基本的なアルゴリズムをうまく教えるための手法を提案する 成果:足し算、掛け算、引き算などの算術タスクで既存手法より大幅に正解率を上げた 方法:アルゴリズムプロンプトというin-context学習手法を提案する 固有名:ー 著者所属:Google Research
  16. (1)アルゴリズムをスキルとして教える 既存手法: プロンプト情報がモデルに正確な解釈を十分に与えられて いない ・aはどのような数で構成されているか、bも同様 ・aとbのの1桁目の足し算、位上げの説明 ・同様に2桁目、3桁目の足し算の説明を順に含ませる。 アルゴリズムプロンプト(提案手法) 学習時:a+b=cのcは5桁までに制限 テスト時:最大19桁までの問題を解かせる(これはODDと見なせる)

    他の手法と比べ、アルゴリズムプロンプトは非常に長い桁数の足し算でも正解 率が高い(つまりODD汎化性をもつ→真の基本ルールをうまく学習できている)。 なお、引き算、掛け算などでも同様に他の手法より最良の結果だった。 提案手法(アルゴリズムプロンプト): 自然言語による説明と中間計算の両方を含んでいる →論理的解釈を大幅に増やし、その中でアルゴリズムのステップ ごとの計算を教える(論理的根拠を含ませる)。 例題:足し算 a+b = c (a,b,cは正の整数) 質問と答えのペア 自然言語による 根拠(説明) 中間計算 論理的多様性 結果:他の手法との比較 横軸:a+b=cのcの桁数 縦軸:正解率
  17. (2)スキルの蓄積(複数のスキルを同時に教える) 1つ前のステップで 単一アルゴリズムを教えることができることを示した。ここでは複数アルゴリズムを同時に学習し、 問題を解く際に適用可能なアルゴリズム選択をするモデルの能力を研究する。 例:足し引き算(足し算と引き算のアルゴリズムは異なる) a+b,-a+b,a-b,-a-b →LLMは足し算か引き算かで異なる計算経路をたどる能力を示す必要がある。 ▪足し算引き算を組み合わせたアルゴリズムプロンプトの性能 Single Algo:(1)の足し算のみのためのアルゴリズム

    Comb Algo:足し算と引き算の両方の例を含むプロンプトを指示 Add-only:足し算のみのタスク(a+b=c) Sub-only:引き算のタスク(-a+b,a-b,-a-b)←つまり足し引き算 Single AlgoとComb Algoの比較 Single Algo-Add-only :一番高い comb Algo-Sub-only:足し算より低い→引き算の方が複雑なアルゴリズムだから Comb Algo-Add-only :引算アルゴリズムも加わっているが性能がほぼ変化しない
  18. (3)問題解決のためのツールとしてのスキルの使用 より大きな数学的推論問題を解けるようにする。 以下のような問題は、数学的推論ステップと算術計算ステップに分かれる。 Q: トミーは 3 台のおもちゃの車を持っている。彼の隣人のジェシーも 3 台の車を持っている。ジェシーの兄はトミー とジェシーより5台多く車を持っている。

    3人は合計で何台の車を持っているでしょうか? A:トミーとジェシーは3+3=6 台の車を持っています。ジェシーの兄は5+6=11台の車を持っています。合わせて6+11=17台です。答えは17台です。 データセットGSM8kの例(数学的推論問題:足し算問題)の質問と回答例 ・数学的推論ステップを行うためのモデルを1つ、算術計算ステップを行うためのモデルを1つ用意する ・1つ目のモデルが特定のトークンを出力するように教える ・これらのトークンを使い、足し算の質問を抽出して、2つ目のモデルに入力する ・2つ目のモデルは足し算アルゴリズムを実行し、答えを1つ目のモデルに返す ・1つ目のモデルは残りの問題の解答を続ける。 実験結果 GSM8kデータセットで「アルゴリズムプロンプトあり」の方が足し算正解率が高いが 論理正解率は悪くなっている(特定のトークンを使用することによる干渉)。 1つ目のモデルが出力する特定のトークン アルゴリズム ツールを使用する場合と使用しない場合の GSM8k-Hard Addition データセットの性能 算術計算ステップ 数学的推論ステップ
  19. 7.大規模言語モデルは人間レベルのプロンプトエンジニアである (原文: Large Language Models Are Human-Level Prompt Engineers) https://arxiv.org/abs/2211.01910v1

    大規模言語モデル(LLM)は、自然言語による指示を条件とすることで、汎用コンピュータとして素晴らしい能力を 発揮してきた。しかし、タスクの性能はモデルの制御に用いるプロンプトの質に大きく依存し、最も効果的なプロン プトは人間が手作業で作成してきたものである。我々は、古典的なプログラム合成とプロンプト工学への人間のアプ ローチにヒントを得て、命令の自動生成と選択のための自動プロンプトエンジニア(APE)を提案する。本手法では、 命令を「プログラム」として扱い、LLMによって提案された命令候補のプールを検索し、選択されたスコア関数を最 大化することで最適化する。選択された命令の品質を評価するために、選択された命令の後に続く別のLLMのゼロ ショット性能を評価する。24の自然言語処理タスクで実験を行った結果、我々の自動生成した命令は、従来のLLMの ベースラインを大きく上回り、19/24のタスクで人間のアノテータが生成した命令と同等以上の性能を達成すること が分かった。また、APEの性能を調べるため、定性的・定量的な分析を行った。また、APEを用いたプロンプトは、 真実性・情報性の高いモデルへの誘導や、標準的な文脈内学習プロンプトに前置することで数発学習性能を向上させ ることが可能であることを示す。私たちのウェブページ(https://sites.google.com/view/automatic-prompt- engineer)をご覧ください。 目的:プロンプト(入力テキスト)の自動生成と選択のための自動プロンプトエンジニア(APE)を提案する 成果:24の自然言語処理タスクで実験を行った結果、我々の自動生成した命令は、従来のLLMのベースラインを大きく上回った。 方法:命令を「プログラム」として扱い、LLMによって提案された命令候補のプールを検索し、選択されたスコア関数を最大化することで最適化する。 固有名:ー 著者所属:ー
  20. 研究背景 大規模言語モデル(LLM)は様々なタスクで驚くべき能力を発揮しているが、制御の問題(どうやって望むことをさせるか)がある。 →この答えは、in-context learningやプロンプトなどがある。 しかし、平素なプロンプトは常に望ましい結果を出すとは限らないという事実がある。 例1:Dalle-2 (tex2imageモデル)は、キーワード「artstation」をプロンプトの最後に追加すると、より高品質の画像を生成する →これはモデルがデジタルアーティスト向けのポートフォリオサイトであるartstationと高品質な作品を関連付けているため 例2:「beautiful」という単語の前に「very」の数を増やすと、画像が改善される。 “A

    beautiful painting of a mountain next to a waterfall.”と入力したときより以下のようにveryを多く付けたほうが綺麗。 “A very very very very very very very very very very very very beautiful painting of a mountain next to a waterfall. https://www.arinteli.com/what-is-prompt-engineering-and-why-is-it-important/ このようにユーザ(人)は特定のモデルとプロンプト(入力テキスト)の相性をほとんど知らないため、望ましい結果 を得るためには様々なプロンプトでの試行錯誤が必要となる(これをプロンプトエンジニアリングという。LLMが高い品質を返すように質問の仕方を工夫すること)。 →本研究では、LLMを用いて効果的な命令を自動で生成し、選択する新しいアルゴリズムを提案する。
  21. 提案手法: LLMを用いて指定タスクに対するプロンプトを自動生成する。 入力(Q,A) input:prove (証明する) output: disprove(反証する) input:on output: off

    出力(プロンプト) write the antonym of the word(言葉の反意語を書け). 方法 2つのLLMを使用する。 ・プロンプトを提案するプロンプトモデル(LLM) ・提案されたプロンプトを点数付けする(ターゲットLLM) ①まず複数のプロンプト候補を提案する(プロンプトモデル(LLM)) ②次に選択したスコア関数に従って候補を絞り込む(ターゲットLLM) ③最終的に最もスコアの高いプロンプトを採用する。 ④再サンプリング(オプション) ④再サンプリング(オプション)つづき 初期候補のサンプリングで適切な高い点数の候補が含まれていないために、適切な提案の集合uを生成できない場合が ある。 →uを再サンプリングするための反復モンテカルロ検索を行う(最初の提案からサンプリングするだけでなく、現在の 最良の候補を中心に局所的に検索空間を探索する)。
  22. 問題定義 訓練データセット𝐷𝑡𝑟𝑎𝑖𝑛 = (𝑄(入力), 𝐴(出力) 𝑛 とプロンプトモデル(M)を使用する。 Mにプロンプト𝜌と𝑄(入力),を連結した[𝜌, 𝑄]を入力し、 𝐴(出力)を出力させたい。

    このようなプロンプト𝜌∗を見つけたい。 LLM (プロンプトモデルM) プロンプト𝜌 𝑄(入力) 𝐴(出力) ブラックボックス あるサンプル(𝑄, 𝐴)ごとに対するスコア𝑓(𝜌, 𝑄, 𝐴)の 期待値を最大にするプロンプト𝜌∗を求めたい。 1.提案の初期分布 事前学習させたプロンプトモデル(M)を活用し、探索手順の 指針となるプロンプト候補解の良い集合𝑢を提案する。 ※点数付けはexecution accuracyかlog probabilityを用いる。 2-9.効率的なサンプリング 訓練データセット𝐷𝑡𝑟𝑎𝑖𝑛 のサブセットでプロンプト候補を 評価する。点数が高い、高品質な候補には正確な計算を行い 点数が低い、低品質な候補には計算コストを大幅に削減する
  23. 8.ERNIE-ViLG 2.0:テキストから画像への拡散モデルの改良と知識拡張型Mixture-of-Denoising-Expertsの利用 (原文: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with

    Knowledge-Enhanced Mixture-of- Denoising-Experts) https://arxiv.org/abs/2210.15257v1 最近の拡散モデルの進歩は、テキストから画像への変換という一般的な技術に革命をもたらした。既存のアプローチ は、テキスト条件を持つ写実的な高解像度画像を生成することができるが、解決すべきいくつかの未解決の問題が 残っており、画像の忠実性とテキストの関連性のさらなる向上を制限している。本論文では、大規模な中国語テキス トから画像への拡散モデルであるERNIE-ViLG 2.0を提案し、生成画像の品質を段階的に向上させる〜ことによって。 (1)シーン内の重要な要素に関するきめ細かいテキストと視覚の知識を取り入れる、(2)異なるノイズ除去ステージで 異なるノイズ除去専門家を利用する、によって生成画像の品質を段階的に向上させる。ERNIE-ViLG 2.0は、MS- COCOにおいてゼロショットFIDスコア6.75を達成しただけでなく、画像忠実度と画像-テキストアライメントの点で、 最近のモデルを大幅に凌駕しています(バイリンガルプロンプトセットViLG-300の人間評価による)。 目的:大規模な中国語テキストから画像への拡散モデルであるERNIE-ViLG 2.0を提案 成果:画像忠実度と画像-テキストアライメントの点で、最近のモデルを大幅に凌駕した 方法: Mixture-of-Denoising-Experts (MoDE)とKnowledge-Enhanced Diffusion Modelを適用 固有名:ERNIE-ViLG 2.0 著者所属:Baidu Inc., China.
  24. 背景: 画像生成手法の中でも、拡散モデルは、テキストプロンプトを条件とした写実性の高い画像を生成できるため、 注目されている。 →しかし、既存の手法による拡散モデルの探求はまだ初期段階にある。 テキストから画像への拡散モデルの原理と実装を深く掘り下げると、生成される画像の品質をさらに向上させる 機会がまだ多い。 既存手法例: ・LDM (Rombach et

    al., 2021), ・GLIDE (Nichol et al., 2022), ・DALL-E 2 (Ramesh et al., 2022), ・Imagen (Saharia et al., 2022) など 既存手法の特徴: テキストプロンプトが与えられると、ガウスノイズを反復的なノイズ除去ステップを経てプロンプトに適合する 画像に変換する。 課題: 各ノイズ除去ステップの学習プロセスにおいて、同一の処理をすると、モデルがシーン内のいくつかの重要な 要素や相互作用を見逃す可能性がある。 →その結果、特定の属性を持つ複数のオブジェクトを含むテキストプロンプトに対して、属性混乱問題などのテキス トと画像の不整合のリスクに直面する。
  25. 学習段階でテキストと視覚の知識を追加し、拡散モデルのきめ細かな意味認識を強化 Knowledge-Enhanced Diffusion Model Mixture-of-Denoising-Experts (MoDE) テキスト側: (1)入力シーケンスに特別なトークンを挿入 (2)注意層で特定の品詞タグを持つトークンの重みを 増加させて学習過程を改善する。

    画像側:物体認識し、注目すべき領域に重みを付ける オリジナルのDDPMでは、タイムステップが異なっても一つのノイズ除去ネットワークを採択 ⇒タイムステップ毎にノイズ除去ネットワークを使用する。 ERNIE-ViLG 2.0モデル・アーキテクチャの説明図
  26. A green cup and a blue cell phone ERNIE-ViLG 2.0

    (提案手法) DALL-E 2 Stable Diffusion A wine glass on top of a dog 犬の上に ワイングラスが乗っている 緑のコップと 青い携帯電話 ERNIE-ViLG 2.0 と DALL-E 2/Stable Diffusion の ViLG-300 における定性的な比較例 ViLG-300は、DrawBench (Saharia et al, 2022) (英語)とERNIE-ViLG (Zhang et al, 2021b) (中国語)で使用したプロンプトセットからなる 16カテゴリー300のプロンプトを含んでいる。これらのプロンプトを手翻訳・校正して、最終的に中英並列セットを実現しました
  27. 9.一つの会場、二つの会議。中国とアメリカの引用ネットワークの分離 (原文: One Venue, Two Conferences: The Separation of Chinese

    and American Citation Networks) https://arxiv.org/abs/2211.12424v1 NeurIPSでは、アメリカと中国の研究機関が互いの地域の論文を引用する割合は、内輪で引用する割合よりも大幅に 少ない。私たちは、この格差を定量化するために引用グラフを作成し、ヨーロッパの連結性と比較し、その原因と結 果について議論しています。 目的:米中の研究機関のそれぞれの論文引用数とその出典元の格差の原因と結果を議論する。 成果:米欧中それぞれの論文出典元の格差の原因について議論した 方法:米欧中での論文引用数とその出典元の格差のグラフを作成する 固有名:ー 著者所属:University of Edinburgh, Allen Institute of A.I., Brown University, New York University
  28. 10.対照的な復号化。最適化としての自由形式テキスト生成 (原文: Contrastive Decoding: Open-ended Text Generation as Optimization) https://arxiv.org/abs/2210.15097v1

    尤度は学習損失としては有用であるが、言語モデル(LM)からオープンエンドな生成を導くには不十分な探索目的で ある。既存の生成アルゴリズムでは、支離滅裂な可能性の低い文字列と、短くて反復的な可能性の高い文字列の両方 を避けなければならない。我々は、より信頼性の高い探索目的であるコントラストデコーディング(CD)を提案する。 これは、大きな言語モデル(玄人と呼ばれる、例えばOPT-13b)と小さな言語モデル(素人と呼ばれる、例えば OPT-125m)での尤度の差を返すものである。CDは、大きなLMの失敗は小さなLMでより多く見られるという事実に 着想を得ており、この違いはまさにどちらのテキストを優先すべきかを示している。CDは学習を必要とせず、大きい 方のLMだけから復号するよりも高品質のテキストを生成します。また、モデルタイプ(OPTとGPT2)を超えて一般 化し、自動評価と人間による評価で4つの強力なデコーディングアルゴリズムを大幅に上回った。 目的:一貫性を損なわず、流暢で多様なオープンエンドテキストを生成するためのアルゴリズムを提案 成果:高品質なテキストを生成し、自動評価と人間の評価で4つの強力なアルゴリズムを大きく上回った 方法:対照的復号は異なるサイズの玄人モデル(LM)と素人モデル(LM)の対数尤度の差を最大化するトークンを検索す る。これにより高品質なテキストを生成。 固有名:ー 著者所属:ー
  29. オープンエンドテキスト生成タスクでは、明確な正解はない。与えられたプロンプトに対して流暢で一貫性のあるテキストを生 成し、ライティング支援などの下流アプリに使われる。 →一貫性を損なわず、流暢で多様なテキストを生成できる新しい探索目的である「対照的符号化(CD)」を提案する。 対照的符号化(CD) 大きな言語モデル(玄人)と小さな言語モデル(素人)を使用する。素人モデルの望ましくない振る舞いを除去し、玄人モデルの残り の良い振る舞いからテキストを生成する。 →玄人と素人の対数尤度の差を最大にするトークンを選択する 対照的符号化がうまくいく理由 ①言語モデルの多くの失敗モード(短い、反復的、支離滅裂)が大きな言語モデルよりも小さな言語モデルでより一般的だから このような出力は尤度の差をとることで強調されなくなる。

    ②玄人モデルでは素人モデルで学習されていない知識などを持つものもあり、望ましい出力に確率密度を置く傾向がある。 これらの文字列はCDによって強調される。 対数尤度 小さなモデル 大きなモデル 失敗モード He was born in Hawaii. He was born in Hawaii… He was born in Hawaii… 博識のある文 1961 to a Kenyan father, Barack Hassein Obama and a mother of American descent, Stanley Ann Dunham… 小さなモデルは誤ったデータ サンプルの影響を受けやすい →これを差し引くことで望ましくない 振る舞いを除外する ① ②
  30. 対照的符号化の設計 使用方法:以下のCDを最大化するテキストを生成する。 (1)𝑣ℎ𝑒𝑎𝑑 (𝑥<𝑖 )は閾値以上の確率を持つ尤もらしい入力に続く次のトークン集合 →この尤度制限に基づいて、玄人モデルの十分に高い確率を持たないトークンを排除する 誤検出に対応できる:𝑃𝐸𝑋𝑃 = 3 ∗

    10−9, 𝑃𝐴𝑀𝐴 = 8 ∗ 10−14などどちらも低い場合は log 𝑃𝐸𝑋𝑃 𝑃𝐴𝑀𝐴 = log 3 ∗ 10−9 8 ∗ 10−14 = 10.6 という大きな値になってしまう。したがって、 𝑃𝐸𝑋𝑃 の小さなものは排除する。 (2)残りの玄人モデルの十分に高い確率と素人モデルの差分を使い、 玄人モデルと素人モデルの確率の差が最も大きいトークンを選択する 小さなモデル 大きなモデル 𝑥: トークン列 𝑥𝑖 : 𝑖番目のトークン 𝑥<𝑖 :𝑥𝑖 より前のトークン列 閾値
  31. 実験 ・3つのドメイン(wikitext,Wikinews,story) ・2つのモデル GPT2-XL(玄人モデル)とGPT2-sm all(素人モデル) OPT-13b(玄人モデル)とOPT-125m(素人モデル) ・比較対象 4つの符号ベースライン(nucleus sampling, top-k,

    typical decoding, SimCTG) 結果 3つのドメインと2つのモデルにおいて、他の手法よりcoherence※で流暢な文章を生成した ※coherenceは、「トピックが人間にとって分かりやすいか」を表す指標 3つのドメイン