論文速読24

論⽂速読第⼀週⽬ 01 〜10 慶應義塾⼤学杉浦孔明研究室 M1 和⽥唯我 2024

タスク論⽂ 01 〜 04

01. FACTUAL: A Benchmark for Faithful and Consistent Textual Scene
Graph Parsing [Li+(Monash Univ.), ACL23 (Findings)] ü 概要: Visual Genome [Krishna+, IJCV17] のシーングラフは faithfulness / consistency の観点からnoisy • Faithfulness: 不完全なシーングラフ (completeness / correctness) • Consistency: ⼀貫性のないシーングラフ • (there, are, three trees) ↔ (trees, has_attribute, three) • 意味的には同じだがノードの情報および有向辺の張り⽅が異なる • ⼤抵の inconsistency は数量詞に起因 [Krishna+, IJCV17] ü 提案: ①中間表現 FACTUAL-MR ② データセット FACTUAL • ① FACTUAL-MR: Faithfulness / Consistency を向上させる中間表現 (アノテーション時使⽤) • 従来の表現: {Object, Attribute, Object} [Anderson+, ECCV16] • FACTUAL-MR: {Quantifier, Object, Verb, Preposition, Quantifier, Object} • ② データセット FACTUAL: Visual Genomeを再度アノテーション ü FACTUAL-MRに基づく40,369個のシーングラフ群 Faithfulness / Consistency 共に向上 3 中間表現 FACTUAL-MR

02. Long Range Arena: A Benchmark for Efficient Transformers [Tay+
(Google Research), ICLR21] 4 ü 概要: Subquadraticな計算量を持つEfficient Transformersの評価⽅法は確⽴されていない (当時) ü 提案: ⻑距離依存を扱う様々なタスクで構成されたベンチマークLong Range Arena • ListOps: 逆ポーランド記法により，⼊れ⼦になった数式を解く (len = 2,048) • Text: byte-levelのテキスト分類 (len = 4,096) • Retrieval: byte-levelの⽂書分類 (len = 4,000) • Image: pixel-levelの画像分類 (len = 1,024) • Pathfinder, Path-X: ⽩点同⼠が繋がっているかをpixel-levelで分類 ü コメント • Mega, S5あたりでacc. = 88.2 • Path系, Retrieval では性能がサチっている⼀⽅， SuperGLUEやImageNetでの画像分類の性能は⽐較的低い = LRAは実⽤的なタスクにおける性能との相関があまりない？ → ⻑距離依存を捉える必要のある実⽤的なタスクを取り込んだLRAの拡張とか⾯⽩いかも (len = 1,024 / 16,384) (タスクの難度はある程度恣意的に調整できる)

03. Described Object Detection: Liberating Object Detection with Flexible Expressions
[Xie(Tongji Univ.)+, NeurIPS23] 5 ü 背景: OVD (open vocab. detection)とRECには問題あり • OVD: 既存データセットは短いカテゴリ名で構成 → モデルは⻑く複雑な⽂に対処できず • REC: ターゲットは⼀つのみ + ターゲットが必ず画像内に含まれるという仮定 ü 提案: Description Detection Dataset (D3) / Described Object Detection (DOD) • Open vocab. 且つ⻑く複雑な⽂で構成された物体検出タスク • Absence expressionを含む (例: without a safety helmet) • 24,282 ⽂の物体説明⽂および10,578 枚の画像により構成 ü コメント • 半⾃動アノテーションが参考になる (CLIP / quality check…) アノテーションプロセス

04. SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language
Models [Manakul(Cambridge Univ.)+, EMNLP23] 6 ü 背景: LLMのhallucination検出は重要だが，Black-box LLM (GPT-3)に適⽤できるものは存在しない • 既存⼿法の多くが，尤度等を⽤いるGray-boxなhallucination検出⼿法 ü 提案: SelfCheckGPT / WikiBio GPT-3 dataset • 仮説: 学習した“事実”を出⼒しているなら同クエリに対する複数の出⼒ 𝑆! !"# $ の類似度は⾼い • 逆にhallucinationが起きているならば，出⼒ 𝑆! !"# $ は多様になり類似度が下がるはず • BERTScore等により⽂同⼠の類似度を計測し，hallucinationを検出 ü データセット: WikiBio GPT-3 dataset • WikiBio datasetをベースに，GPT-3 (text-davinci-003) の出⼒で構成 • Major Inaccurate, Minor Inaccurate, Accurateの三種のラベルが付与統計情報コメント: long captionの評価に使える？少し微妙かも

⼿法論⽂ 05 〜 08

05. Mamba: Linear-Time Sequence Modeling with Selective State Spaces [Gu(CMU)+,
2024] (ICLR24 Decision Pending …) 8 ü 背景: Transformerは強⼒だがquadraticな計算量が掛かる⼀⽅，SSMは⾼速だが性能が不⼗分 • 特にSSMは，⼊⼒に応じて動的にデータを選択する能⼒ (selection mechanism)が不⼗分 ü 提案: Mamba / S6 • Mamba: H3とGated MLPを組み合わせたモデル構造 • RNNとゲート機構の相性の良さから着想 • (理論的な保証もアリ) • S6 (SSM + Selection) • ⼊⼒に対してstaticなパラメタをdynamicに ü 結果 • 様々なベンチマークにて既存⼿法を上回る結果コメント: Mambaかなり強い + Toeplitz⾏列で書き下せるはずなので，アーキテクチャの探索し甲斐がある

06. It's Raw! Audio Generation with State-Space Models [Goel(Stanford Univ.)+,
PMLR22] 9 ü 背景: ⾳声のモデリングは性能を犠牲にして計算量を下げている • ⾼速かつ⾼性能な⾳声モデリングの必要性 → SSM (特にS4 / S4D) が有望視 • 提案: SaShiMi • S4 [Gu+, ICLR22]をベースにしたマルチスケールなアーキテクチャ • SSMベースにより⻑距離依存を捉え，autoregressive / non-autoregressiveともに⾼速に動作 • Autoregressive時におけるSSMの⼯夫 • S4DにおけるDPLR化において状態⾏列をHurwitz⾏列にすると性能が向上することを確認 • ⾳声合成タスクにおいてSOTAの結果 Dataset: Beethoven (NLL = negative log-likelihood) コメント: SSMでもU-Net型が強いこと，HurwitzがARに有効なことは良い学びになった

07. Recipe for a General, Powerful, Scalable Graph Transformer [Rampášek(Montréal
Univ.)+, NeurIPS22] 10 ü 背景: Graph Transformer (GT)は強⼒だが，アーキテクチャの探索に関する研究は不⼗分 ü 提案: GTを効果的かつ効率的に扱うフレームワークGPS / 𝑂 𝑁 + 𝐸 の計算量で動作 ü ⼤きく４フェーズに⼤別 • PE • ノードの位置情報を埋め込む • Random-walkに基づく Local PE • ラプラシアン⾏列の固有ベクトルに基づく Global PE • SE • グラフの構造情報を埋め込む • PE同様 Local SE / Global SE • Graph features • Nodes, Global, Edge 特徴からグラフ特徴量を抽出 • GPS Layers • Message-Passing型のGNNおよび Transformerを⽤いて予測コメント: ホントはコレをM1研究に適⽤する予定だったが，実装時間がなかった… (涙)

08. Accelerating Toeplitz Neural Network with Constant-time Inference Complexity [Qin(Shanghai
AI Lab.)+, EMNLP23] 11 ü 背景: Toeplitz Neural Networks (TNN) の推論速度は𝑂 𝑛𝑑 log 𝑛 / SSMの推論速度は𝑂 𝑑ℎ • TNNをSSMに変換することで，推論速度を⾼速化できないか？ • 提案⼿法: ETSC (Exact Toeplitz-to-SSM Conversion) 1. Toeplitz Neural NetworksをSSMに変換 2. 閉形式で記述 3. DFTで効率的に解く(DFTはユニタリ⾏列なので効率が良い) • 実験結果: 100万倍⾼速コメント: TNNとSSMの橋渡しをしているので，この辺り研究に取り込めると嬉しい. 数式等の論⽂の詳細は今週の輪講で.

動作確認 • 09. Toeplitz Neural Network for Sequence Modeling •
10. Simplified State Space Layers for Sequence Modeling

09. Toeplitz Neural Network for Sequence Modeling [Qin(Shanghai AI Lab.)+,
ICLR23] 13 ü 背景: Transformerは系列⻑に対してquadraticな計算量が掛かる • Transformerの２つの特性 • ① 任意の⼆点におけるトークン同⼠の関係を学習 • ② Positional Encodingにより位置情報を学習 • Attentionには様々な種類が存在 (c.f., Linear Attention) • ①は常に満たされているわけではない (計算コストとのtrade-off) • ⼀⽅で，どのバリエーションのAttentionでも②は常に満⾜ • 提案: Topelitz Neural Network (TNN) • トークンの内容ではなく相対的な位置情報に焦点を当てたアーキテクチャ • Topelitz⾏列により計算量の少ないモデリングを実現 Best Second Best

09. Toeplitz Neural Network for Sequence Modeling [Qin(Shanghai AI Lab.)+,
ICLR23] 14 • データセット: Wiki-Text 103K / batch size: 28 • Epoch: 21 (50,000 updates) / 学習時間: 16時間 / VRAM: 19.8 GB • test perplexity: 24.44 論⽂値 23.98 コメント: • CUDAゴニョゴニョSSMと違い，割合簡単に動作した • Test PPLが若⼲論⽂値よりも⾼く出てしまう • 16時間でここまで学習できるのは確かに早いかも

10. Simplified State Space Layers for Sequence Modeling [Smith(Stanford Univ.)+,
ICLR23] 15 ü 背景: S4はSISOであるため⾮効率 → MIMO且つ⾼性能なSSMモデルが有望 • SISO: single-input, single-output • MIMO: multi-input, multi-output ü 提案: S5 ü 結合則を満たす任意の演算・における累積和は，CUDAのparallel scanにより⾼速に計算可 ü LSSL [Gu+, NeurIPS21] で⽰されたように，SSMは畳み込みの形で書けるので，parallel scan で累積和を計算し，⾼速にSSMを計算 Path-XにおいてSOTAの結果

10. Simplified State Space Layers for Sequence Modeling [Smith(Stanford Univ.)+,
ICLR23] 16 • データセット: LRA (Path-X) / batch size: 16 • Epoch: 57 / 学習時間: 27時間 / VRAM: 19.9 GB • test acc. : 0.50 <<< 論⽂値 0.99 コメント: • ライブラリ関係で動かすのに時間かかった • jax==0.4.13 • jaxlib==0.4.13+cuda11.cudnn86 • flax==0.7.0 • 明らかにチャンスレートに収束していて，上⼿く学習できていない…？ • 再現を頑張ったものの，原因もよく分からず断念…

タスク論⽂ 11 〜 14

11. DEMETR: Diagnosing Evaluation Metrics for Translation [Karpinska(UMass Amherst)+, EMNLP22]
18 ü 背景: ⽣成テキストの評価において，BLEUはwhite-boxである⼀⽅，COMETやBLEURTはblack-box • Learning-based metricsの挙動を検証するためのデータセットを提案 ü 提案: DEMETR データセット • ルールベースのPerturbationにより単語を置換 / 挿⼊ / 削除した31Kの翻訳⽂により構成 ü 実験: 各metricsのsensitivityを測定 • BERTScore: critical errorよりもminor errorに敏感 • COMET: 単語のshuffleには敏感だが，minor errorを無視 sensitivityの計算⽅法コメント: COMET-baseのPolosを改善・拡張するにあたって，DEMETRを参考にした挙動の解析は有益

12. Fine-grained Hallucination Detection and Editing for Language Models [Mishra(Univ.
of Washington)+, 2024] 19 ü 背景: 既存のhallucination detectionタスクは⼆値分類 → fine-grainedなdetectionタスクの必要性 • Automatic Fine-grained Hallucination Detectionタスクを提案 • 以下の6種のhallucinationを含む • Entity / Relation / Contradictory • Inverted / Subjective / Unverifiable ü 提案: FaVA / FaVA-Data データセット • GPT-4 / Llama2-Chat 70B によりエラーを挿⼊ • Training data (訓練⽤) • 35,074個の (error-input, corrected-output) • Annotation data (検証⽤) • Fine-grained hallucinationを含む364⽂コメント: hallucinationを細分化できるので，透明性の⾼いMLLM 評価につながる可能性

13. Visual Instruction Tuning [Liu(Univ. of Wisconsin–Madison)+, NeurIPS23] 20 ü
提案: Multimodal LLM (MLLM) を評価するベンチマークとしてLLaVa-Benchを提案 • 画像・instructions・GPT-4を⽤いて⽣成されたアノテーション (GT) により構成 • Response type: 三種類の質問を想定 • Conversation (QA) / Detailed description / Complex reasoning ü LLaVA-Bench: COCO等より抽出した54枚の画像・150個のQA • GPT-4を⽤いてMLLMが⽣成したResponseを評価評価⽤プロンプトコメント: GPT-4により単⼀の評価値に写像するのは流⽯に微妙・データ数も少ないので改善の余地あり

14. SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension [Li(Tencent AI)+,
2023] 21 ü 提案: MLLMを包括的に評価するベンチマークSEED-Bench • 12種の多肢選択タスクによる19KのQAにて構成 • 既存ベンチマークの6倍のアノテーション (GPT-4で⽣成→⼈間によりフィルタリング) • 18個のモデルを実際に評価 (LLaVA, Vicuna, MiniGPT-4, BLIP2 … etc) コメント: MLLM評価系論⽂では選択形式のタスクが多い印象．選択形式だとtext generationの⽂脈から外れてしまうので，Image Captioningタスクでの評価ベンチマークの提案は有益

⼿法論⽂ 15 〜 18

15. INSTRUCTSCORE: Explainable Text Generation Evaluation with Fine-grained Feedback [Xu(Univ.
of California)+, EMNLP23] 23 ü 背景: COMET等の学習可能なmetricsは⼈間と⾼い相関を⽰す⼀⽅，説明性が不⼗分 • 評価と共にFine-grainedな説明を出⼒する⾃動評価尺度INSTRUCTSCOREを提案 ü 提案: INSTRUCTSCORE • LLaMAをベースとした⾃動評価尺度 (Error count / type / major or minor / explanationを出⼒) • 「最も適切な説明を⼈間が選択 → LLaMAをfine-tune」を繰り返す (Meta-Feedback) • スコアは右式により算出 ü 結果: COMET / BLEURTよりも⾼い相関コメント: 説明性 → multiple perspectiveと関連が深い．INSTRUCTSCORE をベースにlong captionを評価できる⾃動評価尺度が構築できないか？

16. FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [Min(Univ. of Washington)+, EMNLP23] 24 ü 背景: LLMにより⽣成されたlong textのfactualityを評価することはchallenging • Long textをAtomic factに分割し，atomic factを評価する評価⽅法FACTSCOREを提案 • factuality を”普遍的な正しさ” として捉える既存研究に対して，「特定のソースに基づいているか否か」を factuality と定義 ü 提案: FACTSCORE 1. LLM ℳ の出⼒をInstruct GPTによりautomic factsに分割 2. 特定のソース 𝒞 に基づいている割合を計算 ü 実験 • ChatGPT等によりFACTSCOREを推定 • Error Rate (GTのFACTSCOREとの誤差) により種々のFACTSCOREを⽐較 • ER < 2% で FACTSCOREを推定できることを確認コメント: long textをatomicに分割したい気持ちは分かる． DenseCap・VGに対するfactualityを使ってimage captioningの評価ベンチマークとして拡張できないか？ FACTSCOREの推定⽅法

17. PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning [Kim(Seoul
National Univ.)+, EMNLP23 (Findings)] 25 ü 背景: Image captioningにおける既存の⾃動評価尺度はLexical perturbationに頑健でない • CLIPScoreを拡張し，Perturbationに頑健な評価尺度PR-MCSを提案 • Perturbation = Substitution / Repetition / Masking … ü 提案: PR-MCS • 多⾔語に対応したreference-freeな⾃動評価評価 • Perturbed captionsによりCLIPをfinetune • (Pertubed captionsを含むM-FineCapEvalデータセットを構築) ü 結果: CLIP-Sよりもperturbationに頑健な結果コメント: fluencyの問題？ multiple perspectiveでの評価にして，fluencyに対するペナルティを重くして学習すれば，Polosでも頑健な結果が得られるはず． 𝑠!"##$!% > s&$#%'#($) の割合

18. SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic Mistakes
[Xu(ByteDance)+, ACL23] 26 ü 背景: ⼈間による評価を使わずに学習可能な⾃動評価尺度が構築できれば有益 • Self-supervised に学習できる⾃動評価尺度SEScore2を提案 • 既存⼿法における負例の作成⽅法 (トークンの挿⼊・削除) では，意味的・構⽂的に正しいサンプルが得られないため⼯夫が必要 ü 提案: SEScore2 1. 埋め込み空間における近傍からランダムにサンプリング 2. レーベンシュタイン距離を元にperturbation候補を作成 3. (確率的に)ランダムに単語を削除 → perturbation候補に格納 4. 先⾏研究に倣い，得られたperturbation候補から5つを選択し，perturbationを適⽤ 5. Perturbated textに対して尤度を計算→⾃動的に評価値を付与し，SSLによって評価尺度を学習 ü 結果: コメント: SSLでCOMET等に勝っているので Polosの補強？に使えそう

動作確認 • 19. VMamba: Visual State Space Model • 20.
DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models

19. VMamba: Visual State Space Model [Liu(UCAS)+, 2024] 28 ü
背景: ⾼効率なSSMを⽤いた画像認識モデルが有望視されている • SSMに基づくMambaを⽤いたVMambaを提案 ü 提案: VMamba (Visual Mamba) • S6ではそれまでの⼊⼒に応じて動的に重みを変更するため(selective)，受容野が限定される → 受容野を拡張するため，S4D等では畳み込みを⾏うが，selectiveな性質が失われる問題 → Cross-Scanを導⼊し，selectiveな性質を保ちつつ受容野を拡張 • top-left to bottom-right, bottom-right to top-left, top-right to bottom-left, and bottom-left to top-right • 結果: 画像分類・物体検出・Segmentationタスクにおいて，既存⼿法 (e.g., Swin)とcompetitiveな結果

19. VMamba: Visual State Space Model [Liu(UCAS)+, 2024] 29 •
モデル: VMamba-T / データセット: COCO 2017 (物体検出) • 学習時間: 81時間 / VRAM: 22.1 GB • box mAP: 45.3 ≈ 論⽂値 46.5 コメント: • 論⽂値に近い値が再現できた • MambaによってSSMがかなり浸透してきた感がありますね

20. DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models
[Gong(Shanghai AI Lab.)+, ICLR23] 30 ü 背景: 離散的な性質を持つ⾃然⾔語における拡散モデルの研究は不⼗分 ü 提案: DiffuSeq • Embedding function [Li+, NeurIPS22] により離散的なトークン 𝑤 を連続的なトークン EMB(𝑤) に変換 • Source 𝑥, Target 𝑦 に基づき 𝑧 = 𝑥 ⊕ 𝑦 に対して partial noising を⾏う • 従来の拡散モデルと異なり， 𝑦 にのみノイズを注⼊ • iterative non-autoregressive (iter-NAR)を以下のように定式化 ü 結果: ⼀部のタスクで Transformer / GPT-2を上回る

20. DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models
[Gong(Shanghai AI Lab.)+, ICLR23] 31 • データセット: Quasar-T (Question Generation) / batch size: 512 • diff_steps 2000 / learning_steps 40000 / 学習時間: 22時間 / VRAM: 22.1 GB • Score: 0.5023 <<< 論⽂値 0.8126 コメント: • Lossはかなり下がるので学習はできているが，流⽯にloss曲線的に時間掛かると予想し，途中で停⽌ • DiffuSeq2でやれば800倍速く学習されるらしい (EMNLP23マイベスト紹介)

タスク論⽂ 21 〜 24

21. MMBench: Is Your Multi-modal Model an All-around Player? [Liu(Shanghai
AI Lab.)+, 2023] 33 ü 背景: MLLMを包括的に評価できるベンチマークは少ない • fine-grainedな能⼒を評価が可能で，LLMの持つバイアスに対し頑健なベンチマークが望まれる • ⼀般的なQAの評価⽅法には様々な問題 • チャンスレートが25% / 特定の選択肢を予測するバイアス (Aだけ過剰に選択してしまうなど) → 新たな評価⽅法としてCircularEvalを提案 ü 提案①: MMBench • 統計: 3000個のQA / 20種のタスク (e.g., object localization, reasoning …) • タスク: {Coarse, Fine-grained} Perception / Reasoning • 提案②: CircularEval • 特定の選択肢への偏りを防ぐため，選択肢を⼊れ替えたQAを解かせる (list[n:] + list[:n]) → LLMの持つバイアスに対する頑健性を向上コメント: ICLR24 Reject → 査読が勉強になる (g871など) ベンチマークを提案する上での注意点 (offence) が書いてある． Rejectされたものの，MLLM系論⽂で良く⾒る + 引⽤数は結構ある．

22. Evaluating Large Language Models on Controlled Generation Tasks [Sun(Univ.
of Southern California)+, EMNLP23] 34 ü 背景: LLMの性能を調べる研究は多いが，LLMのcontrollabilityを調べる研究は少ない • Controllability = 何らかの制約を課すよう指⽰した際，LLMがその制約をどの程度遵守するか • 数値に関するLLMのcontrollabilityを評価するNPB ベンチマークを提案 ü 提案: NPB (Numerical planning benchmark) • 出⼒に関して数的制限を与えるようプロンプトを設計コメント: MLLMに{brief, short} descriptionを出⼒するよう指⽰しても，⻑⽂で返ってくることが多い． → 条件付けを⾏うImage captioningはどのようなものがあるか？

23. Aligning Large Multimodal Models with Factually Augmented RLHF [Sun(UC
Berkeley)+, 2023] 35 ü 背景: Hallucinationを評価するベンチマーク・⼿法は⼆値分類を想定していることが多い (POPE / CHAIR) • ⽂単位でHallucinationを評価できるベンチマーク MMHAL-BENCH を提案 ü 提案: MMHAL-BENCH • Hallucinationを含む96個のimage-question pairs • 右に⽰す8カテゴリのVQAで構成 • GPT-4によりHallucinationの有無を評価コメント: FAVAと同様，hallucinationの細分化の参考になる．コレを使えば fine-grained なhallucination detectorが作れるはず．データを⾒た感じ，(fine-grainedな)ラベルは付与されていないので⼯夫が必要．またGPT-4による評価にはLLaVA-Bench同様，問題有り． 1. Object attribute 2. Adversarial object 3. Comparison 4. Counting 5. Spatial relation 6. Environment 7. Holistic description 8. Others MMHAL-BENCH の⼀例

24. Visual Genome: Connecting language and vision using crowdsourced dense
image annotations [Krishna(Stanford Univ.)+, IJCV17] 36 ü 提案: Visual Genome データセット • Images: 108K • Region Descriptions: 5.4 M • Object Instances: 3.8M • Attributes: 2.8M • Relationships: 2.3M ü 関連: DenseCap [Johnson+, CVPR16] • label densityを⾼めたタスクとしてdetectionが，label complexityを⾼めたタスクとしてcaptionin が提案されているが，その⼆者を統合したタスクは存在しない (当時) • Bounding Box単位でのcaptioningを要請するDenseCaptioningタスクを提案 ü コメント • 画像を⼊⼒とする⾃動評価尺度について • ⼊⼒画像との接地・画像理解において，⾃動評価尺度の内部でhallucination (?) が起きてしまう可能性 • Factとして，画像以外にも，信頼性の⾼い⽂(⼈間によって付与された⽂)に基づき評価することは重要 → MLLM評価ベンチマーク構築において，denseに付与されたVGのキャプションは有益 (MLLMの学習にVGが含まれていないかだけ要確認 [Sun+, 23]) [Johnson+, CVPR16]

⼿法論⽂ 25 〜 28

25. Evaluating Object Hallucination in Large Vision-Language Models [Li(Renmin Univ.)+,
EMNLP23] 38 ü 背景: 既存のMLLMはhallucinationを含むテキストを⽣成する問題あり • ⽂全体からhallucinationを特定するCHAIR [Rohrbach+, ACL18] には問題あり • 例: Instructionの設計や⽣成された⽂の⻑さによって評価値が不安定に → 各オブジェクトの⼆値分類タスクを解くことでMLLMのhallucinationを検証 ü 提案: POPE (Polling-based Object Probing Evaluation) • 抽出したオブジェクト各々に対してQAを解かせるコメント: SEEMを使ってオブジェクトを抽出するのは有益．ただしPOPEだとRelation等のhallucinationには対応できない．また，この⽅法論だと単なるgrounding性能しか評価できないので，text generationの⽂脈における包括的な⾃動評価尺度が望まれる．

26. Graph-Mamba: Towards Long-Range Graph Sequence Modeling with Selective State
Spaces [Wang(Univ. of Toronto)+, 2024] 39 ü 背景: Graph Transformerは系列⻑に対してquadraticな計算量が掛かる → SSM / Mambaが有望 • Mambaに基づくグラフモデリング⼿法Graph-Mambaを提案 • 提案: Graph-Mamba • GPS [Rampášek, NeurIPS22]をベースにMambaをグラフに適⽤ • Node embeddingのみを Graph-Mamba Block (GMB) で処理 • Graph-Mamba Block (GMB) 1. Graph Transformerと同様，ノード特徴量を系列⽅向に配置 2. ノードの次数が⼤きい順にソート (Node prioritization) 3. 毎epoch，同次数のノード同⼠をswapしてaugmentation (Node Permutation) Graph-Mamba Block (GMB) コメント: GPS + SSMで，完全にM1研究とアイデア被っていてビックリ．Mambaが出るまでは同じことやっていて，Mamba出た瞬間そちらにシフトしたのでしょうか… 拡張するならGNN-freeにするとか．

27. Improving Image Captioning via Predicting Structured Concepts [Wang(Univ. of
Science and Technology of China)+, EMNLP23] 40 ü 背景: 既存のImage captioning モデルは画像情報から物体間の関係を⼗分に捉えきれていない • Structured semantic conceptsを活⽤したimage captioningモデルSCPを提案 ü 提案: SCP (Structured Concept Predictor) • W-GCN (weighted GCN)に基づき，物体間の関係を明⽰的にモデリング • W-GCNでは，Pointwise Mutual Information (PMI)を⽤いて構築 (初期化)されたグラフを活⽤ • 初期グラフ: 単語間のPMIを算出し，PMIが閾値を超えたものに辺を貼ったグラフ ü 結果: BLEU, … CIDEr にて SOTA⼿法を上回るコメント: グラフを扱うNLP寄り論⽂．EMNLPのMainに採択されたみたいで仰天． PMIや相互情報量はMIDでも使われるし，⾃動評価にも相性良いかも．

28. Not All Errors Are Equal: Learning Text Generation Metrics
using Stratified Error Synthesis [Xu(UC Santa Barbara)+, EMNLP22 (Findings)] 41 ü 背景: ⼈間による評価を⽤いない⾃動評価尺度があれば有益 • 機械翻訳の標準的な被験者評価スキーマMQMを元にperturbationを⾃動⽣成 → ⾃動⽣成したテキストを元に学習する⾃動評価尺度SEScoreを提案 ü 提案: SEScore • ルールベースでperturbationを作成 (左下図) • 先⾏研究 [Khobragade+, 19] に基づき，entailment likelihood 𝜌 𝑎, 𝑏 より perturbation 𝒛𝒊 のスコアを付与 • [Khobragade+, 19] : Sentence entailment とsemantic similarityは強い相関を持つ ü 結果: COMET / BLEURTよりも⾼い相関係数コメント: SEScore2と異なり，perturbationの⽣成⽅法が明確で応⽤しやすい．Fluencyに関する負例を⾃動⽣成するのに使える．(本筋から逸れるが) MQMで定義されるサブカテゴリはアノテーションの参考になる． MQM schema

動作確認 • 29. Simple Hardware-Efficient Long Convolutions for Sequence Modeling
• 30. Exphormer: Sparse Transformers for Graphs

ü 背景: SSMは特殊な初期化 (HiPPO等) や複雑な実装が必要 • 性能・効率⾯においてSSMに匹敵する，畳み込みベースのモデルがあれば便利 • Findings: SSMと通常のConv.の違いはsmoothness
ü 提案: LongConv • Responseを滑らかにするため，SQUASH / SMOOTH演算を提案 • SQUASH • SMOOTH • S4 layerをLongConvに置換するだけでSSM等にcompetitiveな結果 29. Simple Hardware-Efficient Long Convolutions for Sequence Modeling [Fu(Stanford Univ.)+, ICML23] 43 時間・周波数領域におけるresponseが S4と⽐べて滑らかでない

29. Simple Hardware-Efficient Long Convolutions for Sequence Modeling [Fu(Stanford Univ.)+,
ICML23] 44 • モデル: LongConv / データセット: LRA Path-X • 学習時間: 10.3時間 / VRAM: 9.85 GB • Test acc. 94.9 ≈ 論⽂値 96.0 コメント • 論⽂値に近い値が再現できた • SSMと異なり，ただの畳み込みなのでS4よりは断然早い • FlashButterflyが相当速度に寄与してる感じ • LongConvはTNNにも応⽤できるはず(?)

30. Exphormer: Sparse Transformers for Graphs [Shirzad(Univ. of British Columbia)+,
ICML23] 45 ü 背景: Graph Transformerは強⼒だがスケーラビリティが低く，⼤規模なグラフへの適⽤が困難 • Virtual global nodesおよびexpander graphsを導⼊したExphormerを提案 ü 提案: Exphormer (a) Local Neighborhood Attention • グラフの局所部分を捉える (b) Expander graphs • 全ノードの次数を揃えるように辺を貼る → 各ノード間の最短経路が増えるため，良い特徴を捉えることが可能 (理論保証済み) (c) Global attention • Virtual nodes (超頂点) を加えることで，”storage sink”のように機能 ü 実験: GPS [Rampášek, NeurIPS22] の TransformerをExphormerへと変更 • 種々のベンチマークにおいてGraphGPS 等よりも良好・SOTAの結果コメント: GPSのTransformerを別のモデルXに変更するのは，モデルX⾃体の評価にならないので査読的に微妙だとM1の頃は思っていたが，そうでもなさそう．グラフを扱うならGPSベース⼀択．

30. Exphormer: Sparse Transformers for Graphs [Shirzad(Univ. of British Columbia)+,
ICML23] 46 • データセット: Cifar10 / batch size: 512 • 学習時間: XX時間 / VRAM: XXX GB • Score XXXX / 論⽂値 XXX コメント: • Condaに翻弄されてなぜか動かず… • そもそもバージョンが指定されていないライブラリが無数にあったため，⼀⽇では対処できないと考え断念 • GPS⾃体は動くので，GPS以外の部分に問題？ • グラフを研究で扱うなら，もう少し時間を掛けてトライしたほうが良い…

タスク論⽂ 31 〜 34

31. Metagenomic Binning using Connectivity-constrained Variational Autoencoders [Lamurias(Aalborg Univ.)+, ICML23]
48 ü 注意: WWTPデータセット⾃体を提案した論⽂がなかったのでこちらを紹介 ü 背景: メタゲノム解析の研究が盛ん →細菌を分離せず，細菌群から個々の細菌のDNA配列を決定 ü データセット: Wastewater Treatment Plant (WWTP) • メタゲノム解析⽤の⼤量のグラフで構成 ü タスク: 混合DNA配列の断⽚を細菌ごとのクラスタに分類 • Contigsから細菌の遺伝⼦を特定するにはSingle Copy Genes (SCG)が識別できれば良い • SCG: 遺伝⼦に⼀つのみ存在するDNA配列 (全体の部分グラフを成す) • 評価: クラスタに対するAverage precision (AP), average recall (AR) および F値コメント: HyenaDNAを読んだので，なるだけ近く攻略されていないタスクを選択して読んだ．HyenaDNA と同様，グラフではなく⻑距離依存を捉える必要のある系列タスクとして解けないか？混合DNA配列の断⽚(read)が取得されるのでreadから contigs (細菌のDNA配列の断⽚)を組み⽴てる作業 (assembly) が必要 k-merでtokenizeしたのち，de Brujin グラフを作成 → contigsを特定し，最終的なグラフを構築 (de Brujinの利点) ※ k-merはk-gramとほぼ同義混合DNA配列の断⽚(read) → 細菌ごとのDNA配列の断⽚(contigs) → 細菌ごとのDNA配列

32. Open Graph Benchmark: Datasets for Machine Learning on Graphs
[Hu(Stanford Univ.)+, NeurIPS20] 49 ü 背景: ⼤規模かつ⾼品質なグラフ⽤データセットは存在しない (当時) • ASTや分⼦グラフを含む⼤規模かつ多様なベンチマークOpen Graph Benchmark (OGB)を提案 • 提案: Open Graph Benchmark (OGB) • Nature / Society / Information の三種のドメインに関するグラフで構成 • ogbg-code: ソースコードの抽象構⽂⽊ (AST) からmethod名を予測するタスクコメント: 多数タスクを提案した中で⾃然⾔語に近いogbg-codeをチョイス．GPT-4だとそこそこ解けてしまいそう．ただ，論⽂中では系列ではなくグラフの⽅がよりrichであると書いてあったので，⼀度GPT-4で評価してみたい． ogbg-code

33. ProteinShake Building datasets and benchmarks for deep learning on
protein structures [Kucera(ETH Zürich)+, NeurIPS23] 50 ü 背景: ⽣物学的データは⼤量にあるにも拘らず，学習を簡便にするデータセット構築パイプラインは存在しない • タンパク質関連のデータセットおよびデータ構築を簡易化するライブラリ ProteinShakeを提案 ü 提案: ProteinShake • グラフ形式およびアミノ酸配列で記述したタンパク質データを提供．以下の7種のタスクで構成．コメント: 本来アミノ酸配列であるものをグラフ問題に帰着して解いているので，HyenaDNA同様，アミノ酸配列のまま解けると新規性が⽣まれる．今のところleader boardは殆ど埋まっていないので，ブルーオーシャン．実際にコードを回して確認した所， EnzymeClassTaskの平均⻑は305.14 PPI (protein-protein interfaces)の平均⻑は234.70

34. OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs
[Hu(Stanford Univ.)+, NeurIPS21] 51 ü 背景: OGBは強⼒なベンチマークを提供しているが，規模については不⼗分 • OGBと⽐較して⼤規模なグラフで構成されたOGB-LSCを提案 • 三種のデータセットを提案: MAG240M, WikiKG90M, PCQM4M ü PCQM4M: HOMO-LUMO energy gapの推定 / SMILESを提供 • 分⼦特性を特定する旧来の⼿法は⾮常にtime-consuming (⼩さな分⼦でも数時間) • タスク: DNNによるHOMO-LUMO energy gapの推定 (MAEで評価) コメント: HOMO-LUMO energy gapを推定する旧来の⼿法は時間が掛かるので，計算量削減系の⼿法と相性が良い．ただし，系列⻑がネックなわけではないので，GNNベースの⽅が有効？ GINでもMAE 0.15程度

⼿法論⽂ 35 〜 38

35. HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
[Nguyen(Stanford Univ.)+, NeurIPS23 (Spotlight)] 53 ü 背景: 既存のDNA解析⼿法はk-mersに依存しており，特にTransformersベースモデルの⼊⼒系列は4K程度 (⼈間の遺伝⼦配列⻑の 0.001% 未満) → ⻑距離依存を捉える上で⽋陥的な制約 • Hyena [Poli+, ICML23]に基づき，DNAの全系列を直接扱うHyenaDNAを提案 ü 提案: HyenaDNA • K-mersで分割したDNAを{系列, グラフ}として解く既存⼿法と異なり，全系列をそのまま⼊⼒ • ⼤筋はHyenaと同様．下流タスクを解くためTuneable Soft Prompt Tokensを導⼊． ü 結果: 種々のベンチマークにおいてSOTAの結果コメント: 本来k-mers からグラフ構造を取り出して解こうとする所を，グラフではなく全系列を⼊⼒とするアプローチは適⽤範囲が広く有益．本質的にグラフを成すタスクを，⻑距離依存を捉える系列タスクとして解けないか？⼊⼒ 𝑥 から得た対⾓⾏列フィルタ ℎ によるTopelitz⾏列

36. Transformers Meet Directed Graphs [Geisler(Technical Univ. of Munich)+,ICML23] 54
ü 背景: 無向グラフへのTransformerの有効性は確認されたが，有向グラフに関する研究は不⼗分 • ⽅向を考慮したMagnetic LaplacianベースのPE, および新たなrandom walkベースのPEを提案 ü 提案①: Magnetic LaplacianベースのPE • Magnetic Laplacianの固有ベクトル (Γ ∈ ℂ" × " ) を元に位置を埋め込む ü 提案②: 有向グラフに有効なRandom walkベースのPE • K-random walk 𝑇$ では⽅向が考慮されないため，逆⽅向の遷移⾏列 𝑅$ を加えることで，⽅向を考慮した位置埋め込みを実現コメント: AR的な要素が絡んでくるグラフタスクは有向グラフに関連が深いと考えられる．本提案⼿法を組み込んだSSM / TNNが考えられないか？通常のLaplacian Magnetic Laplacian Magnetic LaplacianベースのPEが良好な結果

37. MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal
Adapter [Liu(National Univ. of Singapore)+, EMNLP23] 55 ü 背景: ⽣物学や医薬分野におけるLMの有⽤性は検証されているが，殆どの研究は系列データしか扱わない → 2次元のトポロジーを考慮したLMが実現すれば便利 ü 提案: MolCA (Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter) • 分⼦のグラフおよびSMILESを⼊⼒とし，様々な下流タスクを解く • 右図のような3ステップにより学習 (1D LM → 対照学習 → fine-tuning) • Graph EncoderにはGINEを使⽤・BLIP-2同様，Q-Former型でLMを学習 ü 結果: Molecule Captioning にてSOTA コメント: グラフかつ分⼦を扱うEMNLP論⽂として選択．テキストさえ⽣成できればNLP論⽂のテイを成せるので，グラフタスクを解きつつ，説明を⾃然⾔語で出⼒させるなどしてNLP論⽂として受け⼊れられるマルチモーダル⼿法を提案できないか？

38. Retentive Network: A Successor to Transformer for Large Language
Models [Sun(Microsoft Research)+, 2023] 56 ü 背景: low-cost inference / strong performance / training parallelism を満たすモデルは存在せず • これら全てを満たすLLMの学習に特化したモデルRetNetを提案 • Parallel / Recurrent / Chunkwise recurrent の三種の表現が可能 • 提案: RetNet • Parallel: 並列化による⾼速な学習を可能に • Recurrent: 𝑂 1 での推論を可能に • Chunkwise reccurent: 線形時間により⻑距離依存を捉えることが可能にコメント: LLM以外にどのようなシナリオだとRetNetが強いのか？TNNがSSMへ変換できるように，TNNをRetNetに変形できないか？ (余談)査読ではベースラインが弱いのではないかと指摘されていた．

動作確認 • 39. Hyena Hierarchy: Towards Larger Convolutional Language Models
• 40. A Generalization of ViT/MLP-Mixer to Graphs

39. Hyena Hierarchy: Towards Larger Convolutional Language Models [Poli(Stanford Univ.)+,
ICLR23] 58 ü 背景: Transformerは強⼒だが系列⻑に対してquadraticな計算量が掛かる．⼀⽅Efficient Transformer は計算量を改善するものの性能が不⼗分 ü Hyena: Attention-free且つSSMベースのH3やGSSを⼀般化したモデル • H3を⼀般化 + ⻑い畳み込みフィルタによってAttentionを代替 • Hyena MatricesとHyena Filtersによって構成 • Toeplitz⾏列と対⾓⾏列を𝑁 回乗算 (H3では 𝑁 = 2) コメント: HyenaはToeplitzと対⾓⾏列の積で記述される．Topelitzは恣意的に決めたフィルタに依存しているので，TNNに置換した⽅が良好な結果が得られると推測． Slackに投げた通り，TNNに D を乗算しselectiveなmechanismを獲得したMamba-likeなモデルを考えている． 58 ※ 計算量: 𝑂(𝑁𝐷𝐿(log! 𝐿 + 𝐷)) Wikitext103のPPLにおいて既存⼿法よりも良好な結果

39. Hyena Hierarchy: Towards Larger Convolutional Language Models [Poli(Stanford Univ.)+,
ICLR23] 59 • モデル: Hyena-Tiny / データセット: The Pile • 学習時間: 23時間 / VRAM: 23.56 GB コメント • デスクトップで動くように層数を変えたので論⽂値は再現できなかったが，正しく動作はできている． • ⼀旦23時間で動作停⽌させた • 元コードが⾊々とバグを踏んでいる？ようで，以下のようにコードを改変 • https://github.com/HazyResearch/safari/iss ues/26

40. A Generalization of ViT/MLP-Mixer to Graphs[He(Univ. of Singapore)+, ICML23]
60 ü 背景: GNNは表現⼒が低く⻑距離依存を捉えきれない⼀⽅，TransformerはGNNよりも⾼い表現⼒を持つものの計算コストが⾼い • MLP-Mixerをグラフ⼀般に適⽤したGraph MLP-Mixerを提案 • 提案: Graph MLP-Mixer • 線形時間で⾼い表現⼒を実現し，⻑距離依存を捉えることが可能 • METISアルゴリズムと {token, channel}-mixing にてGNNを拡張コメント: 流⽯にMETISで分割する点には改善の余地があると思う．提案⼿法はGNNに依存しているので，GPSが使えるはず． 3 6 7 8 9 1 2 3 4 8 5 6 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 3 4 5 6 7 10 12 METIS Graph Partitioning 1-Hop Overlapping Patch Extraction Graph Encoder (GNN) Patch Embedding Global Average Pooling Fully Connected (Generate P new patches at each epoch) 1 2 3 4 5 6 7 8 9 10 11 12 Node PE Fuse Token & Channel Information Mixer Layers Patch PE Graph Embedding クラスタ 𝒱!, 𝒱" のカットサイズを計算 𝒱! − 𝒱" 間のエッジの数を計算 (𝐴 ∶ 隣接⾏列) 各パッチ提案⼿法がGNNの性能を向上させることを確認

40. A Generalization of ViT/MLP-Mixer to Graphs[He(Univ. of Singapore)+, ICML23]
61 • データセット: Cifar10 / batch size: 128 • Epoch: 200 / 学習時間: 53分 / VRAM: 8.78 GB • Acc. = 0.6758 / 論⽂値 0.6833 ± 0.0022 コメント: • Condaに翻弄されたが無事動作確認できた • 想像以上に軽くて仰天 • VRAM 8GBで53分はTransformer系だと成し得ない所業

論文速読24

論文速読24

More Decks by Yuiga Wada (和田唯我)

Other Decks in Technology

Featured

Transcript