the production of fabricated, distorted, or misinterpreted memories about oneself or the world. ⾃分⾃⾝や世界について、捏造、歪曲、あるいは誤った解釈をした記憶を作り出す,記憶に関するエラー • Hallucination (Ji+’22; Survey of Hallucination in NLG) a percept, experienced by a waking individual, in the absence of an appropriate stimulus from the extracorporeal world ⽬覚めている個⼈が、体外世界からの適切な刺激がないときに経験する知覚 • intrinsic hallucination ⽣成された⽂章が参照元の内容と ⽭盾している • extrinsic hallucination ⽣成された⽂章が(事実でも)参照元の内容から 事実判定ができない Confabulation or Hallucination 図2. キャプション⽣成における object hallucination 画像から 確認不可 画像とは ⽭盾する ☕
な新規サービス設計成系 LLM in Production Meetup #0 kick off (2023) https://speakerdeck.com/shunsukeono_am/llmwohuo-yong-sita-fan-zhi-gan-de- naxin-gui-sabisushe-ji-a1bc8a7f-a69f-4f60-bc93-90702c404769?slide=13 LLM in Production Meetup #0 でもチャット形式の難しさについて取り上げられた https://llm-in-production.connpass.com/event/287806/ 松本勇気⽒(株式会社 LayerX 代表取締役 CTO) toB における LLM 活⽤と UX #LLMProd LLM in Production Meetup #0 kick off (2023) https://speakerdeck.com/ymatsuwitter/llm-in-tob-service-and-its-ux?slide=14
Dev 室室⻑) ⽣成系 AI の実応⽤に向けて / イメージセンシングセミナー 2023 特別招待公演 https://speakerdeck.com/line_developers/toward-practical-applications-of-generative-ai?slide=72 LINE の対話システムの全体図
Kembhavi Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 井上直⼈⽒(CyberAgent AI Lab)- CVPR2023読み会(前編) https://speakerdeck.com/naoto0804/jie-shuo-visprog-cvpr2023-best-paper ※ 本発表では、⼿法の応⽤について紹介します ※ 重複を避けるため論⽂解説については以下を参照ください
Reasoning Without Training (CVPR) GPT-3 に few-shot の デモプログラム を与えて対象タスクのプログラムを⽣成 BMW を Audi に修正、曇り空を晴れ空に修正 ⾚い⾞を⻘い⾞に修正 ⽩い Audi をポップに彩って Nicole Kidman の顔を :p に修正して BMW を Audi に修正、曇り空を晴れ空に修正 するプログラム GPT-3 機能参照
Chain of Thoguht を上回る精度を⽰した Program of Thought (PoT) [Chen+’22] https://arxiv.org/abs/2211.12588 フィボナッチ数列における50番⽬の値 を 50 回の推論ステップによって算出 フィボナッチ数列における50番⽬の値を 8 ⾏の Python コードの実⾏により算出 ⼤規模⾔語モデルにおける CoT の問題点 • 特に⼤きな数 を扱うと算術計算の誤りが起こりやすい • 多項式や微分⽅程式のような 複雑な数式 を解くことが難しい • 反復回数が多い 場合は⾮常に⾮効率である Chain of Thought (左) と Program of Thought (右) の⽐較 self-consistency zero-shot CoT と PoT の精度⽐較
( “What is this toy?” ) answert = llm_query ( ”The real live version of {} does what in the winter?”, toy ) OK-VQA の例: The real live version of this toy does what in the winter? • 視覚タスクにおいて Codex を⽤いて、視覚処理と推論処理をプログラムとして記述する • デモベースプロンプトによる疑似コード⽣成 VisProg と異なり、 即時に実⾏可能な Python プログラムを直接⽣成することで柔軟な推論を⾏う • RefCOCO, GQA, OK-VQA, NexT-QA でゼロショット推論の有効性を実証 ViperGPT [Surís+’23] https://viper.cs.columbia.edu/ image_patch = ImagePatch ( image ) pizza_patches = image_patch.find ( “pizza” ) pizza_patches.sort ( key=lambda pizza: pizza.compute_depth ()) answer = pizza_patches[0] Image Grounding (RefCOCO) の例: pizza front
Directional Expectation Test 予測結果を変える否定表現等を追加 出⼒が変化・反転するかを確認 Behavioral Testing of NLP Models [Ribeiro+’20, ACL Best Paper] https://aclanthology.org/2020.acl-main.442/ • 分類・抽出型 NLP モデルに対して⾏動テストに基づくチェックリストを提案 Negative Template: I {否定語} {肯定的動詞} the {物事}. love, like, .. food, flight, service, .. • I canʼt say I recommend the food. • I didnʼt love the flight. didnʼt, canʻt say I, .. … negative … neutral ✅ ❌ Chicago Cicago Dallas @AmericanAir thank you we got on a different flight to ... … negative … neutral … positive ❌ ❌ ✅ @JetBlue AA45 … NewYork to Los Angeles. @JetBlue AA45 … NewYork to Los Angeles. You are brilliant. タイポ 置換 … neutral … neutral ✅ ❌ 肯定⽂を追加
Prompts) Like We Test Software / TowardsDataScience Blog https://towardsdatascience.com/testing-large-language-models-like-we-test-software-92745d28a359 以下の⽂章を要約して下さい ・半⾓数字の項番付き箇条書きで記述すること ==== Iʼm sorry man, but youʼll have to do that guidance demo without me ... Iʼm going rock climbing with our children tomorrow. • 出⼒がどうあるべきかを想定してブラックボックステスト⽤の⼊出⼒ペアを作成する • 出⼒を変化させる・変化させないような摂動を加えた⼊出⼒ペアを作成する • ⽣成内容に対するテストが難しい場合は プロパティに対するテスト を⾏う Sorry, I canʼt do the guidance demo tomorrow. • 出⼒内容の⽂字数が少なくなったか︖ • 出⼒形式は制約に従っているか︖ 情報を損なうことなく⾔い換えているか︖ → 精緻なテストが難しい → 分類器を作成して性能が妥協できるか確認 プロパティに対してはテスト可能︓
https://www.microsoft.com/en-us/research/uploads/prod/2019/01/Guidelines-for-Human-AI-Interaction-camera-ready.pdf • Google – People + AI Guidebook (2019) https://pair.withgoogle.com/guidebook/ • Apple – Human Interface Guidelines (2023) https://developer.apple.com/design/human-interface-guidelines/machine-learning • Eugene Yan (Amazon) – Patterns for Building LLM-based Systems & Products (2023) https://eugeneyan.com/writing/llm-patterns/#defensive-ux-to-anticipate--handle-errors-gracefully デザインガイドライン
We Test Software / TowardsDataScience Blog https://towardsdatascience.com/testing-large-language-models-like-we-test-software-92745d28a359 • James Murdza+’23 - Evaluating code generation agents — LangChain and CodeChain https://medium.com/@jamesmurdza/evaluating-llms-on-code-generation-langchain-and-codechain-5a804cb1e31c LLM × テスト