Greshake+‘23 - More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models https://arxiv.org/abs/2302.12173 • Turovsky+’23 - Framework for evaluating Generative AI use cases https://www.linkedin.com/pulse/framework-evaluating-generative-ai-use-cases-barak-turovsky • STORIA法律事務所+’23 - ⼤規模⾔語モデル(LLM)に関連するビジネスを展開する際に留意すべき法規制・知的財産権・契約 https://storialaw.jp/blog/9239
• ロボットから褒められた⼈間は他の⼈を褒めるようになる • Higashino+’23, International Journal of Social Robotics Is Politeness Better than Impoliteness? Comparisons of Robot's Encouragement Effects Toward Performance, Moods, and Propagation https://link.springer.com/article/10.1007/s12369-023-00971-9 ☕ conviviality に向けて / 感情に影響を与える話 インターフェースが⼦供の姿をしてると ⼤半の⼈は強い⼝調であたれなくなる
Chain of Thoguht を上回る精度を⽰した Program of Thought (PoT) [Chen+’22] https://arxiv.org/abs/2211.12588 フィボナッチ数列における50番⽬の値 を 50 回の推論ステップによって算出 フィボナッチ数列における50番⽬の値を 8 ⾏の Python コードの実⾏により算出 ⼤規模⾔語モデルにおける CoT の問題点 • 特に⼤きな数 を扱うと算術計算の誤りが起こりやすい • 多項式や微分⽅程式のような 複雑な数式 を解くことが難しい • 反復回数が多い 場合は⾮常に⾮効率である Chain of Thought (左) と Program of Thought (右) の⽐較 self-consistency zero-shot CoT と PoT の精度⽐較
推論時は <API> トークンが出⼒されるとデコードを⼀時的に中断し API を実⾏する • 動的・連鎖的な API の呼び出しができない ToolFormer [Schick+’23] 質問応答におけるデータセットの作成⽅法 <API> 出⼒確率による API 呼び出し位置推定 API を呼び出すための 質問候補の出⼒ 実⾏結果フィルタリング 元の⽂章に API 実⾏と結果を挿⼊ 質問応答の評価結果 質問応答 システム 計算機 機械翻訳 Wikipedia 検索 モデル規模が⼤きいほど適切な API を呼び出す