Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NIKKEI Tech Talk#38

Avatar for cipepser cipepser
October 23, 2025

NIKKEI Tech Talk#38

Avatar for cipepser

cipepser

October 23, 2025
Tweet

More Decks by cipepser

Other Decks in Programming

Transcript

  1. 2 Confidential © 2025 LayerX Inc. 自己紹介 • 恩田壮恭(おんだまさのり) ◦

    cipepser/cipe(さいぺ) • LayerX Ai Workforce事業部 • これまで ◦ 新卒で大手証券系SIerでネットワークエンジニア ◦ 暗号資産分野で新規事業立ち上げ ◦ TEEやPrivacyTechなど、技術を軸にした新規プロ ダクトの開発(LayerX歴5年半) • 現在 ◦ FDE(Forward Deployed Engineer)
  2. 4 Confidential © 2025 LayerX Inc. 出典: 3M. (2024). 3M

    2023 Annual Report. U.S. Securities and Exchange Commission. https://www.sec.gov/Archives/edgar/data/66740/000130817924000309/mmm4298631-ars.pdf
  3. 5 Confidential © 2025 LayerX Inc. FDE = Forward Deployed

    Engineer • 最前線(Forward)に配置された(Deployed)エンジニア • お客さまとの最前線に立ち、顧客課題を真に理解し、プロダクトの実装・導入を推進する エンジニア • Palantir曰く「スタートアップのCTOに似ている」 • 詳細は筆者が書いた以下ブログにて(魂込めてJD書きました) ◦ Forward Deployed Engineerの募集を開始しました - LayerX エンジニアブログ ◦ https://tech.layerx.co.jp/entry/ai-llm-fde (出典) Palantir Technologies - Forward Deployed Software Engineer https://jobs.lever.co/palantir/dab396d4-2f14-4796-aac0-0d82883dccf0
  4. 7 Confidential © 2025 LayerX Inc. ドメインを知らずして、価値は提供できない • お客さまはどういった業務をしている? ◦

    実業務で扱うドキュメントをお預かりし、徹底的に読み解く ▪ 何がインプットで、何をアウトプットすべきか ▪ LLMで処理すべきか、ルールベースで処理すべきか ◦ マスターファイルの更新頻度は?古くなった資料も当時の証跡として残したい? • 関係するステークホルダーは? ◦ 関連会社、ベンダー、他部署からの入力資料 ▪ メールで来る?基幹システムから出力? ◦ 出力はどのようなステークホルダーに展開される?所定のフォーマットはある?
  5. 9 Confidential © 2025 LayerX Inc. エージェントをうまく動かすための工夫 品質保証‧予測可能性 エッジケースへの対応 •

    決定論的な動作をするものはtoolとして定義 ◦ 何でもかんでもLLMにやらせない • toolの品質はソフトウェア工学の肩に乗る (CI/CDなど) • エージェントのプロンプトの作り込み • タスクリストを人間とエージェントの二人 で更新 • ファイルをメッセージからすぐ開いて確 認できるUI コンテキストエンジニアリング • 必要なコンテキストを検索して選択させるUI
  6. 11 Confidential © 2025 LayerX Inc. クリアするために膨大なStep数が必要なベンチマーク 2025年8月 ポケモンクリスタル [3]

    factorio [2] ポケモン⾚ [1] 2025年3月 2025年2月 [1] Claude's extended thinking \ Anthropic https://www.anthropic.com/news/visible-extended-thinking [2] Hopkins, Jack, Mart Bakler, and Akbir Khan. "Factorio learning environment." arXiv preprint arXiv:2503.09617 (2025). [3] Clad3815 - X https://x.com/Clad3815/status/1955980772575268897 GPT-5 Deepseek-v3, GPT-4-mini, LLaMA-70B, Gemini-2, GPT-4, Claude 3.5 Sonnet Claude 3.5,3.7 Sonnet レッドに勝利👏 (バッジ16個+ラストダンジョン) どのモデルでも複雑度5以上のリソースを 生成できる割合は0% 3.7 Sonnetがマチスに勝利 (バッジ3つ)
  7. 12 Confidential © 2025 LayerX Inc. どれだけのStep数をこなせるかは今後重要なKPIになりえる (出典) Measuring AI

    Ability to Complete Long Tasks - METR https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
  8. 13 Confidential © 2025 LayerX Inc. Next Step • 多段Stepでエージェントを安定的に動かすためには「エンジニアリング」が必要

    • 本質的に確率的な挙動を持つLLMを予測可能なコンポーネントに落とし込めるか ◦ CSやソフトウェア工学の問題に帰着できることも • 現実の業務に溢れているエッジケースへの対処 ◦ 個人的にはLLMが人間の業務を代替できていない主要因と考えている ◦ すべてのエッジケースをプロンプトに網羅的に記載するとLLMの出力が安定しない →動的に必要十分なコンテキストを渡す仕組み ◦ 本日のようにアプリケーションでカバーできる範囲の切り分け
  9. © 2025 LayerX Inc. 14 FDEチーム • FDEはものすごくチャレンジングな職種 • ぶっちゃけ全部やり切るのすごく大変だし、

    それを組織として作っていくのも難易度鬼高 いです • だからこそ一緒に働ける仲間を募集していま す!! R&Dチーム • FDE・Ai Workforceの可能性を10xにす るチームとしてR&Dチームが誕生! • 11月11日(火)にイベントやります! ◦ connpassからご登録ください We’re hiring