Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2025-04-24 "Manga AI Understanding & Localizati...

2025-04-24 "Manga AI Understanding & Localization" Furukawa Arata (CyberAgent, Inc)

AIによる漫画の理解と完全自動ローカライズ

「マルチモーダル・LLM・VLM・RAGの実践」機械学習エンジニアのためのLT & MeetUp
https://stockmark.connpass.com/event/350420/

CyberAgentは漫画AIを作る仲間を募集中!
求人ページ
https://hrmos.co/pages/cyberagent-group/jobs/19360169818798858360231
https://hrmos.co/pages/cyberagent-group/jobs/19360169818798858360230

話を聞いてみたい!という方は
SNSで古川にお気軽にお声がけください!
https://x.com/_ornew

Arata Furukawa

April 24, 2025
Tweet

More Decks by Arata Furukawa

Other Decks in Technology

Transcript

  1. には マルチモーダルな 知能と知性が要る ©️新井さとし, Manga109 コマ間の描かれない 時間的変化 言葉の音的イメージ 音の視覚的表現 漫画固有の視覚的表現

    漫画固有の表現形式 1ページに複数の画 コマ、吹き出し等 言語 会話 表情・感情 登場人物、話者 補完的解釈 物語の展開 オノマトペ
  2. 漫画を理解、説明する ©️海野螢, Manga109 俊夫は三歳の時にUFOのような光を目撃して以来、 「母と一緒に見た」とずっと信じ込んでいました。 しかし、みーむとの出会いと宙美との会話を通じて 記憶の曖昧さに気づきます。 そして本当の記憶が鮮やかにフラッシュバックします。 記憶の中で幼い頃の俊夫はUFO型の玩具をくれた 「お姉ちゃん」に向かって尋ねます。

    「おねぇちゃん だあれ?」 返ってきたのは「アタシ、みーむ。」のひと言。 その瞬間、幼いころ一緒にUFOを見たのは母では なく、みーむだった──と気づくのです。 誰 が 何 を し て 、 何 を 感 じ た の か 。 次 は 何 が 起 こ る の か 。 俊夫は何に気づいたの? ※実際の回答を整形・参照等のメタ情報を除去したもの
  3. 漫画を理解、考察する (前略) 他者の証言や物理的な事実ではなく、自分の心の 中にあるイメージこそが、その人にとっての真実である ――という核心に俊夫自身が立ち返る出来事です。 この発見はまた、記憶が固定された過去の事実ではなく、 本人の価値観や感情によって自由に書き換えられうる流 動的なものであることを示唆します。物語を通じて折に 触れて語られる「記憶違い」「思い込み」の問題は、外 部の否定に揺らぐことなく、自らの記憶を信じる自己肯

    定へと昇華されます。 最終的に、俊夫は「誰にも信じてもらえなくても、自分 の心に宿る真実を大切にする」覚悟を得ます。これに よって、本作のメッセージである「事実は世界に、真実 は人の心にある」という命題が、読者にも鮮やかに響く クライマックスとなっています。 ど の よ う な 意 味 を 持 ち 、 何 が 描 か れ て い る の か 。 何 を 失 い 何 を 得 た の か 。 この俊夫の気づきは物語のテーマの中で どのような意味を持っていますか? ※実際の回答を整形・参照等のメタ情報を除去したもの ©️海野螢, Manga109
  4. 理解に基づく翻訳 ©️猪熊しのぶ, Manga109 - 「ワザと留年したって噂。」相沢の姉(和久井の噂を伝える)。 - 「一コ後輩に好きなコがいてー」相沢の姉(噂の中身を解説)。 - 「そのコと同級生になりたくてね。」相沢の姉(同上)。 このページは、和久井麻美の留年という謎に対し「実は後輩の誰かへの特別な想

    い・動機があったのでは?」という可能性を読み手に強く示唆する転換点である。 姉の噂話と数字から「相沢自身がその対象なのでは」と示唆されるが、同時に信 憑 性の不明さも残している。これは登場人物と読者の両方に「真相は何か?」という 興味を持たせ、後の展開に期待を抱かせる重要なフックとなっている。 AI理解 話者=「相沢の姉」 「あのコ」=「和久井麻美」→ “She” 単純な機械翻訳の場合 I had a girl I liked, and I wanted to be a classmate with him. 性別や人称の間違い ※一部抜粋 ※実際の生成結果
  5. メモリ マルチモーダル処理 • 特化モデルによる要素の認識 • VLMによる理解と情報の統合 • 反復的な精緻化 場所 時間

    VLM 登場人物 話者 出来事 演出 表現 因果関係 … 文脈情報 画像 検索 精緻化 統合 生成 認識結果 ©️猪熊しのぶ, Manga109
  6. メモリ 場所 時間 VLM 登場人物 話者 出来事 演出 表現 因果関係

    … 文脈情報 画像 検索 精緻化 統合 生成 認識結果 エージェント • 固定の認識処理に加えて、 Reasoning LLMと特化エージェントで 自律的に振り返りや見直し、深掘りをさせる • コマとコマの間の出来事の推論、矛盾の考察など、 深い推論を必要とする際に利用 矛盾 不明点 考察 解釈 整合性評価 ページ参照 矛盾調査 ハンドオフ QA …