Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Hatena Engineer Seminar #37「言語モデルの活用に関する研究」

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

Hatena Engineer Seminar #37「言語モデルの活用に関する研究」

私たちのチームでは、生成AIを活用した技術に積極的に投資しています。AIエージェントが効率的に機能するには、検索基盤の整備が不可欠です。Amazon OpenSearch Service上に構築したテキスト埋め込みの検索基盤をご紹介します。また、文章の意味を理解できる言語モデルをテキストコンテンツの分類に応用する検証もおこなっています。その品質を継続的に改善するためのMLOpsパイプラインの構築までお話しします。

Avatar for SlashNephy

SlashNephy

June 30, 2026

More Decks by SlashNephy

Other Decks in Programming

Transcript

  1. 検索の手法 • キーワード検索 🔤 ◦ 語の一致で引く • セマンティック検索 🧭 ◦

    埋め込みベクトルを利用し、意味の近さで引く 👉 言い回しが違っても、似た文章を探せる 11
  2. OpenSearch の ML プラグイン 🧩 • 外部のモデルを呼び出せる ◦ インデックスに埋め込みベクトルを保存 ◦

    入力と似た埋め込みを持つドキュメントを検索 (k-NN) 👉 セマンティック検索を OpenSearch で完結 13
  3. 埋め込みモデルの候補 ① 1. 日本語性能の高い “cl-nagoya/ruri-v3” ◦ SageMaker AI エンドポイントは時間課金 •

    GPU (ml.g4dn.xlarge) で推論したいとなると、$700/月以上 💸 ◦ ※ JMTEB ベンチマーク 15
  4. 埋め込みモデルの候補 ② 2. Bedrock 基盤モデル “Cohere Embed v4” ◦ 課金体系が入力トークン量ベース。しかも安い

    • ✅ $0.12/100万トークン • あらかじめコストを予測しやすい 👍 ◦ 採用 🎯 16
  5. チャンキング ✂ チャンク 1 チャンク 2 チャンク 3 オーバーラップ (前後チャンクの重なり)

    17 ⚠ 意味の希薄化 長いテキストを1つのベクトルに 変換すると、コンテキストや ニュアンスが希薄化 ✅ 分割 & オーバーラップ 分割しつつ前後を重ねることで 情報の欠落を防止 (LangChain RecursiveCharacterTextSplitter を利用) 元の長いテキスト
  6. 埋め込みの推論 🪄 バッチ推論 🗂 • 一括推論 • Step Functions から推論

    Lambda を呼び出し • (Ingest Pipeline + Reindex は不採用: Bedrock リトライが難しい) リアルタイム推論 ⏳ • ドキュメントの追加等、不定期な推論 • SQS (Lambda Trigger) から推論 Lambda を呼び出し 18
  7. 24 混同行列・適合率 真陽性 (TP) ✅ スパムを正しく判定 偽陽性 (FP) 😵 非スパムをスパム判

    定 偽陰性 (FN) 😒 スパムの見逃し 真陰性 (TN) ✅ 非スパムを正しく判 定 予測 スパム 実際 非スパム スパム 非スパム 適合率 👉 推論結果と比べて許容ラインを決定
  8. ファインチューニング 生成タスクとして学習 💡 • 指示と判定したいテキスト 🔜 2値ラベル (1: スパム, 0:

    非スパム)   ※ 2025年当時。今は適した分類ヘッドがありそう (unsloth #372)。 26 // 指示 {"role": "system", "content": "スパムなら 1、そうでなければ 0 と出力すること。 "} // 判定対象テキスト {"role": "user", "content": "【安全】スパムじゃないよ :(´◦ω◦`):プルプル https://evil"} // 生成させる正解ラベル (0 or 1) {"role": "assistant", "content": "1"}
  9. MLOps パイプライン 🏭 Agent Platform Pipelines (Google Cloud, ※ 旧

    Vertex AI Pipelines) “継続的に” モデルの改善ループを回せる状態にする 28    🔮 トレーニング (ハイパーパラメータチュー ニング・LoRA トレーニング) Agent Platform 上で実行。 パラメータを記録することで、 再現性を確保。 ⚖ モデルの評価 完成したモデルの適合率 などを検証。 基準に満たない場合は、 デプロイを中止。 🎊 デプロイ 評価をクリアしたモデル を本番環境へ反映。 データ準備 Label Studio による正確 な教師データの整備。 Cleanlab を用いたノイズ の排除。 d 📚 a s e
  10. データ品質の確保 • リバランス ◦ データ属性の均衡 • Label Studio 🏷 ◦

    人手でラベリング • Cleanlab 🧹 ◦ 人間も AI も間違うので... 怪しいラベルを除去 30
  11. 34 ご紹介した言語モデル活用例 • 検索基盤 🔍 ◦ 「あいまい検索」 ◦ 「関連エントリ」機能 •

    コンテンツ分類 🏷 ◦ スパム判定 ◦ コンテンツモデレーション ◦ etc…