Hatena Engineer Seminar #37「言語モデルの活用に関する研究」

言語モデルの活用に関する研究 id:SlashNephy 2026/6/30 Hatena Engineer Seminar #37 サービスを支える技術基盤編 1

id:SlashNephy • 読み: ねふぃー • Web アプリケーションエンジニア • 2022年4月入社インフラからスマートフォンアプリなど
はばひろ〜くやってます 2 GitHub @SlashNephy

3 🤖 言語モデルを活用できていますか？

今日お話しすることチームで実験している言語モデルの活用例 1. 検索基盤 🔍 ◦ AI エージェントが使いやすい検索基盤の整備
2. コンテンツ分類 🏷 ◦ テキストコンテンツの属性を判定・分類 4

5 “投資” 💰 基盤の改善は派手なお披露目にしにくい… 基盤チームだからこその ”投資” で全社に貢献 ⭐ 失敗も “投資”
のうち ✨

6 「実験場」としてのはてラボ 🧪

7 はてラボ 🧪 https://hatelabo.jp • はてなが運営する実験的サービスの置き場所 • サービス開発を身近に・活発にすることを目的としたプラットフォーム

はてな匿名ダイアリー https://anond.hatelabo.jp • 2006年に誕生した歴史のあるラボサービス 🧪 • 歴史がある ➡ 膨大なデータが蓄積 📚
8

9 検索基盤 🔍

10 なぜ検索基盤を整備するのか Agentic RAG をしたい AI エージェントが情報収集しやすくしたい 👉 良質なデータが回答品質に直結

検索の手法 • キーワード検索 🔤 ◦ 語の一致で引く • セマンティック検索 🧭 ◦
埋め込みベクトルを利用し、意味の近さで引く 👉 言い回しが違っても、似た文章を探せる 11

Amazon OpenSearch Service • OpenSearch による全文検索は構築済み • インフラを変更せずに検索を拡張 ※ はてな匿名ダイアリーでは、以前に導入済み
(https://labo.hatenastaff.com/entry/2024/04/01/000000) 12

OpenSearch の ML プラグイン 🧩 • 外部のモデルを呼び出せる ◦ インデックスに埋め込みベクトルを保存 ◦
入力と似た埋め込みを持つドキュメントを検索 (k-NN) 👉 セマンティック検索を OpenSearch で完結 13

埋め込みモデルの選定単に高性能なモデルを使えばよい... というわけでもない 👉 コスト (金銭的・時間的) vs モデル性能のトレードオフ ⚖ 14

埋め込みモデルの候補 ① 1. 日本語性能の高い “cl-nagoya/ruri-v3” ◦ SageMaker AI エンドポイントは時間課金 •
GPU (ml.g4dn.xlarge) で推論したいとなると、$700/月以上 💸 ◦ ※ JMTEB ベンチマーク 15

埋め込みモデルの候補 ② 2. Bedrock 基盤モデル “Cohere Embed v4” ◦ 課金体系が入力トークン量ベース。しかも安い
• ✅ $0.12/100万トークン • あらかじめコストを予測しやすい 👍 ◦ 採用 🎯 16

チャンキング ✂ チャンク 1 チャンク 2 チャンク 3 オーバーラップ (前後チャンクの重なり)
17 ⚠ 意味の希薄化長いテキストを1つのベクトルに変換すると、コンテキストやニュアンスが希薄化 ✅ 分割 & オーバーラップ分割しつつ前後を重ねることで情報の欠落を防止 (LangChain RecursiveCharacterTextSplitter を利用) 元の長いテキスト

埋め込みの推論 🪄 バッチ推論 🗂 • 一括推論 • Step Functions から推論
Lambda を呼び出し • (Ingest Pipeline + Reindex は不採用: Bedrock リトライが難しい) リアルタイム推論 ⏳ • ドキュメントの追加等、不定期な推論 • SQS (Lambda Trigger) から推論 Lambda を呼び出し 18

プロダクトへの導入「あいまい検索」「関連エントリ」 ※ 2026/4/1 リリース: https://labo.hatenastaff.com/entry/2026/04/01/000000 19

20 コンテンツ分類 🏷

21 分類タスク【元本保証】デイトレで絶対儲かります【高収入】モメンタム相場を予測する → https://example.com 株始めて3ヶ月。 example.comで見かけた銘柄が地味に上場来高値。
今月のNISAなんだが、... これはスパム？ 🧐 👉 文脈を理解しないと判別は難しい

22 なぜ言語モデルで分類したいのか • 従来手法 (ルールベース・古典的 ML) ◦ 言い回しの変化に弱い ◦ スパマーとのイタチごっこになりがち
• 言語モデル 🧠 ◦ 意味・文脈を理解できる ◦ 👉 スパムっぽいものを判別できる？

許容ラインはどこ？スパムを判定するシステムがあるとして • 偽陽性 (冤罪の発生) 😵 ◦ ユーザー体験に悪影響 ◦ なるべく偽陽性率を低くしたい・適合率を重視
• 偽陰性 (スパムの見逃し) 😒 ◦ ある程度は許容できる 23

24 混同行列・適合率真陽性 (TP) ✅ スパムを正しく判定偽陽性 (FP) 😵 非スパムをスパム判
定偽陰性 (FN) 😒 スパムの見逃し真陰性 (TN) ✅ 非スパムを正しく判定予測スパム実際非スパムスパム非スパム適合率 👉 推論結果と比べて許容ラインを決定

25 モデルのトレーニング最低限の言語理解がある小型モデルで十分？ • Gemma 3 270M (it) • Unsloth
🦥 で LoRA トレーニング

ファインチューニング生成タスクとして学習 💡 • 指示と判定したいテキスト 🔜 2値ラベル (1: スパム, 0:
非スパム) 　　※ 2025年当時。今は適した分類ヘッドがありそう (unsloth #372)。 26 // 指示 {"role": "system", "content": "スパムなら 1、そうでなければ 0 と出力すること。 "} // 判定対象テキスト {"role": "user", "content": "【安全】スパムじゃないよ :(´◦ω◦｀):ﾌﾟﾙﾌﾟﾙ https://evil"} // 生成させる正解ラベル (0 or 1) {"role": "assistant", "content": "1"}

モデルの更新 • 学習当時と言葉のニュアンスが変化 • 新語の流行定期的なモデルの重みの更新が必要 👉 MLOps で体系化 27

MLOps パイプライン 🏭 Agent Platform Pipelines (Google Cloud, ※ 旧
Vertex AI Pipelines) “継続的に” モデルの改善ループを回せる状態にする 28    🔮 トレーニング (ハイパーパラメータチューニング・LoRA トレーニング) Agent Platform 上で実行。パラメータを記録することで、再現性を確保。 ⚖ モデルの評価完成したモデルの適合率などを検証。基準に満たない場合は、デプロイを中止。 🎊 デプロイ評価をクリアしたモデルを本番環境へ反映。データ準備 Label Studio による正確な教師データの整備。 Cleanlab を用いたノイズの排除。 d 📚 a s e

パイプラインの実装 Kubeﬂow Pipelines を使い Python で記述 🐍 トレーニング〜デプロイまで
一連のパイプラインとして　実装 29 Agent Platform Pipelines

データ品質の確保 • リバランス ◦ データ属性の均衡 • Label Studio 🏷 ◦
人手でラベリング • Cleanlab 🧹 ◦ 人間も AI も間違うので... 怪しいラベルを除去 30

継続的にモデルの品質を維持 • 定期的にパイプラインを回す 🔁 • トレーニング後、指標 (適合率) 未達なら破棄 • 品質チェック・デプロイまでが
MLOps 31

MLOps の全社展開当初、スパム判定でスタートしたが...？ • はてなは UGC サービスが多い • コンテンツモデレーションなどにも応用？
👉 MLOps への “投資” が活きる 32

33 まとめ

34 ご紹介した言語モデル活用例 • 検索基盤 🔍 ◦ 「あいまい検索」 ◦ 「関連エントリ」機能 •
コンテンツ分類 🏷 ◦ スパム判定 ◦ コンテンツモデレーション ◦ etc…

おわりに • サービスプラットフォームは基盤チーム ◦ 実験の成功も失敗も、社内の “資産” になる • 派手ではないけれど、効く技術 ✨
◦ かつての “投資” が巡り巡って役立つ時がくる 35

36 ご清聴ありがとうございました 🙏

Hatena Engineer Seminar #37「言語モデルの活用に関する研究」

Hatena Engineer Seminar #37「言語モデルの活用に関する研究」

More Decks by SlashNephy

Other Decks in Programming

Featured

Transcript