Upgrade to Pro — share decks privately, control downloads, hide ads and more …

もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜!

~Airbnb さんの事例から Agreementという評価観点が良さそうだった話~
クラウドネイティブ会議プレイベント in Nagoya × 俺の勉強会 1 周年祭 / 2026.04.29 でのLT登壇資料です! ありがとうございました!!

Avatar for MasatoMasaMasa

MasatoMasaMasa

April 30, 2026

More Decks by MasatoMasaMasa

Other Decks in Technology

Transcript

  1. もっとコンテンツをよく構造化して理 解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けた い〜! クラウドネイティブ会議プレイベント in Nagoya ×

    俺の勉強会 1 周年祭 / 2026.04.29 ~Airbnb さんの事例から、 Agreement っていう評価観点が良さそう だった話~ @moritama7431
  2. 最初に自己紹介です!初めまして! 森田 大登 / Morita Masato • 株式会社ユーザベースにて、ソーシャル経済メディア NewsPicks の

    プロダクトエンジニアとして働いています! • Xアカウント: @moritama7431 • RecSysやMLOps周りに興味があります!! 📝 過去のブログ ! ・NewsPicks に推薦システムを本番導入する上で一番優先すべきだったこと (2024.08) ・新モデルの本番投入を加速せよ! ML パイプライン追加の学習コスト & 開発工数の大幅削減 (2025.08) ・NewsPicks の MLOps における特徴量ストアの 4 つの重要観点 (2025.12) 🙏 「俺の勉強会」初参加 / 社外 LT 自体も初めてです! 「情報は発信する人のところに集まる」という考えのもと、 なんとか果敢に発表してぜひ情報交換を加速させたい気持ちです ...!! よろしくお願いしますー !!🎤
  3. なぜこのテーマを? そもそも Taxonomy(分類体系)って何? 例: ニュース記事 → カテゴリ分類のフロー 📰 ニュース記事 (非構造データ)

    → 🤖 識別モデル 🏢 ビジネス系 経済 / 経営 💻 Tech 系 AI / Web3 💰 金融系 金融政策 / 株式市場 📁 その他 ↑ ここが Taxonomy(分類体系) (学術的には knowledge engineering / 知識工学 の用語らしい) ▲ LLM で ハードル激下がり → LLM 時代こそ、 Taxonomy(分類体系)の設計品質 が気になる!
  4. Q. じゃあ Taxonomy の設計品質の良し悪し、 どう評価すればいいんだろう ...? A. Airbnb さんの T-LEAF

    という方法論が参考になった ! ・Taxonomy 設計品質を 3 軸 で定量評価する方法論。 ・特に Agreement (一致性) という評価軸 (metric) が個人的に刺さった 💡 ※ Airbnb さんの事例は Agreement を含む 3 観点をまとめた定量評価フレームワーク として提案。興味ある方は 元ブログへ! 🎯 今日のメイン 「Agreement」という評価観点を軽く共有します!
  5. Agreement (一致性) とは何か? = 「分類ルール、誰がやっても同じ結果になる?」を測る指標 ◎ Agreement 高い 誰がやっても同じ分類になる =

    Taxonomy の定義が明確 ◎ ✗ Agreement 低い 複数人で分類結果が揺れる = Taxonomy の定義が曖昧(改善余地あり)
  6. Agreement が低い = どう解釈する? 例: ニュース記事「日銀が金利据え置き」を分類するとして … 人 A 「金融政策

    !」 人 B 「日銀!」 モデル 「金融!」 ↓ 分類結果が揺れすぎじゃん ! Taxonomy 設計に課題があるサイン ! ・ノード間の境界が不明確 「金融政策」と「金融」の違いは? ・各ノードの粒度がバラバラ 「日銀」=組織名 / 「金融政策」=トピック / 「金融」=上位カテゴリ → A/Bテストを待たずにクイックに、 Taxonomy品質の良し悪しを定量的に評価して FBループを回せるのがかなり嬉しい !!
  7. Agreementどう計算する? 2種類のアプローチ 1 Human-Human Agreement 複数の人間アノテーターがラベル付け → 一致度を算出 (※ 計算には

    Cohen's Kappa(偶然の一致を除いた実質的な一致率)が使われる ) 精度は高い ✗ コスト大 (Airbnb の実験では 1 アナリスト + 9 アノテーター × 約 1 ヶ月) 2 Human-Model Agreement (= ML Training Accuracy) 1 人がラベル付けしたデータで ML モデルを学習 → 学習精度 を Agreement の代替指標に 論理: Taxonomy 明確 → 似たデータに似たラベル → 学習データの矛盾少 → 学習精度高くなりがち ✓ 1 人 ML エンジニア × 1 日 で計算可能 → 低コストで回せる 💡 LLM 時代の応用 : LLM 同士で Agreement を取る (LLM-LLM Agreement) というアレンジも有効そう
  8. まとめ 1 LLM 時代こそ Taxonomy 設計に目を向けたい !! 抽出・分類のハードルは下がった。でも「分類体系そのものの設計」がイマイチだと価値を発揮できないので は...! 2

    Agreement はTaxonomy設計品質の評価観点として使いやすそうだった !! 「誰がやっても同じ分類になるか?」を意識するだけで設計ミスが見える。 LLM 同士で安価に回せる点も◎ 💬 勝者となるチームは、 自分たちのコンテンツとユーザの意図を最もよく構造化して 理解しているチームである — Brian Curry, "Knowledge Engineering for Search and Content: A Practical Guide" より
  9. 参考文献 原典 (Airbnb Engineering Blog) T-LEAF: Taxonomy Learning and EvaluAtion

    Framework https://medium.com/airbnb-engineering/t-leaf-taxonomy-learning-and-evaluation-framework-30ae19ce8c52 日本語まとめ記事 (by morinota) n 週連続 RecSys 系論文読んだシリーズ 47 週目: Airbnb さんの Taxonomy 品質を定量評価する フレームワーク T-LEAF を読んだ! https://qiita.com/morinota/items/7432cf2b3255712c1d6f 関連記事 (Knowledge Engineering) Knowledge Engineering for Search and Content: A Practical Guide — by Brian Curry https://medium.com/@brian-curry-research/knowledge-engineering-for-search-and-content-a-practical-guide-468eb49ce3b1 ご清聴ありがとうございました!! もし気になる点やご意見・ご感想などあれば、 ぜひカジュアルにコメント頂けたら嬉しいです :)