もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜！

もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜！クラウドネイティブ会議プレイベント in Nagoya ×
俺の勉強会 1 周年祭 / 2026.04.29 ~Airbnb さんの事例から、 Agreement っていう評価観点が良さそうだった話~ @moritama7431

最初に自己紹介です！初めまして！森田大登 / Morita Masato • 株式会社ユーザベースにて、ソーシャル経済メディア NewsPicks の
プロダクトエンジニアとして働いています! • Xアカウント: @moritama7431 • RecSysやMLOps周りに興味があります!! 📝 過去のブログ ! ・NewsPicks に推薦システムを本番導入する上で一番優先すべきだったこと (2024.08) ・新モデルの本番投入を加速せよ！ ML パイプライン追加の学習コスト & 開発工数の大幅削減 (2025.08) ・NewsPicks の MLOps における特徴量ストアの 4 つの重要観点 (2025.12) 🙏 「俺の勉強会」初参加 / 社外 LT 自体も初めてです! 「情報は発信する人のところに集まる」という考えのもと、なんとか果敢に発表してぜひ情報交換を加速させたい気持ちです ...!! よろしくお願いしますー !!🎤

なぜこのテーマを？そもそも Taxonomy（分類体系）って何？例: ニュース記事 → カテゴリ分類のフロー 📰 ニュース記事 (非構造データ)
→ 🤖 識別モデル 🏢 ビジネス系経済 / 経営 💻 Tech 系 AI / Web3 💰 金融系金融政策 / 株式市場 📁 その他 ↑ ここが Taxonomy（分類体系） (学術的には knowledge engineering / 知識工学の用語らしい) ▲ LLM でハードル激下がり → LLM 時代こそ、 Taxonomy（分類体系）の設計品質が気になる！

Q. じゃあ Taxonomy の設計品質の良し悪し、どう評価すればいいんだろう ...？ A. Airbnb さんの T-LEAF
という方法論が参考になった ! ・Taxonomy 設計品質を 3 軸で定量評価する方法論。・特に Agreement (一致性) という評価軸 (metric) が個人的に刺さった 💡 ※ Airbnb さんの事例は Agreement を含む 3 観点をまとめた定量評価フレームワークとして提案。興味ある方は元ブログへ！ 🎯 今日のメイン「Agreement」という評価観点を軽く共有します！

Agreement (一致性) とは何か？ = 「分類ルール、誰がやっても同じ結果になる？」を測る指標 ◎ Agreement 高い誰がやっても同じ分類になる＝
Taxonomy の定義が明確 ◎ ✗ Agreement 低い複数人で分類結果が揺れる＝ Taxonomy の定義が曖昧（改善余地あり）

Agreement が低い = どう解釈する？例: ニュース記事「日銀が金利据え置き」を分類するとして … 人 A 「金融政策
!」人 B 「日銀!」モデル「金融!」 ↓ 分類結果が揺れすぎじゃん ! Taxonomy 設計に課題があるサイン ! ・ノード間の境界が不明確「金融政策」と「金融」の違いは？・各ノードの粒度がバラバラ「日銀」=組織名 / 「金融政策」=トピック / 「金融」=上位カテゴリ → A/Bテストを待たずにクイックに、 Taxonomy品質の良し悪しを定量的に評価して FBループを回せるのがかなり嬉しい !!

Agreementどう計算する？ 2種類のアプローチ 1 Human-Human Agreement 複数の人間アノテーターがラベル付け → 一致度を算出 (※ 計算には
Cohen's Kappa（偶然の一致を除いた実質的な一致率）が使われる ) 精度は高い ✗ コスト大（Airbnb の実験では 1 アナリスト + 9 アノテーター × 約 1 ヶ月） 2 Human-Model Agreement (= ML Training Accuracy) 1 人がラベル付けしたデータで ML モデルを学習 → 学習精度を Agreement の代替指標に論理: Taxonomy 明確 → 似たデータに似たラベル → 学習データの矛盾少 → 学習精度高くなりがち ✓ 1 人 ML エンジニア × 1 日で計算可能 → 低コストで回せる 💡 LLM 時代の応用 : LLM 同士で Agreement を取る (LLM-LLM Agreement) というアレンジも有効そう

まとめ 1 LLM 時代こそ Taxonomy 設計に目を向けたい !! 抽出・分類のハードルは下がった。でも「分類体系そのものの設計」がイマイチだと価値を発揮できないのでは...! 2
Agreement はTaxonomy設計品質の評価観点として使いやすそうだった !! 「誰がやっても同じ分類になるか？」を意識するだけで設計ミスが見える。 LLM 同士で安価に回せる点も◎ 💬 勝者となるチームは、自分たちのコンテンツとユーザの意図を最もよく構造化して理解しているチームである — Brian Curry, "Knowledge Engineering for Search and Content: A Practical Guide" より

参考文献原典 (Airbnb Engineering Blog) T-LEAF: Taxonomy Learning and EvaluAtion
Framework https://medium.com/airbnb-engineering/t-leaf-taxonomy-learning-and-evaluation-framework-30ae19ce8c52 日本語まとめ記事 (by morinota) n 週連続 RecSys 系論文読んだシリーズ 47 週目: Airbnb さんの Taxonomy 品質を定量評価するフレームワーク T-LEAF を読んだ！ https://qiita.com/morinota/items/7432cf2b3255712c1d6f 関連記事 (Knowledge Engineering) Knowledge Engineering for Search and Content: A Practical Guide — by Brian Curry https://medium.com/@brian-curry-research/knowledge-engineering-for-search-and-content-a-practical-guide-468eb49ce3b1 ご清聴ありがとうございました！！もし気になる点やご意見・ご感想などあれば、ぜひカジュアルにコメント頂けたら嬉しいです :)

もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質...

もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜！

MasatoMasaMasa

More Decks by MasatoMasaMasa

Other Decks in Technology

Featured

Transcript

もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜！クラウドネイティブ会議プレイベント in Nagoya ×

最初に自己紹介です！初めまして！森田大登 / Morita Masato • 株式会社ユーザベースにて、ソーシャル経済メディア NewsPicks の

なぜこのテーマを？そもそも Taxonomy（分類体系）って何？例: ニュース記事 → カテゴリ分類のフロー 📰 ニュース記事 (非構造データ)

Q. じゃあ Taxonomy の設計品質の良し悪し、どう評価すればいいんだろう ...？ A. Airbnb さんの T-LEAF

Agreement (一致性) とは何か？ = 「分類ルール、誰がやっても同じ結果になる？」を測る指標 ◎ Agreement 高い誰がやっても同じ分類になる＝

Agreement が低い = どう解釈する？例: ニュース記事「日銀が金利据え置き」を分類するとして … 人 A 「金融政策

Agreementどう計算する？ 2種類のアプローチ 1 Human-Human Agreement 複数の人間アノテーターがラベル付け → 一致度を算出 (※ 計算には

まとめ 1 LLM 時代こそ Taxonomy 設計に目を向けたい !! 抽出・分類のハードルは下がった。でも「分類体系そのものの設計」がイマイチだと価値を発揮できないのでは...! 2

参考文献原典 (Airbnb Engineering Blog) T-LEAF: Taxonomy Learning and EvaluAtion