Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ウェブから能動学習の観点で 有益なデータを取得する

ウェブから能動学習の観点で 有益なデータを取得する

Active Learning from the Web (WWW 2023) https://arxiv.org/abs/2210.08205 の紹介スライドです。

GitHub: https://github.com/joisino/seafaring

人工知能学会全国大会 (JSAI 2023) の発表で使用したスライドです。 https://confit.atlas.jp/guide/event/jsai2023/subject/4L3-GS-4-01/tables

More Decks by 佐藤竜馬 (Ryoma Sato)

Other Decks in Science

Transcript

  1. 3 KYOTO UNIVERSITY 能動学習によりラベル付けのコストは軽減される ◼ 能動学習では 1000 個のラベルなしデータが与えられ、 モデルの様子を見ながら珠玉の 10

    個を選びラベル付けをする ◼ ラベルなしデータの良さそう度合い(獲得関数)としては 様々な効果的な指標が提案されている モデル やりとり 数千のデータプール ラベルなしデータ 獲得関数
  2. 4 KYOTO UNIVERSITY 既存の能動学習ではラベルなしデータを集めるのが大変 ◼ 既存の能動学習の問題点(本研究の着眼点) ⚫ ラベルなしデータを用意するのが大変 ラベルなしとはいえ、なんでも良いという訳ではない タスクに関係のある

    1000 データを集めるのは大変 既存研究はこれらをタダで収集できると仮定しているが、 現実そうではないと我々は主張する ⚫ 既存法データサイズは数千~せいぜい数百万に限定
  3. 8 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ ユーザーサイドの検索システムとは、ユーザーが外部の ウェブサービスの検索システムを自分で作る技術 佐藤が [Sato WSDM

    2022] で発表 ◼ ウェブサービス(Google、Amazon、Flickr、インスタグラム) の検索エンジンを利用するとき、検索のランキングはふつう、 サービスサイドが決定する ◼ ユーザー自身が独自の基準で検索したいときもある → そういう時にユーザーサイドの検索システム Ryoma Sato. Retrieving Black-box Optimal Images from External Databases. WSDM 2022.
  4. 9 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力:ユーザーが定義した任意の関数 s(x) 出力:s(x) を最大化するアイテム x(画像等のデータ)

    スコア s(x) Tiara は [Sato 2022 WSDM] で 提案されたユーザーサイド検索アルゴリズム スコア関数はユーザーが定義する 構図に基づいた類似度、色に基づいた類似度 etc ターゲットサービスは変更可 Flickr のデータベース 高スコア クエリ ユーザー 画像
  5. 10 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力:ユーザーが定義した任意の関数 s(x) 出力:s(x) を最大化するアイテム x(画像等のデータ)

    ターゲットサービスは変更可 Flickr のデータベース 画像内容に 基づく類似度 スコア Flickr からの類似画像検索 高スコア クエリ ユーザー 画像
  6. 11 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力:ユーザーが定義した任意の関数 s(x) 出力:s(x) を最大化するアイテム x(画像等のデータ)

    ターゲットサービスは変更可 Flickr のデータベース 色彩に基づく 類似度スコア Flickr からの色彩類似画像検索 高スコア クエリ ユーザー 画像
  7. 12 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力:ユーザーが定義した任意の関数 s(x) 出力:s(x) を最大化するアイテム x(画像等のデータ)

    ターゲットサービスは変更可 Flickr のデータベース 色彩に基づく 類似度スコア インスタグラムからの色彩類似画像検索 高スコア クエリ ユーザー 画像
  8. 14 KYOTO UNIVERSITY 能動学習の獲得関数をスコア関数としてデータを検索 ◼ 提案法 Seafaring は検索のスコア関数に能動学習の 獲得関数を用いる ◼

    これにより、ウェブから有用な機械学習用のデータを自動で集 めてこられる ターゲットサービスは変更可 能動学習の 獲得関数 モデル 設定 訓練に 有用な データ
  9. 16 KYOTO UNIVERSITY ランダム手法と従来の能動学習と比較 ◼ ベースライン手法の紹介 ◼ Random: 候補のラベルなしデータ集合は Seafaring

    と同じ そこからラベル付けデータを選ぶ方法がランダム 候補は多いが選び方が適当 ◼ SmallExact: 候補のラベルなしデータ集合をランダムに 1000 件取得 そこからラベル付けデータを選ぶ方法は Seafaring と同じ 獲得関数を使い、一つずつ検査して最良のデータを選ぶ 候補は少ないが選び方は厳密(従来の能動学習)
  10. 17 KYOTO UNIVERSITY 制御された環境での実験:Seafaring の勝利 ◼ 環境 1: OpenImage を使ってローカルに構築した巨大なプール

    ◼ パネルはそれぞれ二値分類問題を表している Canivore: この画像は肉食動物か? ラベル付け枚数 Seafaring が高性能
  11. 18 KYOTO UNIVERSITY 実世界環境での実験:Seafaring の勝利 ◼ 環境 2: 実世界の Flickr

    環境(数百億サイズ) 先ほどの例よりも全体的に AUC が高いのは、 異なるラベルの定義を使っているため ラベル付け枚数 Seafaring が高性能
  12. 20 KYOTO UNIVERSITY 提案法はウェブから自動で機械学習用のデータを収集 ◼ 提案法 Seafaring は数百億サイズの能動学習を実現する ◼ ウェブは「そこにある」ので自前でデータを用意する手間がない

    ◼ ウェブは広いので、さまざまなタスクに対して有用なデータを獲得 できる 論文: https://arxiv.org/abs/2210.08205 コード:https://github.com/joisino/seafaring Seafaring は世界初のウェブスケールの能動学習手法である