Introduction_to_ZeroshotLearning

Zeroshot Text Classification  さっくり解説  早野康太 

自己紹介  • 名前  ◦ 早野康太  • お仕事  ◦ 自然言語モデルの改善 
• 趣味  ◦ 猫、犬  ▪ YouTube  ◦ ゲーム  ▪ 音ゲ、遊戯王MD  ◦ アニメ  ▪ リコリコやばくない？ 

Zeroshot Learningとは  • 見たことないクラスのものを  正しく分類できるようなモデルを学習する 

Zeroshot Learningとは  • 見たことないクラスのものを  正しく分類できるようなモデルを学習する  • Zeroshot → 学習データにCATが全くない •
Fewshot → 学習データにCATが　めちゃくちゃ少ないけどある

Zeroshot Learningとは  • 役に立ちそうな場面  ◦ データのラベル付けが難しい場合 (専門知識が必要など)  ◦ ラベル付けされたデータが大量に用意できない場合  ◦
データ収集時点で想定していなかった  新しいラベルのデータに対して分類が求められる場合 

自然言語におけるZeroshot学習  • 文章をモデルにぶちこんで  意味が”それっぽい”かどうかを判定させる (Entailment Approach)  ◦ Benchmarking Zero-shot Text
Classification: Datasets, Evaluation and Entailment Approach 

自然言語におけるZeroshot学習  吾輩は猫である。  分類したい文章  Hypothesis  これは犬の文だ。  Entailment Score  ＋  0.50  吾輩は猫である。 
これは鳥の文だ。  ＋  0.12  ＝  ＝  これは{}の文だ。  Hypothesis Template 

自然言語におけるZeroshot学習  吾輩は猫である。  分類したい文章  Hypothesis  これは犬の文だ。  Entailment Score  ＋  0.50  吾輩は猫である。 
これは鳥の文だ。  ＋  0.12  ＝  ＝  吾輩は猫である。  これは猫の文だ。  ＋  0.61  ＝  これは{}の文だ。  学習していないラベル: 猫  Hypothesis Template 

• Bidirectional Encoder Representations from Transformers  ◦ BERT: Pre-training of
Deep Bidirectional Transformers for Language Understanding  ◦ Transformerによる双方向のエンコード表現  ▪ Transformerモデルの一部分を利用したモデル  ◦ Googleが2018年に発表  • 当時の自然言語処理タスクの最高記録を軒並み塗り替えた  • fine-tuningにより   あらゆる自然言語処理タスクに応用可能な汎用性の高さ    Zeroshot ✕ BERT 

TransformersでZeroshot  • Transformers  ◦ さまざまな自然言語の事前学習済みモデルを  利用することができるライブラリ  ◦ ZeroshotClassificationPipelineを使えば  簡単にZeroshot分類を試すことができる  ▪
Pipelines — transformers 4.5.0.dev0 documentation  ▪ が、日本語のPretrained ModelはModel Hubで全然公開されていない  • 日本語でやる場合は自分でモデルを作る必要あり  • 例えばこういうデータセットを使うなど  ◦ 日本語SNLI(JSNLI)データセット - KUROHASHI-CHU-MURAWAKI LAB 

まとめ  • Zeroshot Learningとは  ◦ 学習していないラベルのデータを予測しようとする試み    • 自然言語分野では、”これは{}の文だ”のように  テンプレートにラベル名を埋め込んでEntailmentスコアを計算する方法が 
試されている  ◦ TransformersライブラリでもZeroshotPipelineが利用可能なので  興味があれば試してみるのもおもしろいかも 

Introduction_to_ZeroshotLearning

Introduction_to_ZeroshotLearning

payanotty

More Decks by payanotty

Featured

Transcript

Zeroshot Text Classification  さっくり解説  早野康太

自己紹介  • 名前  ◦ 早野康太  • お仕事  ◦ 自然言語モデルの改善

Zeroshot Learningとは  • 見たことないクラスのものを  正しく分類できるようなモデルを学習する

Zeroshot Learningとは  • 見たことないクラスのものを  正しく分類できるようなモデルを学習する

Zeroshot Learningとは  • 見たことないクラスのものを  正しく分類できるようなモデルを学習する

Zeroshot Learningとは  • 見たことないクラスのものを  正しく分類できるようなモデルを学習する  • Zeroshot → 学習データにCATが全くない •

Zeroshot Learningとは  • 役に立ちそうな場面  ◦ データのラベル付けが難しい場合 (専門知識が必要など)  ◦ ラベル付けされたデータが大量に用意できない場合  ◦

自然言語におけるZeroshot学習  • 文章をモデルにぶちこんで  意味が”それっぽい”かどうかを判定させる (Entailment Approach)  ◦ Benchmarking Zero-shot Text

自然言語におけるZeroshot学習  吾輩は猫である。  分類したい文章  Hypothesis  これは犬の文だ。  Entailment Score  ＋  0.50  吾輩は猫である。

自然言語におけるZeroshot学習  吾輩は猫である。  分類したい文章  Hypothesis  これは犬の文だ。  Entailment Score  ＋  0.50  吾輩は猫である。

• Bidirectional Encoder Representations from Transformers  ◦ BERT: Pre-training of

TransformersでZeroshot  • Transformers  ◦ さまざまな自然言語の事前学習済みモデルを  利用することができるライブラリ  ◦ ZeroshotClassificationPipelineを使えば  簡単にZeroshot分類を試すことができる  ▪

まとめ  • Zeroshot Learningとは  ◦ 学習していないラベルのデータを予測しようとする試み    • 自然言語分野では、”これは{}の文だ”のように  テンプレートにラベル名を埋め込んでEntailmentスコアを計算する方法が