Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data-to-Text Datasetまとめ ― Summary of Data-to-Text Datasets ―

awatanabe
August 18, 2023

Data-to-Text Datasetまとめ ― Summary of Data-to-Text Datasets ―

(English description follows)
Data2Textタスクで利用されるデータセットについて、2022年12月時点でSurveyしたものです。自分用のメモとして作成していましたが、せっかくなので公開することにしました。データセットとして、以下のデータセットをリストアップしています:
- Meaning Representation(MR)-to-Text: 25 dataset
- Table-to-Text: 30 dataset
- Graph-to-Text: 12 dataset
- Chart-to-Text: 2 dataset
- AMR-to-Text: 5 dataset
- その他のData2Text dataset: 14 dataset

資料中には多くのリンクが埋め込んであるため、リンク先に飛びたい場合はPDFをダウンロードして閲覧して頂けますと幸いです。
各データセットについて、公開されているリンクが見つかった場合はそのリンクと、提案論文のリンクを付与してあります。
また、MR-to-TextとTable-to-Textについては、各データセットの数行のサマリと、1--3スライド程度で概要をまとめています。
Referencesには、今回のまとめで参照しているすべての論文のタイトル、著者、学会のリストが約100件程度まとめてあります。
少しでもお役に立てば幸いです。

----------
This is a survey as of December 2022 on datasets used for the Data2Text task. I initially created this as a personal note, but decided to share it publicly. Here's a list of the datasets included:

- Meaning Representation (MR)-to-Text: 25 datasets
- Table-to-Text: 30 datasets
- Graph-to-Text: 12 datasets
- Chart-to-Text: 2 datasets
- AMR-to-Text: 5 datasets
- Other Data-to-Text datasets: 14 datasets

For each dataset, if a public link was found, it's provided, along with the link to the corresponding research paper. For the MR-to-Text and Table-to-Text categories, I've included a few lines summary for each dataset, and an overview condensed into 1-3 slides.

In the References section, there's a list of approximately 100 titles, authors, and conferences of the papers I referred to for this summary.

I hope you find this information useful.

awatanabe

August 18, 2023
Tweet

Other Decks in Research

Transcript

  1. Data2Textデータセット
    まとめ
    Akihiko WATANABE
    1

    View full-size slide

  2. はじめに
    ● 本資料は2022年12月時点でData2TextのデータセットについてSurveyした
    際の自分用のメモとなります。
    ○ 2023年以後のものは含まれておりませんのでご注意ください。
    ● 以下のX-to-Textのデータセットをリストアップしています。
    ○ MR-to-Text, Table-to-Text, Graph-to-Text, Chart-to-Text, AMR-to-Text
    ● MR-to-Text, Table-to-Textについてはリスト中に数行でのサマリ、また、
    データセットの概要をそれぞれpp.25–129にまとめています。
    ○ Graph-to-Text, Chart-to-Text, AMR-to-Textについてはサマリ、概要をまとめられていませ
    ん。
    ● 資料のスクショは基本的に元論文or関連Webサイトのスクショとなります。
    ● 調査結果については、漏れがあったり、誤りが含まれている可能性がありま
    す。ご了承ください。
    ● データセットの公開リンクが見つかったものに関しては、[dataset]がデー
    タセットへのリンクとなっています。
    ● データセットが提案された元論文については[author+, 20xx]がリンクと
    なっています。Referencesにも論文のリストが列挙されていますのでご参照
    ください。
    2

    View full-size slide

  3. 目次: クリックすると該当セクションへ飛びます
    ● MR-to-Text
    ○ MR-to-Textデータセットサマリー
    ○ MR-to-Textデータセット概要
    ● Table-to-Text
    ○ Table-to-Textデータセットサマリー
    ○ Table-to-Textデータセット概要
    ● Graph-to-Text
    ● Chart-to-Text
    ● AMR-to-Text
    ● References
    3

    View full-size slide

  4. MR-to-Text
    ● Mearning Representation (MR) から短文(多くの場合は数文)を作成する
    タスク
    ○ 本資料ではinfoboxもMRとして扱う
    ● 対話データの場合はMRはDialogue Actとして表現される
    4
    [Puduppully+, 2021]

    View full-size slide

  5. 5
    データセット名 データサイズ
    ATIS 5.5k sents
    RoboCup 1.9k sents
    WeatherGov 22.1k mult-sents
    BAGEL 404 mult-sents
    SF Restaurant &
    Hotel
    10.2k mult-sents
    RNNLG 30.2k mult-sents
    E2E 50k mult-sents
    WikiData 500k sents
    WikiBio 730k first paragraph
    DocWikiBio 210k
    Wikipedia Person
    and Animal
    428,748 person + 12,236 animal infobox -
    description pairs
    Sentence Planning
    Corpus for NLG
    205k MR - utterance pairs
    Wikipedia company 51k
    PersonageNLG 90k mult-sents
    MultiWoz 11.5k turns
    Czech Restaurant 5k mult-sents
    YelpNLG 300k mult-sents
    ViGGO 6900 MR - utterance pairs
    MR-to-Text データのデータサイズ
    データセット名 データサイズ
    FewshotWoz train: 50 mult-sents
    test: 47~1379 mult-sents
    SGD 330k turns
    CACAPO 21k sents
    Humans, Books &
    Songs
    730k + 23.6k + 40k first paragraph
    WITA 55,400 MR - sentence pairs
    DSTC10 2292 turns

    View full-size slide

  6. Dataset for MR-to-Text(1/5)
    ● ATIS [Zettlemoyer+, 2007]
    ○ air travel domainのデータセット
    ○ シナリオを達成するためのユーザの発話と、発話に対するlambda-calculus expressionが付

    ○ 使用例 [Konstas+, 2012]
    ● RoboCup [Chen+, 2008]
    ○ サッカーゲームのシミュレーションに対して、MRと人手で作成した1 sentenceのコメンタリ
    が付与
    ● WeatherGov [Liang+, 2009]
    ○ あるcityのMR(e.g. 時間ごとの気温, 降水確率, 風速)と天気予報テキストのペアデータ
    ○ しかし、天気予報は人間のアノテータが作成したのではなく、template systemによって生
    成されたものを、場合によっては人間がpost-editすることで作成されていたことが指摘され
    ている [Reiter, 2017]
    ● BAGEL [Mairesse+, 2010]
    ○ Cambridgeのレストランに関するMR(i.e. Dialogue Act)とsingle sentenceのreference
    textのペアデータ
    ● SF Restaurant & Hotel [Wen+, 2015]
    ○ San Franciscoのレストランとホテルに関するMR(i.e Dialogue Act)とsingle sentenceの
    reference textのペアデータ
    ○ BAGELよりもDialogue Act Typeが6種類多く、事例数も多い
    6

    View full-size slide

  7. Dataset for MR-to-Text(2/5)
    ● RNNLG [Wen+, 2016] [dataset]
    ○ SF Restaurant & Hotelを拡張し、TV, Laptopの購入に関するドメインを追加
    ○ TV, Laptopドメインでは Dialogue Actに対して対応する複数のsentenceのペアデータが存在
    ● WikiBio [Labret+, 2016] [dataset]
    ○ biographyに関するWikipedia記事のinfoboxとfirst paragraphの728,321ペア
    ○ 著者らはこのデータをfirst sentenceの生成タスクに利用した
    ● E2E [Novikova+, 2017] [dataset]
    ○ RestaurantドメインMR to referenceのペアデータを提供
    ○ 最大で5~6文のreference
    ○ 従来の10倍の規模で多様なvocabulary、より複雑な構造(e.g. 接続詞, 動名詞, 代名詞等)、多様な談話構造を
    持つ
    ● Restaurant Ratings [Nayak+, 2017]
    ○ 非公開?
    ● WikiData [Chisholm+, 2017] [dataset]
    ○ Wikipedia, WikidataのPersonカテゴリから slot-valueとfirst sentence (biography)を取得しデータ作成
    ○ 500k MR-single sentence pairs
    ● DocWikiBio [Perez-Beltrachini+, 2018] [dataset]
    ○ WikiBioデータを豊富なproperty(i.e Spouseといったtableの項目)と複数文を持つテキストにフィルタリン
    グしたデータセット
    ○ 41k examples
    ● The Wikipedia company corpus [Qader+, 2018] [dataset]
    ○ Wikipediaの企業ページからinfobox, abstract, body textのtupleを収集したデータセット
    ○ サンプル数は51k
    7

    View full-size slide

  8. Dataset for MR-to-Text(3/5)
    ● PersonageNLG: Style in NLG [Oraby+, 2018] [dataset]
    ○ Restaurantドメイン
    ○ E2EのMRから、Big-Five personalityごとのスタイルに応じたutteranceをPERSONAGEと呼ばれるシステムを用い
    て生成し、コーパス作成
    ○ MR, personality label, utteranceの3つ組のデータを提供
    ● MultiWoz [Budzianowski, 2018] [dataset]
    ○ 従来のコーパスと比べより多くのドメインで、大規模なtask-orientedなDialogueコーパス
    ○ human-humanの対話に対してDialogue Actをアノテーションをした
    ○ 類似コーパスとしてDSTC2, SFX, WOZ2.0, FRAMES, KVRET, M2Mといったデータがある模様
    ● Wikipedia Person and Animal Dataset [Wang+, 2018] [dataset]
    ○ WikipediaとWikidataから、428,748のpersonと、12,236のanimalのinfoboxと対応するdescriptionを収集した
    データ
    ● Sentence Planning Corpus for NLG [Reed+, 2018] [dataset]
    ○ 205k MR - utterance pairs
    ○ aggregation operators (e.g. Distributive; 複数のContent Itemを一つにまとめ冗長性を排除)と
    content item間のDiscourse Relation (e.g. contrast)が付与されたデータを含む
    ● Czech Restaurant [Dusek+, 2019] [dataset]
    ○ SF Restaurantをチェコ語に翻訳したデータセット
    ● YelpNLG [Oraby+, 2019] [dataset]
    ○ Yelp challenge datasetのreviewデータを利用し、300kのMR-Sentenceペアを提供
    ○ MRはdependency parsingの情報から自動生成
    ○ 文のsentimentやstyle(entityの言及の順番, pronounが使われているか等)の情報も付与されている
    8

    View full-size slide

  9. Dataset for MR-to-Text(4/5)
    ● ViGGO [Juraska+, 2019] [dataset]
    ○ Video game domain
    ○ 6900 MR - utterance pairs
    ○ MRは9つの異なるDialogue Actsを持つ
    ● FewshotWoz [Peng+, 2020] [dataset]
    ○ RNNLG, MultiWozからデータをサンプリングし、限られたラベル付データしか得られない設定でのデータ
    セットを作成
    ○ delexicalizedされたDialogue Actのtrain/testのoverlapが非常に小さいのが特徴
    ● SGD [Rastogi+, 2020] [dataset]
    ○ 多くのドメインをカバーし、ドメインごとに複数のAPIを提供する最初のデータセット
    ○ APIインタフェースの追加や、APIの追加に対するモデルのロバスト性を測るために、テストデータには訓練
    データにはない多くの新しいサービスを含む
    ○ 単一のモデルで様々なAPIに対応するために、マスタースキーマアプローチを採用せず、スキーマガイドアプ
    ローチを採用した
    ● CACAPO [Lee+, 2020] [dataset]
    ○ Attribute-Valueペアと対応するニューステキストのデータセット
    ○ テキストを文に分割し、2名の専門家が各文にMR(i.e. Attribute-Value)を人手で付与
    ○ domain: sports, weather, stock, incidents
    ○ language: English, Dutch
    ● Humans, Books & Songs [Chen+, 2020c] [dataset]
    ○ WikiBioに加えてWikipediaからBooksドメインから23,651 instances, Songsドメインから39,450 instance
    を収集
    9

    View full-size slide

  10. Dataset for MR-to-Text(5/5)
    ● WITA [Fu+, 2020] [dataset]
    ○ MRと対応するテキストが部分的にしか対応していないデータセット
    ■ 自動生成可能なため多様なドメインで生成可能
    ■ MRとテキストが完全一致していないデータでテキストを生成するpartially aligned
    data to text generationを提案
    ○ 55,400 MR - sentence pairs
    ● DSTC10 [Kim+, 2021] [dataset]
    ○ speech-based(従来はwritten-based)でtask-orientedなdialogue corpus
    ○ 人間同士のSanFranciscoのtouristic informationに関する対話を記録
    10

    View full-size slide

  11. Table-to-Text
    ● Tableの情報からTableに関するdescriptionを作成するタスク
    ○ 1文〜文書レベルまでさまざまな長さでデータセットが存在
    11

    View full-size slide

  12. 12
    データセット名 データサイズ
    SUMTIME
    1045 mult-sents
    (3~4文程度)
    NFL 468 docs
    WikiTableQuestio
    ns
    20k QA
    SBNation 10.9k
    RotoWire 4.9k
    WikiSQL 80k
    WIKITABLETEXT 13k
    Chess Game
    Commentary
    298k mult-sents
    Spider 10k
    GermanRotoWire 423
    MLB 26.3k
    RotoWire-Modifie
    d
    3748
    データセット名 データサイズ
    RotoWire-FG 7.5k
    SportSett::Bask
    etball
    6150
    TabFact
    1.7k table
    120k sentence
    LogicNLG
    7.3k table
    37k sentence
    ToTTo
    136k sentence
    83k tables
    HybridQA 70k QA pairs
    WikiTableT
    1.5M table-section
    pairs
    NumericNLG
    1.3k table -
    paragraph pairs
    SciGen
    1.3k table - mult
    paragraph
    50k 自動抽出ペア
    Table-to-Text データのデータサイズ
    データセット名 データサイズ
    BioLeaflets 1,336 examles
    TatQA
    2757 context - 16652
    questions pair
    FinQA 8,281 QA pairs
    HiTab
    3597 Hierarchical Tables
    10672 QA
    10672 single sentences
    CONGLOG
    Table-to-text data: 5,554
    tables, 10.7k sentences
    Table-to-logical form
    (pretrain) data: 4,554
    tables, 803k logical form
    GeoTSQA
    556 scenario (1.58 tables
    per scenario) - 1,012
    question pairs

    View full-size slide

  13. Table-to-Text Generation (1/8)
    ● UPI Newswire [Robin, 1994]
    ○ NBAゲームのサマリーとbox-scoreデータのコーパス?公開されてなさそう
    ● SUMTIME [Reiter+, 2005] [dataset]
    ○ 時系列データに対するテキスト生成のためのデータセット
    ○ 専門家が記述した天気予報テキストと数値データ(e.g. 風速, 気温)の1045ペア
    ○ 一般的な天気の見通しについて記述, wind, weather等の項目別の1文程度の予報が存在
    ○ 「地名」等のEntity情報がGivenでない
    ● NFL [Barzilay+, 2005]
    ○ データ元(ただし、論文中のような試合全体のSummaryは現時点では見当たらない)
    ■ 論文中の例の当時リンク
    ○ 2003/2004シーズンのNFLのサマリーとstatisticsのペアデータ
    ■ 468試合の texts, 平均サマリー長は46.8 sentencesと長文
    ○ Play-by-Play SummaryによってExplicitにEntity間の関係に関する記述が与えられる
    ● WikiTableQuestions [Pasupat+, 2015] [dataset]
    ○ Tableとquestion-answerペアのデータセット
    ○ 2108 tableに対して、22,033のquestion-answerペア
    ■ 様々なドメインでmulti-stepなreasoningやoperation, 比較, 集約, 数値計算等が必要な
    複雑な質問で構成
    ■ tableのスキーマや質問内容もデータごとに異なり、テストデータに含まれるデータは
    訓練データと異なる点がチャレンジング
    13

    View full-size slide

  14. Table-to-Text Generation (2/8)
    ● SBNation [Wiseman+, 2017] [dataset]
    ○ box- and line scoreと人手で書かれたNBAゲームサマリーのペアデータ
    ○ 10,903個のサマリーで構成されている
    ○ 非常にnoisyなデータでbox- and line scoreに存在しない情報について多くの文書で記述
    ● Rotowire [Wiseman+, 2017] [dataset]
    ○ box- and line scoreと人手で書かれたNBAゲームサマリーのペアデータ
    ○ 4.9kのペアデータで構成
    ● WikiSQL [Zhong+, 2017] [dataset]
    ○ Wikipediaから抽出した24241個のtableと、80654個のhand-annnotatedな自然言語で記述
    されたQuestionとSQL Query
    ○ Semantic Parser界隈と関係あり
    ■ Geoquery, Freebase917, Overnightといった自然言語queryとLogical Formのペア
    データも存在
    ● WIKITABLETEXT [Bao+, 2018] [dataset]
    ○ tableのrowとそれを説明するsentenceのペアデータ13,318ペア
    ○ table-to-textにおいて初めてのopen-domain dataset(と著者は主張)
    14

    View full-size slide

  15. Table-to-Text Generation (3/8)
    ● Chess Commentary Dataset [Jhamtani+, 2018] [dataset]
    ○ チェスフォーラムから収集したGame Stateとmove-by-move commentary
    ○ 298kのGame StateとCommentaryのペアが存在
    ● Spider [Yu+, 2018] [dataset]
    ○ text-to-SQLのデータセット
    ○ 10,181 question, 138のドメインの複数テーブルを保持するDBに対する5,693の複雑なクエ

    ● GermanRotowire [Hayashi+, 2019]
    ○ Rotowireデータセットのドイツ語への翻訳版, サンプル数は423
    ○ RotoWireのsubsetをprofessionalな翻訳家の手で翻訳
    ● MLB [Puduppully+, 2019] [dataset]
    ○ MLBの試合のStatsとSummaryに関するデータセット
    ■ play-by-play tableが存在するのが特徴
    ○ RotoWireと比較して5倍のデータ量, Summaryが50%長い, play-by-play tableを含む
    ○ Summaryに時系列に記録されたゲームの重要なイベントの詳細を含む
    ● Rotowire-Modified [Iso+, 2019] [dataset]
    ○ RotoWireデータで同一ゲームのSummaryがtrainingとval, あるいはtestに含まれる問題を解

    ○ 3748 instance
    15

    View full-size slide

  16. Table-to-Text Generation (4/8)
    ● Rotowire-FG [Wang, 2019] [dataset]
    ○ RotoWireデータにおいて、boxscore tableにグラウンディングできないSummary Contentを除外し
    て綺麗にしたもの
    ○ 7.5k instance
    ● SportSett:Basketball [Thomson+, 2020] [dataset]
    ○ RotoWireデータを改善しPostgreSQLでデータをqueryしたりfilteringできるようにしたデータセット
    ■ 従来のデータセットと異なり、データセットを様々なdimensionで切り出せる
    ■ SummaryそのものはRotoWireデータと同様
    ○ RotoWireベースのデータと比較して
    ■ train/val/testの分割のcontaminationの解決
    ■ Playやlocationに関する情報の追加等が実施
    ● TabFact [Chen+, 2020a] [dataset]
    ○ Structuredなformatをevidenceとする初めてのFactCheckデータセット
    ○ 従来データよりも、記述されているテキストからの推論やcommon sense, 表に対するwhereによる条
    件付けと演算といった2つの難しさが存在する
    ○ 1.7k tableに対して120k sentence
    ● LogicNLG [Chen+, 2020b] [dataset]
    ○ Surface Levelでデータを言い直すような生成ではなく、logical inferenceが必要なテキストを
    生成するためのデータセット
    ○ 37k sentences - 7.3k tables
    16

    View full-size slide

  17. Table-to-Text Generation (5/8)
    ● ToTTo [Parikh+, 2020] [dataset]
    ○ highlightされたテーブルのcellとそれらについて述べたsentenceのデータセット
    ■ Controlled text generationタスクを提案
    ○ 全てのsentenceのFactがテーブルによってsupportされている
    ○ 136k sentence - 83k tables
    ● HybridQA [Chen+, 2020d] [dataset]
    ○ tabular / textual dataの両方に基づいて回答する必要があるQAデータセット
    ○ heterogeneousなデータがAnswerに必要な初めてのデータ
    ○ QAに関するその他のデータセットについても言及
    ○ 70k examples
    ● Logic2Text [Chen+, 2020e] [dataset]
    ○ Table + Logical Formと対応するsentenceのペアデータ
    ○ 5.6k open-domain tables, 10.8k の人手でアノテーションされた (logical form, description) pairs
    ○ Logicの種類: count, superlative, comparative, aggregation, majority, unique, original
    ● WikiTableT [Chen+, 2021a] [dataset]
    ○ large-scaleで様々なドメイン/ソースに基づくmulti-sentenceのtable-to-textデータセット
    ○ 1.5M examples
    17

    View full-size slide

  18. Table-to-Text Generation (6/8)
    ● NumericNLG [Lya+, 2021] [dataset]
    ○ numerical reasoningのための論文中の表(数値のみ)と対応するparagraphのデータセット
    ○ 1.3k table - paragraph pairs
    ○ 手法ではinferred factは事前に計算されTable情報としてExplicitに付与している
    ● SciGen [Moosavi+, 2021] [dataset]
    ○ numerical reasoningのための論文中の表と対応するmulti-paragraphのデータセット
    ○ 1.3k table - paragraph pairs, 50k automatically extracted table - paragraph pairs
    ● BioLeaflets [Yermakov+, 2021] [dataset]
    ○ Biomedicalドメインの最初のデータセット
    ○ BiomedicalドメインのEntityのsetと対応する説明テキストのペアデータ
    ○ 1,336 example
    ● TatQA [Zhu+, 2021] [dataset]
    ○ numerical reasoningが必要なQAデータセット
    ○ 2757 context - 16652 questions pair
    18

    View full-size slide

  19. Table-to-Text Generation (7/8)
    ● NBAZHN [Chen+, 2021b]
    ○ 非公開, NBAの試合結果の中国語サイト上でのコメンタリ(Netease Sports)
    ● FinQA [Chen+, 2021c] [dataset]
    ○ multi-stepのnumerical reasoningが必要なComplexなQAデータセット
    ○ 8,281QA pairs
    ● GeoTSQA [Li+, 2021] [dataset]
    ○ Tablar Scenario Question Answeringの最初のデータセット
    ○ Table + Scenario textが与えられたときにQAタスクを行う
    ○ 556 scenario (1.58 tables per scenario) - 1,012 question pairs
    ● HiTab [Cheng+, 2022] [dataset]
    ○ Hierarchical Tableに対する初めてのQAとNLG(sentence)データセット
    ○ 3597 Hierarchical Tables - 10672 QA - 10672 single sentences tuples
    ○ 28ドメインを含み、テキスト中のEntity, Quantity + Operationがアノテーション
    19

    View full-size slide

  20. Table-to-Text Generation (8/8)
    ● CONTLOG [Liu+, 2022] [dataset]
    ○ Logic2Textに含まれるLogical Formと対応するセルをhighlightすることで、Control
    Signalを追加したデータセット
    ○ CONTLOGを利用することでControlled logical natural language generationタスク
    が実現可
    ■ CONTLOG論文では、まずtable-to-logic formモデルを事前学習し、その後
    table-to-textタスクでfinetuningすることを提案しているため、pretraining用
    のtable-to-logical formデータも存在
    ○ データ量
    ■ Table-to-text data: 5,554 tables, 8,566 train/1,095 val/1,092 test
    ■ Table-to-logical form (pretrain) data: 4,5554 tables, 800k train/1,500
    val/1,500 test
    20

    View full-size slide

  21. Graph-to-Text Generation
    ● KBGen [Banik+, 2013]
    ● WebQuestions [Berant+, 2013] [dataset]
    ● 30MQA [Serban+, 2016] [dataset]
    ● WebNLG [Gardent+, 2017] [dataset]
    ● PathQuestion [Zhou+, 2018] [dataset]
    ● AGENDA [Koncel-Kedziorski, 2019] [dataset]
    ● GenWiki [Jin+, 2020] [dataset]
    ● ENT-DESC [Cheng+, 2020] [dataset]
    ● WikiGraphs [Wang+, 2021a] [dataset]
    ● KELM [Agarwal+, 2021] [dataset]
    ● Wikipedia Pre-train Pairs Dataset [Wang+, 2021b] [dataset]
    ● DART [Nan+, 2021] [dataset]
    ● その他
    21

    View full-size slide

  22. Chart-to-Text Generation
    ● Chart2Text [Obeid+, 2020] [dataset]
    ● Chart-to-Text [Kantharaj+, 2022] [dataset]
    22

    View full-size slide

  23. AMR-to-Text Generation
    ● Bio AMR Corpus
    ● AMR 2.0
    ● AMR 3.0
    ○ 使用例 [Ribeiro+, 2021]
    ● New3
    ● The Little Prince Corpus
    ○ 使用例 [Lam+, 2021]
    23

    View full-size slide

  24. その他データセット
    ● Recipes
    ● Geoquery [Tang+, 2001] [dataset]
    ● SimpleQuestion [Bordes+, 2015] [dataset]
    ● Methodius Corpus [Isard, 2016] [dataset]
    ● MyFitnessPal [Weber+, 2016] [dataset]
    ○ 使用例 [Harris+, 2022]
    ● Now You’re Cooking [Parvez+, 2018] [dataset]
    ● Ice Hockey News Dataset [Kanerva+, 2019] [dataset]
    ● Food.com Recipes and Interactions [Majumder+, 2019] [dataset]
    ● PubMed Term, Abstract, Conclusion, Title Dataset [Wang+, 2019]
    [dataset]
    ● CommonGEN [Lin+, 2020] [dataset]
    ● Surface Realisation ST 2020 [Mille+, 2020] [dataset]
    ● Weathernews [Murakami+, 2021] [dataset]
    ● RacingGame Commentary Dataset [Ishigaki+, 2021] [dataset]
    ● Nutribullets [Shah+, 2021] [dataset]
    24

    View full-size slide

  25. MR-to-Text データセット概要
    25

    View full-size slide

  26. ATIS [Zettlemoyer+, 2007]
    ● 架空のオンラインフライト予約システムを操作するユーザの発話
    ○ 左図のようなシナリオに対して、ユーザがフライト予約システムに対して目的を達成するた
    めに発話
    ■ 5426 scenario, シナリオに対して1 sentenceが対応(ave. 11.2 words, vocab 927,
    19種類のレコードタイプのうち平均2.65レコードが1 sentenceで言及 [Konstas+,
    2012]
    ○ これらの発話に対して、lambda-calculus expressionが付与されているコーパス
    26
    元コーパス [Dahl+, 1994]
    lambda-calculus expression付与?
    [Zattlemoyer+, 2007]
    D2T query-generationで利用 [Konstas+, 2012]

    View full-size slide

  27. RoboCup [Chen+, 2008]
    ● サッカーゲームのシミュレーションに対して、MR(e.g. pass, kick,
    turnover)と人間が作成したコメンタリー(1 sentence)が付与されてい

    ○ [Sharma+, 2022] では 1539 pair
    ○ [Puduppully, 2021] では1.9Kのデータ量と記述されている
    ○ 1 sentenceあたり平均5.7 words, 平均レコードタイプは9種類, 平均レコード数は平均2.4
    [Liang+, 2009]
    27
    [Liang+, 2009]

    View full-size slide

  28. WeatherGOV [Liang+, 2009]
    ● WeatherGovから収集した特定のcityの天気予報テキストと対応するMRのペ
    アデータ
    ○ MRは1時間ごとに測定された 降水確率, 気温, 風速等
    ○ 22.1K examples
    ● 現在はデータがDLできなくなっている?
    28

    View full-size slide

  29. BAGEL [Mairesse+, 2010]
    ● Cambridgeのレストランに関するMR(i.e. Dialogue Act)とそれに対応す
    る1 sentenceの発話のコーパス
    ○ informとrejectのdialogue act typeが活用されている
    ○ 202事例 [Puduppully+, 2021]
    29
    [Sharma+, 2022]

    View full-size slide

  30. SF Restaurant & Hotel [Wen+, 2015]
    ● San Franciscoのレストランとホテルに関するMR(i.e. Dialogue Act)と対
    応する1 sentenceの発話のコーパス
    ○ BAGELと比較し、8種類のDialogue Act Typeが活用されている
    ○ 12種類のAttribute (Slots) がある
    ○ 事例数10.2K [Puduppully+, 2021] (1ドメイン約5k)
    ● Amazon Mechanical Turk (AMT)で作成
    ○ 1つのDialogue Actに対して複数のreferenceが存在
    30
    [Sharma+, 2022]

    View full-size slide

  31. RNNLG [Wen+, 2016]
    ● 4種類のドメインに対するMR(i.e. Dialogue Act)と発話のペアデータ
    ○ domain: finding a restaurant, finding a hotel, buying a laptop, buying a television
    ○ restaurant, hotelに関してはSF Hotel & Restaurantと同一
    ● laptop, tvドメインでより多様なデータセットを作成するために、全ての
    Dialogue Act Typesとslotsの組み合わせを列挙した
    ○ 合計でlaptopでは13KのDialogue Act、TVでは7KのDialogue Actとなった
    ○ Amazon Mechanical Turk (AMT) でそれぞれのDAに対して、1つのrealization
    (sentence)を収集
    ● restaurant, hotelでは1 sentenceだったが、laptop, TVでは複数文も許容
    されている
    31

    View full-size slide

  32. E2E [Novikova+, 2017]
    ● Restaurantドメインの MR (i.e Dialogue-Act) とreferenceのペアデータ
    ○ referenceは一つのMRに対して最大で5つ存在
    ○ データ量は50k、画像を利用することでよりinformativeで自然なreferenceを収集
    ● BAGEL, SF Restaurant/Hotes, RoboCup等と比較して以下がchallenging
    ○ 多様なvocabulary, より複雑な構造(e.g. 接続詞, 動名詞, 代名詞等), 多様な談話構造
    32

    View full-size slide

  33. WikiBio [Labret+, 2016] (1/3)
    ● Wikipediaからbiographyに関する728,321記事を収集
    ○ 記事中のinfoboxとfirst paragraphによってペアデータ作成
    33
    Frederick Parker-Rhodes (21 March 1914
    – 21 November 1987) was an English
    linguist, plant pathologist, computer
    scientist, mathematician, mystic, and
    mycologist.

    View full-size slide

  34. WikiBio [Labret+, 2016]: データ例 (2/3)
    34
    aaron hohlbein -lrb- born august 16 , 1985 in middleton , wisconsin
    -rrb- is an american soccer player who is currently without a club .

    View full-size slide

  35. WikiBio [Labret+, 2016]: データ例 (3/3)
    35
    walter extra is a german award-winning aerobatic pilot , chief aircraft
    designer and founder of extra flugzeugbau -lrb- extra aircraft
    construction -rrb- , a manufacturer of aerobatic aircraft .
    extra was trained as a mechanical engineer .
    he began his flight training in gliders , transitioning to powered
    aircraft to perform aerobatics .
    he built and flew a pitts special aircraft and later built his own extra
    ea-230 .
    extra began designing aircraft after competing in the 1982 world
    aerobatic championships .
    his aircraft constructions revolutionized the aerobatics flying scene
    and still dominate world competitions .
    the german pilot klaus schrodt won his world championship title
    flying an aircraft made by the extra firm .
    walter extra has designed a series of performance aircraft which
    include unlimited aerobatic aircraft and turboprop transports .

    View full-size slide

  36. DocWikiBio [Perez-Beltrachini+, 2018]
    ● WikiBioデータを豊富なproperty(i.e Spouseといったtableの項目)と複
    数文を持つテキストにフィルタリングしたデータセット
    ○ 6 property-value pair 以下の事例を除外
    ○ 1文のみで構成されるparagraphを含む事例を除外
    ○ 23単語未満のparagraphを含む事例を除外
    ○ 最大文数は12文, 最大property-value pair数は50
    ● paragraphのmain entityをDBPediaのproperty-value pairと紐づけ、クラ
    スの情報も付与した
    ○ e.g. p=Spouse(s), v=Robert Joseph Flaherty, c=Person
    36

    View full-size slide

  37. The Wikipedia company corpus [Qader+, 2018]
    ● Wikipediaの企業ページからinfobox, abstract, bodyを収集したデータセッ

    ● 51k企業に対するinfobox, abstract, body tupleを収集
    ○ attribute数は合計で41種類で、1企業あたり平均4.5 attributeによって構成
    ○ vocabulary sizeは160k words
    ● Concept-to-Text, Text-to-Text の両方のタスクで利用可能
    ○ i.e. abstract generation, body text summarization
    37

    View full-size slide

  38. Sentence Planning Corpus for NLG [Reed+, 2018]
    ● End-to-Endなシステムではcontent planningとsurface realizationを中間
    表現無しで実現できる
    ○ => しかし、適切にcontent planning, aggregation operation, discourse relationを生成で
    きることを示した研究はない(と著者らは主張)ので学習できているか検証
    ● Sentence Planning Corpusの構築
    ○ Sentence scoping: PERSONAGEで生成
    ■ 64,442 output/MR pairs + 398 output/MR pairsを1~7文で生成
    ○ Distributive Aggregation: PERSONAGEで生成
    ■ 属性はPRICE, RATING のみに限定し、値をLOW, AVERAGE, HIGHのみに限定
    ■ テストデータは の組み合わせのみに限定し必ずDistributiveが生じるよ
    うに生成し訓練データではは2つの値が異なるもの(e.g. )を利用
    ○ Disrourse Contrast: E2Eデータセットから手掛かり句を用いてcontrastが含まれるインス
    タンスを見つけ、データセット構成
    38

    View full-size slide

  39. PersonageNLG: Style in NLG [Oraby+, 2018]
    ● E2EのMRからPERSONAGEと呼ばれるstatistical language generatorを
    用いて、5種類のスタイルに応じたテキストを生成しコーパス作成
    ○ スタイルはBIG-FIVE
    ○ train: 3784 MRに対して、スタイルごとに17771の発話を作成。合計で88855発話。
    ○ test: 278 MRに対して、スタイルごとに1referenceを生成。合計1390発話。
    ● MR, personality (stylistic) label, utteranceの3つ組データを提供
    39
    5種類のスタイル
    BIG-Five
    スタイル情報
    ない場合

    View full-size slide

  40. Multiwoz [Budzianowski, 2018]
    ● 従来のtask-orientedなDialogueコーパスと比べて、より多くのドメイン
    で、大規模なDialogueコーパスを構築した
    ○ restaurant, attraction, hotel, taxi, train, bus, hospital, police
    ● human-humanのtask-orientedな対話に対して、人手でDialogue Actを
    annotationした
    40

    View full-size slide

  41. Czech Restaurant [Dusek+, 2019]
    ● SF Restaurant をチェコ語に翻訳することでデータセット作成
    ● slot valueはSFのセッティングになっているため、それをチェコ版に
    localizeしている
    ○ restaurant names, areas, food types, street addresses, landmarks を対象としている
    ● また、originalのSF Restaurant はduplicate textが非常に多かったため、
    それらは除外し、同等の規模になるようにinstanceを増やした
    41

    View full-size slide

  42. YelpNLG [Oraby+, 2019]
    ● Yelp challenge datasetのreviewデータを利用し、300kのMR-Sentenceペ
    アを提供
    ○ MRは (attribute, value, adjectives)のtupleで表現される
    ○ sentiment(レビュのratingから決定), length, pronounsなどの情報も付与されている
    ○ domain: restaurant
    ● MRはdependency parsingの情報から自動生成
    ○ 自動で生成の信頼性を向上させるために、サンプリングする文を最低1個のfood, restaurant
    の言及をしている文、かつ4~30 wordsの文に限定している
    42

    View full-size slide

  43. FewshotWoz [Peng+, 2020]
    ● 既存のデータは各ドメインに対して大規模なラベルつきデータがあるが、
    real worldなシナリオでnew domain適用する場合には限られたラベルつき
    データしか得られない
    ○ => このためfew-shot learningの設定でデータを作成
    ● RNNLGとMultiWozデータセットからデータをサンプリングし作成
    ○ 1つのドメインでしか出現しないdialog actと対応する発話からサンプリング
    ● delexicalizedしたDialogue Actのtrain/test間でのoverlapが非常に小さい
    のが特徴
    43

    View full-size slide

  44. SGD [Rastogi+, 2020] (1/2) 解説
    ● Google ActionsやAlexa Skillsなどによって、開発者は新たなサービスに対
    話インタフェースを導入できるようになった
    ● 新たなチャレンジ:
    ○ 様々なドメインでサービスを提供する必要があるが既存データではドメインが限られている
    ○ 既存データセットはドメインごとに単一のAPI(i.e. intentとslotのセット)しか提供してい
    ないが、実シナリオでは同じ機能でも、異なるAPIが利用されインタフェースは異なる
    ● これらを克服するために大規模なデータセット作成
    ○ 多くのドメインをカバーし、ドメインごとに複数のAPIを提供する最初のデータセット
    ○ APIインタフェースの追加や、APIの追加に対するモデルのロバスト性を測るために、テスト
    データには訓練データにはない多くの新しいサービスを含む
    ○ 単一のモデルで様々なAPIに対応するために、マスタースキーマアプローチを採用せず、ス
    キーマガイドアプローチを採用した
    44

    View full-size slide

  45. SGD [Rastogi+, 2020] (2/2) 解説
    ● スキーマに関数のリストと関数と関連づけられたslotの自然言語での説明を
    定義し、後者を利用することでスキーマの意味表現を学習して利用する
    ○ => これによりドメイン、またはサービス固有のパラメータを持たない単一の統合モデルを学
    習可能で、異なるサービス間の類似概念を学習できる
    ○ => また、スキーマの意味表現の利用により、訓練データに存在しないサービスへの対応が可
    能となる
    45

    View full-size slide

  46. CACAPO [Lee+, 2020]
    ● Attribute-Valueペアと対応するニューステキストのデータセット
    ○ 収集したニューステキストをsentenceに分割し、それぞれのsentenceに対してMR(i.e.
    Attribute-Valueペア)を2名の専門家が付与
    ● task-based settingで収集されたデータではなく、’naturally occuring’で
    人間が書いた最初のデータセットだと主張
    ○ domain: sports, weather, stock, incidents
    ○ language: English, Dutch
    46

    View full-size slide

  47. WITA [Fu+, 2020]
    ● MRとtextが完全にalignしているペアデータを作るのは非常にコストがかか
    りドメインも限られてしまう問題がある
    ○ => これを解決するためにpartially aligned(MRとtext)の一部しか対応していないデータ
    セットを自動生成(WITA)
    ○ => MRにsupportされていない情報を含まないようにテキストを生成する partially aligned
    data-to-text generation モデルを提案
    ● WITA: Wikipedia, Wikidataからデータ生成
    ○ 記事中のfirst sentenceを抽出し、sentence内の固有表現を抽出し直積集合(固有
    表現の全てのペアの組み合わせ)を作成
    ○ Wikidata中の対応するtriplet を抽出し(head, tailがそれぞれe1, e2
    と近しいものを抽出)、その後質の悪いペアデータをフィルタリングしデータセット作成
    47

    View full-size slide

  48. DSTC10 [Kim+, 2021]
    ● speech-basedでtask-orientedなdialogue corpus
    ● 人間同士のSanFranciscoのtouristic informationに関する対話を記録
    ● entityに関するknowledge snippetsはFAQリストから作成
    48

    View full-size slide

  49. Table-to-Text データセット概要
    49

    View full-size slide

  50. UPI Newswire [Robin, 1994]
    ● UPI NewswireのNBAゲームのサマリーとbox-scoreのペアデータ?
    ○ 全部で293 text?
    ○ データの公開はされてなさそう
    ○ 試合結果 + half time時点での結果 + 各選手のstatsのような構成になっていそう
    50

    View full-size slide

  51. SUMTIME [Sripada+, 2003] [Reiter+, 2005] (1/4)
    ● 時系列データに対するテキスト生成のためのデータセット
    ○ SUMTIME project
    ● 専門家が記述した天気予報テキストと数値データ(e.g. 風速, 気温)のペア
    ○ 2000/6/26 ~ 2002/5/10 までの1045ペア
    ○ 天気予報テキストは1日あたりmorningとeveningの天気予報が存在
    ● 数値データ一覧
    ○ Marine Model: 風と波に関する予測(ある時点から3日~1週間後まで3時間間隔で予測)
    ■ 風向, 風速(knot), 突風(knot; 10m地点, 50m地点), 有義波高, 波の周期, うねり, うねり
    の高さ, うねりの周期
    ○ MaxMin Model: 天候に関する予測(ある時点から3日~4日後まで1時間間隔で予測)
    ■ 雲量(low, medium, high altitude), 合計雲量, 気温, 降水量, 降雪確率, 気温減率
    51

    View full-size slide

  52. 52
    Marine Model
    MaxMin Model
    SUMTIME [Sripada+, 2003] [Reiter+, 2005] (2/4)

    View full-size slide

  53. SUMTIME [Sripada+, 2003] [Reiter+, 2005] (3/4)
    ● 天気予報テキストの種類
    ○ INFERENCE: 一般的な天気の見通しについて記述
    ○ FORECASTS: 3種類の期間に対する予報
    ■ 予報する期間
    ● AM Forecasts: 当日の6時~24時, {翌日, 翌々日}の0時~24時
    ● PM Forecasts: 当日の15時~翌日06時, 翌日の6時~24時, 翌々日の0時~24時
    ■ 予報の項目
    ● Wind{10, 50}M: {10, 50}m地点での風に関する予報
    ● Waves Sig. Ht (M): 有義波高に関する予報, うねりに関する情報も利用される
    ● Waves Max Ht (M): 最大波高に関する予報, うねりに関する情報も利用される
    ● Wave Period: 波の周期データに関するサマリー
    ● Weather: 主に雲量と降水量のサマリー
    ● Vis: 見通しの良さのサマリー
    ● Temp: 気温のレンジ
    ● Cloud: 雲量に関するサマリー
    ○ LONG RANGE OUTLOOK: 長期間の見通し(見通しの期間はその時々による)
    53

    View full-size slide

  54. SUMTIME [Sripada+, 2003] [Reiter+, 2005] (4/4)
    ● INFERENCE
    ● FORECASTS
    54
    ● LONG RANGE OUTLOOK
    スウェーデン南部の 968MB の台風は東に移
    動します。ベルゲンの西の 976MBの台風は南
    東に移動し、夕方までに南デンマークを越えま
    す。 デンマーク海峡で低気圧が形成され、木曜
    日の午後までに南東に移動し、スコットランド北
    部に到達します。

    View full-size slide

  55. NFL [Barzilay+, 2005]: 概要 (1/6)
    ● 2003/2004シーズンのNFLのサマリーとstatisticsのペアデータ
    ○ 468試合の texts, 平均サマリー長は46.8 sentencesと長文
    ● データは公開されていない?
    55
    It includes a scoring summary and a play-by-play summary giving details of the most
    important events in the game together with temporal (i.e., time remaining) and positional
    (i.e., location in the field) information.

    View full-size slide

  56. NFL [Barzilay+, 2005]: 統計量 (2/6)
    ● Entity TypeとAttribute数しか書かれていないため、1 Game Summaryご
    とにどの程度のinput量が存在するかは不明
    56

    View full-size slide

  57. NFL [Barzilay+, 2005]:Game Summaryと
    Play-by-Play Summary (3/6)
    ● Entity間の関係がある文についてはPlay-by-Play Summaryでテキストで情
    報が与えられている(ことが多そう)
    ● The Browns faked a field goal, but holder Derrick Frost was stopped
    short of a first down.
    ○ Play-by-Play: 4-4-WAS28 (2:21) (Field Goal formation) D.Frost to WAS 27 for 1 yard
    (M.Washington).
    ● Brunell then completed a 13-yard pass to Coles, who fumbled as he
    was being taken down and Browns safety Earl Little recovered.
    ○ Play-by-Play: 2-10-WAS27 (2:08) M.Brunell pass to L.Coles to WAS 39 for 12 yards
    (K.Bentley). FUMBLES (K.Bentley), RECOVERED by CLV-E.Little at WAS 40. E.Little to
    WAS 26 for 14 yards (L.Coles).
    57

    View full-size slide

  58. NFL [Barzilay+, 2005]:Play-by-Play Summary (4/6)
    ● Game全体のサマリーだけでなく時系列ごとの重要なイベントのサマリーが
    存在する
    ○ quarterの残り時間, field中の場所等も記述
    58
    リンク

    View full-size slide

  59. NFL [Barzilay+, 2005]:Scoring Summary (5/6)
    59
    リンク

    View full-size slide

  60. NFL [Barzilay+, 2005]:論文中のGame Summary例の全体
    (6/6)
    60
    CLEVELAND (Oct. 3, 2004) -- The pain finally subsided in Lee Suggs' neck long enough to take some hurt out of Cleveland's bruised season.
    Suggs, who sat out Cleveland's first three games with a neck stinger, rushed for 82 yards and scored a touchdown in the fourth quarter, leading the Browns to a
    17-13 win over the Washington Redskins.
    From his first carry of the season, a 25-yard burst in the first quarter, the speedy Suggs gave the Browns (2-2) the spark their ground game had been missing.
    "Man it's good to have him back," said tight end Aaron Shea, who had a 15-yard TD catch in the third quarter.
    The Browns, who lost starters Kellen Winslow Jr. and Courtney Brown for the year with injuries, were in danger of digging a deep early-season hole and desperate
    for a win.
    And although it certainly wasn't a thing of beauty, they got one.
    "We just had to have this, we needed a win," said defensive end Kenard Lang. "It's really big. Look at me, I'm smiling now. I'm just happy that we won."
    Jeff Garcia went 14 of 21 for 195 yards and a TD for the Browns, who didn't secure the win until Washington's Laveranues Coles fumbled with 2:08 left.
    The Redskins (1-3) can pin their third straight loss on going just 1 for 11 on third downs, mental mistakes and a costly fumble by Clinton Portis on the first play after
    halftime that allowed Cleveland to quickly tie it.
    "My fumble changed the momentum," Portis said. "All of a sudden, we lost control of the game."
    Mark Brunell couldn't get it back as Washington's offense sputtered again behind its new quarterback. Brunell finished 17 of 38 for 192 yards, but was unable to get
    into any rhythm because Cleveland's defense shut down Portis and the Washington coach's headsets and sideline phones were malfunctioning.
    "It made it tough to communicate," Brunell said. "We had to go to hand signals. But the headsets didn't cause the fumbles or the overthrown passes. We made
    mistakes."
    Clinging to their four-point lead, the Browns faked a field goal, but holder Derrick Frost was stopped short of a first down. Brunell then completed a 13-yard pass to
    Coles, who fumbled as he was being taken down and Browns safety Earl Little recovered.
    "I fumbled the game away for us," Coles said.
    Garcia, who played poorly in Cleveland's two previous losses, then only had to kneel down because the Redskins had used up their timeouts, which also was a
    problem in last week's loss to Dallas.
    Other than his 25-yarder the first time he touched it, Suggs wasn't very flashy -- just efficient.
    "He did a great job, finding creases, using his fullback and creating positive runs," Garcia said. "It's nice to finally have our backfield at full strength."
    With the Browns down 13-10, Suggs ripped off a 14-yard run as Cleveland drove for the go-ahead score and Garcia completed a huge third-down pass to Quincy
    Morgan.
    A few plays later, Garcia lofted a 26-yard pass to uncovered Andre' Davis to the Washington 3. Suggs then pushed in to make it 17-13, the first rushing TD by a
    Cleveland back this season.
    Suggs, who had his neck wrenched during practice last month, spent the past three Sundays watching and waiting for his chance to help. At last on the field, Suggs
    had to pick up a blitzing linebacker on his first play, a moment that tested his strength and convinced him he could take a hit.
    "It was good to get that out of the way," he said. "After that, I didn't even think about it."
    Trailing 10-3, the Browns were booed as they left the field for halftime. Garcia, yet to lead the club to a first-half TD, went just 4 for 8 for 64 yards -- 37 on one play --
    in the first 30 minutes.
    But Cleveland got a break when Portis fumbled on the first play of the third quarter and Andra Davis recovered at the 31.
    Garcia capitalized, using three short rollout passes, the last to Shea, who ran untouched until he got to the goal line, where he plowed through a pile.
    "I turned, no one was on me and I saw the end zone. I was like, 'I'm getting in there,'" said Shea, scoring his first TD since 2000. "Nothing was going to stop me."
    リンク

    View full-size slide

  61. WikiTableQuestions [Pasupat+, 2015]
    ● Tableとquestion-answerペアのデータセット
    ○ Wikipediaから最低8行, 5列以上を持つテーブルを抽出
    ○ Amazon Mechanical Turkでworkerに questionとそれに対するanswerを生成してもらった
    ○ 36種類のprompt(e.g. 数値計算を含む質問, firstという単語を含む質問)を用意しquestion
    が複雑となるように促した
    ● 2108 tableに対して、22,033のquestion-answerペアを生成
    61

    View full-size slide

  62. SBNation [Wiseman+, 2017]
    ● box- and line scoreと人手で書かれたNBAゲームサマリーのペアデータ
    ○ 10,903個のサマリーで構成されている
    ● 多くのサマリーがbox- line scoreに存在しない情報に関して記述されてお
    り、非常にnoisyなデータとなっているとのこと
    ○ wisemanモデルでBLEUスコア1.78しか達成できなかった
    62

    View full-size slide

  63. Rotowire [Wiseman+, 2017]:概要
    ● box- and line scoreと人手で書かれたNBAゲームサマリーのペアデータ
    ○ 4.9kのペアデータで構成
    63

    View full-size slide

  64. WikiSQL [Zhong+, 2017]
    ● Wikipediaから抽出した24241個のtableと、80654個のhand-annnotated
    な自然言語で記述されたQuestionとSQL Query
    ○ 多様なtableに対するqueryが存在するため、モデルはqueryに対して汎化するだけでなく、
    新たなtable schemaに対しても汎化しなければならない点がチャレンジング
    ● Amazon Mechanical Turkでデータセット生成
    ○ 先行研究が生成したWikipediaのテーブルからsmall tableを除去
    ○ ここのテーブルに対して、ルールベースで6種類のSQLクエリを作成
    ○ テンプレートベースの手法でQuestionを作成
    ○ 作成したQuestionをworkerにparaphrasingしてもらうことでデータ作成
    64

    View full-size slide

  65. WIKITABLETEXT [Bao+, 2018]
    ● tableのregion(この研究ではrow)を指定し、指定されたregionに関して
    述べるテキストを生成するタスクを提案
    ● データセット作成手順
    ○ Wikipediaから5,000個のregular table(i.e. attributeやcellがマージされていないもの)を
    収集
    ■ 最低3行, 2列のテーブルを収集
    ○ それぞれのテーブルに対してランダムに3行を選択し、15,000行がアノテーションに利用
    ○ アノテータに行と対応するAttribute, captionを見せ、少なくとも2つのセルに関するテキス
    トを作成するよう依頼(全てのcellをカバーする必要はなし)
    ■ tableに関してwebで調べることは禁止した(external knowledgeを利用しない)
    ○ 最終的に13,318 row-text pairを得た
    ● table-to-text generationにおける初めてのopen-domain datasetと主張
    65

    View full-size slide

  66. Chess Commentary Dataset [Jhamtani+, 2018]
    ● チェスフォーラムから収集したGame Stateとmove-by-move commentary
    ○ Game Stateはlinearlizedされ64 tokenで表現される, emptyは”eps”, 他はblack_bishop等で
    表現
    ● 1kのコメントでコメントのカテゴリをアノテーションしSVMを訓練し全デー
    タに対してラベル付けして分析している
    66

    View full-size slide

  67. Spider [Yu+, 2018]
    ● text-to-SQLのデータセット
    ○ 10,181 question
    ○ 138のドメインの複数テーブルを保持するDBに対する5,693の複雑なクエリ
    ○ 11人のYale大学の生徒によってアノテーション
    67

    View full-size slide

  68. GermanRotowire [Hayashi+, 2019]
    ● RotoWireのsubsetをprofessionalな翻訳家の手で翻訳
    ○ 元コーパスとsentence levelでalignmentされている
    68

    View full-size slide

  69. MLB [Puduppully+, 2019]:概要(1/4)
    ● MLBの試合のStatsとSummaryに関するデータセット
    ○ play-by-play tableが存在するのが特徴
    ○ play-by-play table: ゲーム中の重要なeventが時系列で記録されたテーブル
    ● Rotowireと比較して:
    ○ Summaryが約50%長い
    ○ input recordsがリッチで、より構造化されている
    ■ line-score table
    ■ box-score table
    ■ play-by-play table ← new
    ○ 5倍のデータ量
    ● Summaryに時系列に記録されたゲームの重要なイベントの詳細を含む
    ● [Puduppully+, 2019]らの手法では、line-, box-scoreだけでなく
    play-by-play tableもbidirectional encoderに入力される
    69

    View full-size slide

  70. MLB [Puduppully+, 2019]:データセットの統計量
    (2/4)
    ● RotoWireの5倍のデータ量でSummaryも1.5倍のトークン数
    70

    View full-size slide

  71. MLB [Puduppully+, 2019]:line- box-score, play-by-play
    (3/4)
    71

    View full-size slide

  72. MLB [Puduppully+, 2019]:play-by-play table example
    (4/4)
    ● 重要なEventがExplicitに与えられている
    72

    View full-size slide

  73. Rotowire-Modified [Iso+, 2019]
    ● Rotowireデータでは、1つのGameに対して2つのSummaryが存在するケー
    スがあり、片方がtraining、もう一方がvalidationあるいはtestデータに含
    まれる事例が存在するため、こういった事例を除外したデータセットを作成
    ○ 2つのSummaryは同一ではないが、類似している
    ● データセット作成方法:
    ○ Rotowireからデータを再クローリングし、元データと同じsplitに各データを割り当て
    ○ 14 instanceは元データに存在しなかったため、9, 2, 3個ずつtrain, val, testに割り当て
    ○ 各Summaryのwriterの情報も追加で収集
    ● データセットの統計量:
    ○ 3748 instance (train: 2714, val: 534, test: 500)
    ○ Avg. Summary length: 384 tokens
    ○ Avg. data records: 644
    ○ # of writers: 32 (607 Summaryを執筆している人もいれば、10 Summary以下のWriterも
    いた)
    ○ Avg. # of Summary / writer: 117
    73

    View full-size slide

  74. Rotowire-FG [Wang, 2019]:概要 (1/2)
    ● RotoWireデータのコンテンツのうち約60%しかboxscore recordに対してグラウ
    ンディングできないことを指摘
    ○ => このようなデータでは言語モデルがランダムなfactを生成してしまう
    ● 以下の特徴を利用しRotoWireのfactをグランディングできるSummary contents
    を残した(i.e. Summaryをトリミングした)
    ○ 次の話題に移る前に、単一のEntityに言及していることが多い
    ■ => sentenceをunitとしてtopicのboundaryを見つけることができる
    ■ => boxscoreのレコード中のfactの絞り込みや、共参照の解決等に利用
    ■ => また、あるフレーズにとって適切なtypeを特定するヒューリスティクスを導入し、Entity
    とboxscore tableのtype, valueを紐づけた
    ○ true content planに対して、98%のPrecision, 95%のRecallを達成し、Summary中のnumerical
    wordsのうち74%がbosxcore tableとalignできた
    ● その他にも、Normalizationによってnumber wordsを数値に変更したり、%の丸
    めの訂正、Player, Teamのlexical formの正規化等を実施
    ● また、2017-19のデータを新たにクローリングし、line-score tableで不足してい
    る情報(e.g. teamの合計シュート数, 3-point数, フリースロー数)をプレイヤー
    のstats等から求め補完
    ● クォーターごとのチームの合計得点や、得点の差なども新たなrecord typeとして
    追加
    74

    View full-size slide

  75. Rotowire-FG [Wang, 2019]:統計量 (2/2)
    ● Rotowire-FGでは、新たにデータを追加したのでexamples数は増加
    ● SummaryはトリミングされるためAvg Lenは短くなっている
    75

    View full-size slide

  76. SportSett:Basketball [Thomson+, 2020]:概要 (1/3)
    ● Rotowireデータを改善しPostgreSQLでデータをqueryしたりfilteringできるよう
    にしたデータセット
    a. 従来のデータセットと異なり、データセットを様々なdimensionで切り出せる
    b. summary自体はRotoWireデータと同様
    ● RotoWireデータからの改善点
    a. プレイヤーが所属するチームが名前ではなく市区町村でindexingされるなどのマイナーな問題
    ■ minor changeについては多すぎるため論文中では言及されていない
    b. train/val/testの分割のcontamination
    ■ RotoWire-Modifiedが解決した同様の問題
    ■ 加えてSummaryに過去のゲームのデータを集約した記述がなされている場合、それらのゲー
    ムも同じパーティションに含まれていなければならない問題がある
    ● ⇒ 2014, 15, 16をtrain 17をval, 18をtestとすることで解決
    c. 各シーズンにおける82試合のゲームのsequentialな性質も取り扱える
    ■ プレシーズン/ポストシーズンもDBは扱えるようになっているがデータ自体はimportされてい
    ない
    d. Playに関する情報を追加(いつ、誰が、どんなプレイをしたか)
    e. ゲームが実施されたlocation(stadium, place)に関する情報も追加
    ● データのソース
    a. rotowire.com
    b. basketball-reference.com
    c. wikipedia.com
    76

    View full-size slide

  77. SportSett:Basketball [Thomson+, 2020]:JSONからDBへの
    転換 (2/3)
    ● PostgreSQLのDB
    ○ SQLによってデータをqueryしたりfilteringしたりできる
    ○ SQLやORMを使うことでシステムに必要なフォーマットに簡単にデータをoutputできる
    ● なぜJSONは不適切なのか?
    ○ RotoWireに含まれる文のcomplexityの例:
    ■ 複数ゲームに渡るプレイヤーのaverage
    ■ 複数ゲームに渡って”stayed dominant”といった主張が含まれている
    ○ => 現在のRotoWireのフォーマットではこういった現象を評価するのには不適切
    ○ => 特に、JSON形式のファイルではデータのサイズと複雑さが増すにつれて、生成されたテ
    キストを入力データと比較して確認するなどを実施する場合に扱いにくくなる
    77

    View full-size slide

  78. SportSett:Basketball [Thomson+, 2020]:生データ例 (3/3)
    78
    The Miami Heat ( 20 ) defeated the Philadelphia 76ers ( 0 - 3 ) 114 - 96 on Saturday . Chris Bosh scored a game - high 30 points to go
    with eight rebounds in 33 minutes . Josh McRoberts made his Heat debut after missing the entire preseason recovering from toe
    surgery . McRoberts came off the bench and played 11 minutes . Shawne Williams was once again the starter at power forward in
    McRoberts ' stead . Williams finished with 15 points and three three - pointers in 29 minutes . Mario Chalmers scored 18 points in 25
    minutes off the bench . Luc Richard Mbah a Moute replaced Chris Johnson in the starting lineup for the Sixers on Saturday . Hollis
    Thompson shifted down to the starting shooting guard job to make room for Mbah a Moute . Mbah a Moute finished with nine points
    and seven rebounds in 19 minutes . K.J . McDaniels , who suffered a minor hip flexor injury in Friday 's game , was available and
    played 21 minutes off the bench , finishing with eight points and three blocks . Michael Carter-Williams is expected to be out until Nov.
    13 , but Tony Wroten continues to put up impressive numbers in Carter-Williams ' absence . Wroten finished with a double - double of
    21 points and 10 assists in 33 minutes . The Heat will complete a back - to - back set at home Sunday against the Tornoto Raptors .
    The Sixers ' next game is at home Monday against the Houston Rockets .

    View full-size slide

  79. TabFact [Chen+, 2020a]:概要 (1/2)
    ● Structuredなformatをevidenceとする初めてのデータ
    ○ 従来のFact Checkingは、unstructuredなtextによるevidence(e.g. sentence, wikipedia
    passage, image)に対して行われていった
    ● 16,753個のwikipedia tableに関する117,854件の人手でアノテーションさ
    れたsentenceのデータセット
    ● tableとsentence間には ENTAILED と REFUTED の関係性が分類されてい

    79

    View full-size slide

  80. TabFact [Chen+, 2020a]:TabFactが扱う2つの課題 (2/2)
    ● Linguistic Reasoning:
    ○ 従来のデータセットではlinguistic reasoningは言い換えが支配的だったが、TabFactではよ
    り推論やcommon senseが必要となる
    ○ “John J. Mcfall failed to be re-elected through being unopposed.”を正しくentailmentす
    るためには”lost renomination …”を理解する必要がある
    ● Symbolic Reasoning:
    ○ “There are three Democrats incumbents”は where condition + count の演算が必要
    ○ QAと異なり、複合的なFACTが含まれており(Total=5, democratic count=2, republic
    count=3)それぞれの事実を検証する必要がある
    80

    View full-size slide

  81. LogicNLG [Chen+, 2020b]:概要 (1/5)
    ● Surface Levelでデータを言い直すような生成ではなく、logical inference
    が必要なテキストを生成するためのデータセット
    ● TabFactの “complex channel” のデータを対象にデータセット作成
    ○ complex channnelのデータでは下記が実施されている
    ■ 複数行に対するargmax, argmin, count, difference, avg, summarize等の意味処理
    ■ テーブルレコードをより意味的な理解が伴うrephrase
    ○ LogicNLGの特徴:
    ■ sentenceには最小限のドメイン知識を必要とする豊富なlogical inferenceが含まれる
    ■ open-domainデータなので、schemaからinferenceを絞り込むことができずモデルの
    汎化性能が試される
    ■ 大部分のsentenceは平均して11 tokenでありlogical inferenceにフォーカスできる
    ■ 1 tableあたり5種類の異なるreferenceが存在
    81
    implicit logical inferenceが必要

    View full-size slide

  82. LogicNLG [Chen+, 2020b]:統計量(2/5)
    ● Open domain, implicit logical inferenceが必要、かつschemaは多様
    ● サンプル数は37.0k
    82

    View full-size slide

  83. LogicNLG [Chen+, 2020b]:性能指標(3/5)
    ● Logical inferenceのfidelityを測る方法を提案
    ○ 従来のWisemanらが利用するIEベースの手法は (subject, predicate, object) のtupleを抽出
    するがlogical inferenceの場合は必ずしもこのようなtupleとはならないから適用できない
    ● Parsing-based Evaluation
    ○ semantic parsing [Liang+, 2009] の手法を用い、生成したテキストのlogical formを生成
    ○ logical formをtableに適用しtrueとなるか否かでlogicがknowledgeにsupportされているか
    を判断
    ● NLI-based Evaluation
    ○ TabFactを用いて学習したFactCheck(Entailed / Refuted)モデルを利用
    ○ 生成されたテキストが、与えられたTableをどれだけEntailedしているかを測定
    ● Adversarial Evaluation
    ○ Testデータのreferenceに対して、adversarialなデータを作成
    ■ “more” を ”less”に言い換える等
    ○ 評価するモデルがAdversarial sentenceよりも、Original sentenceに対して高い尤度を与え
    るか否かでlogical reasoningの能力を測定する
    83

    View full-size slide

  84. LogicNLG [Chen+, 2020b]:手法(4/5)
    ● 4種類のモデルと3種類のTraining方法
    ○ Maximum log likelihood, Adversarial regularization, Reinforcement learning
    84

    View full-size slide

  85. LogicNLG [Chen+, 2020b]:データ例(5/5)
    85

    View full-size slide

  86. ToTTo [Parikh+, 2020]: Motivation (1/7)
    ● data2text datasetの作成には2つの困難さがある
    ● task design:
    ○ open-endedな出力を伴うタスクでは、”what to generate”に関する明示的なsignalが不足す

    ○ このため、生成テキストは主観的なコンテンツとなり評価に課題が存在する
    ○ MRをverbalizeするタスクでは、モデルの推論能力をテストすることができず、多くのチャ
    レンジがタスクから除かれてしまう
    ● annotation design:
    ○ 自然で綺麗なtargetを取得するためのアノテーションプロセスのデザインはチャレンジング
    ○ 一般的な戦略
    ■ アノテータにscratchでtargetを書いてもらう
    ■ 自然に生じたtable-text pairを収集する
    ● ただし、この方法ではしばしばノイジーでsourceから再現できない情報を含む
    ● => 評価してもノイズのせいなのか、モデリングの弱点のせいなのか切り分けが
    できない
    ● => ToTTOではこれらの問題に対処するためのデータセットを提案
    ○ task design: highlightされたcellに関するテキストを生成するcontrolled generation taskを
    定義し解決
    ○ annotation design: アノテータに既存のsentencesを自然でsource tableをsupportするよう
    に推敲してもらうことで解決
    86

    View full-size slide

  87. ToTTo [Parikh+, 2020]: ToTTo dataset例 (2/7)
    ● データセット例とアノテーションプロセス
    ○ => high-precision な conditional text generationのデータセットとなっている
    87

    View full-size slide

  88. ToTTo [Parikh+, 2020]: アノテーションデータ収集
    (3/7)
    ● ToTToデータセットを作成するためのアノテーションデータの収集に利用し
    たヒューリスティクス
    ○ 前提:Wikipediaから収集
    ● Number Matching
    ○ 同一Wikipediaページ内にあるテーブルと文を探索し、日付かつ0ではない数値が最低3つ
    overlapしているペアを探索
    ○ => statisticsを述べているtable-sentence pairをcapture可能
    ● Cell matching
    ○ テーブルの同一行の最低3つのcellと一致するトークンを持つ文を抽出
    ○ => 大抵のテーブルは構造化されており、あるイベントを説明する際には行が利用されるため
    ● Hyperlinks
    ○ sentenceがリンクを含んでおり、タイトルが”List”で始まる例を探索
    ■ “List”で始まるページは典型的に大きなテーブルのみを含んでいるため
    ○ ページ内のテーブルがリンク元の記事へのリンクを保持していた場合アノテーションデータ
    とした
    ○ => よりdiverseなexampleが獲得できる。ただしノイズも多い
    88

    View full-size slide

  89. ToTTo [Parikh+, 2020]: アノテーションプロセス (4/7)
    1. Table Readability
    a. テーブルがreadableか否かを判定
    b. readableではない場合、以後のステップは適用しない
    2. Cell Hightlighting
    a. アノテータにsentenceをsupportするテーブルのcellをハイライト
    b. 直接的にcellのコンテンツ、あるいはメタデータについて述べている場合、またそれらから論
    理的に推論できる場合に、あるフレーズはテーブルによってsupportされているとみなす
    3. Phrase Deletion
    a. ハイライトされたテーブルcellによってsupportされていないフレーズを除去
    4. Decontextualization
    a. 文脈に依存した代名詞や句を含む場合があるため、アノテータにテーブル、あるいはメタ
    データに存在する固有名詞に置換してもらった
    i. e.g. 代名詞、あいまいな表現
    b. 置換することによってungrammaticalな文が生成されてしまった場合は修正してもらった
    5. Secondary Annotation Task
    a. 文法的におかしな文をセカンドチェックし修正した
    b. 新たなコンテキストとして、highlightされたテーブルも定時した
    89

    View full-size slide

  90. ToTTo [Parikh+, 2020]: 統計量とagreement (5/7)
    ● アノテーションの各ステップでdevelopment setを使いagreementと
    BLEU-4
    ● Table Readability / Cell Highlightningは高いカッパ係数となっておりほぼ
    Perfect Agreementを実現可
    ● sentence revisionタスクではagreementが徐々に低下していった
    ○ アノテータ間のアノテート後のsentenceのBLEU-4を測定
    ○ 徐々に低下していったが、original sentenceとfinal sentenceのBLEU-4は43.17であり、そ
    れよりは大幅に高い数値となっている
    90

    View full-size slide

  91. ToTTo [Parikh+, 2020]: トピックの分布と生成に必要な情報
    (6/7)
    ● トピックの分布
    ○ 約50%がSports, Countriesとなっている
    ○ 残りの50%は様々なトピックが含まれている
    ● 生成に必要な情報(linguistic phenomena)
    ○ 100個のランダムにサンプリングした文を分析
    ○ Reasoningや比較が必要なようなchallengingな例も多く含まれている
    91

    View full-size slide

  92. ToTTo [Parikh+, 2020]: BERT-to-BERTのoutput example
    (7/7)
    92

    View full-size slide

  93. HybridQA [Chen+, 2020d]: 概要(1/2)
    ● 質問に対する回答がheterogeneous dataに存在する、よりrealisticな状況
    を想定して生成されたQAデータセット(tabular / textual data)
    ○ AMTでwikipedia tableと、table内のEntityがwikipedia passageとlinkされたデータを提示
    ○ 両情報を利用しなければ答えられないquestionを生成してもらうことでデータセット作成
    ● answerにはmulti-hopなreasoningが必要かつtable, passageのどちらにも
    正解が含まれる可能性がある
    93

    View full-size slide

  94. HybridQA [Chen+, 2020d]: 統計量(2/2)
    94

    View full-size slide

  95. Logic2Text [Chen+, 2020e]: 概要 (1/6)
    ● Table + Logical Formと対応するTextのペアデータ
    ○ 5.6k open-domain tables
    ○ 10.8k の人手でアノテーションされた (logical form, description) pairs
    ○ free schemaなlogical form(グラフで表現できる)
    ● Logicの種類
    ○ count, superlative, comparative, aggregation, majority, unique, original
    95

    View full-size slide

  96. Logic2Text [Chen+, 2020e]: モチベーション(2/6)
    ● Surface-levelのDescriptionからLogical-level Descriptionへ
    ● 課題1: Low Fidelity
    ○ Table Input のみではreasoningやsymbolic calculationは既存モデルでは正しくできない
    ■ e.g. max, min, counting, averaging
    ○ => Tableのみでは論理的に正しいテキストを生成不可
    ● 課題2: Uncontrollable Content Selection
    ○ あるTableが与えられた時に論理的にEntailedなテキストのパターンは膨大
    ■ e.g. count, comparison, superlative
    ○ => 生成プロセスでhigh levelな意味的な制約を加えることが難しいので、Table情報のみで
    は妥当で好ましいlogical selectionを実施できない
    ● => Logical Formで中間表現を追加することで上記課題を解決したい
    ○ logical form to text problem
    ○ logical reasoningとLanguage realizationが分離され、logical formの正しさが保障されてい
    るので、realization moduleのチャレンジはsemantic understandingにシフト
    96

    View full-size slide

  97. Logic2Text [Chen+, 2020e]: データセット生成 (3/6)
    ● WikiTablesデータを活用し、AMTでworkerにテキストをScratchで作成依

    ● アノテーションプロセス(Description Compositin & Verification)
    a. logic typeを選択し、template-likeな生成は避け興味深く自然なテキストの生成依頼
    ■ captionの情報も考慮し、代名詞の利用は避ける
    b. 生成されたテキストに対して下記3つの質問で品質のチェック
    ■ 指定されたlogic typeがきちんと使われているか?
    ■ Factual Informationが正しいか?
    ■ 文法が正しく、流暢か?
    97

    View full-size slide

  98. Logic2Text [Chen+, 2020e]: データセット生成 (4/6)
    ● アノテーションプロセス(Logical Form Annotation & Derivation)
    a. human workerとの対話を通じてLogical FormをAnnotation
    ■ => Logic TypeごとにLogical FormごとにPrototypeを用意しそれを埋めるような質問
    98

    View full-size slide

  99. Logic2Text [Chen+, 2020e]: データセット生成 (5/6)
    ● アノテーションプロセス(Logical Form Execution & Verification)
    a. 収集したLogical Formを実際のTableに対して実行し、正しく実行できたもののみを残す
    ■ => 100%正しいLogical Formであることが保証
    b. Logical Formが正しいだけでなく、Semanticな正しさも検証
    ■ Logical Formを自然言語の解釈に変換し、Workerに生成テキストと意味的に一致して
    いるかを質問
    c. エキスパートによる評価
    ■ CSの学部生を雇い、200件のサンプルのsemantic correctnessを評価
    99

    View full-size slide

  100. Logic2Text [Chen+, 2020e]: 統計量とLogicTypeの分布
    (6/6)
    100

    View full-size slide

  101. WikiTableT [Chen+, 2021a]: 概要 (1/5)
    ● 従来のData2Textデータ:
    ○ multi-domainのsingle sentence generation(e.g. WikiBio, LogicNLG)
    ○ datasetサイズの小さいsingle-domainのlong-form text generation(e.g. RotoWire, MLB)
    ○ => large-scaleな様々なドメイン/ソースに基づくmulti-sentence generationのデータ提案
    ● WikipediaのSectionと対応するtabular data + metadataペアのデータ
    セット
    ○ tabular data + metadataからwikipedia sectionを生成するタスク
    ● Story Generationと類似しているが新たなチャレンジが必要
    ○ => coherent + input tableに対するfaithfulnessを同時に達成しなければならない
    101
    記事に含まれるテーブル
    section中のhyperlinkから自動構築

    View full-size slide

  102. WikiTableT [Chen+, 2021a]: ユースケース (2/5)
    1. WikitableTは幅広いトピックや知識に対するwritingのアシストに役立つ
    ○ e.g. 学生の複数のfactual sourceに基づくessay writingの支援に利用できる
    2. small data-to-text datasetsに対するpre-trainingデータセットとして利
    用可
    ○ e.g. RotoWire
    102

    View full-size slide

  103. WikiTableT [Chen+, 2021a]: データセット例1 (3/5)
    ● Coherentなストーリーをテーブルで与えられたEntityはknowledgeに基づ
    いて柔軟にテキストを生成する必要がある
    103

    View full-size slide

  104. WikiTableT [Chen+, 2021a]: データセット例2 (4/5)
    ● input tablesがテキスト生成に必要な情報を全て含んでいる例
    ○ => 従来のstandardなdata2textタスクに近い
    ○ => が WikiTableTではwide varietyなtopicが含まれているのでチャレンジング
    104

    View full-size slide

  105. WikiTableT [Chen+, 2021a]: 統計量とチャレンジ (5/5)
    ● データセットの特徴:
    ○ Avg. Lenはスポーツドメインデータより長くないが多様なトピックを提供
    ○ 既存のWikipediaベースのデータセットはsingle sentence generationだが、WikiTableTは
    multiple sentence generation
    ○ 他のデータセットよりもサンプル数が大きい
    ● データセットのチャレンジ:
    ○ world-knowledgeを利用してcoherentで長いテキストを生成するためのtestbed
    ■ 日常のシーンにおけるcommonsense knowledgeに基づいてsentenceを生成するのと
    は対照的(e.g. CommonGen)
    ○ 他のlong-formのデータセットと比較して、input tableが多様
    105

    View full-size slide

  106. NumericNLG [Lya+, 2021]: 概要 (1/3)
    ● 論文中の表(数値のみ)と対応するparagraphのデータセット
    ○ 1.3k table - paragraph pairs
    ● Motivation:
    ○ 従来研究ではコピーメカニズムが利用されfactに言及する際の有効性が示されてきた
    ○ しかしLogicNLGで提案されたように、人間はnumerical reasoningを含むより多様な
    inferenceを用いてテキストを生成する
    ○ 言語モデルがnumeric operationをhandleすることにlimitationがありopen questionである
    ○ => numeric reasoningに特化したdatasetを作成
    106

    View full-size slide

  107. NumericNLG [Lya+, 2021]: LogicNLGとの差別化
    (2/3)
    1. LogicNLGの大半はnumerical reasoningだが、table contentsの全てが数
    値ではない
    2. LogicNLGはsentenceの生成だが、NumericNLGはparagraphの生成
    3. LogicNLGよりもNumericNLGはscieitnfic domainのnumerical reasoning
    textにフォーカス
    107

    View full-size slide

  108. NumericNLG [Lya+, 2021]: アノテーションと統計量 (3/3)
    ● ACL Anthologyから自動抽出した1.3kのtable-paragraph pairをexpertが
    アノテーションすることでデータセット作成
    ○ tableのnumerical factを最低でも1文含んでいるパラグラフのみ利用
    ○ sentenceごとに、data description, supporting description, not-related-to-table
    descriptionのクラスを付与
    ■ 最終的に data descriptionクラスのみを利用
    ○ パラグラフのcontent planを直接的, あるいは論理的に推論できるテーブルヘッダーを選択す
    ることで同定
    ● 1.3K, unlimited schema
    108

    View full-size slide

  109. SciGen [Moosavi+, 2021]: 概要 (1/4)
    ● Scientificドメインでのnumerical reasoningにフォーカスしたデータセッ

    ○ 初めてのデータセットと主張しているが、NumericNLGどどっちが早いのか。同時期かな?
    ○ => モチベーションはNumericNLGと全く同じ, LogicNLGとの差別化も同じ
    ● Table + Caption と対応するテキスト(複数paragraph)
    ○ TableとCaptionから生成できるテキストのspanを人手でアノテーション
    ○ 下記例の “The reason is …”はtableとcaptionから生成できないので除外
    109

    View full-size slide

  110. SciGen [Moosavi+, 2021]: アノテーションプロセス
    (2/4)
    ● 人手でのアノテーションプロセス(1.3k examples)
    ○ 0. AxCellというツールを使い、arXiv上の論文(CL, ML, CSドメイン)のlatexから表を抽出
    ○ 1. Ph.D student, post docなどの該当分野の専門家がtableに対応するテキストをアノテーション
    ■ Table + Captionから生成できるテキストのspanをアノテーション
    ○ 2. 2人のアノテーターが1.の結果をreviseし、正しくtable-textを抽出できていない例や、reasoning
    が不要な事例等を除外
    ● 自動アノテーションでのデータセットの拡張(約50k examples)
    ○ 1. tableへのreferenceを含むparagraphsを抽出することで自動的にデータを収集
    ○ 2. ヒューリスティックルールに基づき、reasoningが不要なデータを除外
    ■ その他にも、数値を含まない例、複数テーブルや図について述べている例を除外
    ■ tableがAxcell toolで正しく抽出できていない例を除外
    ■ descriptionが15 words未満, 400 words以上のものを除外
    ○ 3. 人手でアノテーションしたデータに対して同様のプロセスを実施し、結果を比較
    ■ 20%の自動抽出したデータは人手のデータには含まれない
    ● そのうちの大抵のデータはPDFアノテーションツールのエラーで除外されていたもの
    ■ 27%のexpert annotationデータは自動抽出結果に含まれなかった
    ■ 71%のテーブルが自動抽出とexpert annotationで一致し、自動抽出の方がtextが長かった
    ● table + captionから生成できないものを自動抽出は含んでいる
    ■ このうち29%のペアテキストが自動抽出の方が短かった
    ● expertが抽出したのは複数パラグラフにまたがっている説明
    ● 自動抽出の場合はテーブルの部分的な説明となっている
    110

    View full-size slide

  111. SciGen [Moosavi+, 2021]: 統計量とデータ分割 (3/4)
    ● Few-shot:
    ○ expertのアノテーションのみを含む少量のデータセット
    ● Medium + Large:
    ○ 自動抽出したデータを含む大量のデータセット
    ○ testセットはexpertがアノテーションしたデータのみを含む
    111

    View full-size slide

  112. SciGen [Moosavi+, 2021]: 実験結果からのinsight
    (4/4)
    ● 現在の代表的な性能指標ではNumeric Reasoningを含むテキストを正しく評価で
    きない
    ○ 表層レベルの類似度を評価しているのみで、Factuall Correctnessを評価する指標になっていないた

    ■ e.g. BLEU, METEOR, MoverScore, BertScore, BLEURT
    ○ 実際正しいdescriptionと、明らかに正しくないdescriptionの両metricを比較した結果、ほとんど差
    がなかった
    ■ => 人手評価が必要
    ● 自動指標ではBARTの方がT5よりも性能が良いと判断されたが、人手評価をしたら
    T5とBARTはComparableだった
    ● 自動抽出したデータを追加すると:
    ○ factual informationのRecallとPrecisionとCorrectness (goldには含まれないが正しい記述) は向上
    ○ 全く関係ない情報を生成するHallucinationの割合も減少
    ○ しかしmediumとlargeを比較するとlargeの場合はCorrectnessが低下
    ■ => 自動抽出のデータを増やしていってもCorrectnessは改善しない(むしろ悪化)
    ● SciGenではBART, T5をfinetuningする程度では40%のテキストしか正しいテキス
    トを生成できず、そのうち10%のgoldしか生成テキストはカバーできていない
    ○ => まだまだこのタスクには改善の余地がある
    112

    View full-size slide

  113. BioLeaflets [Yermakov+, 2021]: 概要 (1/2)
    ● Biomedical Domainの最初のデータセット
    ○ 1,336のヨーロッパで認可されている医薬品の添付文書のデータセット
    ○ 基本的に6セクションで構成されており、clearでunderstandableな記述が求められる
    ● BioLeafletsでのチャレンジ
    ○ multi-sentence, multi-sectionの生成
    ○ データ数が少ない
    ○ medical vocabularyとsyntaxに特化していること
    ● Conditional Generationを提案
    ○ タスク: 順序立てられたEntityのsetをソースとして、multi-sentence sectionを生成する
    ○ InputがEntityというだけでConditional Generationではないのでは・・・?
    113

    View full-size slide

  114. BioLeaflets [Yermakov+, 2021]: データセット作成
    (2/2)
    ● 1,336のbiomedical leafletを6セクションに分割
    ● 各セクションごとにNERを用いて、Entityを抽出しInput Dataとする
    ○ Entityとして数値データも含むようにした
    ● NERの結果、26種類のuniqueなEntity typeを得た
    ○ ex. problem: (value例: 活動性慢性肝炎), system-organ-site (value例: 血管), treatment
    (value例: ワクチン摂取), procedure: (value例: 注射)
    114

    View full-size slide

  115. TatQA [Zhu+, 2021]: 概要
    ● Numerical Reasoningが必要なQAデータセット
    ○ 2757 context - 16652 questions pair
    ● 特徴:
    ○ 与えられるContextがhybrid: semi-structured table + 最低2つのparagraph
    ○ answer formが多様: single span, multiple spans, free-form
    ○ Numerical reasoningが必要: +, -, *, /, counting, comparison, sorting, (+ これらの組み合
    わせ)
    ○ Ground Truthに加え、回答に必要な導出や、単位の情報も提供
    115

    View full-size slide

  116. FinQA [Chen+, 2021b]: 概要
    ● RQ: 企業の意思決定に必要なFinancial Analysisを自動化できるか?
    ● Numerical Reasoningが必要なQAデータの既存研究はGeneral domainを
    ターゲットにしており、大抵はone-stepのcalculationで回答可能
    ○ => Financial Domainはone-stepでは無理 & heterogeneousなデータをソースにする必要
    ● ExpertがアノテーションしたNumerical Reasoningのプロセスを含むQA
    データを作成
    ○ 8,281 financial QA pairs, multiple stepのcalculationが必要
    116

    View full-size slide

  117. GeoTSQA [Li+, 2021]: 概要
    ● Scenario + tableがgivenな時にQAタスクを解くデータセットを構築
    ● 中国のgeographyの高校のmultiple-choice questionのテストを収集
    ● テーブルの情報は画像で付与されているため、OCRで情報を認識し、人手で
    エラーを訂正
    ● Tableの情報を利用せずに回答できるQuestionは除外することでデータセッ
    ト構築
    117

    View full-size slide

  118. HiTab [Cheng+, 2022]: 概要 (1/9)
    ● Hierarchical TablesにフォーカスしたQA, NLG Dataset
    ○ => 既存のQAやTable2Textはflat tableにフォーカスしていた
    ■ e.x. ToTToデータに含まれるHierarchical Tableは5.03%しかない
    ○ 3597 Hierarchical Tables - 10672 QA - 10672 single sentences tuples
    ● NLGタスクではToTToと同様にControlled Generationを提案
    ● Hierarchical TableのChallenge:
    ○ Hierarchical indexing:
    ■ cellの選択がflat tableと比較して複雑
    ■ multi-level, bi-dimensional indexingが必要 (親要素と子要素を行と列でindexingする
    必要)
    ○ Implicit Calculation relationships among quantities:
    ■ 明示的な目印が無く行・列の集約(e.g. Total, proportion)がしばしば行われる
    ■ これを理解するには正確なnumerical inferenceが求められる
    ○ Implicit semantic relationships among entities
    ■ 行・列・セルをまたいだEntity間の関係性が存在するが明示的な目印が存在しない
    ■ e.g. 次ページ例のA2セルの”source”と “mechanism” はそれぞれA6:A19, A20:25に対

    ■ e.g. “Master”, “Doctoral”というheaderは ”Degree” というimplicitな関係性を持つ
    ■ => 意味的な関係性を同定し、Entity間を正しく関連づけるのはチャレンジング
    118

    View full-size slide

  119. HiTab [Cheng+, 2022]: Hierarchical Table例 (2/9)
    119

    View full-size slide

  120. HiTab [Cheng+, 2022]: HiTabの特徴と統計量 (3/9)
    ● Hierarchical Tableに対するQAとNLGの両方をカバーした最初のデータ
    ● 人手でアノテーションされたEntity, QuantityのAlignmentが存在する
    ● Single-DomainのQAデータと比較し、多数のドメインとwikipediaを含む
    ● Tableごとの対応するsentenceは約5文存在し、テーブルごとにより
    analyticalな側面が必要なことを示している
    120

    View full-size slide

  121. HiTab [Cheng+, 2022]: HiTabのドメイン (4/9)
    ● 多数のドメインを含んでいる(28ドメイン)
    ● これらに加えてToTToからとってきたWikipediaのdomainも含んでいる
    121

    View full-size slide

  122. HiTab [Cheng+, 2022]: データセット作成プロセス
    (5/9)
    ● Hierarchical Table Collection
    ○ Statistics Canada (StatCan) National Science Foundation (NSF)
    ■ => richなstatistical reportをPDFではなく「HTML」で公開している
    ○ StatCanとNSFからHTMLをクローリングし、Hierarchical Tableを抽出
    ■ ToTToデータセットに含まれるhierarchical tableも加える
    ● Sentence Extraction and Revision
    ○ アノテータはTableのdescriptionに対応する「文」を抽出し文を補正(Revision)した
    ■ ToTToデータと同様にdecontextualizationやphrase deletionを実施することで意味的
    に関連性のない部分文を削除
    122
    ※これらのプロセスには合計で 2400時間を要した

    View full-size slide

  123. HiTab [Cheng+, 2022]: データセット作成プロセス
    (6/9)
    ● Entity and Quantity Alignment
    ○ Entity Alignment:
    ■ テキスト中のEntityと対応するCellをアノテーション
    ○ Quantity Alignment:
    ■ Single Cell Mention: 対応するCellをアノテーション
    ■ Composite Quantity Mention: 計算に必要なCellを用いた数式をアノテーション
    ● Converting Sentences to QA Pairs
    ○ アノテーターは文ごとにQuestionのkey partを同定しDeclerativeな文をQA Formに変換し

    ■ 全ての疑問文はnumerical inference processで回答可能
    123
    ※これらのプロセスには合計で 2400時間を要した

    View full-size slide

  124. HiTab [Cheng+, 2022]: データセット作成プロセス
    (7/9)
    ● Regular Inspections and the Final Review
    ○ 2人の最も経験豊富なアノテーターが定期的にlabeling process中に他のアノテーターのlabel
    をサンプリングして問題点をフィードバック
    ○ 最終的に全てのレビューし、labelingのエラーを訂正した
    ● Hierarchy Extraction
    ○ indentation, bold font, merging等の情報に基づき(Acc. 94%)ツリー形式でヘッダーを表

    124
    ※これらのプロセスには合計で 2400時間を要した

    View full-size slide

  125. HiTab [Cheng+, 2022]: NLG実データ (8/9)
    ● 1 exampleごとに1 sentenceが対応
    ● 単一のtableに対して複数の事例が存在する
    125

    View full-size slide

  126. HiTab [Cheng+, 2022]: NLGにおけるControlled Generation
    (9/9)
    ● HiTabが提案するControlled Generationの他のデータセットとの違い
    ● LogicNLG:
    ○ Cellに対するoperationを含むlogical formを与えなければならず、common userはそんなこ
    とができないためreal scenarioに即していない
    ● ToTTo:
    ○ Cellによる条件付けのため、Logical Formを利用するより簡単
    ○ しかし、symbolic operationが定義されておらずnumerical reasoningができない
    ● Hitab:
    ○ LogicNLGよりreal applicationに近づけ、ToTToよりもcontrollableにすることを目指す
    ○ => 選択されたCellのグループと、operatorによって条件づけて文を生成する
    ● 実際にモデルにTableをinputする際は、ヒューリスティックに基づき
    highlight cellと関連するsubtableを切り取り、入力する
    126

    View full-size slide

  127. CONTLOG [Liu+, 2022]: 概要 (1/3)
    ● Logic2Textデータのアノテーションされたlogical formと対応する、テーブ
    ル中のセルをhighlightすることでデータセットを再構成した
    ○ これによりControlled logical natural language generationを実現可
    ● control signalが存在するはじめてのLogical table-to-text dataset
    127

    View full-size slide

  128. CONTLOG [Liu+, 2022]: モチベーション (2/3)
    ● 既存研究はsurface-level factsをシンプルにrestateすることにフォーカス
    ○ e.g. RotoWire, MLB
    ● 近年Logical table-to-text generationが提案され、これにはモデルが
    logical-levelのinferenceを行いながらcontent planningを行う必要がある
    ○ しかし、end-to-endなneural modelは与えられたtableに対して論理的に正しいテキストを
    生成することに苦戦していることが知られている
    ○ => この理由は、ターゲット文の曖昧さが、モデルがテーブルとテキストのペアから正確な
    logical inferenceを学習するのを妨げていることに起因すると考えられる
    ○ => 加えて、これらを実現するためのtable-text pairの量が限定的なものも要因である
    ● これを克服するためにLogic2Textが提案された
    ○ => しかしながら、的確にlogical formをアノテーションするのは突出したhuman effortが必

    ○ => 加えて、Logic2Textを活用した研究の大部分は、logical formをtextに変換することに
    フォーカスしている
    ○ => logical formからの生成は、table2text generationとは異なるタスクとなってしまって
    いる
    ● => よりFaitufulなLogical table-to-text generationを実現するために、
    PLoGとCONTLOGデータセットを提案
    128

    View full-size slide

  129. CONTLOG [Liu+, 2022]: PLoG概要 (3/3)
    ● table-to-logical form generationのモデルを事前学習
    ● 続いて、table-to-textをdownstreamタスクとしてfinetuneすることで、
    logical inferenceに関する知識を転移させることでlogical fidelityを向上さ
    せる
    129

    View full-size slide

  130. References:
    1. [Budzianowski, 2018] MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz
    Dataset for Task-Oriented Dialogue Modelling, EMNLP’18
    2. [Gardent+, 2017] The WebNLG Challenge: Generating Text from RDF Data,
    INLG’17
    3. [Novikova+, 2017] The E2E Dataset: New Challenges For End-to-End Generation,
    SIGDIAL’17
    4. [Wiseman+, 2017] Challenges in Data-to-Document Generation, EMNLP’17
    5. [Parikh+, 2020] ToTTo: A Controlled Table-To-Text Generation Dataset, EMNLP’20
    6. [Chen+, 2008] Learning to Sportscast: A Test of Grounded Language Acquisition,
    ICML’08
    7. [Agarwal+, 2021] Knowledge Graph Based Synthetic Corpus Generation for
    Knowledge-Enhanced Language Model Pre-training, NAACL’21
    8. [Juraska+, 2019] ViGGO: A Video Game Corpus for Data-To-Text Generation in
    Open-Domain Conversation, INLG’19
    9. [Chen+, 2021a] WikiTableT: A Large-Scale Data-to-Text Dataset for Generating
    Wikipedia Article Sections, ACL’21
    10. [Puduppully+, 2019] Data-to-text Generation with Entity Modeling, ACL’19
    11. [Wang+, 2018] Describing a Knowledge Base, INLG’18
    130

    View full-size slide

  131. References:
    12. [Obeid+, 2020] Chart-to-Text: Generating Natural Language
    Descriptions for Charts by Adapting the Transformer Model, INLG’20
    13. [Thomson+, 2020] SportSett:Basketball - A robust and maintainable
    data-set for Natural Language Generation, SIGGEN’20
    14. Abstract Meaning Representation (AMR) Annotation Release 3.0
    15. [Ribeiro+, 2021] Structural Adapters in Pretrained Language Models
    for AMR-to-text Generation, EMNLP’21
    16. [Kanerva+, 2019] Template-free Data-to-Text Generation of Finnish
    Sports News, NoDaLiDa’19
    17. [Wang+, 2019] PaperRobot: Incremental Draft Generation of
    Scientific Ideas, ACL’19
    18. [Iso+, 2019] Learning to Select, Track, and Generate for
    Data-to-Text, ACL’19
    19. [Lin+, 2020] CommonGen: A Constrained Text Generation Challenge
    for Generative Commonsense Reasoning, EMNLP’20
    131

    View full-size slide

  132. References:
    20. [Lam+, 2021] ENSEMBLING GRAPH PREDICTIONS FOR AMR
    PARSING, NeurIPS’21
    21. [Chen+, 2020a] TabFact: A Large-scale Dataset for Table-based Fact
    Verification, ICLR’20
    22. [Chen+, 2020b] Logical Natural Language Generation from
    Open-Domain Tables, ACL’20
    23. [Liang+, 2009] Learning Semantic Correspondences with Less
    Supervision, ACL-IJCNLP’09
    24. [Wen+, 2015] Semantically Conditioned LSTM-based Natural
    Language Generation for Spoken Dialogue Systems, EMNLP’15
    25. [Mairesse+, 2010] Phrase-Based Statistical Language Generation
    Using Graphical Models and Active Learning, ACL’10
    132

    View full-size slide

  133. References:
    26. [Moosavi+, 2021] Learning to Reason for Text Generation from Scientific Tables, arXiv’21
    27. [Labret+, 2016] Neural Text Generation from Structured Data with Application to the
    Biography Domain, EMNLP’16
    28. [Nan+, 2021] DART: Open-Domain Structured Data Record to Text Generation, NAACL’21
    29. [Berant+, 2013] Semantic Parsing on Freebase from Question-Answer Pairs, EMNLP’13
    30. [Koncel-Kedziorski, 2019] Text Generation from Knowledge Graphs with Graph
    Transformers, NAACL’19
    31. [Jin+, 2020] GenWiki: A Dataset of 1.3 Million Content-Sharing Text and Graphs for
    Unsupervised Graph-to-Text Generation, COLING’20
    32. [Zhou+, 2018] An Interpretable Reasoning Network for Multi-Relation Question
    Answering, COLING’18
    33. [Wang+, 2021a] WikiGraphs: A Wikipedia Text - Knowledge Graph Paired Dataset,
    NAACL’21
    34. [Cheng+, 2020] ENT-DESC: Entity Description Generation by Exploring Knowledge Graph,
    EMNLP’20
    35. [Banarescu, 2013] Abstract Meaning Representation for Sembanking, linguistic
    annotation workshop and interoperability with discourse’13
    133

    View full-size slide

  134. References:
    36. [Nayak+, 2017] To Plan or not to Plan? Discourse planning in slot-value informed sequence to
    sequence models for language generation, InterSpeech’17
    37. [Chisholm+, 2017] Learning to generate one-sentence biographies from Wikidata, ACL’17
    38. [Chen+, 2020c] Few-Shot NLG with Pre-Trained Language Model, ACL’20
    39. [Lya+, 2021] Towards Table-to-Text Generation with Numerical Reasoning, ACL’21
    40. [Fu+, 2020] Partially-Aligned Data-to-Text Generation with Distant Supervision, EMNLP’20
    41. [Kantharaj+, 2022] Chart-to-Text: A Large-Scale Benchmark for Chart Summarization, ACL’22
    42. [Murakami+, 2021] Generating Weather Comments from Meteorological Simulations, EACL’21
    43. [Isard, 2016] The Methodius Corpus of Rhetorical Discourse Structures and Generated Texts,
    LREC’16
    44. [Oraby+, 2018] Controlling Personality-Based Stylistic Variation with Neural Natural Language
    Generators, SIGDIAL’18
    45. [Reed+, 2018] Can Neural Generators for Dialogue Learn Sentence Planning and Discourse
    Structuring?, INLG’18
    46. [Qader+, 2018] Generation of Company descriptions using concept-to-text and text-to-text deep
    models: dataset collection and systems evaluation, INLG’18
    47. [Wang+, 2021b] Stage-wise Fine-tuning for Graph-to-Text Generation, ACL-IJCNLP’21
    48. [Yermakov+, 2021] Biomedical Data-to-Text Generation via Fine-Tuning Transformers, INLG’21
    49. [Ishigaki+, 2021] Generating Racing Game Commentary from Vision, Language, and Structured
    Data, INLG’21
    134

    View full-size slide

  135. References:
    50. [Wang, 2019] Revisiting Challenges in Data-to-Text Generation with Fact Grounding,
    INLG’19
    51. [Pasupat+, 2015] Compositional Semantic Parsing on Semi-Structured Tables,
    ACL-IJCNLP’15
    52. [Wen+, 2016] Multi-domain Neural Network Language Generation for Spoken Dialogue
    Systems, NAACL’16
    53. [Peng+, 2020] Few-shot Natural Language Generation for Task-Oriented Dialog, ACL’20
    54. [Rastogi+, 2020] Towards Scalable Multi-Domain Conversational Agents: The
    Schema-Guided Dialogue Dataset, AAAI’20
    55. [Reiter+, 2005] Choosing words in computergenerated weather forecasts, Artificial
    Intelligence’05
    56. [Jhamtani+, 2018] Learning to Generate Move-by-Move Commentary for Chess Games
    from Large-Scale Social Forum Data, ACL’18
    57. [Banik+, 2013] The KBGen Challenge, SIGGEN’13
    58. [Zettlemoyer+, 2007] Online Learning of Relaxed CCG Grammars for Parsing to Logical
    Form, EMNLP’07
    59. [Konstas+, 2012] Unsupervised Concept-to-text Generation with Hypergraphs, NAACL’12
    60. [Bao+, 2018] Table-to-Text: Describing Table Region with Natural Language, AAAI’18
    61. [Serban+, 2016] Generating Factoid Questions With Recurrent Neural Networks: The 30M
    Factoid Question-Answer Corpus, ACL’16
    135

    View full-size slide

  136. References:
    62. [Dusek+, 2019] Neural Generation for Czech: Data and Baselines, INLG’19
    63. [Li+, 2021] TSQA: Tabular Scenario Based Question Answering, AAAI’21
    64. [Chen+, 2021b] Neural data-to-text generation with dynamic content
    planning, Knowledge-Based Systems, 2021
    65. [Hayashi+, 2019] Findings of the Third Workshop on Neural Generation and
    Translation, WNGT, 2019
    66. [Shah+, 2021] Nutri-bullets Hybrid: Consensual Multi-document
    Summarization, NAACL’21
    ○ 著者のD論
    67. [Liu+, 2022] PLOG: Table-to-Logic Pretraining for Logical Table-to-Text
    Generation, EMNLP’22
    68. [Cheng+, 2022] HiTab: A Hierarchical Table Dataset for Question
    Answering and Natural Language Generation, ACL’22
    69. [Chen+, 2021c] FinQA: A Dataset of Numerical Reasoning over Financial
    Data, EMNLP’21
    70. [Zhu+, 2021] TAT-QA: A Question Answering Benchmark on a Hybrid of
    Tabular and Textual Content in Finance, ACL’21
    136

    View full-size slide

  137. References:
    71. [Chen+, 2020d] HybridQA: A Dataset of Multi-Hop Question Answering
    over Tabular and Textual Data, EMNLP’20
    72. [Yu+, 2018] Spider: A Large-Scale Human-Labeled Dataset for Complex and
    Cross-Domain Semantic Parsing and Text-to-SQL Task, EMNLP’18
    73. [Zhong+, 2017] Seq2SQL: Generating Structured Queries from Natural
    Language using Reinforcement Learning, ICLR’18
    74. [Weber+, 2016] Insights from Machine-Learned Diet Success Prediction. In
    Proceedings of Pacific Symposium on Biocomputing (PSB), 2016
    75. [Harris+, 2022] Towards Neural Numeric-To-Text Generation From Temporal
    Personal Health Data, arXiv’22
    76. [Parvez+, 2018] Building Language Models for Text with Named Entities,
    ACL’18
    77. [Majumder+, 2019] Generating Personalized Recipes from Historical User
    Preferences, Majumder, EMNLP’19
    78. [Perez-Beltrachini+, 2018] Bootstrapping Generators from Noisy Data,
    NAACL’18
    137

    View full-size slide

  138. References:
    79. [Kim+, 2021] "How Robust r u?": Evaluating Task-Oriented Dialogue
    Systems on Spoken Conversations, ASRU’21
    80. [Mille+, 2020] The Third Multilingual Surface Realisation Shared Task
    (SR’20): Overview and Evaluation Results, COLING’20
    81. [Lee+, 2020] The CACAPO Dataset: A Multilingual, Multi-Domain
    Dataset for Neural Pipeline and End-to-End Data-to-Text Generation,
    INLG’20
    82. [Dahl+, 94] EXPANDING THE SCOPE OF THE ATIS TASK: THE ATIS-3
    CORPUS, HLT’94
    83. [Barzilay+, 2005] Collective Content Selection for Concept-To-Text
    Generation, EMNLP-HLT’05
    138

    View full-size slide

  139. References:
    84. [Robin, 1994] Revision-Based Generation of Natural Language
    Summaries Providing Historical Background: Corpus-Based Analysis,
    Design, Implementation and Evaluation, Ph.D Thesis, 1994
    85. [Oraby+, 2019] Curate and Generate: A Corpus and Method for Joint
    Control of Semantics and Style in Neural NLG, ACL’19
    86. [Sripada+, 2003] Exploiting a Parallel Text-Data Corpus, Proceedings
    of Corpus Linguistics 2003
    87. [Tang+, 2001] Using multiple clause constructors in inductive
    logicprogramming for semantic parsing, ECML’01
    88. [Bordes+, 2015] Large-scale Simple Question Answering with
    Memory Networks, arXiv’15
    89. [Chen+, 2020e] Logic2Text: High-Fidelity Natural Language
    Generation from Logical Forms, EMNLP’20
    139

    View full-size slide

  140. その他References+メモ:
    90. [Kale+, 2020] Template Guided Text Generation for Task-Oriented Dialogue,
    Kale+, Google, EMNLP'20
    ○ Template Guided Representation, NumericNLG論文で利用
    91. [Rothe+, 2020] Leveraging Pre-trained Checkpoints for Sequence Generation
    Tasks, Rothe+, TACL’20
    ○ BERT-to-BERT論文, ToTToデータセット論文で利用
    92. [Chen+, 2020] Few-Shot NLG with Pre-Trained Language Model, Chen+,
    University of California, ACL'20
    ○ 200程度のTraining Sample数でNLGを行うFewshot NLGを提案
    93. [Tanaka-Ishii+, 1998] Reactive Content Selection in the Generation of Real-time
    Soccer Commentary, COLING’98
    ○ Robocupデータ、あるいは別のサッカーのsimulatedデータを活用してサッカーのコメンタリーを生成してい
    る。Soccer Serverがinputとなっている。データセットに関する記述はない?
    94. [Koto+, 2022] Can Pretrained Language Models Generate Persuasive, Faithful,
    and Informative Ad Text for Product Descriptions?, ECNLP’22
    ○ 商品の画像 + Attribute と 商品説明文のデータ
    ○ Copyright reasonでデータは非公開
    95. [Lee+, 2022] NEURAL DATA-TO-TEXT GENERATION BASED ON SMALL
    DATASETS: COMPARING THE ADDED VALUE OF TWO SEMI-SUPERVISED
    LEARNING APPROACHES ON TOP OF A LARGE LANGUAGE MODEL, arXiv’22
    ○ 少量データからD2Tする際の参考になりそう
    140

    View full-size slide

  141. その他References+メモ:
    96. [Gehrmann+, 2022] GEMv2: Multilingual NLG Benchmarking in a
    Single Line of Code, arXiv’22
    ○ NLGタスクを評価するためのフレームワーク
    ○ 51種類の言語の40種類のデータセット(e.g. D2T, summarization, response generation)
    をサポート
    97. [Tan+, 2022] Remodeling Numerical Representation for Text
    Generation on Small Corpus: A Syntactical Analysis, ACAI’19
    ○ Stock markt priceと対応するnewsのペアを1000程度収集したようだがデータ非公開っぽい
    98. [Agarwal+, 2020] Building Hierarchically Disentangled Language
    Models for Text Generation with Named Entities, COLING’20
    ○ レシピ生成タスクのためのデータセットを作成しているが、公開されていなさそう?
    141

    View full-size slide

  142. Survey論文 References:
    99. [Sharma+, 2022] Innovations in Neural Data-to-text Generation,
    arXiv’22
    100. [Gatt+, 2018] Survey of the State of the Art in Natural Language
    Generation: Core tasks, applications and evaluation, JAIR’18
    101. [HanQi+, 2020] Recent advances of neural text generation: Core
    tasks, datasets,models and challenges, Science China Technological
    Sciences, 2020
    102. [Puduppully, 2021] Data-to-text generation with neural planning,
    Puduppuly氏のD論
    142

    View full-size slide

  143. Useful Link
    ● Data sets for NLG
    ● paperswithcode
    ● IndicNLG Suite
    ● Task Oriented Dialogue Systemについて
    143

    View full-size slide

  144. Puduppully氏のD論のデータセットまとめ
    144

    View full-size slide