Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data-to-Text Datasetまとめ ― Summary of Data-to-Text Datasets ―

awatanabe
August 18, 2023

Data-to-Text Datasetまとめ ― Summary of Data-to-Text Datasets ―

(English description follows)
Data2Textタスクで利用されるデータセットについて、2022年12月時点でSurveyしたものです。自分用のメモとして作成していましたが、せっかくなので公開することにしました。データセットとして、以下のデータセットをリストアップしています:
- Meaning Representation(MR)-to-Text: 25 dataset
- Table-to-Text: 30 dataset
- Graph-to-Text: 12 dataset
- Chart-to-Text: 2 dataset
- AMR-to-Text: 5 dataset
- その他のData2Text dataset: 14 dataset

資料中には多くのリンクが埋め込んであるため、リンク先に飛びたい場合はPDFをダウンロードして閲覧して頂けますと幸いです。
各データセットについて、公開されているリンクが見つかった場合はそのリンクと、提案論文のリンクを付与してあります。
また、MR-to-TextとTable-to-Textについては、各データセットの数行のサマリと、1--3スライド程度で概要をまとめています。
Referencesには、今回のまとめで参照しているすべての論文のタイトル、著者、学会のリストが約100件程度まとめてあります。
少しでもお役に立てば幸いです。

----------
This is a survey as of December 2022 on datasets used for the Data2Text task. I initially created this as a personal note, but decided to share it publicly. Here's a list of the datasets included:

- Meaning Representation (MR)-to-Text: 25 datasets
- Table-to-Text: 30 datasets
- Graph-to-Text: 12 datasets
- Chart-to-Text: 2 datasets
- AMR-to-Text: 5 datasets
- Other Data-to-Text datasets: 14 datasets

For each dataset, if a public link was found, it's provided, along with the link to the corresponding research paper. For the MR-to-Text and Table-to-Text categories, I've included a few lines summary for each dataset, and an overview condensed into 1-3 slides.

In the References section, there's a list of approximately 100 titles, authors, and conferences of the papers I referred to for this summary.

I hope you find this information useful.

awatanabe

August 18, 2023
Tweet

Other Decks in Research

Transcript

  1. はじめに • 本資料は2022年12月時点でData2TextのデータセットについてSurveyした 際の自分用のメモとなります。 ◦ 2023年以後のものは含まれておりませんのでご注意ください。 • 以下のX-to-Textのデータセットをリストアップしています。 ◦ MR-to-Text,

    Table-to-Text, Graph-to-Text, Chart-to-Text, AMR-to-Text • MR-to-Text, Table-to-Textについてはリスト中に数行でのサマリ、また、 データセットの概要をそれぞれpp.25–129にまとめています。 ◦ Graph-to-Text, Chart-to-Text, AMR-to-Textについてはサマリ、概要をまとめられていませ ん。 • 資料のスクショは基本的に元論文or関連Webサイトのスクショとなります。 • 調査結果については、漏れがあったり、誤りが含まれている可能性がありま す。ご了承ください。 • データセットの公開リンクが見つかったものに関しては、[dataset]がデー タセットへのリンクとなっています。 • データセットが提案された元論文については[author+, 20xx]がリンクと なっています。Referencesにも論文のリストが列挙されていますのでご参照 ください。 2
  2. 目次: クリックすると該当セクションへ飛びます • MR-to-Text ◦ MR-to-Textデータセットサマリー ◦ MR-to-Textデータセット概要 • Table-to-Text

    ◦ Table-to-Textデータセットサマリー ◦ Table-to-Textデータセット概要 • Graph-to-Text • Chart-to-Text • AMR-to-Text • References 3
  3. 5 データセット名 データサイズ ATIS 5.5k sents RoboCup 1.9k sents WeatherGov

    22.1k mult-sents BAGEL 404 mult-sents SF Restaurant & Hotel 10.2k mult-sents RNNLG 30.2k mult-sents E2E 50k mult-sents WikiData 500k sents WikiBio 730k first paragraph DocWikiBio 210k Wikipedia Person and Animal 428,748 person + 12,236 animal infobox - description pairs Sentence Planning Corpus for NLG 205k MR - utterance pairs Wikipedia company 51k PersonageNLG 90k mult-sents MultiWoz 11.5k turns Czech Restaurant 5k mult-sents YelpNLG 300k mult-sents ViGGO 6900 MR - utterance pairs MR-to-Text データのデータサイズ データセット名 データサイズ FewshotWoz train: 50 mult-sents test: 47~1379 mult-sents SGD 330k turns CACAPO 21k sents Humans, Books & Songs 730k + 23.6k + 40k first paragraph WITA 55,400 MR - sentence pairs DSTC10 2292 turns
  4. Dataset for MR-to-Text(1/5) • ATIS [Zettlemoyer+, 2007] ◦ air travel

    domainのデータセット ◦ シナリオを達成するためのユーザの発話と、発話に対するlambda-calculus expressionが付 与 ◦ 使用例 [Konstas+, 2012] • RoboCup [Chen+, 2008] ◦ サッカーゲームのシミュレーションに対して、MRと人手で作成した1 sentenceのコメンタリ が付与 • WeatherGov [Liang+, 2009] ◦ あるcityのMR(e.g. 時間ごとの気温, 降水確率, 風速)と天気予報テキストのペアデータ ◦ しかし、天気予報は人間のアノテータが作成したのではなく、template systemによって生 成されたものを、場合によっては人間がpost-editすることで作成されていたことが指摘され ている [Reiter, 2017] • BAGEL [Mairesse+, 2010] ◦ Cambridgeのレストランに関するMR(i.e. Dialogue Act)とsingle sentenceのreference textのペアデータ • SF Restaurant & Hotel [Wen+, 2015] ◦ San Franciscoのレストランとホテルに関するMR(i.e Dialogue Act)とsingle sentenceの reference textのペアデータ ◦ BAGELよりもDialogue Act Typeが6種類多く、事例数も多い 6
  5. Dataset for MR-to-Text(2/5) • RNNLG [Wen+, 2016] [dataset] ◦ SF

    Restaurant & Hotelを拡張し、TV, Laptopの購入に関するドメインを追加 ◦ TV, Laptopドメインでは Dialogue Actに対して対応する複数のsentenceのペアデータが存在 • WikiBio [Labret+, 2016] [dataset] ◦ biographyに関するWikipedia記事のinfoboxとfirst paragraphの728,321ペア ◦ 著者らはこのデータをfirst sentenceの生成タスクに利用した • E2E [Novikova+, 2017] [dataset] ◦ RestaurantドメインMR to referenceのペアデータを提供 ◦ 最大で5~6文のreference ◦ 従来の10倍の規模で多様なvocabulary、より複雑な構造(e.g. 接続詞, 動名詞, 代名詞等)、多様な談話構造を 持つ • Restaurant Ratings [Nayak+, 2017] ◦ 非公開? • WikiData [Chisholm+, 2017] [dataset] ◦ Wikipedia, WikidataのPersonカテゴリから slot-valueとfirst sentence (biography)を取得しデータ作成 ◦ 500k MR-single sentence pairs • DocWikiBio [Perez-Beltrachini+, 2018] [dataset] ◦ WikiBioデータを豊富なproperty(i.e Spouseといったtableの項目)と複数文を持つテキストにフィルタリン グしたデータセット ◦ 41k examples • The Wikipedia company corpus [Qader+, 2018] [dataset] ◦ Wikipediaの企業ページからinfobox, abstract, body textのtupleを収集したデータセット ◦ サンプル数は51k 7
  6. Dataset for MR-to-Text(3/5) • PersonageNLG: Style in NLG [Oraby+, 2018]

    [dataset] ◦ Restaurantドメイン ◦ E2EのMRから、Big-Five personalityごとのスタイルに応じたutteranceをPERSONAGEと呼ばれるシステムを用い て生成し、コーパス作成 ◦ MR, personality label, utteranceの3つ組のデータを提供 • MultiWoz [Budzianowski, 2018] [dataset] ◦ 従来のコーパスと比べより多くのドメインで、大規模なtask-orientedなDialogueコーパス ◦ human-humanの対話に対してDialogue Actをアノテーションをした ◦ 類似コーパスとしてDSTC2, SFX, WOZ2.0, FRAMES, KVRET, M2Mといったデータがある模様 • Wikipedia Person and Animal Dataset [Wang+, 2018] [dataset] ◦ WikipediaとWikidataから、428,748のpersonと、12,236のanimalのinfoboxと対応するdescriptionを収集した データ • Sentence Planning Corpus for NLG [Reed+, 2018] [dataset] ◦ 205k MR - utterance pairs ◦ aggregation operators (e.g. Distributive; 複数のContent Itemを一つにまとめ冗長性を排除)と content item間のDiscourse Relation (e.g. contrast)が付与されたデータを含む • Czech Restaurant [Dusek+, 2019] [dataset] ◦ SF Restaurantをチェコ語に翻訳したデータセット • YelpNLG [Oraby+, 2019] [dataset] ◦ Yelp challenge datasetのreviewデータを利用し、300kのMR-Sentenceペアを提供 ◦ MRはdependency parsingの情報から自動生成 ◦ 文のsentimentやstyle(entityの言及の順番, pronounが使われているか等)の情報も付与されている 8
  7. Dataset for MR-to-Text(4/5) • ViGGO [Juraska+, 2019] [dataset] ◦ Video

    game domain ◦ 6900 MR - utterance pairs ◦ MRは9つの異なるDialogue Actsを持つ • FewshotWoz [Peng+, 2020] [dataset] ◦ RNNLG, MultiWozからデータをサンプリングし、限られたラベル付データしか得られない設定でのデータ セットを作成 ◦ delexicalizedされたDialogue Actのtrain/testのoverlapが非常に小さいのが特徴 • SGD [Rastogi+, 2020] [dataset] ◦ 多くのドメインをカバーし、ドメインごとに複数のAPIを提供する最初のデータセット ◦ APIインタフェースの追加や、APIの追加に対するモデルのロバスト性を測るために、テストデータには訓練 データにはない多くの新しいサービスを含む ◦ 単一のモデルで様々なAPIに対応するために、マスタースキーマアプローチを採用せず、スキーマガイドアプ ローチを採用した • CACAPO [Lee+, 2020] [dataset] ◦ Attribute-Valueペアと対応するニューステキストのデータセット ◦ テキストを文に分割し、2名の専門家が各文にMR(i.e. Attribute-Value)を人手で付与 ◦ domain: sports, weather, stock, incidents ◦ language: English, Dutch • Humans, Books & Songs [Chen+, 2020c] [dataset] ◦ WikiBioに加えてWikipediaからBooksドメインから23,651 instances, Songsドメインから39,450 instance を収集 9
  8. Dataset for MR-to-Text(5/5) • WITA [Fu+, 2020] [dataset] ◦ MRと対応するテキストが部分的にしか対応していないデータセット

    ▪ 自動生成可能なため多様なドメインで生成可能 ▪ MRとテキストが完全一致していないデータでテキストを生成するpartially aligned data to text generationを提案 ◦ 55,400 MR - sentence pairs • DSTC10 [Kim+, 2021] [dataset] ◦ speech-based(従来はwritten-based)でtask-orientedなdialogue corpus ◦ 人間同士のSanFranciscoのtouristic informationに関する対話を記録 10
  9. 12 データセット名 データサイズ SUMTIME 1045 mult-sents (3~4文程度) NFL 468 docs

    WikiTableQuestio ns 20k QA SBNation 10.9k RotoWire 4.9k WikiSQL 80k WIKITABLETEXT 13k Chess Game Commentary 298k mult-sents Spider 10k GermanRotoWire 423 MLB 26.3k RotoWire-Modifie d 3748 データセット名 データサイズ RotoWire-FG 7.5k SportSett::Bask etball 6150 TabFact 1.7k table 120k sentence LogicNLG 7.3k table 37k sentence ToTTo 136k sentence 83k tables HybridQA 70k QA pairs WikiTableT 1.5M table-section pairs NumericNLG 1.3k table - paragraph pairs SciGen 1.3k table - mult paragraph 50k 自動抽出ペア Table-to-Text データのデータサイズ データセット名 データサイズ BioLeaflets 1,336 examles TatQA 2757 context - 16652 questions pair FinQA 8,281 QA pairs HiTab 3597 Hierarchical Tables 10672 QA 10672 single sentences CONGLOG Table-to-text data: 5,554 tables, 10.7k sentences Table-to-logical form (pretrain) data: 4,554 tables, 803k logical form GeoTSQA 556 scenario (1.58 tables per scenario) - 1,012 question pairs
  10. Table-to-Text Generation (1/8) • UPI Newswire [Robin, 1994] ◦ NBAゲームのサマリーとbox-scoreデータのコーパス?公開されてなさそう

    • SUMTIME [Reiter+, 2005] [dataset] ◦ 時系列データに対するテキスト生成のためのデータセット ◦ 専門家が記述した天気予報テキストと数値データ(e.g. 風速, 気温)の1045ペア ◦ 一般的な天気の見通しについて記述, wind, weather等の項目別の1文程度の予報が存在 ◦ 「地名」等のEntity情報がGivenでない • NFL [Barzilay+, 2005] ◦ データ元(ただし、論文中のような試合全体のSummaryは現時点では見当たらない) ▪ 論文中の例の当時リンク ◦ 2003/2004シーズンのNFLのサマリーとstatisticsのペアデータ ▪ 468試合の texts, 平均サマリー長は46.8 sentencesと長文 ◦ Play-by-Play SummaryによってExplicitにEntity間の関係に関する記述が与えられる • WikiTableQuestions [Pasupat+, 2015] [dataset] ◦ Tableとquestion-answerペアのデータセット ◦ 2108 tableに対して、22,033のquestion-answerペア ▪ 様々なドメインでmulti-stepなreasoningやoperation, 比較, 集約, 数値計算等が必要な 複雑な質問で構成 ▪ tableのスキーマや質問内容もデータごとに異なり、テストデータに含まれるデータは 訓練データと異なる点がチャレンジング 13
  11. Table-to-Text Generation (2/8) • SBNation [Wiseman+, 2017] [dataset] ◦ box-

    and line scoreと人手で書かれたNBAゲームサマリーのペアデータ ◦ 10,903個のサマリーで構成されている ◦ 非常にnoisyなデータでbox- and line scoreに存在しない情報について多くの文書で記述 • Rotowire [Wiseman+, 2017] [dataset] ◦ box- and line scoreと人手で書かれたNBAゲームサマリーのペアデータ ◦ 4.9kのペアデータで構成 • WikiSQL [Zhong+, 2017] [dataset] ◦ Wikipediaから抽出した24241個のtableと、80654個のhand-annnotatedな自然言語で記述 されたQuestionとSQL Query ◦ Semantic Parser界隈と関係あり ▪ Geoquery, Freebase917, Overnightといった自然言語queryとLogical Formのペア データも存在 • WIKITABLETEXT [Bao+, 2018] [dataset] ◦ tableのrowとそれを説明するsentenceのペアデータ13,318ペア ◦ table-to-textにおいて初めてのopen-domain dataset(と著者は主張) 14
  12. Table-to-Text Generation (3/8) • Chess Commentary Dataset [Jhamtani+, 2018] [dataset]

    ◦ チェスフォーラムから収集したGame Stateとmove-by-move commentary ◦ 298kのGame StateとCommentaryのペアが存在 • Spider [Yu+, 2018] [dataset] ◦ text-to-SQLのデータセット ◦ 10,181 question, 138のドメインの複数テーブルを保持するDBに対する5,693の複雑なクエ リ • GermanRotowire [Hayashi+, 2019] ◦ Rotowireデータセットのドイツ語への翻訳版, サンプル数は423 ◦ RotoWireのsubsetをprofessionalな翻訳家の手で翻訳 • MLB [Puduppully+, 2019] [dataset] ◦ MLBの試合のStatsとSummaryに関するデータセット ▪ play-by-play tableが存在するのが特徴 ◦ RotoWireと比較して5倍のデータ量, Summaryが50%長い, play-by-play tableを含む ◦ Summaryに時系列に記録されたゲームの重要なイベントの詳細を含む • Rotowire-Modified [Iso+, 2019] [dataset] ◦ RotoWireデータで同一ゲームのSummaryがtrainingとval, あるいはtestに含まれる問題を解 消 ◦ 3748 instance 15
  13. Table-to-Text Generation (4/8) • Rotowire-FG [Wang, 2019] [dataset] ◦ RotoWireデータにおいて、boxscore

    tableにグラウンディングできないSummary Contentを除外し て綺麗にしたもの ◦ 7.5k instance • SportSett:Basketball [Thomson+, 2020] [dataset] ◦ RotoWireデータを改善しPostgreSQLでデータをqueryしたりfilteringできるようにしたデータセット ▪ 従来のデータセットと異なり、データセットを様々なdimensionで切り出せる ▪ SummaryそのものはRotoWireデータと同様 ◦ RotoWireベースのデータと比較して ▪ train/val/testの分割のcontaminationの解決 ▪ Playやlocationに関する情報の追加等が実施 • TabFact [Chen+, 2020a] [dataset] ◦ Structuredなformatをevidenceとする初めてのFactCheckデータセット ◦ 従来データよりも、記述されているテキストからの推論やcommon sense, 表に対するwhereによる条 件付けと演算といった2つの難しさが存在する ◦ 1.7k tableに対して120k sentence • LogicNLG [Chen+, 2020b] [dataset] ◦ Surface Levelでデータを言い直すような生成ではなく、logical inferenceが必要なテキストを 生成するためのデータセット ◦ 37k sentences - 7.3k tables 16
  14. Table-to-Text Generation (5/8) • ToTTo [Parikh+, 2020] [dataset] ◦ highlightされたテーブルのcellとそれらについて述べたsentenceのデータセット

    ▪ Controlled text generationタスクを提案 ◦ 全てのsentenceのFactがテーブルによってsupportされている ◦ 136k sentence - 83k tables • HybridQA [Chen+, 2020d] [dataset] ◦ tabular / textual dataの両方に基づいて回答する必要があるQAデータセット ◦ heterogeneousなデータがAnswerに必要な初めてのデータ ◦ QAに関するその他のデータセットについても言及 ◦ 70k examples • Logic2Text [Chen+, 2020e] [dataset] ◦ Table + Logical Formと対応するsentenceのペアデータ ◦ 5.6k open-domain tables, 10.8k の人手でアノテーションされた (logical form, description) pairs ◦ Logicの種類: count, superlative, comparative, aggregation, majority, unique, original • WikiTableT [Chen+, 2021a] [dataset] ◦ large-scaleで様々なドメイン/ソースに基づくmulti-sentenceのtable-to-textデータセット ◦ 1.5M examples 17
  15. Table-to-Text Generation (6/8) • NumericNLG [Lya+, 2021] [dataset] ◦ numerical

    reasoningのための論文中の表(数値のみ)と対応するparagraphのデータセット ◦ 1.3k table - paragraph pairs ◦ 手法ではinferred factは事前に計算されTable情報としてExplicitに付与している • SciGen [Moosavi+, 2021] [dataset] ◦ numerical reasoningのための論文中の表と対応するmulti-paragraphのデータセット ◦ 1.3k table - paragraph pairs, 50k automatically extracted table - paragraph pairs • BioLeaflets [Yermakov+, 2021] [dataset] ◦ Biomedicalドメインの最初のデータセット ◦ BiomedicalドメインのEntityのsetと対応する説明テキストのペアデータ ◦ 1,336 example • TatQA [Zhu+, 2021] [dataset] ◦ numerical reasoningが必要なQAデータセット ◦ 2757 context - 16652 questions pair 18
  16. Table-to-Text Generation (7/8) • NBAZHN [Chen+, 2021b] ◦ 非公開, NBAの試合結果の中国語サイト上でのコメンタリ(Netease

    Sports) • FinQA [Chen+, 2021c] [dataset] ◦ multi-stepのnumerical reasoningが必要なComplexなQAデータセット ◦ 8,281QA pairs • GeoTSQA [Li+, 2021] [dataset] ◦ Tablar Scenario Question Answeringの最初のデータセット ◦ Table + Scenario textが与えられたときにQAタスクを行う ◦ 556 scenario (1.58 tables per scenario) - 1,012 question pairs • HiTab [Cheng+, 2022] [dataset] ◦ Hierarchical Tableに対する初めてのQAとNLG(sentence)データセット ◦ 3597 Hierarchical Tables - 10672 QA - 10672 single sentences tuples ◦ 28ドメインを含み、テキスト中のEntity, Quantity + Operationがアノテーション 19
  17. Table-to-Text Generation (8/8) • CONTLOG [Liu+, 2022] [dataset] ◦ Logic2Textに含まれるLogical

    Formと対応するセルをhighlightすることで、Control Signalを追加したデータセット ◦ CONTLOGを利用することでControlled logical natural language generationタスク が実現可 ▪ CONTLOG論文では、まずtable-to-logic formモデルを事前学習し、その後 table-to-textタスクでfinetuningすることを提案しているため、pretraining用 のtable-to-logical formデータも存在 ◦ データ量 ▪ Table-to-text data: 5,554 tables, 8,566 train/1,095 val/1,092 test ▪ Table-to-logical form (pretrain) data: 4,5554 tables, 800k train/1,500 val/1,500 test 20
  18. Graph-to-Text Generation • KBGen [Banik+, 2013] • WebQuestions [Berant+, 2013]

    [dataset] • 30MQA [Serban+, 2016] [dataset] • WebNLG [Gardent+, 2017] [dataset] • PathQuestion [Zhou+, 2018] [dataset] • AGENDA [Koncel-Kedziorski, 2019] [dataset] • GenWiki [Jin+, 2020] [dataset] • ENT-DESC [Cheng+, 2020] [dataset] • WikiGraphs [Wang+, 2021a] [dataset] • KELM [Agarwal+, 2021] [dataset] • Wikipedia Pre-train Pairs Dataset [Wang+, 2021b] [dataset] • DART [Nan+, 2021] [dataset] • その他 21
  19. AMR-to-Text Generation • Bio AMR Corpus • AMR 2.0 •

    AMR 3.0 ◦ 使用例 [Ribeiro+, 2021] • New3 • The Little Prince Corpus ◦ 使用例 [Lam+, 2021] 23
  20. その他データセット • Recipes • Geoquery [Tang+, 2001] [dataset] • SimpleQuestion

    [Bordes+, 2015] [dataset] • Methodius Corpus [Isard, 2016] [dataset] • MyFitnessPal [Weber+, 2016] [dataset] ◦ 使用例 [Harris+, 2022] • Now You’re Cooking [Parvez+, 2018] [dataset] • Ice Hockey News Dataset [Kanerva+, 2019] [dataset] • Food.com Recipes and Interactions [Majumder+, 2019] [dataset] • PubMed Term, Abstract, Conclusion, Title Dataset [Wang+, 2019] [dataset] • CommonGEN [Lin+, 2020] [dataset] • Surface Realisation ST 2020 [Mille+, 2020] [dataset] • Weathernews [Murakami+, 2021] [dataset] • RacingGame Commentary Dataset [Ishigaki+, 2021] [dataset] • Nutribullets [Shah+, 2021] [dataset] 24
  21. ATIS [Zettlemoyer+, 2007] • 架空のオンラインフライト予約システムを操作するユーザの発話 ◦ 左図のようなシナリオに対して、ユーザがフライト予約システムに対して目的を達成するた めに発話 ▪ 5426

    scenario, シナリオに対して1 sentenceが対応(ave. 11.2 words, vocab 927, 19種類のレコードタイプのうち平均2.65レコードが1 sentenceで言及 [Konstas+, 2012] ◦ これらの発話に対して、lambda-calculus expressionが付与されているコーパス 26 元コーパス [Dahl+, 1994] lambda-calculus expression付与? [Zattlemoyer+, 2007] D2T query-generationで利用 [Konstas+, 2012]
  22. RoboCup [Chen+, 2008] • サッカーゲームのシミュレーションに対して、MR(e.g. pass, kick, turnover)と人間が作成したコメンタリー(1 sentence)が付与されてい る

    ◦ [Sharma+, 2022] では 1539 pair ◦ [Puduppully, 2021] では1.9Kのデータ量と記述されている ◦ 1 sentenceあたり平均5.7 words, 平均レコードタイプは9種類, 平均レコード数は平均2.4 [Liang+, 2009] 27 [Liang+, 2009]
  23. BAGEL [Mairesse+, 2010] • Cambridgeのレストランに関するMR(i.e. Dialogue Act)とそれに対応す る1 sentenceの発話のコーパス ◦

    informとrejectのdialogue act typeが活用されている ◦ 202事例 [Puduppully+, 2021] 29 [Sharma+, 2022]
  24. SF Restaurant & Hotel [Wen+, 2015] • San Franciscoのレストランとホテルに関するMR(i.e. Dialogue

    Act)と対 応する1 sentenceの発話のコーパス ◦ BAGELと比較し、8種類のDialogue Act Typeが活用されている ◦ 12種類のAttribute (Slots) がある ◦ 事例数10.2K [Puduppully+, 2021] (1ドメイン約5k) • Amazon Mechanical Turk (AMT)で作成 ◦ 1つのDialogue Actに対して複数のreferenceが存在 30 [Sharma+, 2022]
  25. RNNLG [Wen+, 2016] • 4種類のドメインに対するMR(i.e. Dialogue Act)と発話のペアデータ ◦ domain: finding

    a restaurant, finding a hotel, buying a laptop, buying a television ◦ restaurant, hotelに関してはSF Hotel & Restaurantと同一 • laptop, tvドメインでより多様なデータセットを作成するために、全ての Dialogue Act Typesとslotsの組み合わせを列挙した ◦ 合計でlaptopでは13KのDialogue Act、TVでは7KのDialogue Actとなった ◦ Amazon Mechanical Turk (AMT) でそれぞれのDAに対して、1つのrealization (sentence)を収集 • restaurant, hotelでは1 sentenceだったが、laptop, TVでは複数文も許容 されている 31
  26. E2E [Novikova+, 2017] • Restaurantドメインの MR (i.e Dialogue-Act) とreferenceのペアデータ ◦

    referenceは一つのMRに対して最大で5つ存在 ◦ データ量は50k、画像を利用することでよりinformativeで自然なreferenceを収集 • BAGEL, SF Restaurant/Hotes, RoboCup等と比較して以下がchallenging ◦ 多様なvocabulary, より複雑な構造(e.g. 接続詞, 動名詞, 代名詞等), 多様な談話構造 32
  27. WikiBio [Labret+, 2016] (1/3) • Wikipediaからbiographyに関する728,321記事を収集 ◦ 記事中のinfoboxとfirst paragraphによってペアデータ作成 33

    Frederick Parker-Rhodes (21 March 1914 – 21 November 1987) was an English linguist, plant pathologist, computer scientist, mathematician, mystic, and mycologist.
  28. WikiBio [Labret+, 2016]: データ例 (2/3) 34 aaron hohlbein -lrb- born

    august 16 , 1985 in middleton , wisconsin -rrb- is an american soccer player who is currently without a club .
  29. WikiBio [Labret+, 2016]: データ例 (3/3) 35 walter extra is a

    german award-winning aerobatic pilot , chief aircraft designer and founder of extra flugzeugbau -lrb- extra aircraft construction -rrb- , a manufacturer of aerobatic aircraft . extra was trained as a mechanical engineer . he began his flight training in gliders , transitioning to powered aircraft to perform aerobatics . he built and flew a pitts special aircraft and later built his own extra ea-230 . extra began designing aircraft after competing in the 1982 world aerobatic championships . his aircraft constructions revolutionized the aerobatics flying scene and still dominate world competitions . the german pilot klaus schrodt won his world championship title flying an aircraft made by the extra firm . walter extra has designed a series of performance aircraft which include unlimited aerobatic aircraft and turboprop transports .
  30. DocWikiBio [Perez-Beltrachini+, 2018] • WikiBioデータを豊富なproperty(i.e Spouseといったtableの項目)と複 数文を持つテキストにフィルタリングしたデータセット ◦ 6 property-value

    pair 以下の事例を除外 ◦ 1文のみで構成されるparagraphを含む事例を除外 ◦ 23単語未満のparagraphを含む事例を除外 ◦ 最大文数は12文, 最大property-value pair数は50 • paragraphのmain entityをDBPediaのproperty-value pairと紐づけ、クラ スの情報も付与した ◦ e.g. p=Spouse(s), v=Robert Joseph Flaherty, c=Person 36
  31. The Wikipedia company corpus [Qader+, 2018] • Wikipediaの企業ページからinfobox, abstract, bodyを収集したデータセッ

    ト • 51k企業に対するinfobox, abstract, body tupleを収集 ◦ attribute数は合計で41種類で、1企業あたり平均4.5 attributeによって構成 ◦ vocabulary sizeは160k words • Concept-to-Text, Text-to-Text の両方のタスクで利用可能 ◦ i.e. abstract generation, body text summarization 37
  32. Sentence Planning Corpus for NLG [Reed+, 2018] • End-to-Endなシステムではcontent planningとsurface

    realizationを中間 表現無しで実現できる ◦ => しかし、適切にcontent planning, aggregation operation, discourse relationを生成で きることを示した研究はない(と著者らは主張)ので学習できているか検証 • Sentence Planning Corpusの構築 ◦ Sentence scoping: PERSONAGEで生成 ▪ 64,442 output/MR pairs + 398 output/MR pairsを1~7文で生成 ◦ Distributive Aggregation: PERSONAGEで生成 ▪ 属性はPRICE, RATING のみに限定し、値をLOW, AVERAGE, HIGHのみに限定 ▪ テストデータは <HIGH, HIGH>の組み合わせのみに限定し必ずDistributiveが生じるよ うに生成し訓練データではは2つの値が異なるもの(e.g. <LOW, HIGH>)を利用 ◦ Disrourse Contrast: E2Eデータセットから手掛かり句を用いてcontrastが含まれるインス タンスを見つけ、データセット構成 38
  33. PersonageNLG: Style in NLG [Oraby+, 2018] • E2EのMRからPERSONAGEと呼ばれるstatistical language generatorを

    用いて、5種類のスタイルに応じたテキストを生成しコーパス作成 ◦ スタイルはBIG-FIVE ◦ train: 3784 MRに対して、スタイルごとに17771の発話を作成。合計で88855発話。 ◦ test: 278 MRに対して、スタイルごとに1referenceを生成。合計1390発話。 • MR, personality (stylistic) label, utteranceの3つ組データを提供 39 5種類のスタイル BIG-Five スタイル情報 ない場合
  34. Czech Restaurant [Dusek+, 2019] • SF Restaurant をチェコ語に翻訳することでデータセット作成 • slot

    valueはSFのセッティングになっているため、それをチェコ版に localizeしている ◦ restaurant names, areas, food types, street addresses, landmarks を対象としている • また、originalのSF Restaurant はduplicate textが非常に多かったため、 それらは除外し、同等の規模になるようにinstanceを増やした 41
  35. YelpNLG [Oraby+, 2019] • Yelp challenge datasetのreviewデータを利用し、300kのMR-Sentenceペ アを提供 ◦ MRは

    (attribute, value, adjectives)のtupleで表現される ◦ sentiment(レビュのratingから決定), length, pronounsなどの情報も付与されている ◦ domain: restaurant • MRはdependency parsingの情報から自動生成 ◦ 自動で生成の信頼性を向上させるために、サンプリングする文を最低1個のfood, restaurant の言及をしている文、かつ4~30 wordsの文に限定している 42
  36. FewshotWoz [Peng+, 2020] • 既存のデータは各ドメインに対して大規模なラベルつきデータがあるが、 real worldなシナリオでnew domain適用する場合には限られたラベルつき データしか得られない ◦

    => このためfew-shot learningの設定でデータを作成 • RNNLGとMultiWozデータセットからデータをサンプリングし作成 ◦ 1つのドメインでしか出現しないdialog actと対応する発話からサンプリング • delexicalizedしたDialogue Actのtrain/test間でのoverlapが非常に小さい のが特徴 43
  37. SGD [Rastogi+, 2020] (1/2) 解説 • Google ActionsやAlexa Skillsなどによって、開発者は新たなサービスに対 話インタフェースを導入できるようになった

    • 新たなチャレンジ: ◦ 様々なドメインでサービスを提供する必要があるが既存データではドメインが限られている ◦ 既存データセットはドメインごとに単一のAPI(i.e. intentとslotのセット)しか提供してい ないが、実シナリオでは同じ機能でも、異なるAPIが利用されインタフェースは異なる • これらを克服するために大規模なデータセット作成 ◦ 多くのドメインをカバーし、ドメインごとに複数のAPIを提供する最初のデータセット ◦ APIインタフェースの追加や、APIの追加に対するモデルのロバスト性を測るために、テスト データには訓練データにはない多くの新しいサービスを含む ◦ 単一のモデルで様々なAPIに対応するために、マスタースキーマアプローチを採用せず、ス キーマガイドアプローチを採用した 44
  38. SGD [Rastogi+, 2020] (2/2) 解説 • スキーマに関数のリストと関数と関連づけられたslotの自然言語での説明を 定義し、後者を利用することでスキーマの意味表現を学習して利用する ◦ =>

    これによりドメイン、またはサービス固有のパラメータを持たない単一の統合モデルを学 習可能で、異なるサービス間の類似概念を学習できる ◦ => また、スキーマの意味表現の利用により、訓練データに存在しないサービスへの対応が可 能となる 45
  39. CACAPO [Lee+, 2020] • Attribute-Valueペアと対応するニューステキストのデータセット ◦ 収集したニューステキストをsentenceに分割し、それぞれのsentenceに対してMR(i.e. Attribute-Valueペア)を2名の専門家が付与 • task-based

    settingで収集されたデータではなく、’naturally occuring’で 人間が書いた最初のデータセットだと主張 ◦ domain: sports, weather, stock, incidents ◦ language: English, Dutch 46
  40. WITA [Fu+, 2020] • MRとtextが完全にalignしているペアデータを作るのは非常にコストがかか りドメインも限られてしまう問題がある ◦ => これを解決するためにpartially aligned(MRとtext)の一部しか対応していないデータ

    セットを自動生成(WITA) ◦ => MRにsupportされていない情報を含まないようにテキストを生成する partially aligned data-to-text generation モデルを提案 • WITA: Wikipedia, Wikidataからデータ生成 ◦ 記事中のfirst sentenceを抽出し、sentence内の固有表現を抽出し直積集合<e1, e2>(固有 表現の全てのペアの組み合わせ)を作成 ◦ Wikidata中の対応するtriplet <head, relation, tail>を抽出し(head, tailがそれぞれe1, e2 と近しいものを抽出)、その後質の悪いペアデータをフィルタリングしデータセット作成 47
  41. UPI Newswire [Robin, 1994] • UPI NewswireのNBAゲームのサマリーとbox-scoreのペアデータ? ◦ 全部で293 text?

    ◦ データの公開はされてなさそう ◦ 試合結果 + half time時点での結果 + 各選手のstatsのような構成になっていそう 50
  42. SUMTIME [Sripada+, 2003] [Reiter+, 2005] (1/4) • 時系列データに対するテキスト生成のためのデータセット ◦ SUMTIME

    project • 専門家が記述した天気予報テキストと数値データ(e.g. 風速, 気温)のペア ◦ 2000/6/26 ~ 2002/5/10 までの1045ペア ◦ 天気予報テキストは1日あたりmorningとeveningの天気予報が存在 • 数値データ一覧 ◦ Marine Model: 風と波に関する予測(ある時点から3日~1週間後まで3時間間隔で予測) ▪ 風向, 風速(knot), 突風(knot; 10m地点, 50m地点), 有義波高, 波の周期, うねり, うねり の高さ, うねりの周期 ◦ MaxMin Model: 天候に関する予測(ある時点から3日~4日後まで1時間間隔で予測) ▪ 雲量(low, medium, high altitude), 合計雲量, 気温, 降水量, 降雪確率, 気温減率 51
  43. SUMTIME [Sripada+, 2003] [Reiter+, 2005] (3/4) • 天気予報テキストの種類 ◦ INFERENCE:

    一般的な天気の見通しについて記述 ◦ FORECASTS: 3種類の期間に対する予報 ▪ 予報する期間 • AM Forecasts: 当日の6時~24時, {翌日, 翌々日}の0時~24時 • PM Forecasts: 当日の15時~翌日06時, 翌日の6時~24時, 翌々日の0時~24時 ▪ 予報の項目 • Wind{10, 50}M: {10, 50}m地点での風に関する予報 • Waves Sig. Ht (M): 有義波高に関する予報, うねりに関する情報も利用される • Waves Max Ht (M): 最大波高に関する予報, うねりに関する情報も利用される • Wave Period: 波の周期データに関するサマリー • Weather: 主に雲量と降水量のサマリー • Vis: 見通しの良さのサマリー • Temp: 気温のレンジ • Cloud: 雲量に関するサマリー ◦ LONG RANGE OUTLOOK: 長期間の見通し(見通しの期間はその時々による) 53
  44. SUMTIME [Sripada+, 2003] [Reiter+, 2005] (4/4) • INFERENCE • FORECASTS

    54 • LONG RANGE OUTLOOK スウェーデン南部の 968MB の台風は東に移 動します。ベルゲンの西の 976MBの台風は南 東に移動し、夕方までに南デンマークを越えま す。 デンマーク海峡で低気圧が形成され、木曜 日の午後までに南東に移動し、スコットランド北 部に到達します。
  45. NFL [Barzilay+, 2005]: 概要 (1/6) • 2003/2004シーズンのNFLのサマリーとstatisticsのペアデータ ◦ 468試合の texts,

    平均サマリー長は46.8 sentencesと長文 • データは公開されていない? 55 It includes a scoring summary and a play-by-play summary giving details of the most important events in the game together with temporal (i.e., time remaining) and positional (i.e., location in the field) information.
  46. NFL [Barzilay+, 2005]:Game Summaryと Play-by-Play Summary (3/6) • Entity間の関係がある文についてはPlay-by-Play Summaryでテキストで情

    報が与えられている(ことが多そう) • The Browns faked a field goal, but holder Derrick Frost was stopped short of a first down. ◦ Play-by-Play: 4-4-WAS28 (2:21) (Field Goal formation) D.Frost to WAS 27 for 1 yard (M.Washington). • Brunell then completed a 13-yard pass to Coles, who fumbled as he was being taken down and Browns safety Earl Little recovered. ◦ Play-by-Play: 2-10-WAS27 (2:08) M.Brunell pass to L.Coles to WAS 39 for 12 yards (K.Bentley). FUMBLES (K.Bentley), RECOVERED by CLV-E.Little at WAS 40. E.Little to WAS 26 for 14 yards (L.Coles). 57
  47. NFL [Barzilay+, 2005]:論文中のGame Summary例の全体 (6/6) 60 CLEVELAND (Oct. 3, 2004)

    -- The pain finally subsided in Lee Suggs' neck long enough to take some hurt out of Cleveland's bruised season. Suggs, who sat out Cleveland's first three games with a neck stinger, rushed for 82 yards and scored a touchdown in the fourth quarter, leading the Browns to a 17-13 win over the Washington Redskins. From his first carry of the season, a 25-yard burst in the first quarter, the speedy Suggs gave the Browns (2-2) the spark their ground game had been missing. "Man it's good to have him back," said tight end Aaron Shea, who had a 15-yard TD catch in the third quarter. The Browns, who lost starters Kellen Winslow Jr. and Courtney Brown for the year with injuries, were in danger of digging a deep early-season hole and desperate for a win. And although it certainly wasn't a thing of beauty, they got one. "We just had to have this, we needed a win," said defensive end Kenard Lang. "It's really big. Look at me, I'm smiling now. I'm just happy that we won." Jeff Garcia went 14 of 21 for 195 yards and a TD for the Browns, who didn't secure the win until Washington's Laveranues Coles fumbled with 2:08 left. The Redskins (1-3) can pin their third straight loss on going just 1 for 11 on third downs, mental mistakes and a costly fumble by Clinton Portis on the first play after halftime that allowed Cleveland to quickly tie it. "My fumble changed the momentum," Portis said. "All of a sudden, we lost control of the game." Mark Brunell couldn't get it back as Washington's offense sputtered again behind its new quarterback. Brunell finished 17 of 38 for 192 yards, but was unable to get into any rhythm because Cleveland's defense shut down Portis and the Washington coach's headsets and sideline phones were malfunctioning. "It made it tough to communicate," Brunell said. "We had to go to hand signals. But the headsets didn't cause the fumbles or the overthrown passes. We made mistakes." Clinging to their four-point lead, the Browns faked a field goal, but holder Derrick Frost was stopped short of a first down. Brunell then completed a 13-yard pass to Coles, who fumbled as he was being taken down and Browns safety Earl Little recovered. "I fumbled the game away for us," Coles said. Garcia, who played poorly in Cleveland's two previous losses, then only had to kneel down because the Redskins had used up their timeouts, which also was a problem in last week's loss to Dallas. Other than his 25-yarder the first time he touched it, Suggs wasn't very flashy -- just efficient. "He did a great job, finding creases, using his fullback and creating positive runs," Garcia said. "It's nice to finally have our backfield at full strength." With the Browns down 13-10, Suggs ripped off a 14-yard run as Cleveland drove for the go-ahead score and Garcia completed a huge third-down pass to Quincy Morgan. A few plays later, Garcia lofted a 26-yard pass to uncovered Andre' Davis to the Washington 3. Suggs then pushed in to make it 17-13, the first rushing TD by a Cleveland back this season. Suggs, who had his neck wrenched during practice last month, spent the past three Sundays watching and waiting for his chance to help. At last on the field, Suggs had to pick up a blitzing linebacker on his first play, a moment that tested his strength and convinced him he could take a hit. "It was good to get that out of the way," he said. "After that, I didn't even think about it." Trailing 10-3, the Browns were booed as they left the field for halftime. Garcia, yet to lead the club to a first-half TD, went just 4 for 8 for 64 yards -- 37 on one play -- in the first 30 minutes. But Cleveland got a break when Portis fumbled on the first play of the third quarter and Andra Davis recovered at the 31. Garcia capitalized, using three short rollout passes, the last to Shea, who ran untouched until he got to the goal line, where he plowed through a pile. "I turned, no one was on me and I saw the end zone. I was like, 'I'm getting in there,'" said Shea, scoring his first TD since 2000. "Nothing was going to stop me." リンク
  48. WikiTableQuestions [Pasupat+, 2015] • Tableとquestion-answerペアのデータセット ◦ Wikipediaから最低8行, 5列以上を持つテーブルを抽出 ◦ Amazon

    Mechanical Turkでworkerに questionとそれに対するanswerを生成してもらった ◦ 36種類のprompt(e.g. 数値計算を含む質問, firstという単語を含む質問)を用意しquestion が複雑となるように促した • 2108 tableに対して、22,033のquestion-answerペアを生成 61
  49. SBNation [Wiseman+, 2017] • box- and line scoreと人手で書かれたNBAゲームサマリーのペアデータ ◦ 10,903個のサマリーで構成されている

    • 多くのサマリーがbox- line scoreに存在しない情報に関して記述されてお り、非常にnoisyなデータとなっているとのこと ◦ wisemanモデルでBLEUスコア1.78しか達成できなかった 62
  50. WikiSQL [Zhong+, 2017] • Wikipediaから抽出した24241個のtableと、80654個のhand-annnotated な自然言語で記述されたQuestionとSQL Query ◦ 多様なtableに対するqueryが存在するため、モデルはqueryに対して汎化するだけでなく、 新たなtable

    schemaに対しても汎化しなければならない点がチャレンジング • Amazon Mechanical Turkでデータセット生成 ◦ 先行研究が生成したWikipediaのテーブルからsmall tableを除去 ◦ ここのテーブルに対して、ルールベースで6種類のSQLクエリを作成 ◦ テンプレートベースの手法でQuestionを作成 ◦ 作成したQuestionをworkerにparaphrasingしてもらうことでデータ作成 64
  51. WIKITABLETEXT [Bao+, 2018] • tableのregion(この研究ではrow)を指定し、指定されたregionに関して 述べるテキストを生成するタスクを提案 • データセット作成手順 ◦ Wikipediaから5,000個のregular

    table(i.e. attributeやcellがマージされていないもの)を 収集 ▪ 最低3行, 2列のテーブルを収集 ◦ それぞれのテーブルに対してランダムに3行を選択し、15,000行がアノテーションに利用 ◦ アノテータに行と対応するAttribute, captionを見せ、少なくとも2つのセルに関するテキス トを作成するよう依頼(全てのcellをカバーする必要はなし) ▪ tableに関してwebで調べることは禁止した(external knowledgeを利用しない) ◦ 最終的に13,318 row-text pairを得た • table-to-text generationにおける初めてのopen-domain datasetと主張 65
  52. Chess Commentary Dataset [Jhamtani+, 2018] • チェスフォーラムから収集したGame Stateとmove-by-move commentary ◦

    Game Stateはlinearlizedされ64 tokenで表現される, emptyは”eps”, 他はblack_bishop等で 表現 • 1kのコメントでコメントのカテゴリをアノテーションしSVMを訓練し全デー タに対してラベル付けして分析している 66
  53. MLB [Puduppully+, 2019]:概要(1/4) • MLBの試合のStatsとSummaryに関するデータセット ◦ play-by-play tableが存在するのが特徴 ◦ play-by-play

    table: ゲーム中の重要なeventが時系列で記録されたテーブル • Rotowireと比較して: ◦ Summaryが約50%長い ◦ input recordsがリッチで、より構造化されている ▪ line-score table ▪ box-score table ▪ play-by-play table ← new ◦ 5倍のデータ量 • Summaryに時系列に記録されたゲームの重要なイベントの詳細を含む • [Puduppully+, 2019]らの手法では、line-, box-scoreだけでなく play-by-play tableもbidirectional encoderに入力される 69
  54. Rotowire-Modified [Iso+, 2019] • Rotowireデータでは、1つのGameに対して2つのSummaryが存在するケー スがあり、片方がtraining、もう一方がvalidationあるいはtestデータに含 まれる事例が存在するため、こういった事例を除外したデータセットを作成 ◦ 2つのSummaryは同一ではないが、類似している •

    データセット作成方法: ◦ Rotowireからデータを再クローリングし、元データと同じsplitに各データを割り当て ◦ 14 instanceは元データに存在しなかったため、9, 2, 3個ずつtrain, val, testに割り当て ◦ 各Summaryのwriterの情報も追加で収集 • データセットの統計量: ◦ 3748 instance (train: 2714, val: 534, test: 500) ◦ Avg. Summary length: 384 tokens ◦ Avg. data records: 644 ◦ # of writers: 32 (607 Summaryを執筆している人もいれば、10 Summary以下のWriterも いた) ◦ Avg. # of Summary / writer: 117 73
  55. Rotowire-FG [Wang, 2019]:概要 (1/2) • RotoWireデータのコンテンツのうち約60%しかboxscore recordに対してグラウ ンディングできないことを指摘 ◦ =>

    このようなデータでは言語モデルがランダムなfactを生成してしまう • 以下の特徴を利用しRotoWireのfactをグランディングできるSummary contents を残した(i.e. Summaryをトリミングした) ◦ 次の話題に移る前に、単一のEntityに言及していることが多い ▪ => sentenceをunitとしてtopicのboundaryを見つけることができる ▪ => boxscoreのレコード中のfactの絞り込みや、共参照の解決等に利用 ▪ => また、あるフレーズにとって適切なtypeを特定するヒューリスティクスを導入し、Entity とboxscore tableのtype, valueを紐づけた ◦ true content planに対して、98%のPrecision, 95%のRecallを達成し、Summary中のnumerical wordsのうち74%がbosxcore tableとalignできた • その他にも、Normalizationによってnumber wordsを数値に変更したり、%の丸 めの訂正、Player, Teamのlexical formの正規化等を実施 • また、2017-19のデータを新たにクローリングし、line-score tableで不足してい る情報(e.g. teamの合計シュート数, 3-point数, フリースロー数)をプレイヤー のstats等から求め補完 • クォーターごとのチームの合計得点や、得点の差なども新たなrecord typeとして 追加 74
  56. SportSett:Basketball [Thomson+, 2020]:概要 (1/3) • Rotowireデータを改善しPostgreSQLでデータをqueryしたりfilteringできるよう にしたデータセット a. 従来のデータセットと異なり、データセットを様々なdimensionで切り出せる b.

    summary自体はRotoWireデータと同様 • RotoWireデータからの改善点 a. プレイヤーが所属するチームが名前ではなく市区町村でindexingされるなどのマイナーな問題 ▪ minor changeについては多すぎるため論文中では言及されていない b. train/val/testの分割のcontamination ▪ RotoWire-Modifiedが解決した同様の問題 ▪ 加えてSummaryに過去のゲームのデータを集約した記述がなされている場合、それらのゲー ムも同じパーティションに含まれていなければならない問題がある • ⇒ 2014, 15, 16をtrain 17をval, 18をtestとすることで解決 c. 各シーズンにおける82試合のゲームのsequentialな性質も取り扱える ▪ プレシーズン/ポストシーズンもDBは扱えるようになっているがデータ自体はimportされてい ない d. Playに関する情報を追加(いつ、誰が、どんなプレイをしたか) e. ゲームが実施されたlocation(stadium, place)に関する情報も追加 • データのソース a. rotowire.com b. basketball-reference.com c. wikipedia.com 76
  57. SportSett:Basketball [Thomson+, 2020]:JSONからDBへの 転換 (2/3) • PostgreSQLのDB ◦ SQLによってデータをqueryしたりfilteringしたりできる ◦

    SQLやORMを使うことでシステムに必要なフォーマットに簡単にデータをoutputできる • なぜJSONは不適切なのか? ◦ RotoWireに含まれる文のcomplexityの例: ▪ 複数ゲームに渡るプレイヤーのaverage ▪ 複数ゲームに渡って”stayed dominant”といった主張が含まれている ◦ => 現在のRotoWireのフォーマットではこういった現象を評価するのには不適切 ◦ => 特に、JSON形式のファイルではデータのサイズと複雑さが増すにつれて、生成されたテ キストを入力データと比較して確認するなどを実施する場合に扱いにくくなる 77
  58. SportSett:Basketball [Thomson+, 2020]:生データ例 (3/3) 78 The Miami Heat ( 20

    ) defeated the Philadelphia 76ers ( 0 - 3 ) 114 - 96 on Saturday . Chris Bosh scored a game - high 30 points to go with eight rebounds in 33 minutes . Josh McRoberts made his Heat debut after missing the entire preseason recovering from toe surgery . McRoberts came off the bench and played 11 minutes . Shawne Williams was once again the starter at power forward in McRoberts ' stead . Williams finished with 15 points and three three - pointers in 29 minutes . Mario Chalmers scored 18 points in 25 minutes off the bench . Luc Richard Mbah a Moute replaced Chris Johnson in the starting lineup for the Sixers on Saturday . Hollis Thompson shifted down to the starting shooting guard job to make room for Mbah a Moute . Mbah a Moute finished with nine points and seven rebounds in 19 minutes . K.J . McDaniels , who suffered a minor hip flexor injury in Friday 's game , was available and played 21 minutes off the bench , finishing with eight points and three blocks . Michael Carter-Williams is expected to be out until Nov. 13 , but Tony Wroten continues to put up impressive numbers in Carter-Williams ' absence . Wroten finished with a double - double of 21 points and 10 assists in 33 minutes . The Heat will complete a back - to - back set at home Sunday against the Tornoto Raptors . The Sixers ' next game is at home Monday against the Houston Rockets .
  59. TabFact [Chen+, 2020a]:概要 (1/2) • Structuredなformatをevidenceとする初めてのデータ ◦ 従来のFact Checkingは、unstructuredなtextによるevidence(e.g. sentence,

    wikipedia passage, image)に対して行われていった • 16,753個のwikipedia tableに関する117,854件の人手でアノテーションさ れたsentenceのデータセット • tableとsentence間には ENTAILED と REFUTED の関係性が分類されてい る 79
  60. TabFact [Chen+, 2020a]:TabFactが扱う2つの課題 (2/2) • Linguistic Reasoning: ◦ 従来のデータセットではlinguistic reasoningは言い換えが支配的だったが、TabFactではよ

    り推論やcommon senseが必要となる ◦ “John J. Mcfall failed to be re-elected through being unopposed.”を正しくentailmentす るためには”lost renomination …”を理解する必要がある • Symbolic Reasoning: ◦ “There are three Democrats incumbents”は where condition + count の演算が必要 ◦ QAと異なり、複合的なFACTが含まれており(Total=5, democratic count=2, republic count=3)それぞれの事実を検証する必要がある 80
  61. LogicNLG [Chen+, 2020b]:概要 (1/5) • Surface Levelでデータを言い直すような生成ではなく、logical inference が必要なテキストを生成するためのデータセット •

    TabFactの “complex channel” のデータを対象にデータセット作成 ◦ complex channnelのデータでは下記が実施されている ▪ 複数行に対するargmax, argmin, count, difference, avg, summarize等の意味処理 ▪ テーブルレコードをより意味的な理解が伴うrephrase ◦ LogicNLGの特徴: ▪ sentenceには最小限のドメイン知識を必要とする豊富なlogical inferenceが含まれる ▪ open-domainデータなので、schemaからinferenceを絞り込むことができずモデルの 汎化性能が試される ▪ 大部分のsentenceは平均して11 tokenでありlogical inferenceにフォーカスできる ▪ 1 tableあたり5種類の異なるreferenceが存在 81 implicit logical inferenceが必要
  62. LogicNLG [Chen+, 2020b]:性能指標(3/5) • Logical inferenceのfidelityを測る方法を提案 ◦ 従来のWisemanらが利用するIEベースの手法は (subject, predicate,

    object) のtupleを抽出 するがlogical inferenceの場合は必ずしもこのようなtupleとはならないから適用できない • Parsing-based Evaluation ◦ semantic parsing [Liang+, 2009] の手法を用い、生成したテキストのlogical formを生成 ◦ logical formをtableに適用しtrueとなるか否かでlogicがknowledgeにsupportされているか を判断 • NLI-based Evaluation ◦ TabFactを用いて学習したFactCheck(Entailed / Refuted)モデルを利用 ◦ 生成されたテキストが、与えられたTableをどれだけEntailedしているかを測定 • Adversarial Evaluation ◦ Testデータのreferenceに対して、adversarialなデータを作成 ▪ “more” を ”less”に言い換える等 ◦ 評価するモデルがAdversarial sentenceよりも、Original sentenceに対して高い尤度を与え るか否かでlogical reasoningの能力を測定する 83
  63. ToTTo [Parikh+, 2020]: Motivation (1/7) • data2text datasetの作成には2つの困難さがある • task

    design: ◦ open-endedな出力を伴うタスクでは、”what to generate”に関する明示的なsignalが不足す る ◦ このため、生成テキストは主観的なコンテンツとなり評価に課題が存在する ◦ MRをverbalizeするタスクでは、モデルの推論能力をテストすることができず、多くのチャ レンジがタスクから除かれてしまう • annotation design: ◦ 自然で綺麗なtargetを取得するためのアノテーションプロセスのデザインはチャレンジング ◦ 一般的な戦略 ▪ アノテータにscratchでtargetを書いてもらう ▪ 自然に生じたtable-text pairを収集する • ただし、この方法ではしばしばノイジーでsourceから再現できない情報を含む • => 評価してもノイズのせいなのか、モデリングの弱点のせいなのか切り分けが できない • => ToTTOではこれらの問題に対処するためのデータセットを提案 ◦ task design: highlightされたcellに関するテキストを生成するcontrolled generation taskを 定義し解決 ◦ annotation design: アノテータに既存のsentencesを自然でsource tableをsupportするよう に推敲してもらうことで解決 86
  64. ToTTo [Parikh+, 2020]: ToTTo dataset例 (2/7) • データセット例とアノテーションプロセス ◦ =>

    high-precision な conditional text generationのデータセットとなっている 87
  65. ToTTo [Parikh+, 2020]: アノテーションデータ収集 (3/7) • ToTToデータセットを作成するためのアノテーションデータの収集に利用し たヒューリスティクス ◦ 前提:Wikipediaから収集

    • Number Matching ◦ 同一Wikipediaページ内にあるテーブルと文を探索し、日付かつ0ではない数値が最低3つ overlapしているペアを探索 ◦ => statisticsを述べているtable-sentence pairをcapture可能 • Cell matching ◦ テーブルの同一行の最低3つのcellと一致するトークンを持つ文を抽出 ◦ => 大抵のテーブルは構造化されており、あるイベントを説明する際には行が利用されるため • Hyperlinks ◦ sentenceがリンクを含んでおり、タイトルが”List”で始まる例を探索 ▪ “List”で始まるページは典型的に大きなテーブルのみを含んでいるため ◦ ページ内のテーブルがリンク元の記事へのリンクを保持していた場合アノテーションデータ とした ◦ => よりdiverseなexampleが獲得できる。ただしノイズも多い 88
  66. ToTTo [Parikh+, 2020]: アノテーションプロセス (4/7) 1. Table Readability a. テーブルがreadableか否かを判定

    b. readableではない場合、以後のステップは適用しない 2. Cell Hightlighting a. アノテータにsentenceをsupportするテーブルのcellをハイライト b. 直接的にcellのコンテンツ、あるいはメタデータについて述べている場合、またそれらから論 理的に推論できる場合に、あるフレーズはテーブルによってsupportされているとみなす 3. Phrase Deletion a. ハイライトされたテーブルcellによってsupportされていないフレーズを除去 4. Decontextualization a. 文脈に依存した代名詞や句を含む場合があるため、アノテータにテーブル、あるいはメタ データに存在する固有名詞に置換してもらった i. e.g. 代名詞、あいまいな表現 b. 置換することによってungrammaticalな文が生成されてしまった場合は修正してもらった 5. Secondary Annotation Task a. 文法的におかしな文をセカンドチェックし修正した b. 新たなコンテキストとして、highlightされたテーブルも定時した 89
  67. ToTTo [Parikh+, 2020]: 統計量とagreement (5/7) • アノテーションの各ステップでdevelopment setを使いagreementと BLEU-4 •

    Table Readability / Cell Highlightningは高いカッパ係数となっておりほぼ Perfect Agreementを実現可 • sentence revisionタスクではagreementが徐々に低下していった ◦ アノテータ間のアノテート後のsentenceのBLEU-4を測定 ◦ 徐々に低下していったが、original sentenceとfinal sentenceのBLEU-4は43.17であり、そ れよりは大幅に高い数値となっている 90
  68. ToTTo [Parikh+, 2020]: トピックの分布と生成に必要な情報 (6/7) • トピックの分布 ◦ 約50%がSports, Countriesとなっている

    ◦ 残りの50%は様々なトピックが含まれている • 生成に必要な情報(linguistic phenomena) ◦ 100個のランダムにサンプリングした文を分析 ◦ Reasoningや比較が必要なようなchallengingな例も多く含まれている 91
  69. HybridQA [Chen+, 2020d]: 概要(1/2) • 質問に対する回答がheterogeneous dataに存在する、よりrealisticな状況 を想定して生成されたQAデータセット(tabular / textual

    data) ◦ AMTでwikipedia tableと、table内のEntityがwikipedia passageとlinkされたデータを提示 ◦ 両情報を利用しなければ答えられないquestionを生成してもらうことでデータセット作成 • answerにはmulti-hopなreasoningが必要かつtable, passageのどちらにも 正解が含まれる可能性がある 93
  70. Logic2Text [Chen+, 2020e]: 概要 (1/6) • Table + Logical Formと対応するTextのペアデータ

    ◦ 5.6k open-domain tables ◦ 10.8k の人手でアノテーションされた (logical form, description) pairs ◦ free schemaなlogical form(グラフで表現できる) • Logicの種類 ◦ count, superlative, comparative, aggregation, majority, unique, original 95
  71. Logic2Text [Chen+, 2020e]: モチベーション(2/6) • Surface-levelのDescriptionからLogical-level Descriptionへ • 課題1: Low

    Fidelity ◦ Table Input のみではreasoningやsymbolic calculationは既存モデルでは正しくできない ▪ e.g. max, min, counting, averaging ◦ => Tableのみでは論理的に正しいテキストを生成不可 • 課題2: Uncontrollable Content Selection ◦ あるTableが与えられた時に論理的にEntailedなテキストのパターンは膨大 ▪ e.g. count, comparison, superlative ◦ => 生成プロセスでhigh levelな意味的な制約を加えることが難しいので、Table情報のみで は妥当で好ましいlogical selectionを実施できない • => Logical Formで中間表現を追加することで上記課題を解決したい ◦ logical form to text problem ◦ logical reasoningとLanguage realizationが分離され、logical formの正しさが保障されてい るので、realization moduleのチャレンジはsemantic understandingにシフト 96
  72. Logic2Text [Chen+, 2020e]: データセット生成 (3/6) • WikiTablesデータを活用し、AMTでworkerにテキストをScratchで作成依 頼 • アノテーションプロセス(Description

    Compositin & Verification) a. logic typeを選択し、template-likeな生成は避け興味深く自然なテキストの生成依頼 ▪ captionの情報も考慮し、代名詞の利用は避ける b. 生成されたテキストに対して下記3つの質問で品質のチェック ▪ 指定されたlogic typeがきちんと使われているか? ▪ Factual Informationが正しいか? ▪ 文法が正しく、流暢か? 97
  73. Logic2Text [Chen+, 2020e]: データセット生成 (4/6) • アノテーションプロセス(Logical Form Annotation &

    Derivation) a. human workerとの対話を通じてLogical FormをAnnotation ▪ => Logic TypeごとにLogical FormごとにPrototypeを用意しそれを埋めるような質問 98
  74. Logic2Text [Chen+, 2020e]: データセット生成 (5/6) • アノテーションプロセス(Logical Form Execution &

    Verification) a. 収集したLogical Formを実際のTableに対して実行し、正しく実行できたもののみを残す ▪ => 100%正しいLogical Formであることが保証 b. Logical Formが正しいだけでなく、Semanticな正しさも検証 ▪ Logical Formを自然言語の解釈に変換し、Workerに生成テキストと意味的に一致して いるかを質問 c. エキスパートによる評価 ▪ CSの学部生を雇い、200件のサンプルのsemantic correctnessを評価 99
  75. WikiTableT [Chen+, 2021a]: 概要 (1/5) • 従来のData2Textデータ: ◦ multi-domainのsingle sentence

    generation(e.g. WikiBio, LogicNLG) ◦ datasetサイズの小さいsingle-domainのlong-form text generation(e.g. RotoWire, MLB) ◦ => large-scaleな様々なドメイン/ソースに基づくmulti-sentence generationのデータ提案 • WikipediaのSectionと対応するtabular data + metadataペアのデータ セット ◦ tabular data + metadataからwikipedia sectionを生成するタスク • Story Generationと類似しているが新たなチャレンジが必要 ◦ => coherent + input tableに対するfaithfulnessを同時に達成しなければならない 101 記事に含まれるテーブル section中のhyperlinkから自動構築
  76. WikiTableT [Chen+, 2021a]: ユースケース (2/5) 1. WikitableTは幅広いトピックや知識に対するwritingのアシストに役立つ ◦ e.g. 学生の複数のfactual

    sourceに基づくessay writingの支援に利用できる 2. small data-to-text datasetsに対するpre-trainingデータセットとして利 用可 ◦ e.g. RotoWire 102
  77. WikiTableT [Chen+, 2021a]: データセット例2 (4/5) • input tablesがテキスト生成に必要な情報を全て含んでいる例 ◦ =>

    従来のstandardなdata2textタスクに近い ◦ => が WikiTableTではwide varietyなtopicが含まれているのでチャレンジング 104
  78. WikiTableT [Chen+, 2021a]: 統計量とチャレンジ (5/5) • データセットの特徴: ◦ Avg. Lenはスポーツドメインデータより長くないが多様なトピックを提供

    ◦ 既存のWikipediaベースのデータセットはsingle sentence generationだが、WikiTableTは multiple sentence generation ◦ 他のデータセットよりもサンプル数が大きい • データセットのチャレンジ: ◦ world-knowledgeを利用してcoherentで長いテキストを生成するためのtestbed ▪ 日常のシーンにおけるcommonsense knowledgeに基づいてsentenceを生成するのと は対照的(e.g. CommonGen) ◦ 他のlong-formのデータセットと比較して、input tableが多様 105
  79. NumericNLG [Lya+, 2021]: 概要 (1/3) • 論文中の表(数値のみ)と対応するparagraphのデータセット ◦ 1.3k table

    - paragraph pairs • Motivation: ◦ 従来研究ではコピーメカニズムが利用されfactに言及する際の有効性が示されてきた ◦ しかしLogicNLGで提案されたように、人間はnumerical reasoningを含むより多様な inferenceを用いてテキストを生成する ◦ 言語モデルがnumeric operationをhandleすることにlimitationがありopen questionである ◦ => numeric reasoningに特化したdatasetを作成 106
  80. NumericNLG [Lya+, 2021]: LogicNLGとの差別化 (2/3) 1. LogicNLGの大半はnumerical reasoningだが、table contentsの全てが数 値ではない

    2. LogicNLGはsentenceの生成だが、NumericNLGはparagraphの生成 3. LogicNLGよりもNumericNLGはscieitnfic domainのnumerical reasoning textにフォーカス 107
  81. NumericNLG [Lya+, 2021]: アノテーションと統計量 (3/3) • ACL Anthologyから自動抽出した1.3kのtable-paragraph pairをexpertが アノテーションすることでデータセット作成

    ◦ tableのnumerical factを最低でも1文含んでいるパラグラフのみ利用 ◦ sentenceごとに、data description, supporting description, not-related-to-table descriptionのクラスを付与 ▪ 最終的に data descriptionクラスのみを利用 ◦ パラグラフのcontent planを直接的, あるいは論理的に推論できるテーブルヘッダーを選択す ることで同定 • 1.3K, unlimited schema 108
  82. SciGen [Moosavi+, 2021]: 概要 (1/4) • Scientificドメインでのnumerical reasoningにフォーカスしたデータセッ ト ◦

    初めてのデータセットと主張しているが、NumericNLGどどっちが早いのか。同時期かな? ◦ => モチベーションはNumericNLGと全く同じ, LogicNLGとの差別化も同じ • Table + Caption と対応するテキスト(複数paragraph) ◦ TableとCaptionから生成できるテキストのspanを人手でアノテーション ◦ 下記例の “The reason is …”はtableとcaptionから生成できないので除外 109
  83. SciGen [Moosavi+, 2021]: アノテーションプロセス (2/4) • 人手でのアノテーションプロセス(1.3k examples) ◦ 0.

    AxCellというツールを使い、arXiv上の論文(CL, ML, CSドメイン)のlatexから表を抽出 ◦ 1. Ph.D student, post docなどの該当分野の専門家がtableに対応するテキストをアノテーション ▪ Table + Captionから生成できるテキストのspanをアノテーション ◦ 2. 2人のアノテーターが1.の結果をreviseし、正しくtable-textを抽出できていない例や、reasoning が不要な事例等を除外 • 自動アノテーションでのデータセットの拡張(約50k examples) ◦ 1. tableへのreferenceを含むparagraphsを抽出することで自動的にデータを収集 ◦ 2. ヒューリスティックルールに基づき、reasoningが不要なデータを除外 ▪ その他にも、数値を含まない例、複数テーブルや図について述べている例を除外 ▪ tableがAxcell toolで正しく抽出できていない例を除外 ▪ descriptionが15 words未満, 400 words以上のものを除外 ◦ 3. 人手でアノテーションしたデータに対して同様のプロセスを実施し、結果を比較 ▪ 20%の自動抽出したデータは人手のデータには含まれない • そのうちの大抵のデータはPDFアノテーションツールのエラーで除外されていたもの ▪ 27%のexpert annotationデータは自動抽出結果に含まれなかった ▪ 71%のテーブルが自動抽出とexpert annotationで一致し、自動抽出の方がtextが長かった • table + captionから生成できないものを自動抽出は含んでいる ▪ このうち29%のペアテキストが自動抽出の方が短かった • expertが抽出したのは複数パラグラフにまたがっている説明 • 自動抽出の場合はテーブルの部分的な説明となっている 110
  84. SciGen [Moosavi+, 2021]: 統計量とデータ分割 (3/4) • Few-shot: ◦ expertのアノテーションのみを含む少量のデータセット •

    Medium + Large: ◦ 自動抽出したデータを含む大量のデータセット ◦ testセットはexpertがアノテーションしたデータのみを含む 111
  85. SciGen [Moosavi+, 2021]: 実験結果からのinsight (4/4) • 現在の代表的な性能指標ではNumeric Reasoningを含むテキストを正しく評価で きない ◦

    表層レベルの類似度を評価しているのみで、Factuall Correctnessを評価する指標になっていないた め ▪ e.g. BLEU, METEOR, MoverScore, BertScore, BLEURT ◦ 実際正しいdescriptionと、明らかに正しくないdescriptionの両metricを比較した結果、ほとんど差 がなかった ▪ => 人手評価が必要 • 自動指標ではBARTの方がT5よりも性能が良いと判断されたが、人手評価をしたら T5とBARTはComparableだった • 自動抽出したデータを追加すると: ◦ factual informationのRecallとPrecisionとCorrectness (goldには含まれないが正しい記述) は向上 ◦ 全く関係ない情報を生成するHallucinationの割合も減少 ◦ しかしmediumとlargeを比較するとlargeの場合はCorrectnessが低下 ▪ => 自動抽出のデータを増やしていってもCorrectnessは改善しない(むしろ悪化) • SciGenではBART, T5をfinetuningする程度では40%のテキストしか正しいテキス トを生成できず、そのうち10%のgoldしか生成テキストはカバーできていない ◦ => まだまだこのタスクには改善の余地がある 112
  86. BioLeaflets [Yermakov+, 2021]: 概要 (1/2) • Biomedical Domainの最初のデータセット ◦ 1,336のヨーロッパで認可されている医薬品の添付文書のデータセット

    ◦ 基本的に6セクションで構成されており、clearでunderstandableな記述が求められる • BioLeafletsでのチャレンジ ◦ multi-sentence, multi-sectionの生成 ◦ データ数が少ない ◦ medical vocabularyとsyntaxに特化していること • Conditional Generationを提案 ◦ タスク: 順序立てられたEntityのsetをソースとして、multi-sentence sectionを生成する ◦ InputがEntityというだけでConditional Generationではないのでは・・・? 113
  87. BioLeaflets [Yermakov+, 2021]: データセット作成 (2/2) • 1,336のbiomedical leafletを6セクションに分割 • 各セクションごとにNERを用いて、Entityを抽出しInput

    Dataとする ◦ Entityとして数値データも含むようにした • NERの結果、26種類のuniqueなEntity typeを得た ◦ ex. problem: (value例: 活動性慢性肝炎), system-organ-site (value例: 血管), treatment (value例: ワクチン摂取), procedure: (value例: 注射) 114
  88. TatQA [Zhu+, 2021]: 概要 • Numerical Reasoningが必要なQAデータセット ◦ 2757 context

    - 16652 questions pair • 特徴: ◦ 与えられるContextがhybrid: semi-structured table + 最低2つのparagraph ◦ answer formが多様: single span, multiple spans, free-form ◦ Numerical reasoningが必要: +, -, *, /, counting, comparison, sorting, (+ これらの組み合 わせ) ◦ Ground Truthに加え、回答に必要な導出や、単位の情報も提供 115
  89. FinQA [Chen+, 2021b]: 概要 • RQ: 企業の意思決定に必要なFinancial Analysisを自動化できるか? • Numerical

    Reasoningが必要なQAデータの既存研究はGeneral domainを ターゲットにしており、大抵はone-stepのcalculationで回答可能 ◦ => Financial Domainはone-stepでは無理 & heterogeneousなデータをソースにする必要 • ExpertがアノテーションしたNumerical Reasoningのプロセスを含むQA データを作成 ◦ 8,281 financial QA pairs, multiple stepのcalculationが必要 116
  90. GeoTSQA [Li+, 2021]: 概要 • Scenario + tableがgivenな時にQAタスクを解くデータセットを構築 • 中国のgeographyの高校のmultiple-choice

    questionのテストを収集 • テーブルの情報は画像で付与されているため、OCRで情報を認識し、人手で エラーを訂正 • Tableの情報を利用せずに回答できるQuestionは除外することでデータセッ ト構築 117
  91. HiTab [Cheng+, 2022]: 概要 (1/9) • Hierarchical TablesにフォーカスしたQA, NLG Dataset

    ◦ => 既存のQAやTable2Textはflat tableにフォーカスしていた ▪ e.x. ToTToデータに含まれるHierarchical Tableは5.03%しかない ◦ 3597 Hierarchical Tables - 10672 QA - 10672 single sentences tuples • NLGタスクではToTToと同様にControlled Generationを提案 • Hierarchical TableのChallenge: ◦ Hierarchical indexing: ▪ cellの選択がflat tableと比較して複雑 ▪ multi-level, bi-dimensional indexingが必要 (親要素と子要素を行と列でindexingする 必要) ◦ Implicit Calculation relationships among quantities: ▪ 明示的な目印が無く行・列の集約(e.g. Total, proportion)がしばしば行われる ▪ これを理解するには正確なnumerical inferenceが求められる ◦ Implicit semantic relationships among entities ▪ 行・列・セルをまたいだEntity間の関係性が存在するが明示的な目印が存在しない ▪ e.g. 次ページ例のA2セルの”source”と “mechanism” はそれぞれA6:A19, A20:25に対 応 ▪ e.g. “Master”, “Doctoral”というheaderは ”Degree” というimplicitな関係性を持つ ▪ => 意味的な関係性を同定し、Entity間を正しく関連づけるのはチャレンジング 118
  92. HiTab [Cheng+, 2022]: HiTabの特徴と統計量 (3/9) • Hierarchical Tableに対するQAとNLGの両方をカバーした最初のデータ • 人手でアノテーションされたEntity,

    QuantityのAlignmentが存在する • Single-DomainのQAデータと比較し、多数のドメインとwikipediaを含む • Tableごとの対応するsentenceは約5文存在し、テーブルごとにより analyticalな側面が必要なことを示している 120
  93. HiTab [Cheng+, 2022]: データセット作成プロセス (5/9) • Hierarchical Table Collection ◦

    Statistics Canada (StatCan) National Science Foundation (NSF) ▪ => richなstatistical reportをPDFではなく「HTML」で公開している ◦ StatCanとNSFからHTMLをクローリングし、Hierarchical Tableを抽出 ▪ ToTToデータセットに含まれるhierarchical tableも加える • Sentence Extraction and Revision ◦ アノテータはTableのdescriptionに対応する「文」を抽出し文を補正(Revision)した ▪ ToTToデータと同様にdecontextualizationやphrase deletionを実施することで意味的 に関連性のない部分文を削除 122 ※これらのプロセスには合計で 2400時間を要した
  94. HiTab [Cheng+, 2022]: データセット作成プロセス (6/9) • Entity and Quantity Alignment

    ◦ Entity Alignment: ▪ テキスト中のEntityと対応するCellをアノテーション ◦ Quantity Alignment: ▪ Single Cell Mention: 対応するCellをアノテーション ▪ Composite Quantity Mention: 計算に必要なCellを用いた数式をアノテーション • Converting Sentences to QA Pairs ◦ アノテーターは文ごとにQuestionのkey partを同定しDeclerativeな文をQA Formに変換し た ▪ 全ての疑問文はnumerical inference processで回答可能 123 ※これらのプロセスには合計で 2400時間を要した
  95. HiTab [Cheng+, 2022]: データセット作成プロセス (7/9) • Regular Inspections and the

    Final Review ◦ 2人の最も経験豊富なアノテーターが定期的にlabeling process中に他のアノテーターのlabel をサンプリングして問題点をフィードバック ◦ 最終的に全てのレビューし、labelingのエラーを訂正した • Hierarchy Extraction ◦ indentation, bold font, merging等の情報に基づき(Acc. 94%)ツリー形式でヘッダーを表 現 124 ※これらのプロセスには合計で 2400時間を要した
  96. HiTab [Cheng+, 2022]: NLG実データ (8/9) • 1 exampleごとに1 sentenceが対応 •

    単一のtableに対して複数の事例が存在する 125
  97. HiTab [Cheng+, 2022]: NLGにおけるControlled Generation (9/9) • HiTabが提案するControlled Generationの他のデータセットとの違い •

    LogicNLG: ◦ Cellに対するoperationを含むlogical formを与えなければならず、common userはそんなこ とができないためreal scenarioに即していない • ToTTo: ◦ Cellによる条件付けのため、Logical Formを利用するより簡単 ◦ しかし、symbolic operationが定義されておらずnumerical reasoningができない • Hitab: ◦ LogicNLGよりreal applicationに近づけ、ToTToよりもcontrollableにすることを目指す ◦ => 選択されたCellのグループと、operatorによって条件づけて文を生成する • 実際にモデルにTableをinputする際は、ヒューリスティックに基づき highlight cellと関連するsubtableを切り取り、入力する 126
  98. CONTLOG [Liu+, 2022]: 概要 (1/3) • Logic2Textデータのアノテーションされたlogical formと対応する、テーブ ル中のセルをhighlightすることでデータセットを再構成した ◦

    これによりControlled logical natural language generationを実現可 • control signalが存在するはじめてのLogical table-to-text dataset 127
  99. CONTLOG [Liu+, 2022]: モチベーション (2/3) • 既存研究はsurface-level factsをシンプルにrestateすることにフォーカス ◦ e.g.

    RotoWire, MLB • 近年Logical table-to-text generationが提案され、これにはモデルが logical-levelのinferenceを行いながらcontent planningを行う必要がある ◦ しかし、end-to-endなneural modelは与えられたtableに対して論理的に正しいテキストを 生成することに苦戦していることが知られている ◦ => この理由は、ターゲット文の曖昧さが、モデルがテーブルとテキストのペアから正確な logical inferenceを学習するのを妨げていることに起因すると考えられる ◦ => 加えて、これらを実現するためのtable-text pairの量が限定的なものも要因である • これを克服するためにLogic2Textが提案された ◦ => しかしながら、的確にlogical formをアノテーションするのは突出したhuman effortが必 要 ◦ => 加えて、Logic2Textを活用した研究の大部分は、logical formをtextに変換することに フォーカスしている ◦ => logical formからの生成は、table2text generationとは異なるタスクとなってしまって いる • => よりFaitufulなLogical table-to-text generationを実現するために、 PLoGとCONTLOGデータセットを提案 128
  100. CONTLOG [Liu+, 2022]: PLoG概要 (3/3) • table-to-logical form generationのモデルを事前学習 •

    続いて、table-to-textをdownstreamタスクとしてfinetuneすることで、 logical inferenceに関する知識を転移させることでlogical fidelityを向上さ せる 129
  101. References: 1. [Budzianowski, 2018] MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz

    Dataset for Task-Oriented Dialogue Modelling, EMNLP’18 2. [Gardent+, 2017] The WebNLG Challenge: Generating Text from RDF Data, INLG’17 3. [Novikova+, 2017] The E2E Dataset: New Challenges For End-to-End Generation, SIGDIAL’17 4. [Wiseman+, 2017] Challenges in Data-to-Document Generation, EMNLP’17 5. [Parikh+, 2020] ToTTo: A Controlled Table-To-Text Generation Dataset, EMNLP’20 6. [Chen+, 2008] Learning to Sportscast: A Test of Grounded Language Acquisition, ICML’08 7. [Agarwal+, 2021] Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training, NAACL’21 8. [Juraska+, 2019] ViGGO: A Video Game Corpus for Data-To-Text Generation in Open-Domain Conversation, INLG’19 9. [Chen+, 2021a] WikiTableT: A Large-Scale Data-to-Text Dataset for Generating Wikipedia Article Sections, ACL’21 10. [Puduppully+, 2019] Data-to-text Generation with Entity Modeling, ACL’19 11. [Wang+, 2018] Describing a Knowledge Base, INLG’18 130
  102. References: 12. [Obeid+, 2020] Chart-to-Text: Generating Natural Language Descriptions for

    Charts by Adapting the Transformer Model, INLG’20 13. [Thomson+, 2020] SportSett:Basketball - A robust and maintainable data-set for Natural Language Generation, SIGGEN’20 14. Abstract Meaning Representation (AMR) Annotation Release 3.0 15. [Ribeiro+, 2021] Structural Adapters in Pretrained Language Models for AMR-to-text Generation, EMNLP’21 16. [Kanerva+, 2019] Template-free Data-to-Text Generation of Finnish Sports News, NoDaLiDa’19 17. [Wang+, 2019] PaperRobot: Incremental Draft Generation of Scientific Ideas, ACL’19 18. [Iso+, 2019] Learning to Select, Track, and Generate for Data-to-Text, ACL’19 19. [Lin+, 2020] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, EMNLP’20 131
  103. References: 20. [Lam+, 2021] ENSEMBLING GRAPH PREDICTIONS FOR AMR PARSING,

    NeurIPS’21 21. [Chen+, 2020a] TabFact: A Large-scale Dataset for Table-based Fact Verification, ICLR’20 22. [Chen+, 2020b] Logical Natural Language Generation from Open-Domain Tables, ACL’20 23. [Liang+, 2009] Learning Semantic Correspondences with Less Supervision, ACL-IJCNLP’09 24. [Wen+, 2015] Semantically Conditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems, EMNLP’15 25. [Mairesse+, 2010] Phrase-Based Statistical Language Generation Using Graphical Models and Active Learning, ACL’10 132
  104. References: 26. [Moosavi+, 2021] Learning to Reason for Text Generation

    from Scientific Tables, arXiv’21 27. [Labret+, 2016] Neural Text Generation from Structured Data with Application to the Biography Domain, EMNLP’16 28. [Nan+, 2021] DART: Open-Domain Structured Data Record to Text Generation, NAACL’21 29. [Berant+, 2013] Semantic Parsing on Freebase from Question-Answer Pairs, EMNLP’13 30. [Koncel-Kedziorski, 2019] Text Generation from Knowledge Graphs with Graph Transformers, NAACL’19 31. [Jin+, 2020] GenWiki: A Dataset of 1.3 Million Content-Sharing Text and Graphs for Unsupervised Graph-to-Text Generation, COLING’20 32. [Zhou+, 2018] An Interpretable Reasoning Network for Multi-Relation Question Answering, COLING’18 33. [Wang+, 2021a] WikiGraphs: A Wikipedia Text - Knowledge Graph Paired Dataset, NAACL’21 34. [Cheng+, 2020] ENT-DESC: Entity Description Generation by Exploring Knowledge Graph, EMNLP’20 35. [Banarescu, 2013] Abstract Meaning Representation for Sembanking, linguistic annotation workshop and interoperability with discourse’13 133
  105. References: 36. [Nayak+, 2017] To Plan or not to Plan?

    Discourse planning in slot-value informed sequence to sequence models for language generation, InterSpeech’17 37. [Chisholm+, 2017] Learning to generate one-sentence biographies from Wikidata, ACL’17 38. [Chen+, 2020c] Few-Shot NLG with Pre-Trained Language Model, ACL’20 39. [Lya+, 2021] Towards Table-to-Text Generation with Numerical Reasoning, ACL’21 40. [Fu+, 2020] Partially-Aligned Data-to-Text Generation with Distant Supervision, EMNLP’20 41. [Kantharaj+, 2022] Chart-to-Text: A Large-Scale Benchmark for Chart Summarization, ACL’22 42. [Murakami+, 2021] Generating Weather Comments from Meteorological Simulations, EACL’21 43. [Isard, 2016] The Methodius Corpus of Rhetorical Discourse Structures and Generated Texts, LREC’16 44. [Oraby+, 2018] Controlling Personality-Based Stylistic Variation with Neural Natural Language Generators, SIGDIAL’18 45. [Reed+, 2018] Can Neural Generators for Dialogue Learn Sentence Planning and Discourse Structuring?, INLG’18 46. [Qader+, 2018] Generation of Company descriptions using concept-to-text and text-to-text deep models: dataset collection and systems evaluation, INLG’18 47. [Wang+, 2021b] Stage-wise Fine-tuning for Graph-to-Text Generation, ACL-IJCNLP’21 48. [Yermakov+, 2021] Biomedical Data-to-Text Generation via Fine-Tuning Transformers, INLG’21 49. [Ishigaki+, 2021] Generating Racing Game Commentary from Vision, Language, and Structured Data, INLG’21 134
  106. References: 50. [Wang, 2019] Revisiting Challenges in Data-to-Text Generation with

    Fact Grounding, INLG’19 51. [Pasupat+, 2015] Compositional Semantic Parsing on Semi-Structured Tables, ACL-IJCNLP’15 52. [Wen+, 2016] Multi-domain Neural Network Language Generation for Spoken Dialogue Systems, NAACL’16 53. [Peng+, 2020] Few-shot Natural Language Generation for Task-Oriented Dialog, ACL’20 54. [Rastogi+, 2020] Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset, AAAI’20 55. [Reiter+, 2005] Choosing words in computergenerated weather forecasts, Artificial Intelligence’05 56. [Jhamtani+, 2018] Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, ACL’18 57. [Banik+, 2013] The KBGen Challenge, SIGGEN’13 58. [Zettlemoyer+, 2007] Online Learning of Relaxed CCG Grammars for Parsing to Logical Form, EMNLP’07 59. [Konstas+, 2012] Unsupervised Concept-to-text Generation with Hypergraphs, NAACL’12 60. [Bao+, 2018] Table-to-Text: Describing Table Region with Natural Language, AAAI’18 61. [Serban+, 2016] Generating Factoid Questions With Recurrent Neural Networks: The 30M Factoid Question-Answer Corpus, ACL’16 135
  107. References: 62. [Dusek+, 2019] Neural Generation for Czech: Data and

    Baselines, INLG’19 63. [Li+, 2021] TSQA: Tabular Scenario Based Question Answering, AAAI’21 64. [Chen+, 2021b] Neural data-to-text generation with dynamic content planning, Knowledge-Based Systems, 2021 65. [Hayashi+, 2019] Findings of the Third Workshop on Neural Generation and Translation, WNGT, 2019 66. [Shah+, 2021] Nutri-bullets Hybrid: Consensual Multi-document Summarization, NAACL’21 ◦ 著者のD論 67. [Liu+, 2022] PLOG: Table-to-Logic Pretraining for Logical Table-to-Text Generation, EMNLP’22 68. [Cheng+, 2022] HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation, ACL’22 69. [Chen+, 2021c] FinQA: A Dataset of Numerical Reasoning over Financial Data, EMNLP’21 70. [Zhu+, 2021] TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance, ACL’21 136
  108. References: 71. [Chen+, 2020d] HybridQA: A Dataset of Multi-Hop Question

    Answering over Tabular and Textual Data, EMNLP’20 72. [Yu+, 2018] Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task, EMNLP’18 73. [Zhong+, 2017] Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning, ICLR’18 74. [Weber+, 2016] Insights from Machine-Learned Diet Success Prediction. In Proceedings of Pacific Symposium on Biocomputing (PSB), 2016 75. [Harris+, 2022] Towards Neural Numeric-To-Text Generation From Temporal Personal Health Data, arXiv’22 76. [Parvez+, 2018] Building Language Models for Text with Named Entities, ACL’18 77. [Majumder+, 2019] Generating Personalized Recipes from Historical User Preferences, Majumder, EMNLP’19 78. [Perez-Beltrachini+, 2018] Bootstrapping Generators from Noisy Data, NAACL’18 137
  109. References: 79. [Kim+, 2021] "How Robust r u?": Evaluating Task-Oriented

    Dialogue Systems on Spoken Conversations, ASRU’21 80. [Mille+, 2020] The Third Multilingual Surface Realisation Shared Task (SR’20): Overview and Evaluation Results, COLING’20 81. [Lee+, 2020] The CACAPO Dataset: A Multilingual, Multi-Domain Dataset for Neural Pipeline and End-to-End Data-to-Text Generation, INLG’20 82. [Dahl+, 94] EXPANDING THE SCOPE OF THE ATIS TASK: THE ATIS-3 CORPUS, HLT’94 83. [Barzilay+, 2005] Collective Content Selection for Concept-To-Text Generation, EMNLP-HLT’05 138
  110. References: 84. [Robin, 1994] Revision-Based Generation of Natural Language Summaries

    Providing Historical Background: Corpus-Based Analysis, Design, Implementation and Evaluation, Ph.D Thesis, 1994 85. [Oraby+, 2019] Curate and Generate: A Corpus and Method for Joint Control of Semantics and Style in Neural NLG, ACL’19 86. [Sripada+, 2003] Exploiting a Parallel Text-Data Corpus, Proceedings of Corpus Linguistics 2003 87. [Tang+, 2001] Using multiple clause constructors in inductive logicprogramming for semantic parsing, ECML’01 88. [Bordes+, 2015] Large-scale Simple Question Answering with Memory Networks, arXiv’15 89. [Chen+, 2020e] Logic2Text: High-Fidelity Natural Language Generation from Logical Forms, EMNLP’20 139
  111. その他References+メモ: 90. [Kale+, 2020] Template Guided Text Generation for Task-Oriented

    Dialogue, Kale+, Google, EMNLP'20 ◦ Template Guided Representation, NumericNLG論文で利用 91. [Rothe+, 2020] Leveraging Pre-trained Checkpoints for Sequence Generation Tasks, Rothe+, TACL’20 ◦ BERT-to-BERT論文, ToTToデータセット論文で利用 92. [Chen+, 2020] Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL'20 ◦ 200程度のTraining Sample数でNLGを行うFewshot NLGを提案 93. [Tanaka-Ishii+, 1998] Reactive Content Selection in the Generation of Real-time Soccer Commentary, COLING’98 ◦ Robocupデータ、あるいは別のサッカーのsimulatedデータを活用してサッカーのコメンタリーを生成してい る。Soccer Serverがinputとなっている。データセットに関する記述はない? 94. [Koto+, 2022] Can Pretrained Language Models Generate Persuasive, Faithful, and Informative Ad Text for Product Descriptions?, ECNLP’22 ◦ 商品の画像 + Attribute と 商品説明文のデータ ◦ Copyright reasonでデータは非公開 95. [Lee+, 2022] NEURAL DATA-TO-TEXT GENERATION BASED ON SMALL DATASETS: COMPARING THE ADDED VALUE OF TWO SEMI-SUPERVISED LEARNING APPROACHES ON TOP OF A LARGE LANGUAGE MODEL, arXiv’22 ◦ 少量データからD2Tする際の参考になりそう 140
  112. その他References+メモ: 96. [Gehrmann+, 2022] GEMv2: Multilingual NLG Benchmarking in a

    Single Line of Code, arXiv’22 ◦ NLGタスクを評価するためのフレームワーク ◦ 51種類の言語の40種類のデータセット(e.g. D2T, summarization, response generation) をサポート 97. [Tan+, 2022] Remodeling Numerical Representation for Text Generation on Small Corpus: A Syntactical Analysis, ACAI’19 ◦ Stock markt priceと対応するnewsのペアを1000程度収集したようだがデータ非公開っぽい 98. [Agarwal+, 2020] Building Hierarchically Disentangled Language Models for Text Generation with Named Entities, COLING’20 ◦ レシピ生成タスクのためのデータセットを作成しているが、公開されていなさそう? 141
  113. Survey論文 References: 99. [Sharma+, 2022] Innovations in Neural Data-to-text Generation,

    arXiv’22 100. [Gatt+, 2018] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, JAIR’18 101. [HanQi+, 2020] Recent advances of neural text generation: Core tasks, datasets,models and challenges, Science China Technological Sciences, 2020 102. [Puduppully, 2021] Data-to-text generation with neural planning, Puduppuly氏のD論 142
  114. Useful Link • Data sets for NLG • paperswithcode •

    IndicNLG Suite • Task Oriented Dialogue Systemについて 143