Data-to-Text Datasetまとめ ― Summary of Data-to-Text Datasets ―

Data2Textデータセットまとめ Akihiko WATANABE 1

はじめに • 本資料は2022年12月時点でData2TextのデータセットについてSurveyした際の自分用のメモとなります。 ◦ 2023年以後のものは含まれておりませんのでご注意ください。 • 以下のX-to-Textのデータセットをリストアップしています。 ◦ MR-to-Text,
Table-to-Text, Graph-to-Text, Chart-to-Text, AMR-to-Text • MR-to-Text, Table-to-Textについてはリスト中に数行でのサマリ、また、データセットの概要をそれぞれpp.25–129にまとめています。 ◦ Graph-to-Text, Chart-to-Text, AMR-to-Textについてはサマリ、概要をまとめられていません。 • 資料のスクショは基本的に元論文or関連Webサイトのスクショとなります。 • 調査結果については、漏れがあったり、誤りが含まれている可能性があります。ご了承ください。 • データセットの公開リンクが見つかったものに関しては、[dataset]がデータセットへのリンクとなっています。 • データセットが提案された元論文については[author+, 20xx]がリンクとなっています。Referencesにも論文のリストが列挙されていますのでご参照ください。 2

目次: クリックすると該当セクションへ飛びます • MR-to-Text ◦ MR-to-Textデータセットサマリー ◦ MR-to-Textデータセット概要 • Table-to-Text
◦ Table-to-Textデータセットサマリー ◦ Table-to-Textデータセット概要 • Graph-to-Text • Chart-to-Text • AMR-to-Text • References 3

MR-to-Text • Mearning Representation (MR) から短文（多くの場合は数文）を作成するタスク ◦ 本資料ではinfoboxもMRとして扱う •
対話データの場合はMRはDialogue Actとして表現される 4 [Puduppully+, 2021]

5 データセット名データサイズ ATIS 5.5k sents RoboCup 1.9k sents WeatherGov
22.1k mult-sents BAGEL 404 mult-sents SF Restaurant & Hotel 10.2k mult-sents RNNLG 30.2k mult-sents E2E 50k mult-sents WikiData 500k sents WikiBio 730k ﬁrst paragraph DocWikiBio 210k Wikipedia Person and Animal 428,748 person + 12,236 animal infobox - description pairs Sentence Planning Corpus for NLG 205k MR - utterance pairs Wikipedia company 51k PersonageNLG 90k mult-sents MultiWoz 11.5k turns Czech Restaurant 5k mult-sents YelpNLG 300k mult-sents ViGGO 6900 MR - utterance pairs MR-to-Text データのデータサイズデータセット名データサイズ FewshotWoz train: 50 mult-sents test: 47~1379 mult-sents SGD 330k turns CACAPO 21k sents Humans, Books & Songs 730k + 23.6k + 40k ﬁrst paragraph WITA 55,400 MR - sentence pairs DSTC10 2292 turns

Dataset for MR-to-Text（1/5） • ATIS [Zettlemoyer+, 2007] ◦ air travel
domainのデータセット ◦ シナリオを達成するためのユーザの発話と、発話に対するlambda-calculus expressionが付与 ◦ 使用例 [Konstas+, 2012] • RoboCup [Chen+, 2008] ◦ サッカーゲームのシミュレーションに対して、MRと人手で作成した1 sentenceのコメンタリが付与 • WeatherGov [Liang+, 2009] ◦ あるcityのMR（e.g. 時間ごとの気温, 降水確率, 風速）と天気予報テキストのペアデータ ◦ しかし、天気予報は人間のアノテータが作成したのではなく、template systemによって生成されたものを、場合によっては人間がpost-editすることで作成されていたことが指摘されている [Reiter, 2017] • BAGEL [Mairesse+, 2010] ◦ Cambridgeのレストランに関するMR（i.e. Dialogue Act）とsingle sentenceのreference textのペアデータ • SF Restaurant & Hotel [Wen+, 2015] ◦ San Franciscoのレストランとホテルに関するMR（i.e Dialogue Act）とsingle sentenceの reference textのペアデータ ◦ BAGELよりもDialogue Act Typeが6種類多く、事例数も多い 6

Dataset for MR-to-Text（2/5） • RNNLG [Wen+, 2016] [dataset] ◦ SF
Restaurant & Hotelを拡張し、TV, Laptopの購入に関するドメインを追加 ◦ TV, Laptopドメインでは Dialogue Actに対して対応する複数のsentenceのペアデータが存在 • WikiBio [Labret+, 2016] [dataset] ◦ biographyに関するWikipedia記事のinfoboxとfirst paragraphの728,321ペア ◦ 著者らはこのデータをfirst sentenceの生成タスクに利用した • E2E [Novikova+, 2017] [dataset] ◦ RestaurantドメインMR to referenceのペアデータを提供 ◦ 最大で5~6文のreference ◦ 従来の10倍の規模で多様なvocabulary、より複雑な構造(e.g. 接続詞, 動名詞, 代名詞等)、多様な談話構造を持つ • Restaurant Ratings [Nayak+, 2017] ◦ 非公開? • WikiData [Chisholm+, 2017] [dataset] ◦ Wikipedia, WikidataのPersonカテゴリから slot-valueとfirst sentence (biography)を取得しデータ作成 ◦ 500k MR-single sentence pairs • DocWikiBio [Perez-Beltrachini+, 2018] [dataset] ◦ WikiBioデータを豊富なproperty（i.e Spouseといったtableの項目）と複数文を持つテキストにフィルタリングしたデータセット ◦ 41k examples • The Wikipedia company corpus [Qader+, 2018] [dataset] ◦ Wikipediaの企業ページからinfobox, abstract, body textのtupleを収集したデータセット ◦ サンプル数は51k 7

Dataset for MR-to-Text（3/5） • PersonageNLG: Style in NLG [Oraby+, 2018]
[dataset] ◦ Restaurantドメイン ◦ E2EのMRから、Big-Five personalityごとのスタイルに応じたutteranceをPERSONAGEと呼ばれるシステムを用いて生成し、コーパス作成 ◦ MR, personality label, utteranceの3つ組のデータを提供 • MultiWoz [Budzianowski, 2018] [dataset] ◦ 従来のコーパスと比べより多くのドメインで、大規模なtask-orientedなDialogueコーパス ◦ human-humanの対話に対してDialogue Actをアノテーションをした ◦ 類似コーパスとしてDSTC2, SFX, WOZ2.0, FRAMES, KVRET, M2Mといったデータがある模様 • Wikipedia Person and Animal Dataset [Wang+, 2018] [dataset] ◦ WikipediaとWikidataから、428,748のpersonと、12,236のanimalのinfoboxと対応するdescriptionを収集したデータ • Sentence Planning Corpus for NLG [Reed+, 2018] [dataset] ◦ 205k MR - utterance pairs ◦ aggregation operators (e.g. Distributive; 複数のContent Itemを一つにまとめ冗長性を排除)と content item間のDiscourse Relation (e.g. contrast)が付与されたデータを含む • Czech Restaurant [Dusek+, 2019] [dataset] ◦ SF Restaurantをチェコ語に翻訳したデータセット • YelpNLG [Oraby+, 2019] [dataset] ◦ Yelp challenge datasetのreviewデータを利用し、300kのMR-Sentenceペアを提供 ◦ MRはdependency parsingの情報から自動生成 ◦ 文のsentimentやstyle（entityの言及の順番, pronounが使われているか等）の情報も付与されている 8

Dataset for MR-to-Text（4/5） • ViGGO [Juraska+, 2019] [dataset] ◦ Video
game domain ◦ 6900 MR - utterance pairs ◦ MRは9つの異なるDialogue Actsを持つ • FewshotWoz [Peng+, 2020] [dataset] ◦ RNNLG, MultiWozからデータをサンプリングし、限られたラベル付データしか得られない設定でのデータセットを作成 ◦ delexicalizedされたDialogue Actのtrain/testのoverlapが非常に小さいのが特徴 • SGD [Rastogi+, 2020] [dataset] ◦ 多くのドメインをカバーし、ドメインごとに複数のAPIを提供する最初のデータセット ◦ APIインタフェースの追加や、APIの追加に対するモデルのロバスト性を測るために、テストデータには訓練データにはない多くの新しいサービスを含む ◦ 単一のモデルで様々なAPIに対応するために、マスタースキーマアプローチを採用せず、スキーマガイドアプローチを採用した • CACAPO [Lee+, 2020] [dataset] ◦ Attribute-Valueペアと対応するニューステキストのデータセット ◦ テキストを文に分割し、2名の専門家が各文にMR（i.e. Attribute-Value）を人手で付与 ◦ domain: sports, weather, stock, incidents ◦ language: English, Dutch • Humans, Books & Songs [Chen+, 2020c] [dataset] ◦ WikiBioに加えてWikipediaからBooksドメインから23,651 instances, Songsドメインから39,450 instance を収集 9

Dataset for MR-to-Text（5/5） • WITA [Fu+, 2020] [dataset] ◦ MRと対応するテキストが部分的にしか対応していないデータセット
▪ 自動生成可能なため多様なドメインで生成可能 ▪ MRとテキストが完全一致していないデータでテキストを生成するpartially aligned data to text generationを提案 ◦ 55,400 MR - sentence pairs • DSTC10 [Kim+, 2021] [dataset] ◦ speech-based（従来はwritten-based）でtask-orientedなdialogue corpus ◦ 人間同士のSanFranciscoのtouristic informationに関する対話を記録 10

Table-to-Text • Tableの情報からTableに関するdescriptionを作成するタスク ◦ 1文〜文書レベルまでさまざまな長さでデータセットが存在 11

12 データセット名データサイズ SUMTIME 1045 mult-sents (3~4文程度) NFL 468 docs
WikiTableQuestio ns 20k QA SBNation 10.9k RotoWire 4.9k WikiSQL 80k WIKITABLETEXT 13k Chess Game Commentary 298k mult-sents Spider 10k GermanRotoWire 423 MLB 26.3k RotoWire-Modiﬁe d 3748 データセット名データサイズ RotoWire-FG 7.5k SportSett::Bask etball 6150 TabFact 1.7k table 120k sentence LogicNLG 7.3k table 37k sentence ToTTo 136k sentence 83k tables HybridQA 70k QA pairs WikiTableT 1.5M table-section pairs NumericNLG 1.3k table - paragraph pairs SciGen 1.3k table - mult paragraph 50k 自動抽出ペア Table-to-Text データのデータサイズデータセット名データサイズ BioLeaﬂets 1,336 examles TatQA 2757 context - 16652 questions pair FinQA 8,281 QA pairs HiTab 3597 Hierarchical Tables 10672 QA 10672 single sentences CONGLOG Table-to-text data: 5,554 tables, 10.7k sentences Table-to-logical form (pretrain) data: 4,554 tables, 803k logical form GeoTSQA 556 scenario (1.58 tables per scenario) - 1,012 question pairs

Table-to-Text Generation (1/8) • UPI Newswire [Robin, 1994] ◦ NBAゲームのサマリーとbox-scoreデータのコーパス？公開されてなさそう
• SUMTIME [Reiter+, 2005] [dataset] ◦ 時系列データに対するテキスト生成のためのデータセット ◦ 専門家が記述した天気予報テキストと数値データ（e.g. 風速, 気温）の1045ペア ◦ 一般的な天気の見通しについて記述, wind, weather等の項目別の1文程度の予報が存在 ◦ 「地名」等のEntity情報がGivenでない • NFL [Barzilay+, 2005] ◦ データ元（ただし、論文中のような試合全体のSummaryは現時点では見当たらない） ▪ 論文中の例の当時リンク ◦ 2003/2004シーズンのNFLのサマリーとstatisticsのペアデータ ▪ 468試合の texts, 平均サマリー長は46.8 sentencesと長文 ◦ Play-by-Play SummaryによってExplicitにEntity間の関係に関する記述が与えられる • WikiTableQuestions [Pasupat+, 2015] [dataset] ◦ Tableとquestion-answerペアのデータセット ◦ 2108 tableに対して、22,033のquestion-answerペア ▪ 様々なドメインでmulti-stepなreasoningやoperation, 比較, 集約, 数値計算等が必要な複雑な質問で構成 ▪ tableのスキーマや質問内容もデータごとに異なり、テストデータに含まれるデータは訓練データと異なる点がチャレンジング 13

Table-to-Text Generation (2/8) • SBNation [Wiseman+, 2017] [dataset] ◦ box-
and line scoreと人手で書かれたNBAゲームサマリーのペアデータ ◦ 10,903個のサマリーで構成されている ◦ 非常にnoisyなデータでbox- and line scoreに存在しない情報について多くの文書で記述 • Rotowire [Wiseman+, 2017] [dataset] ◦ box- and line scoreと人手で書かれたNBAゲームサマリーのペアデータ ◦ 4.9kのペアデータで構成 • WikiSQL [Zhong+, 2017] [dataset] ◦ Wikipediaから抽出した24241個のtableと、80654個のhand-annnotatedな自然言語で記述されたQuestionとSQL Query ◦ Semantic Parser界隈と関係あり ▪ Geoquery, Freebase917, Overnightといった自然言語queryとLogical Formのペアデータも存在 • WIKITABLETEXT [Bao+, 2018] [dataset] ◦ tableのrowとそれを説明するsentenceのペアデータ13,318ペア ◦ table-to-textにおいて初めてのopen-domain dataset（と著者は主張） 14

Table-to-Text Generation (3/8) • Chess Commentary Dataset [Jhamtani+, 2018] [dataset]
◦ チェスフォーラムから収集したGame Stateとmove-by-move commentary ◦ 298kのGame StateとCommentaryのペアが存在 • Spider [Yu+, 2018] [dataset] ◦ text-to-SQLのデータセット ◦ 10,181 question, 138のドメインの複数テーブルを保持するDBに対する5,693の複雑なクエリ • GermanRotowire [Hayashi+, 2019] ◦ Rotowireデータセットのドイツ語への翻訳版, サンプル数は423 ◦ RotoWireのsubsetをprofessionalな翻訳家の手で翻訳 • MLB [Puduppully+, 2019] [dataset] ◦ MLBの試合のStatsとSummaryに関するデータセット ▪ play-by-play tableが存在するのが特徴 ◦ RotoWireと比較して5倍のデータ量, Summaryが50%長い, play-by-play tableを含む ◦ Summaryに時系列に記録されたゲームの重要なイベントの詳細を含む • Rotowire-Modiﬁed [Iso+, 2019] [dataset] ◦ RotoWireデータで同一ゲームのSummaryがtrainingとval, あるいはtestに含まれる問題を解消 ◦ 3748 instance 15

Table-to-Text Generation (4/8) • Rotowire-FG [Wang, 2019] [dataset] ◦ RotoWireデータにおいて、boxscore
tableにグラウンディングできないSummary Contentを除外して綺麗にしたもの ◦ 7.5k instance • SportSett:Basketball [Thomson+, 2020] [dataset] ◦ RotoWireデータを改善しPostgreSQLでデータをqueryしたりﬁlteringできるようにしたデータセット ▪ 従来のデータセットと異なり、データセットを様々なdimensionで切り出せる ▪ SummaryそのものはRotoWireデータと同様 ◦ RotoWireベースのデータと比較して ▪ train/val/testの分割のcontaminationの解決 ▪ Playやlocationに関する情報の追加等が実施 • TabFact [Chen+, 2020a] [dataset] ◦ Structuredなformatをevidenceとする初めてのFactCheckデータセット ◦ 従来データよりも、記述されているテキストからの推論やcommon sense, 表に対するwhereによる条件付けと演算といった2つの難しさが存在する ◦ 1.7k tableに対して120k sentence • LogicNLG [Chen+, 2020b] [dataset] ◦ Surface Levelでデータを言い直すような生成ではなく、logical inferenceが必要なテキストを生成するためのデータセット ◦ 37k sentences - 7.3k tables 16

Table-to-Text Generation (5/8) • ToTTo [Parikh+, 2020] [dataset] ◦ highlightされたテーブルのcellとそれらについて述べたsentenceのデータセット
▪ Controlled text generationタスクを提案 ◦ 全てのsentenceのFactがテーブルによってsupportされている ◦ 136k sentence - 83k tables • HybridQA [Chen+, 2020d] [dataset] ◦ tabular / textual dataの両方に基づいて回答する必要があるQAデータセット ◦ heterogeneousなデータがAnswerに必要な初めてのデータ ◦ QAに関するその他のデータセットについても言及 ◦ 70k examples • Logic2Text [Chen+, 2020e] [dataset] ◦ Table + Logical Formと対応するsentenceのペアデータ ◦ 5.6k open-domain tables, 10.8k の人手でアノテーションされた (logical form, description) pairs ◦ Logicの種類: count, superlative, comparative, aggregation, majority, unique, original • WikiTableT [Chen+, 2021a] [dataset] ◦ large-scaleで様々なドメイン/ソースに基づくmulti-sentenceのtable-to-textデータセット ◦ 1.5M examples 17

Table-to-Text Generation (6/8) • NumericNLG [Lya+, 2021] [dataset] ◦ numerical
reasoningのための論文中の表（数値のみ）と対応するparagraphのデータセット ◦ 1.3k table - paragraph pairs ◦ 手法ではinferred factは事前に計算されTable情報としてExplicitに付与している • SciGen [Moosavi+, 2021] [dataset] ◦ numerical reasoningのための論文中の表と対応するmulti-paragraphのデータセット ◦ 1.3k table - paragraph pairs, 50k automatically extracted table - paragraph pairs • BioLeaﬂets [Yermakov+, 2021] [dataset] ◦ Biomedicalドメインの最初のデータセット ◦ BiomedicalドメインのEntityのsetと対応する説明テキストのペアデータ ◦ 1,336 example • TatQA [Zhu+, 2021] [dataset] ◦ numerical reasoningが必要なQAデータセット ◦ 2757 context - 16652 questions pair 18

Table-to-Text Generation (7/8) • NBAZHN [Chen+, 2021b] ◦ 非公開, NBAの試合結果の中国語サイト上でのコメンタリ（Netease
Sports） • FinQA [Chen+, 2021c] [dataset] ◦ multi-stepのnumerical reasoningが必要なComplexなQAデータセット ◦ 8,281QA pairs • GeoTSQA [Li+, 2021] [dataset] ◦ Tablar Scenario Question Answeringの最初のデータセット ◦ Table + Scenario textが与えられたときにQAタスクを行う ◦ 556 scenario (1.58 tables per scenario) - 1,012 question pairs • HiTab [Cheng+, 2022] [dataset] ◦ Hierarchical Tableに対する初めてのQAとNLG（sentence）データセット ◦ 3597 Hierarchical Tables - 10672 QA - 10672 single sentences tuples ◦ 28ドメインを含み、テキスト中のEntity, Quantity + Operationがアノテーション 19

Table-to-Text Generation (8/8) • CONTLOG [Liu+, 2022] [dataset] ◦ Logic2Textに含まれるLogical
Formと対応するセルをhighlightすることで、Control Signalを追加したデータセット ◦ CONTLOGを利用することでControlled logical natural language generationタスクが実現可 ▪ CONTLOG論文では、まずtable-to-logic formモデルを事前学習し、その後 table-to-textタスクでﬁnetuningすることを提案しているため、pretraining用のtable-to-logical formデータも存在 ◦ データ量 ▪ Table-to-text data: 5,554 tables, 8,566 train/1,095 val/1,092 test ▪ Table-to-logical form (pretrain) data: 4,5554 tables, 800k train/1,500 val/1,500 test 20

Graph-to-Text Generation • KBGen [Banik+, 2013] • WebQuestions [Berant+, 2013]
[dataset] • 30MQA [Serban+, 2016] [dataset] • WebNLG [Gardent+, 2017] [dataset] • PathQuestion [Zhou+, 2018] [dataset] • AGENDA [Koncel-Kedziorski, 2019] [dataset] • GenWiki [Jin+, 2020] [dataset] • ENT-DESC [Cheng+, 2020] [dataset] • WikiGraphs [Wang+, 2021a] [dataset] • KELM [Agarwal+, 2021] [dataset] • Wikipedia Pre-train Pairs Dataset [Wang+, 2021b] [dataset] • DART [Nan+, 2021] [dataset] • その他 21

Chart-to-Text Generation • Chart2Text [Obeid+, 2020] [dataset] • Chart-to-Text [Kantharaj+,
2022] [dataset] 22

AMR-to-Text Generation • Bio AMR Corpus • AMR 2.0 •
AMR 3.0 ◦ 使用例 [Ribeiro+, 2021] • New3 • The Little Prince Corpus ◦ 使用例 [Lam+, 2021] 23

その他データセット • Recipes • Geoquery [Tang+, 2001] [dataset] • SimpleQuestion
[Bordes+, 2015] [dataset] • Methodius Corpus [Isard, 2016] [dataset] • MyFitnessPal [Weber+, 2016] [dataset] ◦ 使用例 [Harris+, 2022] • Now You’re Cooking [Parvez+, 2018] [dataset] • Ice Hockey News Dataset [Kanerva+, 2019] [dataset] • Food.com Recipes and Interactions [Majumder+, 2019] [dataset] • PubMed Term, Abstract, Conclusion, Title Dataset [Wang+, 2019] [dataset] • CommonGEN [Lin+, 2020] [dataset] • Surface Realisation ST 2020 [Mille+, 2020] [dataset] • Weathernews [Murakami+, 2021] [dataset] • RacingGame Commentary Dataset [Ishigaki+, 2021] [dataset] • Nutribullets [Shah+, 2021] [dataset] 24

MR-to-Text データセット概要 25

ATIS [Zettlemoyer+, 2007] • 架空のオンラインフライト予約システムを操作するユーザの発話 ◦ 左図のようなシナリオに対して、ユーザがフライト予約システムに対して目的を達成するために発話 ▪ 5426
scenario, シナリオに対して1 sentenceが対応（ave. 11.2 words, vocab 927, 19種類のレコードタイプのうち平均2.65レコードが1 sentenceで言及 [Konstas+, 2012] ◦ これらの発話に対して、lambda-calculus expressionが付与されているコーパス 26 元コーパス [Dahl+, 1994] lambda-calculus expression付与？ [Zattlemoyer+, 2007] D2T query-generationで利用 [Konstas+, 2012]

RoboCup [Chen+, 2008] • サッカーゲームのシミュレーションに対して、MR（e.g. pass, kick, turnover）と人間が作成したコメンタリー（1 sentence）が付与されている
◦ [Sharma+, 2022] では 1539 pair ◦ [Puduppully, 2021] では1.9Kのデータ量と記述されている ◦ 1 sentenceあたり平均5.7 words, 平均レコードタイプは9種類, 平均レコード数は平均2.4 [Liang+, 2009] 27 [Liang+, 2009]

WeatherGOV [Liang+, 2009] • WeatherGovから収集した特定のcityの天気予報テキストと対応するMRのペアデータ ◦ MRは1時間ごとに測定された降水確率, 気温,
風速等 ◦ 22.1K examples • 現在はデータがDLできなくなっている？ 28

BAGEL [Mairesse+, 2010] • Cambridgeのレストランに関するMR（i.e. Dialogue Act）とそれに対応する1 sentenceの発話のコーパス ◦
informとrejectのdialogue act typeが活用されている ◦ 202事例 [Puduppully+, 2021] 29 [Sharma+, 2022]

SF Restaurant & Hotel [Wen+, 2015] • San Franciscoのレストランとホテルに関するMR（i.e. Dialogue
Act）と対応する1 sentenceの発話のコーパス ◦ BAGELと比較し、8種類のDialogue Act Typeが活用されている ◦ 12種類のAttribute (Slots) がある ◦ 事例数10.2K [Puduppully+, 2021] （1ドメイン約5k） • Amazon Mechanical Turk (AMT)で作成 ◦ 1つのDialogue Actに対して複数のreferenceが存在 30 [Sharma+, 2022]

RNNLG [Wen+, 2016] • 4種類のドメインに対するMR（i.e. Dialogue Act）と発話のペアデータ ◦ domain: ﬁnding
a restaurant, ﬁnding a hotel, buying a laptop, buying a television ◦ restaurant, hotelに関してはSF Hotel & Restaurantと同一 • laptop, tvドメインでより多様なデータセットを作成するために、全ての Dialogue Act Typesとslotsの組み合わせを列挙した ◦ 合計でlaptopでは13KのDialogue Act、TVでは7KのDialogue Actとなった ◦ Amazon Mechanical Turk (AMT) でそれぞれのDAに対して、1つのrealization （sentence）を収集 • restaurant, hotelでは1 sentenceだったが、laptop, TVでは複数文も許容されている 31

E2E [Novikova+, 2017] • Restaurantドメインの MR (i.e Dialogue-Act) とreferenceのペアデータ ◦
referenceは一つのMRに対して最大で5つ存在 ◦ データ量は50k、画像を利用することでよりinformativeで自然なreferenceを収集 • BAGEL, SF Restaurant/Hotes, RoboCup等と比較して以下がchallenging ◦ 多様なvocabulary, より複雑な構造(e.g. 接続詞, 動名詞, 代名詞等), 多様な談話構造 32

WikiBio [Labret+, 2016] (1/3) • Wikipediaからbiographyに関する728,321記事を収集 ◦ 記事中のinfoboxとﬁrst paragraphによってペアデータ作成 33
Frederick Parker-Rhodes (21 March 1914 – 21 November 1987) was an English linguist, plant pathologist, computer scientist, mathematician, mystic, and mycologist.

WikiBio [Labret+, 2016]: データ例 (2/3) 34 aaron hohlbein -lrb- born
august 16 , 1985 in middleton , wisconsin -rrb- is an american soccer player who is currently without a club .

WikiBio [Labret+, 2016]: データ例 (3/3) 35 walter extra is a
german award-winning aerobatic pilot , chief aircraft designer and founder of extra flugzeugbau -lrb- extra aircraft construction -rrb- , a manufacturer of aerobatic aircraft . extra was trained as a mechanical engineer . he began his flight training in gliders , transitioning to powered aircraft to perform aerobatics . he built and flew a pitts special aircraft and later built his own extra ea-230 . extra began designing aircraft after competing in the 1982 world aerobatic championships . his aircraft constructions revolutionized the aerobatics flying scene and still dominate world competitions . the german pilot klaus schrodt won his world championship title flying an aircraft made by the extra firm . walter extra has designed a series of performance aircraft which include unlimited aerobatic aircraft and turboprop transports .

DocWikiBio [Perez-Beltrachini+, 2018] • WikiBioデータを豊富なproperty（i.e Spouseといったtableの項目）と複数文を持つテキストにフィルタリングしたデータセット ◦ 6 property-value
pair 以下の事例を除外 ◦ 1文のみで構成されるparagraphを含む事例を除外 ◦ 23単語未満のparagraphを含む事例を除外 ◦ 最大文数は12文, 最大property-value pair数は50 • paragraphのmain entityをDBPediaのproperty-value pairと紐づけ、クラスの情報も付与した ◦ e.g. p=Spouse(s), v=Robert Joseph Flaherty, c=Person 36

The Wikipedia company corpus [Qader+, 2018] • Wikipediaの企業ページからinfobox, abstract, bodyを収集したデータセッ
ト • 51k企業に対するinfobox, abstract, body tupleを収集 ◦ attribute数は合計で41種類で、1企業あたり平均4.5 attributeによって構成 ◦ vocabulary sizeは160k words • Concept-to-Text, Text-to-Text の両方のタスクで利用可能 ◦ i.e. abstract generation, body text summarization 37

Sentence Planning Corpus for NLG [Reed+, 2018] • End-to-Endなシステムではcontent planningとsurface
realizationを中間表現無しで実現できる ◦ => しかし、適切にcontent planning, aggregation operation, discourse relationを生成できることを示した研究はない（と著者らは主張）ので学習できているか検証 • Sentence Planning Corpusの構築 ◦ Sentence scoping: PERSONAGEで生成 ▪ 64,442 output/MR pairs + 398 output/MR pairsを1~7文で生成 ◦ Distributive Aggregation: PERSONAGEで生成 ▪ 属性はPRICE, RATING のみに限定し、値をLOW, AVERAGE, HIGHのみに限定 ▪ テストデータは <HIGH, HIGH>の組み合わせのみに限定し必ずDistributiveが生じるように生成し訓練データではは2つの値が異なるもの（e.g. <LOW, HIGH>）を利用 ◦ Disrourse Contrast: E2Eデータセットから手掛かり句を用いてcontrastが含まれるインスタンスを見つけ、データセット構成 38

PersonageNLG: Style in NLG [Oraby+, 2018] • E2EのMRからPERSONAGEと呼ばれるstatistical language generatorを
用いて、5種類のスタイルに応じたテキストを生成しコーパス作成 ◦ スタイルはBIG-FIVE ◦ train: 3784 MRに対して、スタイルごとに17771の発話を作成。合計で88855発話。 ◦ test: 278 MRに対して、スタイルごとに1referenceを生成。合計1390発話。 • MR, personality (stylistic) label, utteranceの3つ組データを提供 39 5種類のスタイル BIG-Five スタイル情報ない場合

Multiwoz [Budzianowski, 2018] • 従来のtask-orientedなDialogueコーパスと比べて、より多くのドメインで、大規模なDialogueコーパスを構築した ◦ restaurant, attraction, hotel,
taxi, train, bus, hospital, police • human-humanのtask-orientedな対話に対して、人手でDialogue Actを annotationした 40

Czech Restaurant [Dusek+, 2019] • SF Restaurant をチェコ語に翻訳することでデータセット作成 • slot
valueはSFのセッティングになっているため、それをチェコ版に localizeしている ◦ restaurant names, areas, food types, street addresses, landmarks を対象としている • また、originalのSF Restaurant はduplicate textが非常に多かったため、それらは除外し、同等の規模になるようにinstanceを増やした 41

YelpNLG [Oraby+, 2019] • Yelp challenge datasetのreviewデータを利用し、300kのMR-Sentenceペアを提供 ◦ MRは
(attribute, value, adjectives)のtupleで表現される ◦ sentiment（レビュのratingから決定）, length, pronounsなどの情報も付与されている ◦ domain: restaurant • MRはdependency parsingの情報から自動生成 ◦ 自動で生成の信頼性を向上させるために、サンプリングする文を最低1個のfood, restaurant の言及をしている文、かつ4~30 wordsの文に限定している 42

FewshotWoz [Peng+, 2020] • 既存のデータは各ドメインに対して大規模なラベルつきデータがあるが、 real worldなシナリオでnew domain適用する場合には限られたラベルつきデータしか得られない ◦
=> このためfew-shot learningの設定でデータを作成 • RNNLGとMultiWozデータセットからデータをサンプリングし作成 ◦ 1つのドメインでしか出現しないdialog actと対応する発話からサンプリング • delexicalizedしたDialogue Actのtrain/test間でのoverlapが非常に小さいのが特徴 43

SGD [Rastogi+, 2020] (1/2) 解説 • Google ActionsやAlexa Skillsなどによって、開発者は新たなサービスに対話インタフェースを導入できるようになった
• 新たなチャレンジ： ◦ 様々なドメインでサービスを提供する必要があるが既存データではドメインが限られている ◦ 既存データセットはドメインごとに単一のAPI（i.e. intentとslotのセット）しか提供していないが、実シナリオでは同じ機能でも、異なるAPIが利用されインタフェースは異なる • これらを克服するために大規模なデータセット作成 ◦ 多くのドメインをカバーし、ドメインごとに複数のAPIを提供する最初のデータセット ◦ APIインタフェースの追加や、APIの追加に対するモデルのロバスト性を測るために、テストデータには訓練データにはない多くの新しいサービスを含む ◦ 単一のモデルで様々なAPIに対応するために、マスタースキーマアプローチを採用せず、スキーマガイドアプローチを採用した 44

SGD [Rastogi+, 2020] (2/2) 解説 • スキーマに関数のリストと関数と関連づけられたslotの自然言語での説明を定義し、後者を利用することでスキーマの意味表現を学習して利用する ◦ =>
これによりドメイン、またはサービス固有のパラメータを持たない単一の統合モデルを学習可能で、異なるサービス間の類似概念を学習できる ◦ => また、スキーマの意味表現の利用により、訓練データに存在しないサービスへの対応が可能となる 45

CACAPO [Lee+, 2020] • Attribute-Valueペアと対応するニューステキストのデータセット ◦ 収集したニューステキストをsentenceに分割し、それぞれのsentenceに対してMR（i.e. Attribute-Valueペア）を2名の専門家が付与 • task-based
settingで収集されたデータではなく、’naturally occuring’で人間が書いた最初のデータセットだと主張 ◦ domain: sports, weather, stock, incidents ◦ language: English, Dutch 46

WITA [Fu+, 2020] • MRとtextが完全にalignしているペアデータを作るのは非常にコストがかかりドメインも限られてしまう問題がある ◦ => これを解決するためにpartially aligned（MRとtext）の一部しか対応していないデータ
セットを自動生成（WITA） ◦ => MRにsupportされていない情報を含まないようにテキストを生成する partially aligned data-to-text generation モデルを提案 • WITA: Wikipedia, Wikidataからデータ生成 ◦ 記事中のﬁrst sentenceを抽出し、sentence内の固有表現を抽出し直積集合<e1, e2>（固有表現の全てのペアの組み合わせ）を作成 ◦ Wikidata中の対応するtriplet <head, relation, tail>を抽出し（head, tailがそれぞれe1, e2 と近しいものを抽出）、その後質の悪いペアデータをフィルタリングしデータセット作成 47

DSTC10 [Kim+, 2021] • speech-basedでtask-orientedなdialogue corpus • 人間同士のSanFranciscoのtouristic informationに関する対話を記録 •
entityに関するknowledge snippetsはFAQリストから作成 48

Table-to-Text データセット概要 49

UPI Newswire [Robin, 1994] • UPI NewswireのNBAゲームのサマリーとbox-scoreのペアデータ？ ◦ 全部で293 text?
◦ データの公開はされてなさそう ◦ 試合結果 + half time時点での結果 + 各選手のstatsのような構成になっていそう 50

SUMTIME [Sripada+, 2003] [Reiter+, 2005] (1/4) • 時系列データに対するテキスト生成のためのデータセット ◦ SUMTIME
project • 専門家が記述した天気予報テキストと数値データ（e.g. 風速, 気温）のペア ◦ 2000/6/26 ~ 2002/5/10 までの1045ペア ◦ 天気予報テキストは1日あたりmorningとeveningの天気予報が存在 • 数値データ一覧 ◦ Marine Model: 風と波に関する予測（ある時点から3日~1週間後まで3時間間隔で予測） ▪ 風向, 風速(knot), 突風(knot; 10m地点, 50m地点), 有義波高, 波の周期, うねり, うねりの高さ, うねりの周期 ◦ MaxMin Model: 天候に関する予測（ある時点から3日~4日後まで1時間間隔で予測） ▪ 雲量（low, medium, high altitude）, 合計雲量, 気温, 降水量, 降雪確率, 気温減率 51

52 Marine Model MaxMin Model SUMTIME [Sripada+, 2003] [Reiter+, 2005]
(2/4)

SUMTIME [Sripada+, 2003] [Reiter+, 2005] (3/4) • 天気予報テキストの種類 ◦ INFERENCE:
一般的な天気の見通しについて記述 ◦ FORECASTS: 3種類の期間に対する予報 ▪ 予報する期間 • AM Forecasts: 当日の6時~24時, {翌日, 翌々日}の0時~24時 • PM Forecasts: 当日の15時~翌日06時, 翌日の6時~24時, 翌々日の0時～24時 ▪ 予報の項目 • Wind{10, 50}M: {10, 50}m地点での風に関する予報 • Waves Sig. Ht (M): 有義波高に関する予報, うねりに関する情報も利用される • Waves Max Ht (M): 最大波高に関する予報, うねりに関する情報も利用される • Wave Period: 波の周期データに関するサマリー • Weather: 主に雲量と降水量のサマリー • Vis: 見通しの良さのサマリー • Temp: 気温のレンジ • Cloud: 雲量に関するサマリー ◦ LONG RANGE OUTLOOK: 長期間の見通し（見通しの期間はその時々による） 53

SUMTIME [Sripada+, 2003] [Reiter+, 2005] (4/4) • INFERENCE • FORECASTS
54 • LONG RANGE OUTLOOK スウェーデン南部の 968MB の台風は東に移動します。ベルゲンの西の 976MBの台風は南東に移動し、夕方までに南デンマークを越えます。デンマーク海峡で低気圧が形成され、木曜日の午後までに南東に移動し、スコットランド北部に到達します。

NFL [Barzilay+, 2005]: 概要 (1/6) • 2003/2004シーズンのNFLのサマリーとstatisticsのペアデータ ◦ 468試合の texts,
平均サマリー長は46.8 sentencesと長文 • データは公開されていない？ 55 It includes a scoring summary and a play-by-play summary giving details of the most important events in the game together with temporal (i.e., time remaining) and positional (i.e., location in the field) information.

NFL [Barzilay+, 2005]: 統計量 (2/6) • Entity TypeとAttribute数しか書かれていないため、1 Game Summaryご
とにどの程度のinput量が存在するかは不明 56

NFL [Barzilay+, 2005]：Game Summaryと Play-by-Play Summary (3/6) • Entity間の関係がある文についてはPlay-by-Play Summaryでテキストで情
報が与えられている（ことが多そう） • The Browns faked a ﬁeld goal, but holder Derrick Frost was stopped short of a ﬁrst down. ◦ Play-by-Play: 4-4-WAS28 (2:21) (Field Goal formation) D.Frost to WAS 27 for 1 yard (M.Washington). • Brunell then completed a 13-yard pass to Coles, who fumbled as he was being taken down and Browns safety Earl Little recovered. ◦ Play-by-Play: 2-10-WAS27 (2:08) M.Brunell pass to L.Coles to WAS 39 for 12 yards (K.Bentley). FUMBLES (K.Bentley), RECOVERED by CLV-E.Little at WAS 40. E.Little to WAS 26 for 14 yards (L.Coles). 57

NFL [Barzilay+, 2005]：Play-by-Play Summary (4/6) • Game全体のサマリーだけでなく時系列ごとの重要なイベントのサマリーが存在する ◦ quarterの残り時間,
ﬁeld中の場所等も記述 58 リンク

NFL [Barzilay+, 2005]：Scoring Summary (5/6) 59 リンク

NFL [Barzilay+, 2005]：論文中のGame Summary例の全体 (6/6) 60 CLEVELAND (Oct. 3, 2004)
-- The pain finally subsided in Lee Suggs' neck long enough to take some hurt out of Cleveland's bruised season. Suggs, who sat out Cleveland's first three games with a neck stinger, rushed for 82 yards and scored a touchdown in the fourth quarter, leading the Browns to a 17-13 win over the Washington Redskins. From his first carry of the season, a 25-yard burst in the first quarter, the speedy Suggs gave the Browns (2-2) the spark their ground game had been missing. "Man it's good to have him back," said tight end Aaron Shea, who had a 15-yard TD catch in the third quarter. The Browns, who lost starters Kellen Winslow Jr. and Courtney Brown for the year with injuries, were in danger of digging a deep early-season hole and desperate for a win. And although it certainly wasn't a thing of beauty, they got one. "We just had to have this, we needed a win," said defensive end Kenard Lang. "It's really big. Look at me, I'm smiling now. I'm just happy that we won." Jeff Garcia went 14 of 21 for 195 yards and a TD for the Browns, who didn't secure the win until Washington's Laveranues Coles fumbled with 2:08 left. The Redskins (1-3) can pin their third straight loss on going just 1 for 11 on third downs, mental mistakes and a costly fumble by Clinton Portis on the first play after halftime that allowed Cleveland to quickly tie it. "My fumble changed the momentum," Portis said. "All of a sudden, we lost control of the game." Mark Brunell couldn't get it back as Washington's offense sputtered again behind its new quarterback. Brunell finished 17 of 38 for 192 yards, but was unable to get into any rhythm because Cleveland's defense shut down Portis and the Washington coach's headsets and sideline phones were malfunctioning. "It made it tough to communicate," Brunell said. "We had to go to hand signals. But the headsets didn't cause the fumbles or the overthrown passes. We made mistakes." Clinging to their four-point lead, the Browns faked a field goal, but holder Derrick Frost was stopped short of a first down. Brunell then completed a 13-yard pass to Coles, who fumbled as he was being taken down and Browns safety Earl Little recovered. "I fumbled the game away for us," Coles said. Garcia, who played poorly in Cleveland's two previous losses, then only had to kneel down because the Redskins had used up their timeouts, which also was a problem in last week's loss to Dallas. Other than his 25-yarder the first time he touched it, Suggs wasn't very flashy -- just efficient. "He did a great job, finding creases, using his fullback and creating positive runs," Garcia said. "It's nice to finally have our backfield at full strength." With the Browns down 13-10, Suggs ripped off a 14-yard run as Cleveland drove for the go-ahead score and Garcia completed a huge third-down pass to Quincy Morgan. A few plays later, Garcia lofted a 26-yard pass to uncovered Andre' Davis to the Washington 3. Suggs then pushed in to make it 17-13, the first rushing TD by a Cleveland back this season. Suggs, who had his neck wrenched during practice last month, spent the past three Sundays watching and waiting for his chance to help. At last on the field, Suggs had to pick up a blitzing linebacker on his first play, a moment that tested his strength and convinced him he could take a hit. "It was good to get that out of the way," he said. "After that, I didn't even think about it." Trailing 10-3, the Browns were booed as they left the field for halftime. Garcia, yet to lead the club to a first-half TD, went just 4 for 8 for 64 yards -- 37 on one play -- in the first 30 minutes. But Cleveland got a break when Portis fumbled on the first play of the third quarter and Andra Davis recovered at the 31. Garcia capitalized, using three short rollout passes, the last to Shea, who ran untouched until he got to the goal line, where he plowed through a pile. "I turned, no one was on me and I saw the end zone. I was like, 'I'm getting in there,'" said Shea, scoring his first TD since 2000. "Nothing was going to stop me." リンク

WikiTableQuestions [Pasupat+, 2015] • Tableとquestion-answerペアのデータセット ◦ Wikipediaから最低8行, 5列以上を持つテーブルを抽出 ◦ Amazon
Mechanical Turkでworkerに questionとそれに対するanswerを生成してもらった ◦ 36種類のprompt（e.g. 数値計算を含む質問, ﬁrstという単語を含む質問）を用意しquestion が複雑となるように促した • 2108 tableに対して、22,033のquestion-answerペアを生成 61

SBNation [Wiseman+, 2017] • box- and line scoreと人手で書かれたNBAゲームサマリーのペアデータ ◦ 10,903個のサマリーで構成されている
• 多くのサマリーがbox- line scoreに存在しない情報に関して記述されており、非常にnoisyなデータとなっているとのこと ◦ wisemanモデルでBLEUスコア1.78しか達成できなかった 62

Rotowire [Wiseman+, 2017]：概要 • box- and line scoreと人手で書かれたNBAゲームサマリーのペアデータ ◦ 4.9kのペアデータで構成
63

WikiSQL [Zhong+, 2017] • Wikipediaから抽出した24241個のtableと、80654個のhand-annnotated な自然言語で記述されたQuestionとSQL Query ◦ 多様なtableに対するqueryが存在するため、モデルはqueryに対して汎化するだけでなく、新たなtable
schemaに対しても汎化しなければならない点がチャレンジング • Amazon Mechanical Turkでデータセット生成 ◦ 先行研究が生成したWikipediaのテーブルからsmall tableを除去 ◦ ここのテーブルに対して、ルールベースで6種類のSQLクエリを作成 ◦ テンプレートベースの手法でQuestionを作成 ◦ 作成したQuestionをworkerにparaphrasingしてもらうことでデータ作成 64

WIKITABLETEXT [Bao+, 2018] • tableのregion（この研究ではrow）を指定し、指定されたregionに関して述べるテキストを生成するタスクを提案 • データセット作成手順 ◦ Wikipediaから5,000個のregular
table（i.e. attributeやcellがマージされていないもの）を収集 ▪ 最低3行, 2列のテーブルを収集 ◦ それぞれのテーブルに対してランダムに3行を選択し、15,000行がアノテーションに利用 ◦ アノテータに行と対応するAttribute, captionを見せ、少なくとも2つのセルに関するテキストを作成するよう依頼（全てのcellをカバーする必要はなし） ▪ tableに関してwebで調べることは禁止した（external knowledgeを利用しない） ◦ 最終的に13,318 row-text pairを得た • table-to-text generationにおける初めてのopen-domain datasetと主張 65

Chess Commentary Dataset [Jhamtani+, 2018] • チェスフォーラムから収集したGame Stateとmove-by-move commentary ◦
Game Stateはlinearlizedされ64 tokenで表現される, emptyは”eps”, 他はblack_bishop等で表現 • 1kのコメントでコメントのカテゴリをアノテーションしSVMを訓練し全データに対してラベル付けして分析している 66

Spider [Yu+, 2018] • text-to-SQLのデータセット ◦ 10,181 question ◦ 138のドメインの複数テーブルを保持するDBに対する5,693の複雑なクエリ
◦ 11人のYale大学の生徒によってアノテーション 67

GermanRotowire [Hayashi+, 2019] • RotoWireのsubsetをprofessionalな翻訳家の手で翻訳 ◦ 元コーパスとsentence levelでalignmentされている 68

MLB [Puduppully+, 2019]：概要（1/4） • MLBの試合のStatsとSummaryに関するデータセット ◦ play-by-play tableが存在するのが特徴 ◦ play-by-play
table: ゲーム中の重要なeventが時系列で記録されたテーブル • Rotowireと比較して： ◦ Summaryが約50%長い ◦ input recordsがリッチで、より構造化されている ▪ line-score table ▪ box-score table ▪ play-by-play table ← new ◦ 5倍のデータ量 • Summaryに時系列に記録されたゲームの重要なイベントの詳細を含む • [Puduppully+, 2019]らの手法では、line-, box-scoreだけでなく play-by-play tableもbidirectional encoderに入力される 69

MLB [Puduppully+, 2019]：データセットの統計量 (2/4) • RotoWireの5倍のデータ量でSummaryも1.5倍のトークン数 70

MLB [Puduppully+, 2019]：line- box-score, play-by-play (3/4) 71

MLB [Puduppully+, 2019]：play-by-play table example (4/4) • 重要なEventがExplicitに与えられている 72

Rotowire-Modiﬁed [Iso+, 2019] • Rotowireデータでは、1つのGameに対して2つのSummaryが存在するケースがあり、片方がtraining、もう一方がvalidationあるいはtestデータに含まれる事例が存在するため、こういった事例を除外したデータセットを作成 ◦ 2つのSummaryは同一ではないが、類似している •
データセット作成方法： ◦ Rotowireからデータを再クローリングし、元データと同じsplitに各データを割り当て ◦ 14 instanceは元データに存在しなかったため、9, 2, 3個ずつtrain, val, testに割り当て ◦ 各Summaryのwriterの情報も追加で収集 • データセットの統計量： ◦ 3748 instance (train: 2714, val: 534, test: 500) ◦ Avg. Summary length: 384 tokens ◦ Avg. data records: 644 ◦ # of writers: 32 (607 Summaryを執筆している人もいれば、10 Summary以下のWriterもいた) ◦ Avg. # of Summary / writer: 117 73

Rotowire-FG [Wang, 2019]：概要 (1/2) • RotoWireデータのコンテンツのうち約60%しかboxscore recordに対してグラウンディングできないことを指摘 ◦ =>
このようなデータでは言語モデルがランダムなfactを生成してしまう • 以下の特徴を利用しRotoWireのfactをグランディングできるSummary contents を残した（i.e. Summaryをトリミングした） ◦ 次の話題に移る前に、単一のEntityに言及していることが多い ▪ => sentenceをunitとしてtopicのboundaryを見つけることができる ▪ => boxscoreのレコード中のfactの絞り込みや、共参照の解決等に利用 ▪ => また、あるフレーズにとって適切なtypeを特定するヒューリスティクスを導入し、Entity とboxscore tableのtype, valueを紐づけた ◦ true content planに対して、98%のPrecision, 95%のRecallを達成し、Summary中のnumerical wordsのうち74%がbosxcore tableとalignできた • その他にも、Normalizationによってnumber wordsを数値に変更したり、%の丸めの訂正、Player, Teamのlexical formの正規化等を実施 • また、2017-19のデータを新たにクローリングし、line-score tableで不足している情報（e.g. teamの合計シュート数, 3-point数, フリースロー数）をプレイヤーのstats等から求め補完 • クォーターごとのチームの合計得点や、得点の差なども新たなrecord typeとして追加 74

Rotowire-FG [Wang, 2019]：統計量 (2/2) • Rotowire-FGでは、新たにデータを追加したのでexamples数は増加 • SummaryはトリミングされるためAvg Lenは短くなっている 75

SportSett:Basketball [Thomson+, 2020]：概要 (1/3) • Rotowireデータを改善しPostgreSQLでデータをqueryしたりﬁlteringできるようにしたデータセット a. 従来のデータセットと異なり、データセットを様々なdimensionで切り出せる b.
summary自体はRotoWireデータと同様 • RotoWireデータからの改善点 a. プレイヤーが所属するチームが名前ではなく市区町村でindexingされるなどのマイナーな問題 ▪ minor changeについては多すぎるため論文中では言及されていない b. train/val/testの分割のcontamination ▪ RotoWire-Modiﬁedが解決した同様の問題 ▪ 加えてSummaryに過去のゲームのデータを集約した記述がなされている場合、それらのゲームも同じパーティションに含まれていなければならない問題がある • ⇒ 2014, 15, 16をtrain 17をval, 18をtestとすることで解決 c. 各シーズンにおける82試合のゲームのsequentialな性質も取り扱える ▪ プレシーズン/ポストシーズンもDBは扱えるようになっているがデータ自体はimportされていない d. Playに関する情報を追加（いつ、誰が、どんなプレイをしたか） e. ゲームが実施されたlocation（stadium, place）に関する情報も追加 • データのソース a. rotowire.com b. basketball-reference.com c. wikipedia.com 76

SportSett:Basketball [Thomson+, 2020]：JSONからDBへの転換 (2/3) • PostgreSQLのDB ◦ SQLによってデータをqueryしたりﬁlteringしたりできる ◦
SQLやORMを使うことでシステムに必要なフォーマットに簡単にデータをoutputできる • なぜJSONは不適切なのか？ ◦ RotoWireに含まれる文のcomplexityの例： ▪ 複数ゲームに渡るプレイヤーのaverage ▪ 複数ゲームに渡って”stayed dominant”といった主張が含まれている ◦ => 現在のRotoWireのフォーマットではこういった現象を評価するのには不適切 ◦ => 特に、JSON形式のファイルではデータのサイズと複雑さが増すにつれて、生成されたテキストを入力データと比較して確認するなどを実施する場合に扱いにくくなる 77

SportSett:Basketball [Thomson+, 2020]：生データ例 (3/3) 78 The Miami Heat ( 20
) defeated the Philadelphia 76ers ( 0 - 3 ) 114 - 96 on Saturday . Chris Bosh scored a game - high 30 points to go with eight rebounds in 33 minutes . Josh McRoberts made his Heat debut after missing the entire preseason recovering from toe surgery . McRoberts came off the bench and played 11 minutes . Shawne Williams was once again the starter at power forward in McRoberts ' stead . Williams finished with 15 points and three three - pointers in 29 minutes . Mario Chalmers scored 18 points in 25 minutes off the bench . Luc Richard Mbah a Moute replaced Chris Johnson in the starting lineup for the Sixers on Saturday . Hollis Thompson shifted down to the starting shooting guard job to make room for Mbah a Moute . Mbah a Moute finished with nine points and seven rebounds in 19 minutes . K.J . McDaniels , who suffered a minor hip flexor injury in Friday 's game , was available and played 21 minutes off the bench , finishing with eight points and three blocks . Michael Carter-Williams is expected to be out until Nov. 13 , but Tony Wroten continues to put up impressive numbers in Carter-Williams ' absence . Wroten finished with a double - double of 21 points and 10 assists in 33 minutes . The Heat will complete a back - to - back set at home Sunday against the Tornoto Raptors . The Sixers ' next game is at home Monday against the Houston Rockets .

TabFact [Chen+, 2020a]：概要 (1/2) • Structuredなformatをevidenceとする初めてのデータ ◦ 従来のFact Checkingは、unstructuredなtextによるevidence（e.g. sentence,
wikipedia passage, image）に対して行われていった • 16,753個のwikipedia tableに関する117,854件の人手でアノテーションされたsentenceのデータセット • tableとsentence間には ENTAILED と REFUTED の関係性が分類されている 79

TabFact [Chen+, 2020a]：TabFactが扱う2つの課題 (2/2) • Linguistic Reasoning: ◦ 従来のデータセットではlinguistic reasoningは言い換えが支配的だったが、TabFactではよ
り推論やcommon senseが必要となる ◦ “John J. Mcfall failed to be re-elected through being unopposed.”を正しくentailmentするためには”lost renomination …”を理解する必要がある • Symbolic Reasoning: ◦ “There are three Democrats incumbents”は where condition + count の演算が必要 ◦ QAと異なり、複合的なFACTが含まれており(Total=5, democratic count=2, republic count=3)それぞれの事実を検証する必要がある 80

LogicNLG [Chen+, 2020b]：概要 (1/5) • Surface Levelでデータを言い直すような生成ではなく、logical inference が必要なテキストを生成するためのデータセット •
TabFactの “complex channel” のデータを対象にデータセット作成 ◦ complex channnelのデータでは下記が実施されている ▪ 複数行に対するargmax, argmin, count, difference, avg, summarize等の意味処理 ▪ テーブルレコードをより意味的な理解が伴うrephrase ◦ LogicNLGの特徴： ▪ sentenceには最小限のドメイン知識を必要とする豊富なlogical inferenceが含まれる ▪ open-domainデータなので、schemaからinferenceを絞り込むことができずモデルの汎化性能が試される ▪ 大部分のsentenceは平均して11 tokenでありlogical inferenceにフォーカスできる ▪ 1 tableあたり5種類の異なるreferenceが存在 81 implicit logical inferenceが必要

LogicNLG [Chen+, 2020b]：統計量（2/5） • Open domain, implicit logical inferenceが必要、かつschemaは多様 •
サンプル数は37.0k 82

LogicNLG [Chen+, 2020b]：性能指標（3/5） • Logical inferenceのﬁdelityを測る方法を提案 ◦ 従来のWisemanらが利用するIEベースの手法は (subject, predicate,
object) のtupleを抽出するがlogical inferenceの場合は必ずしもこのようなtupleとはならないから適用できない • Parsing-based Evaluation ◦ semantic parsing [Liang+, 2009] の手法を用い、生成したテキストのlogical formを生成 ◦ logical formをtableに適用しtrueとなるか否かでlogicがknowledgeにsupportされているかを判断 • NLI-based Evaluation ◦ TabFactを用いて学習したFactCheck（Entailed / Refuted）モデルを利用 ◦ 生成されたテキストが、与えられたTableをどれだけEntailedしているかを測定 • Adversarial Evaluation ◦ Testデータのreferenceに対して、adversarialなデータを作成 ▪ “more” を ”less”に言い換える等 ◦ 評価するモデルがAdversarial sentenceよりも、Original sentenceに対して高い尤度を与えるか否かでlogical reasoningの能力を測定する 83

LogicNLG [Chen+, 2020b]：手法（4/5） • 4種類のモデルと3種類のTraining方法 ◦ Maximum log likelihood, Adversarial
regularization, Reinforcement learning 84

LogicNLG [Chen+, 2020b]：データ例（5/5） 85

ToTTo [Parikh+, 2020]: Motivation (1/7) • data2text datasetの作成には2つの困難さがある • task
design: ◦ open-endedな出力を伴うタスクでは、”what to generate”に関する明示的なsignalが不足する ◦ このため、生成テキストは主観的なコンテンツとなり評価に課題が存在する ◦ MRをverbalizeするタスクでは、モデルの推論能力をテストすることができず、多くのチャレンジがタスクから除かれてしまう • annotation design: ◦ 自然で綺麗なtargetを取得するためのアノテーションプロセスのデザインはチャレンジング ◦ 一般的な戦略 ▪ アノテータにscratchでtargetを書いてもらう ▪ 自然に生じたtable-text pairを収集する • ただし、この方法ではしばしばノイジーでsourceから再現できない情報を含む • => 評価してもノイズのせいなのか、モデリングの弱点のせいなのか切り分けができない • => ToTTOではこれらの問題に対処するためのデータセットを提案 ◦ task design: highlightされたcellに関するテキストを生成するcontrolled generation taskを定義し解決 ◦ annotation design: アノテータに既存のsentencesを自然でsource tableをsupportするように推敲してもらうことで解決 86

ToTTo [Parikh+, 2020]: ToTTo dataset例 (2/7) • データセット例とアノテーションプロセス ◦ =>
high-precision な conditional text generationのデータセットとなっている 87

ToTTo [Parikh+, 2020]: アノテーションデータ収集 (3/7) • ToTToデータセットを作成するためのアノテーションデータの収集に利用したヒューリスティクス ◦ 前提：Wikipediaから収集
• Number Matching ◦ 同一Wikipediaページ内にあるテーブルと文を探索し、日付かつ0ではない数値が最低3つ overlapしているペアを探索 ◦ => statisticsを述べているtable-sentence pairをcapture可能 • Cell matching ◦ テーブルの同一行の最低3つのcellと一致するトークンを持つ文を抽出 ◦ => 大抵のテーブルは構造化されており、あるイベントを説明する際には行が利用されるため • Hyperlinks ◦ sentenceがリンクを含んでおり、タイトルが”List”で始まる例を探索 ▪ “List”で始まるページは典型的に大きなテーブルのみを含んでいるため ◦ ページ内のテーブルがリンク元の記事へのリンクを保持していた場合アノテーションデータとした ◦ => よりdiverseなexampleが獲得できる。ただしノイズも多い 88

ToTTo [Parikh+, 2020]: アノテーションプロセス (4/7) 1. Table Readability a. テーブルがreadableか否かを判定
b. readableではない場合、以後のステップは適用しない 2. Cell Hightlighting a. アノテータにsentenceをsupportするテーブルのcellをハイライト b. 直接的にcellのコンテンツ、あるいはメタデータについて述べている場合、またそれらから論理的に推論できる場合に、あるフレーズはテーブルによってsupportされているとみなす 3. Phrase Deletion a. ハイライトされたテーブルcellによってsupportされていないフレーズを除去 4. Decontextualization a. 文脈に依存した代名詞や句を含む場合があるため、アノテータにテーブル、あるいはメタデータに存在する固有名詞に置換してもらった i. e.g. 代名詞、あいまいな表現 b. 置換することによってungrammaticalな文が生成されてしまった場合は修正してもらった 5. Secondary Annotation Task a. 文法的におかしな文をセカンドチェックし修正した b. 新たなコンテキストとして、highlightされたテーブルも定時した 89

ToTTo [Parikh+, 2020]: 統計量とagreement (5/7) • アノテーションの各ステップでdevelopment setを使いagreementと BLEU-4 •
Table Readability / Cell Highlightningは高いカッパ係数となっておりほぼ Perfect Agreementを実現可 • sentence revisionタスクではagreementが徐々に低下していった ◦ アノテータ間のアノテート後のsentenceのBLEU-4を測定 ◦ 徐々に低下していったが、original sentenceとﬁnal sentenceのBLEU-4は43.17であり、それよりは大幅に高い数値となっている 90

ToTTo [Parikh+, 2020]: トピックの分布と生成に必要な情報 (6/7) • トピックの分布 ◦ 約50%がSports, Countriesとなっている
◦ 残りの50%は様々なトピックが含まれている • 生成に必要な情報（linguistic phenomena） ◦ 100個のランダムにサンプリングした文を分析 ◦ Reasoningや比較が必要なようなchallengingな例も多く含まれている 91

ToTTo [Parikh+, 2020]: BERT-to-BERTのoutput example (7/7) 92

HybridQA [Chen+, 2020d]: 概要(1/2) • 質問に対する回答がheterogeneous dataに存在する、よりrealisticな状況を想定して生成されたQAデータセット（tabular / textual
data） ◦ AMTでwikipedia tableと、table内のEntityがwikipedia passageとlinkされたデータを提示 ◦ 両情報を利用しなければ答えられないquestionを生成してもらうことでデータセット作成 • answerにはmulti-hopなreasoningが必要かつtable, passageのどちらにも正解が含まれる可能性がある 93

HybridQA [Chen+, 2020d]: 統計量(2/2) 94

Logic2Text [Chen+, 2020e]: 概要 (1/6) • Table + Logical Formと対応するTextのペアデータ
◦ 5.6k open-domain tables ◦ 10.8k の人手でアノテーションされた (logical form, description) pairs ◦ free schemaなlogical form（グラフで表現できる） • Logicの種類 ◦ count, superlative, comparative, aggregation, majority, unique, original 95

Logic2Text [Chen+, 2020e]: モチベーション（2/6） • Surface-levelのDescriptionからLogical-level Descriptionへ • 課題1: Low
Fidelity ◦ Table Input のみではreasoningやsymbolic calculationは既存モデルでは正しくできない ▪ e.g. max, min, counting, averaging ◦ => Tableのみでは論理的に正しいテキストを生成不可 • 課題2: Uncontrollable Content Selection ◦ あるTableが与えられた時に論理的にEntailedなテキストのパターンは膨大 ▪ e.g. count, comparison, superlative ◦ => 生成プロセスでhigh levelな意味的な制約を加えることが難しいので、Table情報のみでは妥当で好ましいlogical selectionを実施できない • => Logical Formで中間表現を追加することで上記課題を解決したい ◦ logical form to text problem ◦ logical reasoningとLanguage realizationが分離され、logical formの正しさが保障されているので、realization moduleのチャレンジはsemantic understandingにシフト 96

Logic2Text [Chen+, 2020e]: データセット生成 (3/6) • WikiTablesデータを活用し、AMTでworkerにテキストをScratchで作成依頼 • アノテーションプロセス（Description
Compositin & Veriﬁcation） a. logic typeを選択し、template-likeな生成は避け興味深く自然なテキストの生成依頼 ▪ captionの情報も考慮し、代名詞の利用は避ける b. 生成されたテキストに対して下記3つの質問で品質のチェック ▪ 指定されたlogic typeがきちんと使われているか？ ▪ Factual Informationが正しいか？ ▪ 文法が正しく、流暢か？ 97

Logic2Text [Chen+, 2020e]: データセット生成 (4/6) • アノテーションプロセス（Logical Form Annotation &
Derivation） a. human workerとの対話を通じてLogical FormをAnnotation ▪ => Logic TypeごとにLogical FormごとにPrototypeを用意しそれを埋めるような質問 98

Logic2Text [Chen+, 2020e]: データセット生成 (5/6) • アノテーションプロセス（Logical Form Execution &
Veriﬁcation） a. 収集したLogical Formを実際のTableに対して実行し、正しく実行できたもののみを残す ▪ => 100%正しいLogical Formであることが保証 b. Logical Formが正しいだけでなく、Semanticな正しさも検証 ▪ Logical Formを自然言語の解釈に変換し、Workerに生成テキストと意味的に一致しているかを質問 c. エキスパートによる評価 ▪ CSの学部生を雇い、200件のサンプルのsemantic correctnessを評価 99

Logic2Text [Chen+, 2020e]: 統計量とLogicTypeの分布 (6/6) 100

WikiTableT [Chen+, 2021a]: 概要 (1/5) • 従来のData2Textデータ： ◦ multi-domainのsingle sentence
generation（e.g. WikiBio, LogicNLG） ◦ datasetサイズの小さいsingle-domainのlong-form text generation(e.g. RotoWire, MLB) ◦ => large-scaleな様々なドメイン/ソースに基づくmulti-sentence generationのデータ提案 • WikipediaのSectionと対応するtabular data + metadataペアのデータセット ◦ tabular data + metadataからwikipedia sectionを生成するタスク • Story Generationと類似しているが新たなチャレンジが必要 ◦ => coherent + input tableに対するfaithfulnessを同時に達成しなければならない 101 記事に含まれるテーブル section中のhyperlinkから自動構築

WikiTableT [Chen+, 2021a]: ユースケース (2/5) 1. WikitableTは幅広いトピックや知識に対するwritingのアシストに役立つ ◦ e.g. 学生の複数のfactual
sourceに基づくessay writingの支援に利用できる 2. small data-to-text datasetsに対するpre-trainingデータセットとして利用可 ◦ e.g. RotoWire 102

WikiTableT [Chen+, 2021a]: データセット例1 (3/5) • Coherentなストーリーをテーブルで与えられたEntityはknowledgeに基づいて柔軟にテキストを生成する必要がある 103

WikiTableT [Chen+, 2021a]: データセット例2 (4/5) • input tablesがテキスト生成に必要な情報を全て含んでいる例 ◦ =>
従来のstandardなdata2textタスクに近い ◦ => が WikiTableTではwide varietyなtopicが含まれているのでチャレンジング 104

WikiTableT [Chen+, 2021a]: 統計量とチャレンジ (5/5) • データセットの特徴： ◦ Avg. Lenはスポーツドメインデータより長くないが多様なトピックを提供
◦ 既存のWikipediaベースのデータセットはsingle sentence generationだが、WikiTableTは multiple sentence generation ◦ 他のデータセットよりもサンプル数が大きい • データセットのチャレンジ： ◦ world-knowledgeを利用してcoherentで長いテキストを生成するためのtestbed ▪ 日常のシーンにおけるcommonsense knowledgeに基づいてsentenceを生成するのとは対照的（e.g. CommonGen） ◦ 他のlong-formのデータセットと比較して、input tableが多様 105

NumericNLG [Lya+, 2021]: 概要 (1/3) • 論文中の表（数値のみ）と対応するparagraphのデータセット ◦ 1.3k table
- paragraph pairs • Motivation: ◦ 従来研究ではコピーメカニズムが利用されfactに言及する際の有効性が示されてきた ◦ しかしLogicNLGで提案されたように、人間はnumerical reasoningを含むより多様な inferenceを用いてテキストを生成する ◦ 言語モデルがnumeric operationをhandleすることにlimitationがありopen questionである ◦ => numeric reasoningに特化したdatasetを作成 106

NumericNLG [Lya+, 2021]: LogicNLGとの差別化 (2/3) 1. LogicNLGの大半はnumerical reasoningだが、table contentsの全てが数値ではない
2. LogicNLGはsentenceの生成だが、NumericNLGはparagraphの生成 3. LogicNLGよりもNumericNLGはscieitnﬁc domainのnumerical reasoning textにフォーカス 107

NumericNLG [Lya+, 2021]: アノテーションと統計量 (3/3) • ACL Anthologyから自動抽出した1.3kのtable-paragraph pairをexpertがアノテーションすることでデータセット作成
◦ tableのnumerical factを最低でも1文含んでいるパラグラフのみ利用 ◦ sentenceごとに、data description, supporting description, not-related-to-table descriptionのクラスを付与 ▪ 最終的に data descriptionクラスのみを利用 ◦ パラグラフのcontent planを直接的, あるいは論理的に推論できるテーブルヘッダーを選択することで同定 • 1.3K, unlimited schema 108

SciGen [Moosavi+, 2021]: 概要 (1/4) • Scientiﬁcドメインでのnumerical reasoningにフォーカスしたデータセット ◦
初めてのデータセットと主張しているが、NumericNLGどどっちが早いのか。同時期かな? ◦ => モチベーションはNumericNLGと全く同じ, LogicNLGとの差別化も同じ • Table + Caption と対応するテキスト（複数paragraph） ◦ TableとCaptionから生成できるテキストのspanを人手でアノテーション ◦ 下記例の “The reason is …”はtableとcaptionから生成できないので除外 109

SciGen [Moosavi+, 2021]: アノテーションプロセス (2/4) • 人手でのアノテーションプロセス（1.3k examples） ◦ 0.
AxCellというツールを使い、arXiv上の論文（CL, ML, CSドメイン）のlatexから表を抽出 ◦ 1. Ph.D student, post docなどの該当分野の専門家がtableに対応するテキストをアノテーション ▪ Table + Captionから生成できるテキストのspanをアノテーション ◦ 2. 2人のアノテーターが1.の結果をreviseし、正しくtable-textを抽出できていない例や、reasoning が不要な事例等を除外 • 自動アノテーションでのデータセットの拡張（約50k examples） ◦ 1. tableへのreferenceを含むparagraphsを抽出することで自動的にデータを収集 ◦ 2. ヒューリスティックルールに基づき、reasoningが不要なデータを除外 ▪ その他にも、数値を含まない例、複数テーブルや図について述べている例を除外 ▪ tableがAxcell toolで正しく抽出できていない例を除外 ▪ descriptionが15 words未満, 400 words以上のものを除外 ◦ 3. 人手でアノテーションしたデータに対して同様のプロセスを実施し、結果を比較 ▪ 20%の自動抽出したデータは人手のデータには含まれない • そのうちの大抵のデータはPDFアノテーションツールのエラーで除外されていたもの ▪ 27%のexpert annotationデータは自動抽出結果に含まれなかった ▪ 71%のテーブルが自動抽出とexpert annotationで一致し、自動抽出の方がtextが長かった • table + captionから生成できないものを自動抽出は含んでいる ▪ このうち29%のペアテキストが自動抽出の方が短かった • expertが抽出したのは複数パラグラフにまたがっている説明 • 自動抽出の場合はテーブルの部分的な説明となっている 110

SciGen [Moosavi+, 2021]: 統計量とデータ分割 (3/4) • Few-shot: ◦ expertのアノテーションのみを含む少量のデータセット •
Medium + Large: ◦ 自動抽出したデータを含む大量のデータセット ◦ testセットはexpertがアノテーションしたデータのみを含む 111

SciGen [Moosavi+, 2021]: 実験結果からのinsight (4/4) • 現在の代表的な性能指標ではNumeric Reasoningを含むテキストを正しく評価できない ◦
表層レベルの類似度を評価しているのみで、Factuall Correctnessを評価する指標になっていないため ▪ e.g. BLEU, METEOR, MoverScore, BertScore, BLEURT ◦ 実際正しいdescriptionと、明らかに正しくないdescriptionの両metricを比較した結果、ほとんど差がなかった ▪ => 人手評価が必要 • 自動指標ではBARTの方がT5よりも性能が良いと判断されたが、人手評価をしたら T5とBARTはComparableだった • 自動抽出したデータを追加すると： ◦ factual informationのRecallとPrecisionとCorrectness (goldには含まれないが正しい記述) は向上 ◦ 全く関係ない情報を生成するHallucinationの割合も減少 ◦ しかしmediumとlargeを比較するとlargeの場合はCorrectnessが低下 ▪ => 自動抽出のデータを増やしていってもCorrectnessは改善しない（むしろ悪化） • SciGenではBART, T5をﬁnetuningする程度では40%のテキストしか正しいテキストを生成できず、そのうち10%のgoldしか生成テキストはカバーできていない ◦ => まだまだこのタスクには改善の余地がある 112

BioLeaﬂets [Yermakov+, 2021]: 概要 (1/2) • Biomedical Domainの最初のデータセット ◦ 1,336のヨーロッパで認可されている医薬品の添付文書のデータセット
◦ 基本的に6セクションで構成されており、clearでunderstandableな記述が求められる • BioLeaﬂetsでのチャレンジ ◦ multi-sentence, multi-sectionの生成 ◦ データ数が少ない ◦ medical vocabularyとsyntaxに特化していること • Conditional Generationを提案 ◦ タスク: 順序立てられたEntityのsetをソースとして、multi-sentence sectionを生成する ◦ InputがEntityというだけでConditional Generationではないのでは・・・？ 113

BioLeaﬂets [Yermakov+, 2021]: データセット作成 (2/2) • 1,336のbiomedical leaﬂetを6セクションに分割 • 各セクションごとにNERを用いて、Entityを抽出しInput
Dataとする ◦ Entityとして数値データも含むようにした • NERの結果、26種類のuniqueなEntity typeを得た ◦ ex. problem: (value例: 活動性慢性肝炎), system-organ-site (value例: 血管), treatment (value例: ワクチン摂取), procedure: (value例: 注射) 114

TatQA [Zhu+, 2021]: 概要 • Numerical Reasoningが必要なQAデータセット ◦ 2757 context
- 16652 questions pair • 特徴: ◦ 与えられるContextがhybrid: semi-structured table + 最低2つのparagraph ◦ answer formが多様: single span, multiple spans, free-form ◦ Numerical reasoningが必要: +, -, *, /, counting, comparison, sorting, (+ これらの組み合わせ) ◦ Ground Truthに加え、回答に必要な導出や、単位の情報も提供 115

FinQA [Chen+, 2021b]: 概要 • RQ: 企業の意思決定に必要なFinancial Analysisを自動化できるか？ • Numerical
Reasoningが必要なQAデータの既存研究はGeneral domainをターゲットにしており、大抵はone-stepのcalculationで回答可能 ◦ => Financial Domainはone-stepでは無理 & heterogeneousなデータをソースにする必要 • ExpertがアノテーションしたNumerical Reasoningのプロセスを含むQA データを作成 ◦ 8,281 ﬁnancial QA pairs, multiple stepのcalculationが必要 116

GeoTSQA [Li+, 2021]: 概要 • Scenario + tableがgivenな時にQAタスクを解くデータセットを構築 • 中国のgeographyの高校のmultiple-choice
questionのテストを収集 • テーブルの情報は画像で付与されているため、OCRで情報を認識し、人手でエラーを訂正 • Tableの情報を利用せずに回答できるQuestionは除外することでデータセット構築 117

HiTab [Cheng+, 2022]: 概要 (1/9) • Hierarchical TablesにフォーカスしたQA, NLG Dataset
◦ => 既存のQAやTable2Textはﬂat tableにフォーカスしていた ▪ e.x. ToTToデータに含まれるHierarchical Tableは5.03%しかない ◦ 3597 Hierarchical Tables - 10672 QA - 10672 single sentences tuples • NLGタスクではToTToと同様にControlled Generationを提案 • Hierarchical TableのChallenge: ◦ Hierarchical indexing: ▪ cellの選択がﬂat tableと比較して複雑 ▪ multi-level, bi-dimensional indexingが必要 (親要素と子要素を行と列でindexingする必要) ◦ Implicit Calculation relationships among quantities: ▪ 明示的な目印が無く行・列の集約（e.g. Total, proportion）がしばしば行われる ▪ これを理解するには正確なnumerical inferenceが求められる ◦ Implicit semantic relationships among entities ▪ 行・列・セルをまたいだEntity間の関係性が存在するが明示的な目印が存在しない ▪ e.g. 次ページ例のA2セルの”source”と “mechanism” はそれぞれA6:A19, A20:25に対応 ▪ e.g. “Master”, “Doctoral”というheaderは ”Degree” というimplicitな関係性を持つ ▪ => 意味的な関係性を同定し、Entity間を正しく関連づけるのはチャレンジング 118

HiTab [Cheng+, 2022]: Hierarchical Table例 (2/9) 119

HiTab [Cheng+, 2022]: HiTabの特徴と統計量 (3/9) • Hierarchical Tableに対するQAとNLGの両方をカバーした最初のデータ • 人手でアノテーションされたEntity,
QuantityのAlignmentが存在する • Single-DomainのQAデータと比較し、多数のドメインとwikipediaを含む • Tableごとの対応するsentenceは約5文存在し、テーブルごとにより analyticalな側面が必要なことを示している 120

HiTab [Cheng+, 2022]: HiTabのドメイン (4/9) • 多数のドメインを含んでいる（28ドメイン） • これらに加えてToTToからとってきたWikipediaのdomainも含んでいる 121

HiTab [Cheng+, 2022]: データセット作成プロセス (5/9) • Hierarchical Table Collection ◦
Statistics Canada (StatCan) National Science Foundation (NSF) ▪ => richなstatistical reportをPDFではなく「HTML」で公開している ◦ StatCanとNSFからHTMLをクローリングし、Hierarchical Tableを抽出 ▪ ToTToデータセットに含まれるhierarchical tableも加える • Sentence Extraction and Revision ◦ アノテータはTableのdescriptionに対応する「文」を抽出し文を補正（Revision）した ▪ ToTToデータと同様にdecontextualizationやphrase deletionを実施することで意味的に関連性のない部分文を削除 122 ※これらのプロセスには合計で 2400時間を要した

HiTab [Cheng+, 2022]: データセット作成プロセス (6/9) • Entity and Quantity Alignment
◦ Entity Alignment: ▪ テキスト中のEntityと対応するCellをアノテーション ◦ Quantity Alignment: ▪ Single Cell Mention: 対応するCellをアノテーション ▪ Composite Quantity Mention: 計算に必要なCellを用いた数式をアノテーション • Converting Sentences to QA Pairs ◦ アノテーターは文ごとにQuestionのkey partを同定しDeclerativeな文をQA Formに変換した ▪ 全ての疑問文はnumerical inference processで回答可能 123 ※これらのプロセスには合計で 2400時間を要した

HiTab [Cheng+, 2022]: データセット作成プロセス (7/9) • Regular Inspections and the
Final Review ◦ 2人の最も経験豊富なアノテーターが定期的にlabeling process中に他のアノテーターのlabel をサンプリングして問題点をフィードバック ◦ 最終的に全てのレビューし、labelingのエラーを訂正した • Hierarchy Extraction ◦ indentation, bold font, merging等の情報に基づき（Acc. 94%）ツリー形式でヘッダーを表現 124 ※これらのプロセスには合計で 2400時間を要した

HiTab [Cheng+, 2022]: NLG実データ (8/9) • 1 exampleごとに1 sentenceが対応 •
単一のtableに対して複数の事例が存在する 125

HiTab [Cheng+, 2022]: NLGにおけるControlled Generation (9/9) • HiTabが提案するControlled Generationの他のデータセットとの違い •
LogicNLG: ◦ Cellに対するoperationを含むlogical formを与えなければならず、common userはそんなことができないためreal scenarioに即していない • ToTTo: ◦ Cellによる条件付けのため、Logical Formを利用するより簡単 ◦ しかし、symbolic operationが定義されておらずnumerical reasoningができない • Hitab: ◦ LogicNLGよりreal applicationに近づけ、ToTToよりもcontrollableにすることを目指す ◦ => 選択されたCellのグループと、operatorによって条件づけて文を生成する • 実際にモデルにTableをinputする際は、ヒューリスティックに基づき highlight cellと関連するsubtableを切り取り、入力する 126

CONTLOG [Liu+, 2022]: 概要 (1/3) • Logic2Textデータのアノテーションされたlogical formと対応する、テーブル中のセルをhighlightすることでデータセットを再構成した ◦
これによりControlled logical natural language generationを実現可 • control signalが存在するはじめてのLogical table-to-text dataset 127

CONTLOG [Liu+, 2022]: モチベーション (2/3) • 既存研究はsurface-level factsをシンプルにrestateすることにフォーカス ◦ e.g.
RotoWire, MLB • 近年Logical table-to-text generationが提案され、これにはモデルが logical-levelのinferenceを行いながらcontent planningを行う必要がある ◦ しかし、end-to-endなneural modelは与えられたtableに対して論理的に正しいテキストを生成することに苦戦していることが知られている ◦ => この理由は、ターゲット文の曖昧さが、モデルがテーブルとテキストのペアから正確な logical inferenceを学習するのを妨げていることに起因すると考えられる ◦ => 加えて、これらを実現するためのtable-text pairの量が限定的なものも要因である • これを克服するためにLogic2Textが提案された ◦ => しかしながら、的確にlogical formをアノテーションするのは突出したhuman effortが必要 ◦ => 加えて、Logic2Textを活用した研究の大部分は、logical formをtextに変換することにフォーカスしている ◦ => logical formからの生成は、table2text generationとは異なるタスクとなってしまっている • => よりFaitufulなLogical table-to-text generationを実現するために、 PLoGとCONTLOGデータセットを提案 128

CONTLOG [Liu+, 2022]: PLoG概要 (3/3) • table-to-logical form generationのモデルを事前学習 •
続いて、table-to-textをdownstreamタスクとしてﬁnetuneすることで、 logical inferenceに関する知識を転移させることでlogical ﬁdelityを向上させる 129

References: 1. [Budzianowski, 2018] MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz
Dataset for Task-Oriented Dialogue Modelling, EMNLP’18 2. [Gardent+, 2017] The WebNLG Challenge: Generating Text from RDF Data, INLG’17 3. [Novikova+, 2017] The E2E Dataset: New Challenges For End-to-End Generation, SIGDIAL’17 4. [Wiseman+, 2017] Challenges in Data-to-Document Generation, EMNLP’17 5. [Parikh+, 2020] ToTTo: A Controlled Table-To-Text Generation Dataset, EMNLP’20 6. [Chen+, 2008] Learning to Sportscast: A Test of Grounded Language Acquisition, ICML’08 7. [Agarwal+, 2021] Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training, NAACL’21 8. [Juraska+, 2019] ViGGO: A Video Game Corpus for Data-To-Text Generation in Open-Domain Conversation, INLG’19 9. [Chen+, 2021a] WikiTableT: A Large-Scale Data-to-Text Dataset for Generating Wikipedia Article Sections, ACL’21 10. [Puduppully+, 2019] Data-to-text Generation with Entity Modeling, ACL’19 11. [Wang+, 2018] Describing a Knowledge Base, INLG’18 130

References: 12. [Obeid+, 2020] Chart-to-Text: Generating Natural Language Descriptions for
Charts by Adapting the Transformer Model, INLG’20 13. [Thomson+, 2020] SportSett:Basketball - A robust and maintainable data-set for Natural Language Generation, SIGGEN’20 14. Abstract Meaning Representation (AMR) Annotation Release 3.0 15. [Ribeiro+, 2021] Structural Adapters in Pretrained Language Models for AMR-to-text Generation, EMNLP’21 16. [Kanerva+, 2019] Template-free Data-to-Text Generation of Finnish Sports News, NoDaLiDa’19 17. [Wang+, 2019] PaperRobot: Incremental Draft Generation of Scientiﬁc Ideas, ACL’19 18. [Iso+, 2019] Learning to Select, Track, and Generate for Data-to-Text, ACL’19 19. [Lin+, 2020] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, EMNLP’20 131

References: 20. [Lam+, 2021] ENSEMBLING GRAPH PREDICTIONS FOR AMR PARSING,
NeurIPS’21 21. [Chen+, 2020a] TabFact: A Large-scale Dataset for Table-based Fact Veriﬁcation, ICLR’20 22. [Chen+, 2020b] Logical Natural Language Generation from Open-Domain Tables, ACL’20 23. [Liang+, 2009] Learning Semantic Correspondences with Less Supervision, ACL-IJCNLP’09 24. [Wen+, 2015] Semantically Conditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems, EMNLP’15 25. [Mairesse+, 2010] Phrase-Based Statistical Language Generation Using Graphical Models and Active Learning, ACL’10 132

References: 26. [Moosavi+, 2021] Learning to Reason for Text Generation
from Scientiﬁc Tables, arXiv’21 27. [Labret+, 2016] Neural Text Generation from Structured Data with Application to the Biography Domain, EMNLP’16 28. [Nan+, 2021] DART: Open-Domain Structured Data Record to Text Generation, NAACL’21 29. [Berant+, 2013] Semantic Parsing on Freebase from Question-Answer Pairs, EMNLP’13 30. [Koncel-Kedziorski, 2019] Text Generation from Knowledge Graphs with Graph Transformers, NAACL’19 31. [Jin+, 2020] GenWiki: A Dataset of 1.3 Million Content-Sharing Text and Graphs for Unsupervised Graph-to-Text Generation, COLING’20 32. [Zhou+, 2018] An Interpretable Reasoning Network for Multi-Relation Question Answering, COLING’18 33. [Wang+, 2021a] WikiGraphs: A Wikipedia Text - Knowledge Graph Paired Dataset, NAACL’21 34. [Cheng+, 2020] ENT-DESC: Entity Description Generation by Exploring Knowledge Graph, EMNLP’20 35. [Banarescu, 2013] Abstract Meaning Representation for Sembanking, linguistic annotation workshop and interoperability with discourse’13 133

References: 36. [Nayak+, 2017] To Plan or not to Plan?
Discourse planning in slot-value informed sequence to sequence models for language generation, InterSpeech’17 37. [Chisholm+, 2017] Learning to generate one-sentence biographies from Wikidata, ACL’17 38. [Chen+, 2020c] Few-Shot NLG with Pre-Trained Language Model, ACL’20 39. [Lya+, 2021] Towards Table-to-Text Generation with Numerical Reasoning, ACL’21 40. [Fu+, 2020] Partially-Aligned Data-to-Text Generation with Distant Supervision, EMNLP’20 41. [Kantharaj+, 2022] Chart-to-Text: A Large-Scale Benchmark for Chart Summarization, ACL’22 42. [Murakami+, 2021] Generating Weather Comments from Meteorological Simulations, EACL’21 43. [Isard, 2016] The Methodius Corpus of Rhetorical Discourse Structures and Generated Texts, LREC’16 44. [Oraby+, 2018] Controlling Personality-Based Stylistic Variation with Neural Natural Language Generators, SIGDIAL’18 45. [Reed+, 2018] Can Neural Generators for Dialogue Learn Sentence Planning and Discourse Structuring?, INLG’18 46. [Qader+, 2018] Generation of Company descriptions using concept-to-text and text-to-text deep models: dataset collection and systems evaluation, INLG’18 47. [Wang+, 2021b] Stage-wise Fine-tuning for Graph-to-Text Generation, ACL-IJCNLP’21 48. [Yermakov+, 2021] Biomedical Data-to-Text Generation via Fine-Tuning Transformers, INLG’21 49. [Ishigaki+, 2021] Generating Racing Game Commentary from Vision, Language, and Structured Data, INLG’21 134

References: 50. [Wang, 2019] Revisiting Challenges in Data-to-Text Generation with
Fact Grounding, INLG’19 51. [Pasupat+, 2015] Compositional Semantic Parsing on Semi-Structured Tables, ACL-IJCNLP’15 52. [Wen+, 2016] Multi-domain Neural Network Language Generation for Spoken Dialogue Systems, NAACL’16 53. [Peng+, 2020] Few-shot Natural Language Generation for Task-Oriented Dialog, ACL’20 54. [Rastogi+, 2020] Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset, AAAI’20 55. [Reiter+, 2005] Choosing words in computergenerated weather forecasts, Artiﬁcial Intelligence’05 56. [Jhamtani+, 2018] Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, ACL’18 57. [Banik+, 2013] The KBGen Challenge, SIGGEN’13 58. [Zettlemoyer+, 2007] Online Learning of Relaxed CCG Grammars for Parsing to Logical Form, EMNLP’07 59. [Konstas+, 2012] Unsupervised Concept-to-text Generation with Hypergraphs, NAACL’12 60. [Bao+, 2018] Table-to-Text: Describing Table Region with Natural Language, AAAI’18 61. [Serban+, 2016] Generating Factoid Questions With Recurrent Neural Networks: The 30M Factoid Question-Answer Corpus, ACL’16 135

References: 62. [Dusek+, 2019] Neural Generation for Czech: Data and
Baselines, INLG’19 63. [Li+, 2021] TSQA: Tabular Scenario Based Question Answering, AAAI’21 64. [Chen+, 2021b] Neural data-to-text generation with dynamic content planning, Knowledge-Based Systems, 2021 65. [Hayashi+, 2019] Findings of the Third Workshop on Neural Generation and Translation, WNGT, 2019 66. [Shah+, 2021] Nutri-bullets Hybrid: Consensual Multi-document Summarization, NAACL’21 ◦ 著者のD論 67. [Liu+, 2022] PLOG: Table-to-Logic Pretraining for Logical Table-to-Text Generation, EMNLP’22 68. [Cheng+, 2022] HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation, ACL’22 69. [Chen+, 2021c] FinQA: A Dataset of Numerical Reasoning over Financial Data, EMNLP’21 70. [Zhu+, 2021] TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance, ACL’21 136

References: 71. [Chen+, 2020d] HybridQA: A Dataset of Multi-Hop Question
Answering over Tabular and Textual Data, EMNLP’20 72. [Yu+, 2018] Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task, EMNLP’18 73. [Zhong+, 2017] Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning, ICLR’18 74. [Weber+, 2016] Insights from Machine-Learned Diet Success Prediction. In Proceedings of Paciﬁc Symposium on Biocomputing (PSB), 2016 75. [Harris+, 2022] Towards Neural Numeric-To-Text Generation From Temporal Personal Health Data, arXiv’22 76. [Parvez+, 2018] Building Language Models for Text with Named Entities, ACL’18 77. [Majumder+, 2019] Generating Personalized Recipes from Historical User Preferences, Majumder, EMNLP’19 78. [Perez-Beltrachini+, 2018] Bootstrapping Generators from Noisy Data, NAACL’18 137

References: 79. [Kim+, 2021] "How Robust r u?": Evaluating Task-Oriented
Dialogue Systems on Spoken Conversations, ASRU’21 80. [Mille+, 2020] The Third Multilingual Surface Realisation Shared Task (SR’20): Overview and Evaluation Results, COLING’20 81. [Lee+, 2020] The CACAPO Dataset: A Multilingual, Multi-Domain Dataset for Neural Pipeline and End-to-End Data-to-Text Generation, INLG’20 82. [Dahl+, 94] EXPANDING THE SCOPE OF THE ATIS TASK: THE ATIS-3 CORPUS, HLT’94 83. [Barzilay+, 2005] Collective Content Selection for Concept-To-Text Generation, EMNLP-HLT’05 138

References: 84. [Robin, 1994] Revision-Based Generation of Natural Language Summaries
Providing Historical Background: Corpus-Based Analysis, Design, Implementation and Evaluation, Ph.D Thesis, 1994 85. [Oraby+, 2019] Curate and Generate: A Corpus and Method for Joint Control of Semantics and Style in Neural NLG, ACL’19 86. [Sripada+, 2003] Exploiting a Parallel Text-Data Corpus, Proceedings of Corpus Linguistics 2003 87. [Tang+, 2001] Using multiple clause constructors in inductive logicprogramming for semantic parsing, ECML’01 88. [Bordes+, 2015] Large-scale Simple Question Answering with Memory Networks, arXiv’15 89. [Chen+, 2020e] Logic2Text: High-Fidelity Natural Language Generation from Logical Forms, EMNLP’20 139

その他References+メモ: 90. [Kale+, 2020] Template Guided Text Generation for Task-Oriented
Dialogue, Kale+, Google, EMNLP'20 ◦ Template Guided Representation, NumericNLG論文で利用 91. [Rothe+, 2020] Leveraging Pre-trained Checkpoints for Sequence Generation Tasks, Rothe+, TACL’20 ◦ BERT-to-BERT論文, ToTToデータセット論文で利用 92. [Chen+, 2020] Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL'20 ◦ 200程度のTraining Sample数でNLGを行うFewshot NLGを提案 93. [Tanaka-Ishii+, 1998] Reactive Content Selection in the Generation of Real-time Soccer Commentary, COLING’98 ◦ Robocupデータ、あるいは別のサッカーのsimulatedデータを活用してサッカーのコメンタリーを生成している。Soccer Serverがinputとなっている。データセットに関する記述はない？ 94. [Koto+, 2022] Can Pretrained Language Models Generate Persuasive, Faithful, and Informative Ad Text for Product Descriptions?, ECNLP’22 ◦ 商品の画像 + Attribute と商品説明文のデータ ◦ Copyright reasonでデータは非公開 95. [Lee+, 2022] NEURAL DATA-TO-TEXT GENERATION BASED ON SMALL DATASETS: COMPARING THE ADDED VALUE OF TWO SEMI-SUPERVISED LEARNING APPROACHES ON TOP OF A LARGE LANGUAGE MODEL, arXiv’22 ◦ 少量データからD2Tする際の参考になりそう 140

その他References+メモ: 96. [Gehrmann+, 2022] GEMv2: Multilingual NLG Benchmarking in a
Single Line of Code, arXiv’22 ◦ NLGタスクを評価するためのフレームワーク ◦ 51種類の言語の40種類のデータセット（e.g. D2T, summarization, response generation）をサポート 97. [Tan+, 2022] Remodeling Numerical Representation for Text Generation on Small Corpus: A Syntactical Analysis, ACAI’19 ◦ Stock markt priceと対応するnewsのペアを1000程度収集したようだがデータ非公開っぽい 98. [Agarwal+, 2020] Building Hierarchically Disentangled Language Models for Text Generation with Named Entities, COLING’20 ◦ レシピ生成タスクのためのデータセットを作成しているが、公開されていなさそう？ 141

Survey論文 References: 99. [Sharma+, 2022] Innovations in Neural Data-to-text Generation,
arXiv’22 100. [Gatt+, 2018] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, JAIR’18 101. [HanQi+, 2020] Recent advances of neural text generation: Core tasks, datasets,models and challenges, Science China Technological Sciences, 2020 102. [Puduppully, 2021] Data-to-text generation with neural planning, Puduppuly氏のD論 142

Useful Link • Data sets for NLG • paperswithcode •
IndicNLG Suite • Task Oriented Dialogue Systemについて 143

Puduppully氏のD論のデータセットまとめ 144

Data-to-Text Datasetまとめ ― Summary of Data-to-Te...

Data-to-Text Datasetまとめ ― Summary of Data-to-Text Datasets ―

Other Decks in Research

Featured

Transcript