Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
言語処理学会第25回年次大会参加報告
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yumeto Inaoka
March 19, 2019
Research
1
110
言語処理学会第25回年次大会参加報告
2019/03/19の年次大会報告会で発表
Yumeto Inaoka
March 19, 2019
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
210
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
270
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
180
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
190
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
180
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
310
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
380
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
250
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
260
Other Decks in Research
See All in Research
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
380
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
330
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
1
210
データサイエンティストの業務変化
datascientistsociety
PRO
0
270
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
230
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
3
460
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.2k
Agentic AI フレームワーク戦略白書 (2025年度版)
mickey_kubo
1
130
LLM-jp-3 and beyond: Training Large Language Models
odashi
1
780
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
140
地域丸ごとデイサービス「Go トレ」の紹介
smartfukushilab1
0
1k
SREのためのテレメトリー技術の探究 / Telemetry for SRE
yuukit
13
3.2k
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
28
2.5k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
190
What does AI have to do with Human Rights?
axbom
PRO
0
2k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
850
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.1k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
63
53k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
4 Signs Your Business is Dying
shpigford
187
22k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
70
A better future with KSS
kneath
240
18k
Color Theory Basics | Prateek | Gurzu
gurzu
0
220
Transcript
言語処理学会 第25回年次大会 参加報告 2019/03/19 長岡技術科学大学 自然言語処理研究室 修士課程 稲岡 夢人
発表内容 • タイトル 日本語文法平易化コーパスの構築 • 概要 在留外国人数の増加に伴って「やさしい日本語」の考え方が重 要性を増している。一方で言語処理においては、自動平易化を 対象とした研究が行われている。本研究では、やさしい日本語 のための文法平易化に用いることを想定したコーパスをクラウ
ドソーシングによって構築した。またコーパスで見られる書き 換えの現象について分析を行った。
質疑応答 (1/3) • 日本語学校では「みんなの日本語」を教材として用いているが、 そのような教材を参考にして作られているのか? → 本研究は日本語学校に通っていない(通えない)方を対象に 含めているので、そのような教材より初歩的と考えている • 中国語を母語とする方にとっては和語より漢語の方が分かる
(「市役所の開く時間」より「開庁時間」の方がわかる) → 本研究は特定の母語を想定していないが、どんな日本語表現 が易しいかは母語によって変化するというのは意識できてい なかった
質疑応答 (2/3) • 用途を考えると、田中コーパスではなく外国人が読むような テキストを含むコーパスを元に作成するべきなのでは? → 本研究室で過去に構築した平易化コーパスとの対応を取り たかったので田中コーパスを利用したが、今後拡張を行う のであればそれも視野に入れたいと考えている •
書き換えによって主語が無くなっているが、主語がない日本語 表現は外国人にとって難しいのでは? → 指摘の通りであるが、現状では考慮できていないので、 今後の課題とさせていただきたい
質疑応答 (3/3) • ブラジル人の多い群馬県大泉町や、インド人の多い東京都葛西 の自治体なら詳しいかもしれない • 機械翻訳の前処理に使えば翻訳性能を向上させられないか? → 日本語ではないが、過去にそのような研究は行われており、 効果があることが示されているので、期待できると考える
他にも多くのご指摘、アドバイス等をありがとうございます
発表の紹介 • P6-10 藤井 真, 新納 浩幸, 古宮 嘉那子 「文の持つ情報量を用いたニューラル機械翻訳の訳抜け検出」
• P5-12 安井 豪, 鶴岡 慶雅, 永田 昌明 「意味的類似性を報酬とした強化学習による文生成」
文の持つ情報量を用いたニューラル 機械翻訳の訳抜け検出 • 翻訳前と翻訳後の情報量を比較し、半分以下に低下していた 場合に訳抜けとして検出する手法 • Google NMTの結果に対して適合率を計算して評価している • モデル自体を変化させず、また内部状態を使用していないので、
あらゆるニューラル機械翻訳に対して適用できる • 目的言語を全く知らない人が機械翻訳を使用する際に有用
意味的類似性を報酬とした強化学習に よる文生成 • ニューラル生成では損失関数にCross-entropyが使われる → 単語の並べ替えや文構造の変化が損失に大きく影響を与える • BERT*を意味的類似性でFine-tuningしたものを使用して、 意味的類似性を報酬として、生成モデルを強化学習する →
意味を考慮した学習が行える • De → EnのBLEUで効果を確認 *Jacob Devlin et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (arXiv:1810.04805 [cs]) 2019.
BERTに関する発表 • 原稿に「BERT」を含む発表:21件 (約5.3%) • 今後、Pre-trained Embeddingsと同じ立ち位置になる? 50% 45% 5%
関連研究・今後の課題 使用 BERTの改善