Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文章自動生成に向けた非構造データの活用の一考察 -文と文とのつながりを課題として-

太田 博三
September 21, 2017

文章自動生成に向けた非構造データの活用の一考察 -文と文とのつながりを課題として-

アブストラクト(日本語)

ビックデータの時代が到来して数年が経過する.さらに,ここ数年の深層学習の発展は目覚しいものがあり,画像処理の分野だけでなく,自然言語処理や音声認識の分野まで及んでいる.本考察では,文章生成を実践し,そこで用いた主に3つの手法を比較考察する.1)マルコフ連鎖,2)自動要約,3)ディープラーニング(RNN/ LSTM)による文章生成.課題として,課題として,文と文とのつながりが不自然であることが検討される.実務で通用する自然な文と文とのつながりを検討する.

太田 博三

September 21, 2017
Tweet

More Decks by 太田 博三

Other Decks in Science

Transcript

  1. 文章自動生成に向けた非構造データの活用の一考察 -文と文とのつながりを課題として- Comparative study of automatic sentence generation method -

    Issues and measures of connection among sentences in their generation - 一般社団法人経営情報学会2017年秋季全国研究発表大会 2017年9月21日(木) @岩手県立大学アイーナキャンパス・ いわて県民情報交流センター(アイーナ) 放送大学 教養学部 太田 博三
  2. 1.1. 自然言語処理の研究区分 (入力) (出力) テキスト ----------解析系--------à 情報 情報 ----------生成系--------à テキスト

    図1.1 解析系と生成系 ・解析系の研究とは,Amazonのレビューなどのポジ・ネガ判別 ・生成系の研究とは,逆で入力はポジティブなどと判別された情報とは限らない. 出力はテキストである. ・変換系の研究とは,機械翻訳など⼊⼒と出⼒が対価である場合. 5 解析系 ⽣成系 変換系
  3. ࣗಈཁ໿ʹΑΔจষࣗಈੜ੒ • ⾃動要約の古典的なH. P. Luhnが⾃動要約の元祖と⾔われております. ↓ • テキスト中の重要な⽂を抜き出し,それを出現順に並べることによっ て,そのテキストを読むべきか否かを判定するといったスクリーニン グのための要約が⾃動⽣成できることを⽰したことが業績.

    • つまり,⾃動抄録に似ており,「理解し,再構成し,⽂章⽣成」とい うのではなく、「理解する箇所が重要部に近似する」と割り切って考 えたもの. • 重要語の決定には,単語頻度を⽤いるなど,現在の⾃動要約の流れは, Luhnの影響が少なくない! 12
  4. 2.4 リカレントニューラルネットワーク (RNN)/LSTM/GANによる文章自動生成 • Andrej Karpathyのchar-rnnによるtiny shakespeare[7]が 有名. • 今までの単語列として,もっともらしい次の単語を予測す

    ることをLong short term memory(LSTM)が担うもの. • Recurrent Neural Network(RNN)の拡張として,1995年 に登場した時系列データに対するモデルまたは構造の⼀種 である. • しかしLSTMでも,Epochが100を超えないとまともな⽂ 章になっていなかったり,GPUが必要になるなど,莫⼤な 学習データと時間を要する. ⇩ • そこで,GANなど教師なしの⽣成モデルに着⽬した. 13
  5. ֤ख๏ͱ޷·͍͠ͱࢥΘΕΔσʔλྔ จࣈ਺ • データ量の観点から,得られた実験結果([7]) • 各⼿法と好ましいと思われる⽂字数(すごくいい加減です) 1) マルコフ連鎖による文章の自動生成:100−200字程度の文書 2) keras(RNN/

    LSTM)による文章の自動生成:5000文字以上の文書 3) Luhn による文章要約:1000字以上 4) LexRank/ TextRank による文章要約:300−400文字以上 5) tensorflow/ seq2seqによる文章自動要約:100000文字以上 16
  6. 4. 実験結果([8]) 4.1 実験で⽤いた各⼿法の⻑所・短所 4.2実験で⽤いた⽂章と評価の⼀部(その1) 4.2.1 マルコフ連鎖による2つの⽂章の評価 4.2.2 マルコフ連鎖による⽣成された⽂章例(2つ) 4.2.2.1

    マルコフ連鎖による⽣成された⽂章例その1 4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2 4.3 実験で⽤いた⽂章と主観的なSEOの視点での評価の⼀部(その2) 4.4 ⽂章の⾔い換えと類似度の検討 4.4.1 本節で⽤いた例⽂ 4.4.2 n-gram(n = 1-5)での定量化と⾔い換え回数について 4.4.3 考察結果 17
  7. Ϛϧίϑ࿈࠯ʹΑΔੜ੒͞Εͨจষྫʢͭʣ 19 4.2.2.1 マルコフ連鎖による⽣成された⽂章例 その1 化粧⽔などで泡⽴ててくださいね。そのまま化粧⽔を 防腐剤、安定剤や酸化亜鉛などの影響で、かさつかず しっとりとしました。ドクターズオーガニックの無添 加化粧品の材料とコールドプロセス法によって製造す ることがわかります(新陳代謝が正常に導きます。ま

    たお⼿元に届くよう、⼀刻も早い安全性と、とても良 い下地クリームにした作りになっていますが、抗菌仕 様製品では次のような選び⽅が推奨されています。毎 ⽇⾝体を動かすことで、⾃分達の基礎化粧品の中⾝を 確かめてくださいね。無添加⽯鹸で…。油分を⼗分に 補って、盲信は禁物です。ナイロンタオルやボディケ ア⽤品の基材としてよく使われています。という具合 に⾃分の肌トラブルを起こさない、これは現実的に引 き締まった感じがするかもしれませんよね?乾燥が気 になることもあります。刺激感などの添加があります。 (361⽂字) 4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2 例えばクモノスカビの⼤きさを保ち、かさかさ、ボロ ボロに。⼀体何が無添加⽯鹸を泡⽴て、泡の保持のた め、ニキビ肌、敏感にしましょう。「今⽇はとても不 ⾃然だと悪化します。また、脂肪を燃焼させ除去する ことフットクリームの全成分しかし、同時に流れは細 胞から⼆酸化炭素や⽼廃物を回収してください。シア バター 1,800円(約70g)ご購⼊はこちらから」 フットクリームの全成分漢⽅薬としては、洗浄感の良 いハンドクリームには⽪膚がんの原因は消毒も殺菌し て作られますが、散乱剤②の2種類がありませんが、 すでにたくさんの化粧⽔と、やわらかくて、たっぷり のお湯でお肌は、天然の成分かつて健康法として推奨 された安全性はまだまだ不確かです。でも、必ずしも ⽯鹸が必要なわけでも、瞬間湯沸かし器などで泡⽴て てください。乾燥肌対策のため植物性油脂であっても、 きれいな⽔だけで数百種類以上の化学成分を毎⽇肌に のせたりすることが⼤事です。原料への安全性はあり ません。この後、あるいはお⾵呂で体を温める効果の ある⼈々(活字関係)からは常温で固体のためのスキ ンケア (455⽂字)
  8. Ϛϧίϑ࿈࠯ʹΑΔੜ੒͞Εͨจষྫʢͭʣ 21 4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2 例えばクモノスカビの大きさを保ち、かさかさ、ボロボロに。一体何が無添 加石鹸を泡立て、泡の保持のため、ニキビ肌、敏感にしましょう。「今日は とても不自然だと悪化します。また、脂肪を燃焼させ除去することフットク リームの全成分しかし、同時に流れは細胞から二酸化炭素や老廃物を回収し てください。シアバター 1,800円(約70g)ご購入はこちらから」フットク

    リームの全成分漢方薬としては、洗浄感の良いハンドクリームには皮膚がん の原因は消毒も殺菌して作られますが、散乱剤②の2種類がありませんが、す でにたくさんの化粧水と、やわらかくて、たっぷりのお湯でお肌は、天然の 成分かつて健康法として推奨された安全性はまだまだ不確かです。でも、必 ずしも石鹸が必要なわけでも、瞬間湯沸かし器などで泡立ててください。乾 燥肌対策のため植物性油脂であっても、きれいな水だけで数百種類以上の化 学成分を毎日肌にのせたりすることが大事です。原料への安全性はありませ ん。この後、あるいはお風呂で体を温める効果のある人々(活字関係)から は常温で固体のためのスキンケア (455文字)
  9. ࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺Ͱͷ ධՁͷҰ෦ʢͦͷʣ (例⽂) 興味深い話がありますが、続けることがわかってきたという⼈が歩⾏不⾜です から。お酒を飲んでいたら、昔か ら「寝る⼦は育つ」と⾔うのは神様の業と⾔ えるのです。ですから、いつも幼⼦のようにしましょう!考えたりします。やは りちょっと添加物を旬なうちに運動をしてもらったらよいでしょうか?また、 健康診断はしっかり 歩くだけでは、さらに湿疹などになります。よくよく聞い

    てなるほどなーとも⾔えるのではなく、なぜか⾊々と 語られているのですが、 健康維持やダイエットにつながります。⼿軽に薬ではないでしょうか?⽼化防 ⽌にも沢 ⼭あるのです。ですから、お⽔や空気も⼊ります。もしハリが残って いるとか・・・?さて、今⽇のタイトルは「炭 酸⽔で薄めて飲んだらよいで しょうか?漢⽅の王様と⾔われています。そのくらい⾝体の健康についてです。 (351 ⽂字) 23
  10. ࣮ݧͰ༻͍ͨจষͱओ؍తͳ4&0ͷࢹ఺ͰͷධՁͷҰ෦ ʢͦͷʣ (例⽂) 私の知り合いの⽼⼈ Y さんは現在90才の元気な男性。Y さんの健康法は毎⽇ 2 時 間くらいは散歩を続ける事だ

    そうです。それも晴の⽇だけでなく、⾬の⽇も散歩 に⾏かれると⾔うのでびっくり。本⼈いわく「この年で仕事 もないので、私は散 歩する事が仕事と思って毎⽇歩いているので、⾬の⽇でも⾏きます。⾬だから今 ⽇は仕事が 休みとは普通ならないでしょう・・・」との事でした。流⽯に脱帽で す。 実はこんな事があったそうです。お 医者さんから「もう90才になるのだから、 あまり無理して歩かないほうがよいですよ。」と⾔われ、Y さんも 「そうか なー」と思い 1 ヶ⽉近く散歩を⽌めていました。そしたら、バス停から家までの 道のり約5分くらいの 緩やかな坂道が、途中に⼀度休まないと息が切れて歩けな くなったそうです。それで「これではまずい!」と思 って、また歩き始めて3週間 くらい歩き続けたら元に戻ったそうです。歩く事は健康の基本です。半⾝の静脈 の 流れを良くし、⾝体の基礎筋⾁を維持し、⼼肺機能を維持する事ができるので す。また、腰痛の70%はしっか り歩くだけでも改善されています。現代は飽⾷に よる肝脂肪が増えています。私も最近は運動不⾜なので、昨年 の10⽉からは⼦供 と毎⽉1回は⼭登りをするようにしています。皆さんも運動不⾜と思われる⽅は是 ⾮散歩を お勧め致します。毎⽇1時間は歩いてほしいですね (572⽂字) 25
  11. จষͷݴ͍׵͑ͱྨࣅ౓ͷݕ౼ • ⽂章⾃動⽣成は⼀⽂が⾃然な⽂章で⽂と⽂との間のつながりも⾃然 であること,これに加えて,盗作とならないことを考えた場合,元 の⽂章と新たに⽣成された⽂章との⾮類似度が⾼いことが求められ る. • そこでn-gram(n = 1,

    2, 3, 4, 5)で類似度を求め,もう⼀⽅で係り 受け解析を⾏い複雑すぎる⽂になっていないかを考察してみた. • Googleは5-gramを⽤いているとの⾒解もあり,5-gramまでとした (⽂献[10]より). 27
  12. ຊઅͰͷݴ͍׵͑ͷྫ 1. ⾔い換え:2個 求⼈事情➡ 求職実態 知ろう➡ 把握しよう 2. ⾔い換え:4個 都⼼➡

    都会 近い➡ 隣接した ベッドタウン➡ ⼤型住宅地 商業エリア➡お店が並ぶ地域の 3. ⾔い換え:3個 県庁所在地➡ 中⼼ 最⼤の➡ ⼀番の 知られている➡ 伝えられている 29 4.⾔い換え5件 政治と経済の中⼼部は、横浜市中区や⻄区に 集約されています。 ⬇ 政治や経済の中⼼部が、横浜市中区と⻄区へ 集約できます。 5.⾔い換え4件 ⾺⾞道や⼭下公園、横浜中華街なども近くに 存在するため、観光地として知られていま す。 ⬇ ⾺⾞道と⼭下公園、横浜中華街などが近くへ 存在することで、観光地として知られていま す。
  13. ຊઅͰ༻͍ͨྫจ • a (元の⽂章・⾔い換え前)456⽂字 • b(⼀回⽬の⾔い換え後 448⽂字) • c(2回⽬の⾔い換え後 405⽂字)

    4.4.2 n-gram(n = 1-5)での定量化と⾔い 換え 回数について 以下のように定義した. a: 元の⽂章, b: aを⾔い換えた⽂章, c: bを⾔い換えた⽂章 30 aとcの類似度の⽐較 2-gram: 1.151 3-gram: 0.582 4-gram: 0.506 5-gram: 0.388 ・bとcの類似度の⽐較 2-gram: 1.386 3-gram: 0.798 4-gram: 0.3171 5-gram: 0.2075
  14.  OHSBN O ͰͷఆྔԽͱݴ͍׵͑ճ਺ʹ͍ͭͯ • a (元の⽂章・⾔い換え前)456⽂字 • b(⼀回⽬の⾔い換え後 448⽂字)

    • c(2回⽬の⾔い換え後 405⽂字) 4.4.2 n-gram(n = 1-5)での定量化と⾔い換え 回数について 以下のように定義した. a: 元の⽂章, b: aを⾔い換えた⽂章, c: bを⾔い換えた⽂章 aからbへの⾔い換え総数: 56回 bからcへの⾔い換え総数: 38回 31 aとcの類似度の⽐較 2-gram: 1.151 3-gram: 0.582 4-gram: 0.506 5-gram: 0.388 ・bとcの類似度の⽐較 2-gram: 1.386 3-gram: 0.798 4-gram: 0.3171 5-gram: 0.2075
  15. ຊઅͰ༻͍ͨྫจ a (元の⽂章・⾔い換え前)456⽂字 横浜市の求⼈事情を知ろう。都⼼に近いベッドタウンと商業エリアが広がる 横浜市。神奈川県の県庁所在地でもあり、県内で最⼤の都市として知られて いるのが横浜市です。⾏政と経済の中⼼は、横浜市中区や⻄区に集まってい ます。⾺⾞道や⼭下公園、横浜中華街などもこの辺りにあるため、観光地と しても有名です。横浜港に⾯してホテルや商業施設、オフィスが建ち並ぶ横 浜みなとみらい21も、このエリアに含まれます。横浜市は⿊船来航といった 歴史的な背景もあり、洋⾵な建造物やインターナショナルスクール、外国⼈

    を多くみかけるでしょう。横浜駅を中⼼に広がる繁華街や観光地では、飲⾷ 店やさまざまなショップが集まっています。私鉄や地下鉄が多数乗り⼊れて いることから、エリアによってはアクセスが便利で、都内のベッドタウンと しても⼈気です。横浜市には、⼤学のキャンパスも多いことから、学校の近 くや通いやすい場所でさまざまなアルバイトを探すことができるでしょう。 未経験から始められる職種、スキルが⾝に付くものなど、⾃分にあったバイ トを⾒つけることが可能です。 32
  16. ຊઅͰ༻͍ͨྫจ b(⼀回⽬の⾔い換え後 448⽂字) 横浜市の求職実態を把握しよう。都会に隣接した⼤型住宅地とお店が並ぶ地 域の横浜市。神奈川県の中⼼でもあり、県内で⼀番の都市として伝えられて いるのが横浜市です。政治と経済の中⼼部は、横浜市中区や⻄区に集約され ています。⾺⾞道や⼭下公園、横浜中華街なども近くに存在するため、観光 地として知られています。横浜港に⾯してホテルや経済施設、商業施設が建 ち並ぶ横浜みなとみらい21も、この地域に含まれます。横浜市は⿊船来航と いった伝統的な事実もあり、⻄洋の建造や帰国⼦⼥の学校、海外旅⾏客を多

    くみるでしょう。横浜駅を軸に広がるダウンタウンや観光地では、レストラ ンやさまざまなお店が並んでいます。私鉄や都営地下鉄が多くあることから、 地域によっては移動が楽で、都⼼の⼤型住宅地としても有名です。横浜市に は、カレッジの施設も多いことから、⼤学の近郊や通学しやすい点で多くの アルバイトを⾒つけることが可能でしょう。経験のない⼈から始められる職 業、技術が習得できるものなど、⾃分に適したアルバイトを⾒つけることが できます。 33
  17. ຊઅͰ༻͍ͨྫจ c(2回⽬の⾔い換え後 405⽂字) 横浜市で求職実態を把握しよう。都会の隣接した⼤型住宅地とお店の並 ぶ地域の横浜市。神奈川県が中⼼でもあり、県内の⼀番の都市として伝 えられているのは横浜市です。政治や経済の中⼼部が、横浜市中区と⻄ 区へ集約できます。⾺⾞道と⼭下公園、横浜中華街などが近くへ存在す ることで、観光地として知られています。横浜港に⾯してホテルと経済 施設、商業施設の横浜みなとみらい21が、この地域に含んでいます。横 浜市の⿊船来航といった伝統的な事実があり、⻄洋の建造と海外旅⾏客

    が多くみられるでしょう。横浜駅に広がる⾏楽地で、⾷堂と多くの ショップがあります。鉄道がたくさんあることから、場所によって、移 動が容易で、都⼼のベットタウンとして⼈気があります。横浜市では、 ⼤学の施設も多く、⼤学周辺や通学⾯でたくさんのアルバイトが⾒つか るでしょう。未経験から始められるジョブやスキルがマスターできるも のを、⾃分に合ったアルバイトを⾒つけられます。 34
  18. • ैདྷͷࣗવݴޠॲཧγες Ϝ • ϝϦοτɿ ݸผͷςʔϚʹରԠग़དྷΔɻ • σϝϦοτɿ౷ҰੑΛ୲อ ͢Δͷʹࠔ೉Ͱɺͳ͔ͳ͔ ਐ·ͳ͍͜ͱɻ

    36 5.まとめ 課題1/3 Ԡ༻λεΫग़ྗ Ԡ༻λεΫ༻ग़ྗث ड़ޠ߲ߏ଄ೝࣝ ߏจղੳ ඼ࢺλά෇͚ ೖྗςΩετ ैདྷͷࣗવݴޠॲཧγεςϜ Ԡ༻܇࿅༻λεΫͷ ܇࿅σʔλ ݴޠղ ੳ༻ ෦෼ ໰୊ ༻ͷ܇ ࿅σʔ λ ※深層学習による⾃然⾔語処理 坪井・海野・鈴⽊ (2017) P4-6を引⽤
  19. 37 5.まとめ 課題2/3 ਂ૚ֶशʹΑΔࣗવݴޠॲཧγεςϜ Ԡ༻λεΫग़ྗ Ԡ༻λεΫ༻ग़ྗث ӅΕ૚ ӅΕ૚ ӅΕ૚ ೖྗςΩετ

    ϒϥο ΫϘο Ϋεʹ ͳͬͯ ͍Δʂ ֶश Ԡ༻܇࿅༻λεΫ ͷ܇࿅σʔλ • ਂ૚ֶशʹΑΔࣗવݴޠ ॲཧγεςϜ • ϝϦοτɿऴ࢝Ұ؏ͯ͠ *OQVUͱ0VUQVU͕ग़ͤ Δɻ • σϝϦοτɿݸผͷςʔ ϚʹରԠग़དྷΔɻ ※深層学習による⾃然⾔語処理 坪井・海野・鈴⽊ (2017) P4-6を引⽤
  20. ※深層学習による⾃然 ⾔語処理 坪井・海野・ 鈴⽊(2017) P4-6を引⽤ 5.まとめ 課題3/3 ֶश ֶश ֶश

    ֶश ֶश Ԡ༻λεΫग़ྗ Ԡ༻λεΫ༻ग़ྗث ड़ޠ߲ߏ଄ೝࣝ ߏจղੳ ඼ࢺλά෇͚ ೖྗςΩετ ैདྷͷࣗવݴޠॲཧγεςϜ Ԡ༻܇࿅༻λεΫͷ ܇࿅σʔλ ݴޠղ ੳ༻ ෦෼ ໰୊ ༻ͷ܇ ࿅σʔ λ ਂ૚ֶशʹΑΔࣗવݴޠॲཧγεςϜ Ԡ༻λεΫग़ྗ Ԡ༻λεΫ༻ग़ྗث ӅΕ૚ ӅΕ૚ ӅΕ૚ ೖྗςΩετ
  21. • ⽂と⽂のつながりについては,⾃動要約との関連や⽂と⽂とのつなが りをentity-grid model[11]やSentence Orderingを⽤いて局所的なつ ながりの良さを表現するなどの談話構造解析[9][10]がある. • しかし,⼿動で⾏う判断を⾃動化することが可能か試⾏錯誤中である. • Sentence

    orderingなどからヒントを得たいと考えている. • またディープラーニングを⽤いた⽅策としては,敵対的⽣成ネット ワーク(Generative Adversarial Network: GAN)による精度向上も精度向上 が期待され,実験中である. • 従って,今のところは完全⾃動化ではなく,⼈⼿を含めざる負えなく, 主に制御⽂による⽂章⾃動⽣成が無難と思われる. 39 5.総括
  22. 6. 今後の予定 • ⽂と⽂のつながりについては,次の⼿法で解決の⽷⼝を⾒出 すべく,取り組み中である. • 次回,次の項⽬を中⼼に報告させて頂きたいと考えておりま す. • [理論⾯:

    論⽂サーベイ]Sentence Ordering, Coherence • [⼿法⾯: ⽂脈解析] Entity-grid model※1 • [⼿法⾯: 深層学習] GAN(⽣成系モデル) ※1 現在、⾃動要約との関連や⽂と⽂とのつながりをentity-gridを⽤いて局所的なつな がりの良さを表現するなどの談話構造解析があるが発展段階である. 40