Upgrade to Pro — share decks privately, control downloads, hide ads and more …

時系列文書解析とコロナ禍における ニュースへの応用 / Analysis of Time Se...

Sansan DSOC
October 09, 2020

時系列文書解析とコロナ禍における ニュースへの応用 / Analysis of Time Series Documents and its Application to News in the Corona Disaster

■イベント 
:自然言語処理勉強会
https://sansan.connpass.com/event/190157/

■登壇概要
タイトル:時系列文書解析とコロナ禍におけるニュースへの応用
発表者: 
DSOC R&D研究員 橋本 航

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

October 09, 2020
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. Data Strategy and Operation Center • Dynamic Topic Modelについて •

    コロナ禍におけるニュースに対するDynamic Topic Modelの応⽤ • 近年の発展⼿法 - Generalized Dynamic Topic Model - Dynamic Correlated Topic Model - Dynamic Embedded Topic Model • まとめ ⽬次
  2. Data Strategy and Operation Center ニュースにおける時間とトピック • ⽂書には⼀般的に時間情報が 付与されている (出版⽇など)

    • ⽂書には話題(トピック)があり、 その中でよく出てくる⾔葉も 時間によって変化する コロナ禍期間においてニュースのトピックはどのように変化したか?
  3. Data Strategy and Operation Center そもそも⽂書のトピックを捉えるには LDA (Latent Dirichlet Allocation)

    [Blei, 2003]がよく使われます Blei, 2012 ICML Tutorial http://www.cs.columbia.edu/~blei/talks/Blei_ICML_2012.pdf ⽂書の単語の種類と頻度から • ⽂書のトピック⽐率 • トピックの単語出現確率 を推定。
  4. Data Strategy and Operation Center トピックの変化追跡におけるLDAの課題 • LDAはそもそも⽂書の時間情報を考慮していない • 各時間ごとにLDAを使うのは?

    • 各学習ごとに結果が異なるため、本当に出現確率の変化が時間変化由来か 学習由来のノイズかを区別できない モデル⾃体にトピックの単語出現確率が時間変化すると仮定することで、 トピックの時間発展をより正しく捉えられる
  5. Data Strategy and Operation Center Dynamic Topic Model [Blei, 2006]

    → 各トピックにおける単語分布の時間依存性を考える “Atomic Physics” Blei, D. M. and Lafferty, J. D. (2006). Dynamic topic models. In International Conference on Machine Learning.
  6. Data Strategy and Operation Center Dynamic Topic Model (DTM) のアルゴリズム

    LDAのグラフィカルモデル Dynamic Topic Modelのグラフィカルモデル • Random Walkするトピックー単語分布βを確率値にする ため、softmaxを使う • 元論⽂ではα (⽂書のトピック⽐率に関するパラメータ) も時変という記述があるが、実際の推論アルゴリズムで は導出されていない • GensimのLdaSeqModel、DtmModelでも同様にαは変化 しない 1. Draw Topics 2. For each document: a. Draw b. For each word: i. Draw ii. Draw LDAと違うのは基本的にここだけ <latexit sha1_base64="MqkFLky9fjFuHW4p0+S5dCdEMzE=">AAACpHichVHLShxBFD22eZgxiaPZBNw0DooBHW5LJCGbSLJRkKBORgVHh+q2HAv7RXfNgOnMD+QHsshKQUTyGdkIbnXhJ4hLhWxceLunQzSS5DZdderce26dqrJDV8Wa6LTL6L53/8HDnkeF3sdPnvYV+wcW46AZObLqBG4QLdsilq7yZVUr7crlMJLCs125ZG+9T/NLLRnFKvA/6u1Qrnqi4asN5QjNVL34tmZLLeqJbn/+hcattlmLlWfWPKE3HeEmH9qjN5JjabbhibUJc+ZFvViiMmVh3gVWDkrIYy4o7qOGdQRw0IQHCR+asQuBmL8VWCCEzK0iYS5ipLK8RBsF1ja5SnKFYHaLxwavVnLW53XaM87UDu/i8h+x0sQwndABXdAhfaczuvprryTrkXrZ5tnuaGVY7/vyvPLzvyqPZ43N36p/etbYwOvMq2LvYcakp3A6+tanrxeVNwvDyQjt0jn736FT+sEn8FuXzt68XPiGAj+A9ed13wWLE2VrskzzL0tT7/Kn6MEghjDK9/0KU5jGHKq87x6OcIwTY8SYNSpGtVNqdOWaZ7gVxto1QnmiBw==</latexit> t | t 1 ⇠ N( t 1, 2I) <latexit sha1_base64="HEJnihpySL0CY4UlQjgjSDQ6AXw=">AAACinichVG7ThtBFD0sCRDzMtBESrOK5Qga6xqBeKRBCQUlLwMSi6zZZcAj70u7Y0tm5R8IH5CCikhRhFKlTco0+YEUfAKiBImGguv1SggQyR3NzJkz99w5M2OHroo10XmP0fviZV//wKvc4NDwyGh+bHwrDhqRIytO4AbRji1i6SpfVrTSrtwJIyk825Xbdv1jZ3+7KaNYBf6mboVyzxOHvjpQjtBMVfNFS9ekFtVkv21asfJMyxO6FnnJsora5qQl3LAmpqr5ApUoDfMpKGeggCxWg/w3WNhHAAcNeJDwoRm7EIi57aIMQsjcHhLmIkYq3ZdoI8faBmdJzhDM1nk85NVuxvq87tSMU7XDp7jcI1aaKNJfOqMr+kPf6YJun62VpDU6Xlo8212tDKujn15v3PxX5fGsUbtX/dOzxgHmU6+KvYcp07mF09U3jz5fbSyuF5N39IUu2f8pndNvvoHfvHa+rsn1E+T4A8qPn/sp2JoulWdLtDZTWPqQfcUA3uAtJvm957CEFayiwuce4wd+4pcxZEwbC8b7bqrRk2km8CCM5Tt2Jpf/</latexit> ✓d ⇠ Dir(↵) <latexit sha1_base64="gK9AalcZoXuQUVURcXUPDw+j2Y0=">AAAChXicSyrIySwuMTC4ycjEzMLKxs7BycXNw8vHLyAoFFacX1qUnBqanJ+TXxSRlFicmpOZlxpaklmSkxpRUJSamJuUkxqelO0Mkg8vSy0qzszPCympLEiNzU1Mz8tMy0xOLAEKxQsoRCnEFGfmKsTkJpZkFOVW+5bmlNRqxJRkpJYkxlen1GrGCygb6BmAgQImwxDKUGaAgoB8geUMMQwpDPkMyQylDLkMqQx5DCVAdg5DIkMxEEYzGDIYMBQAxWIZqoFiRUBWJlg+laGWgQuotxSoKhWoIhEomg0k04G8aKhoHpAPMrMYrDsZaEsOEBcBdSowqBpcNVhp8NnghMFqg5cGf3CaVQ02A+SWSiCdBNGbWhDP3yUR/J2grlwgXcKQgdCF180lDGkMFmC3ZgLdXgAWAfkiGaK/rGr652CrINVqNYNFBq+B7l9ocNPgMNAHeWVfkpcGpgbNZuACRoAhenBjMsKM9AxN9QwCTZQdnKBRwcEgzaDEoAEMb3MGBwYPhgCGUKC9bQxrGLYybGNiZ9JlMmEygyhlYoTqEWZAAUz2ACa2lig=</latexit> Z ⇠ Mult(✓d) <latexit sha1_base64="raX3wLoIAgN1O4/oVsGajqMFyyg=">AAAConichVHLShxBFD12XjpqnCQbwU3jqCjIcEcSlEBAdCNCwHEcR3BkqG5rtLBfdNcM0WZ+ID+QhSsTQpB8RjbJVnHhJ4hLA9m48HZPB0nE5DZdde6pe26dqrICR0Wa6LzHePDw0eMnvX25/oHBp0P5Z8/XI78V2rJq+44fblgiko7yZFUr7ciNIJTCtRxZs/YWk/VaW4aR8r01vR/ILVfseKqpbKGZauTf1Bqxnja3p02vY9Yj5Zp1V+jd0I3fthzdmfydRX5Tu+IdE5bUItEcdKamGvkCFSkN8y4oZaCALFb8/BfUsQ0fNlpwIeFBM3YgEPG3iRIIAXNbiJkLGal0XaKDHGtbXCW5QjC7x+MOZ5sZ63Ge9IxStc27OPyHrDQxTmd0TFf0nb7SBV3f2ytOeyRe9nm2uloZNIbeD1d+/Vfl8qyxe6v6p2eNJuZSr4q9BymTnMLu6tsHH64qr1fH4wn6SJfs/4jO6RufwGv/tD+X5eohcvwApb+v+y5YnymWXhWp/LIwv5A9RS9GMIpJvu9ZzGMJK6jyvp/wAyc4NcaMZaNsVLqlRk+meYE/wqjfAJKPoeg=</latexit> Wt,d,n ⇠ Mult(softmax( t,z))
  7. Data Strategy and Operation Center データ概要 • 2020年1⽉1⽇〜7⽉19⽇にクラウド名刺管理サービス「Sansan」、 名刺アプリ「Eight」で配信された記事のタイトル +

    本⽂を使⽤ • 新型コロナウイルスの感染拡⼤時期に、トピックがどのように変化したかを捉えたい • 前処理 - Mecab-ipadic-NEologdを⽤いて形態素解析 - 名詞のみを使⽤ - 出現頻度が20以下の単語を除外 - 表記ゆれの統⼀ ▶ 新型コロナ系の単語を “新型コロナウイルス” に統⼀
  8. Data Strategy and Operation Center Dynamic Topic Modelの設定概要 • ⽂書は週毎に集約

    - 1⽉1⽇から7⽉19⽇まで29週 → 29時点 • トピック数の決定 - 時点ごとのcoherenceの総和でチューニング。トピック数は3 • 得られた以下の3つのトピックについて、単語出現確率の時間推移を調査 - 感染系トピック - 経済系トピック - ビジネス系トピック
  9. Data Strategy and Operation Center 感染系トピック 初期は中国の出現確率が最も⾼い - “新型コロナウイルス”・”新型 肺炎”

    など呼称が統⼀されて いなかったため? 2⽉前半からは - “新型コロナウイルス” - “感染拡⼤” - “緊急事態宣⾔”
  10. Data Strategy and Operation Center 経済系トピック “減”・”増”・”決算” に2つのピーク - 2⽉:昨年12⽉期決算発表

    - 5⽉: 3⽉期決算発表 2⽉ピークよりも5⽉ピークの⽅が “増” に対する “減” の割合⼤きい → コロナウイルスの財政への影響
  11. Data Strategy and Operation Center ビジネス系トピック 1⽉末 〜 5⽉にかけて “オンライン”

    “テレワーク” “クラウド” 等が社会に浸透 記事の例: - コロナ禍に対応、販売員応援特設サイトの無料 オンライン研修拡充〜 - Zoomを使⽤した「オンライン〇〇」がコロナ の外出⾃粛を⽀援〜 - テレワーク・サテライトオフィスでのテレビ会 議に最適な〇〇を発売。
  12. Data Strategy and Operation Center Dynamic Topic Modelと既存のLDAとの⽐較 全ての定量指標でDynamic系のアルゴリズムが既存のLDAよりも優れている Method

    Coherence Diversity Topic Quality Held-out Perplexity 通常のLDA -8.817 0.947 -8.347 291.7 時間ごとに学習させたLDA 4.043 0.794 3.207 1408 Dynamic Topic Model 18.529 0.952 17.728 231.8 まとめ • Dynamic Topic Modelにより、コロナ禍におけるニュースのトピックの時間発展を 捉えられた • 定量⾯でも、トピックの単語出現確率の変化を考慮するDynamic Topic Modelは有効
  13. Data Strategy and Operation Center Generalized Dynamic Topic Models •

    カーネル関数により時系列性のモデリングの⾃由度が ⾼い(RBF、Cauchy、Periodic、etc…) • ガウス過程の問題点: 点が増えると計算量が膨⼤になる (共分散⾏列の逆⾏列が必要になるため。この場合 (T!)) - ガウス過程にスパース近似を導⼊ - スパース近似とは? → データ点数よりも少ない仮想的な⼊⼒点 (補助変数)を配置し近似する⼿法 - 適切に補助変数を配置できれば、少ない個数で優れた 近似が可能になる ▶配置アルゴリズムには変分推論を使⽤ トピックー単語分布βにガウス過程を導⼊ 「ガウス過程と機械学習」サポートページより引⽤ http://chasen.org/~daiti-m/gpbook/
  14. Data Strategy and Operation Center カーネル関数による時系列性のモデリング 16 カーネル関数を変えることで、様々な時系列変化をモデリングできる Wiener Kernel

    Ornstein-Uhlenbeck Kernel Cauchy Kernel <latexit sha1_base64="DVm2g5kbBgQqI6Eo3LLeuy+JF8I=">AAACwXichVHLahRBFL3p+IjjI6PZCNkUDtEJmOFOUAwBISQbd+Y1SSAdh+pOzUwx1d1Fdc2QpDI/4A9k4cqAiPgXuvEHXOQPFFcxghsX3u5pEA3qbbrq3lPn3DpVFWglU4t4MuKNXrh46fLYldLVa9dvjJdv3tpIk54JRSNMVGK2Ap4KJWPRsNIqsaWN4FGgxGbQXcrWN/vCpDKJ1+2+FjsRb8eyJUNuCWqWfb/LteZN97QxYFXf8t59lo33ph8zP5XtiD9zswPmR9x2TOTEnqZCiZatshm/ZXjoDjM6mxmq2OHAKWIY2e7Y6Wa5gjXMg51P6kVSgSKWk/Jr8GEXEgihBxEIiMFSroBDSt821AFBE7YDjjBDmczXBQygRNoesQQxOKFdGttUbRdoTHXWM83VIe2i6DekZDCFH/ENnuEHfIuf8cdfe7m8R+Zln+ZgqBW6Of789tr3/6oimi10fqn+6dlCC+Zyr5K86xzJThEO9f2Do7O1+dUpdxeP8Qv5f4kn+J5OEPe/ha9WxOoLKNED1P+87vPJxmyt/rCGKw8qC4vFU4zBJNyBKt33I1iAJ7AMDdr3HXyCU/jqLXnS054ZUr2RQjMBv4XnfgJld60f</latexit>  OU (⌧, ⌧0) = 2exp ✓ |⌧ ⌧0| l ◆ <latexit sha1_base64="PyEuS/VMI/aTEmkS6wuvwI1ZvQs=">AAACsXichVHLThRBFD20LxhURtmQuOk4QYfETO6gBEJCQnDjwgUPh8HQOFY3NTOV6Ve6ayaBzvwAP8DClSbGGHf+ght/gASWsCMuIWHjwts9nfgg6u101bmn7rl1qsoOXRVroqMh48rVa9dvDI8URm/euj1WvHN3PQ66kSNrTuAG0YYtYukqX9a00q7cCCMpPNuVdbvzNF2v92QUq8B/oXdCueWJlq+ayhGaqUbxudURYSgaSb1vli0tuo/MdHw4tWBasWp54lUy3TctT+h25CWe8jlxZVOXzV+KTStSrbaeahRLVKEszMugmoMS8lgOih9gYRsBHHThQcKHZuxCIOZvE1UQQua2kDAXMVLZukQfBdZ2uUpyhWC2w2OLs82c9TlPe8aZ2uFdXP4jVpqYpAP6SGf0lT7RKX3/a68k65F62eHZHmhl2Bjbm1i7+K/K41mj/VP1T88aTcxlXhV7DzMmPYUz0Pd298/W5lcnkwf0jr6x/7d0RF/4BH7v3Hm/IlffoMAPUP3zui+D9elKdaZCK09Ki0v5UwzjHu6jzPc9i0U8wzJqvO9nHOIYJ8Zj46Xx2rAHpcZQrhnHb2F0fgAFuKZv</latexit> W (⌧, ⌧0) = 2min (⌧, ⌧0) <latexit sha1_base64="U2wPCWfUL07xWuAnvcBQplOQrHY=">AAACvHichVFNaxQxGH46VlvXj271UugluFS3qEtmURShUuzFYz/cbqHTLplpdhs288FMZqEO+wf8Ax48tVBE/A09efEPeOjZk6inCl566DuzA6JFfUOSN0+e582TxI20Sgznx2PWhfGLlyYmL1euXL12fao6fWM9CdPYky0v1GG84YpEahXIllFGy40olsJ3tWy7/aV8vz2QcaLC4IXZi+SWL3qB6ipPGII61bbTF1EkOtmSSIes7hiR3mP5eGd+gTmJ6vliO2sOmaNl19Rtdpc53Vh4WcFk90vqdnOY6ZxHxFj1ds18p1rjDV4EO5/YZVJDGcth9S0c7CCEhxQ+JAIYyjUEEmqbsMEREbaFjLCYMlXsSwxRIW1KLEkMQWifxh6tNks0oHVeMynUHp2iqcekZJjjn/g7fsI/8vf8Cz/9a62sqJF72aPZHWll1Jl6NbP2878qn2aD3V+qf3o26OJx4VWR96hA8lt4I/3g5euTtSerc9ltfsC/kv99fsw/0A2CwQ/vcEWuvkGFPsD+87nPJ+vNhv2wwVce1BaflV8xiVncQp3e+xEW8RzLaNG5R/iMb/huPbV2rL7lj6jWWKm5id/CGpwBas+puA==</latexit> Cau(⌧, ⌧0) = 2 ✓ 1 + (⌧ ⌧0)2 l2 ◆
  15. Data Strategy and Operation Center Dynamic Correlated Topic Models Generalized

    Dynamic Topic Modelと Correlated Topic Model の組み合わせ • Correlated Topic Model - トピック間の相関を考慮するモデル - どのようにトピック間の相関を考慮するか? → 多変量正規分布の共分散⾏列を⽤いる • 共分散⾏列の時系列変化には、共分散⾏列の 逆⾏列の確率分布として使われるWishart分 布を確率過程とした generalized Wishart processを⽤いる トピック間の相関推移
  16. Data Strategy and Operation Center Dynamic Embedded Topic Models [Blei,

    2019] Embedded Topic Model [Blei, 2019] をDynamicに拡張 • Embedded Topic Model - トピック埋め込み α を定義し、w2vとの内積 & softmax で単語分布を得る - トピック埋め込みによって既存のw2vを活⽤し つつ、推定するパラメータを減らせるのがメ リット(K * V個 → K * (embedding size) 個) • Dynamic Embedded Topic Modelではαの時 間依存性を導⼊する。 <latexit sha1_base64="IuTM4zA2/RoqQ3CdMHXjhAgAASs=">AAACn3ichVFNa9RAGH4arbZrtau9CL1El0q9LO+KohSEoof2JNvW7QdNDZM42w2bZEIyG2xD/oB/oIdeWkFE/BlC6U0vHvoTxGMFLx76JhsQLeo7zMwzz7zPO8/MOJHvJZroZMS4cHH00uWx8dqViavXJuvXb6wmahC7suMqX8Xrjkik74Wyoz3ty/UoliJwfLnm9J8W+2upjBNPhc/1TiS3ArEdel3PFZopuz5nOVILO+unufnYtAKhe3GQJaqrA/EqN2etuKfsLM1fZJZWUW5awo96RX5+1643qEllmOdBqwINVNFW9Xew8BIKLgYIIBFCM/YhkHDbRAuEiLktZMzFjLxyXyJHjbUDzpKcIZjt87jNq82KDXld1ExKtcun+NxjVpqYoS/0nk7pmD7QV/r511pZWaPwssOzM9TKyJ58fXPlx39VAc8avV+qf3rW6OJR6dVj71HJFLdwh/p0d+90ZW55JrtDb+gb+z+kE/rINwjT7+7bJbm8jxp/QOvP5z4PVu81Ww+atHS/Mf+k+ooxTOM2Zvm9H2Iei2ijw+ce4Aif8Nm4ZSwYz4z2MNUYqTRT+C2MjTPC0qGo</latexit> kv = softmax(⇢> v ↵k) <latexit sha1_base64="COv62bfRYwwOdjs1ATxpuAFBH6A=">AAACq3ichVFBa9RAGH2Nta1rbVe9CF6CS8v24PKtWBRBWFoQj23X3RabGibpbDdskgnJ7GIN+QP9Az30VEFE7L/w4lnwUPQPiMcKXjz4JRsQLeo3zMybN9/75s2ME/leoolOJ4wLkxenpmcuVS7PXpmbr1691k3UMHZlx1W+ircckUjfC2VHe9qXW1EsReD4ctMZrOb7myMZJ54Kn+j9SO4EYi/0ep4rNFN29ZHlSC3sdDDKnqV1vZSZD00rELofB2miejoQzzOzbsV9Zad5iqVVlJmW8KN+ripFS3a1Rg0qwjwPmiWooYw1VX0NC7tQcDFEAIkQmrEPgYTbNpogRMztIGUuZuQV+xIZKqwdcpbkDMHsgMc9Xm2XbMjrvGZSqF0+xeces9LEAn2kN3RG7+ktfaEff62VFjVyL/s8O2OtjOz5gxvt7/9VBTxr9H+p/ulZo4f7hVePvUcFk9/CHetHLw7P2g82FtJFeklf2f8xndI7vkE4+ua+WpcbR6jwBzT/fO7zoHun0Vxu0PrdWmul/IoZ3MQt1Pm976GFx1hDh889wQd8wmfjttE2nhrWONWYKDXX8VsY8icWM6ZW</latexit> (t) kv = softmax(⇢> v ↵(t) k )
  17. Data Strategy and Operation Center Dynamic Embedded Topic Models [Blei,

    2019] Embedded Topic Model [Blei, 2019] をDynamicに拡張 トピック⽐率: LSTM (時間⽅向の依存を捉える) トピック埋め込み: 平均場近似 (時間⽅向の依存を仮定しない) • 明⽰的にトピック⽐率の時間変化をLSTMで モデリングしているのが、もう⼀つの⼤きな特徴 - Dynamic Topic Modelではアルゴリズムはトピック⽐ 率の時間発展は明⽰的にモデル化されていない - LDAの各種指標はトピック⽐率の推定に⼤きく依存 [Wallach, 2009] • αは推定の安定化のため、平均場近似 - つまり、単に時間ごとに異なるパラメータとして 推定される
  18. Data Strategy and Operation Center まとめ • 時間依存性を考慮したLDAであるDynamic Topic Modelを適⽤することで、

    コロナ禍がニュースに与えた影響を捉えられる。 - 感染系トピック - 経済系トピック - ビジネス系トピック • 近年の⼿法 - Generalized Dynamic Topic Model (トピックー単語分布にガウス過程を使⽤) - Dynamic Correlated Topic Model (トピック間の相関の時間変化を考慮) - Dynamic Embedded Topic Model(トピック埋め込み&トピック⽐率の時間変化を考慮)
  19. Data Strategy and Operation Center まとめ LDA以外の時系列⽂書解析 (例えばw2v)については...? Sansan Builders

    Blogで私が書いたブログをぜひ読んでください! (⼿前味噌ですが) 「時間依存性を考慮したWord Embeddingsのまとめ」
  20. Data Strategy and Operation Center 参考⽂献 • 佐藤⼀誠 「トピックモデルによる統計的潜在意味解析」, コロナ社

    • 持橋⼤地, ⼤⽻成征「ガウス過程と機械学習」, 講談社 • David M. Blei, John D. Lafferty (2006). Dynamic topic models. In International Conference on Machine Learning. • Patrick Jähnichen, Florian Wenzel, Marius Kloft, Stephan Mandt (2018). Scalable Generalized Topic Models. In International Conference on Artificial Intelligence and Statistics. • Federico Tomasi, Praveen Chandar, Gal Levy-Fix, Mounia Lalmas-Roelleke, Zhenwen Dai (2020). Stochastic Variational Inference for Dynamic Correlated Topic Models. In Uncertainty in Artificial Intelligence. • Adji B. Dieng, Francisco J. R. Ruiz, David M. Blei (2019). The Dynamic Embedded Topic Models. • Lau, J. H., Newman, D., and Baldwin, T. (2014). Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality. In Conference of the European Chapter of the Association for Computational Linguistics. • Adji B. Dieng, Francisco J. R. Ruiz and David M. Blei. (2020) Topic Modeling in Embedding Spaces. In Transactions of the Association for Computational Linguistics. • Hanna M. Wallach, David M. Mimno, Andrew McCallum. (2009) Rethinking LDA: Why Priors Matter. In Neural Information Processing Systems.
  21. Data Strategy and Operation Center Dynamic Topic Modelのトピック⽐率推移 • トピック⽐率はほぼ⼀定という結果に

    • Dynamic Topic Modelではトピック⽐率 の時間変化は明⽰的には仮定していない • そのため、現実的にはトピック⽐率は変 化している可能性がある