機械学習を活用したコア CPI ナウキャスティング法の提案

機械学習を活用したコア CPI ナウキャスティング法の提案1,2 －東京都区部消費者物価指数を説明変数として－白井洋至† 【要旨】近年、機械の性能向上に加え、データ処理に必要なソフトウェアの導入コストが大幅に低下し
たこと等を背景に、ビッグデータや機械学習に関する研究が進んでおり（小寺ら[2018]）、それらのナウキャスティング（速報性の高い情報を用いて足もとの未公表の経済指標を予測すること）への応用もみられている。しかしながら、こうした研究、特に機械学習の活用については、ナウキャスティングを含めた経済分析において、未だ一般的とは言い難い状況にあり、その有効性を適正に評価するためにも知見の蓄積が必要である。本稿では、機械学習を活用した一例として、コア CPI のナウキャスティングを行った。本分析の特徴は、先行研究とは異なり、説明変数に POS データやテキストデータ等のビッグデータではなく、既存の経済指標である東京都区部消費者物価指数を用いたことである。分析の結果、当該月のコア CPI が当月中に高精度で予測可能であることが確認された。 1 本稿の内容は、個人的な見解をもとにまとめたものであり、掲載されている内容により、直接的・間接的を問わず、何らかの被害をこうむった場合にも一切の責任を負いません。また、本稿の内容は予告なしに変更または廃止することがあります。 2 最終更新日：2018 年 10 月 28 日 † y.shirai.j“at”gmail.com

1. はじめに景気の「今」をより早く、より正しく把握することは、エコノミストや市場参加者のみならず、経済分析に携わるもの全てにとって大きな課題である。一般に政府や公的機関の経済指標は、公表までにかなりの時間を要し、当該月の結果は次月以降に公表されることになる。そのため、いかに優れたエコノミストであろうと、景気の「今」を完全に把握することは不可能であり、それ
までに得られた情報から「今」を予測する必要がある。例えば、内閣府から公表される四半期別 GDP 速報（以下、GDP 統計）は、国民経済の活動状況を多面的・総合的に表す極めて重要な経済指標であるものの、各種の基礎統計を用いて推計される加工統計であるため、その公表時期は、 1 次速報が当該四半期終了後から 1 か月と 2 週間程度後、2 次速報はさらにその約 1 か月後と、ラグが生じている3。こうした経緯もあり、従前、GDP 統計をはじめ、速報性の高い情報を用いて足もとの未公表の経済指標を予測する、ナウキャスティング4に関する研究が行われている。原ら[2013]は、速報性の高い多数の経済指標を利用して月次 GDP を推計、それを用いて足もとの実質 GDP 成長率を予測し、その精度は、主要民間調査機関を平均的に上回るという結果を得ている5。近年では、機械の性能向上に加え、データ処理に必要なソフトウェアの導入コストが大幅に低下したこと等を背景に、ビッグデータや機械学習に関する研究が進んでおり（小寺ら[2018]）、それらのナウキャスティングへの応用もみられている6,7。ビッグデータを用いた例を挙げれば、株式会社ナウキャストは、POS データ等を用いて、消費者物価指数を公表の約１か月前に先読みする「日経 CPINow・S 指数」を公表している8,9。そのほか、近年では、経済産業省[2017]10、小寺ら [2018]は POS データを用いた、高杉ら[2015]、経済産業省[2017]はテキストデータを用いたナウキャスティングを行い、いずれもその有効性を示している。また、小寺ら[2018]は、ナウキャスティングに際し、複数の機械学習の手法を活用、その予測精度を比較し、ランダムフォレスト等のアンサンブル学習は、線形回帰等よりも精度が高いことを報告している。もっとも、筆者の知る限りでは、こうした研究、特に機械学習の活用については、ナウキャス 3 内閣府<http://www.esri.cao.go.jp/jp/sna/data/reference1/h23/pdf/sakusei_houhou23_201711.pdf> <http://www.esri.cao.go.jp/jp/sna/sokuhou/contents/mokuteki.html>（参照日：2018 年 10 月 28 日） 4 ナウキャスティングという言葉は、しばしば用いられるものの、その厳密な定義については必ずしも定まっていないように思われる。本稿では、白木ら[2013]を参考に、「速報性の高い情報を用いて足もとの未公表の経済指標を予測すること」と定義し、以後の議論を進めるが、そのほかにも、例えば、Banbura ら[2010]は、「We define nowcasting as the prediction of the present, the very near future and the very recent past」としている。 5 原ら[2013]は、限られた代表的な変数のみを用いて GDP 変動の大部分を説明した後、多数の GDP 基礎統計から抽出した主成分を用いて残りの変動部分を説明する、という 2 段階構造を採っている。 6 白木ら[2013]は、ビッグデータについて、「ビッグデータの定義は定まっていないが、①近年の情報通信技術の進展により初めて処理が可能となったほどの大量の情報を含んでおり、②テキストデータや画像など、必ずしも定型化されておらず、③リアルタイム性が高い、などといった特徴を持つデータ群を指す場合が多い」としている。 7 岡崎ら[2015]は、ビッグデータを用いた経済・物価分析に関する近年の研究を包括的に整理している。 8 株式会社ナウキャスト <https://lp.nowcast.co.jp/> <http://www.nikkei.co.jp/nikkeiinfo/news/release_20160120_01.pdf>（参照日：2018 年 10 月 28 日） 9 同社技術顧問の渡辺は、『S 指数を用いた日銀版コアコア指数の予測（2016 年 1 月 25 日）』において、「日経 CPINow の S 指数は、総務省 CPI のレプリカであり、対象商品の選定基準、集計の際のウエイトのかけ方、品質調整の方法、特売の扱い、商品の世代交代の扱いなど、全ての面で総務省の方法を踏襲したものである。唯一異なるのは価格データのソースだけであり、総務省は調査員が店舗に出向き値札を見てくるのに対して、S 指数はスーパーから送られてくる POS データを用いている」と述べている。<http://lp.nowcast.co.jp/doc/ja/d.html>（参照日：2018 年 10 月 28 日） 10 総務省<http://www.soumu.go.jp/main_content/000514024.pdf>（参照日：2018 年 10 月 28 日）

ティングを含めた経済分析において、未だ一般的とは言い難い状況にある11。この一因には、機械学習の性質によるところが大きいと考えられる。すなわち、サポートベクトルマシン等に代表される機械学習の手法は、非線形の手法であり、高い予測精度こそ期待されるものの、結果の解釈やその説明は、線形回帰等に比べて難しく、経済学的な理論モデルやエコノミストの実務等には馴染み辛いという特性を持つ12。しかし、ナウキャスティングのみに焦点を当てれば、その最大の目的が足もとの未公表の経済指標の予測であるため、こうした問題は、さほど大きくはならないのではないだろうか。なにより、機械学習の活用による知見が十分に蓄積していない現状を踏まえれば、その有効性を適正に評価するためにも、検討の余地があると考えられる。本稿では、機械学習を活用した一例として、消費者物価指数（生鮮食品を除く総合、以下コア CPI）13のナウキャスティングを行った。本分析の特徴は、前述の先行研究とは異なり、説明変数
に POS データやテキストデータ等のビッグデータではなく、東京都区部消費者物価指数（以下、東京 CPI）14を用いたことである。その理由として、当該指標は、CPI の先行指標として広く知られているものの、どの程度の予測力を持つか等、その定量的な評価まで踏み込んだ分析事例が乏しく、さらに、機械学習の活用により、既存の経済指標のみでも、良好な予測結果が得られれば、今後のナウキャスティング手法に新たな可能性を示すことにも繋がると考えたからである15。以下では、2 章で CPI と東京 CPI の概要や CPI ナウキャスティングの必要性等を整理した後、 3 章、4 章でそれぞれ分析手法とその結果、5 章で全体をまとめる。 11 ナウキャスティングではないものの、近年の経済分析における機械学習の活用例としては、安部[2018]、日本銀行 [2017]、内閣府[2018]等が挙げられる。 12 日本銀行[2017]は、機械学習によるアプローチについて、「伝統的な経済学サイドからは、「ルーカス批判」が寄せられるかもしれない。すなわち、得られた分析結果は、「機械」が学習した「経験則」にもとづいており、学習されたパラメータが構造的なものでないとの指摘である」と述べている。 13 以下、消費者物価指数を CPI、うち生鮮食品（生鮮魚介、生鮮野菜、生鮮果物）を除く総合をコア CPI とする。 14 以下、東京都区部消費者物価指数（中旬速報値）を東京 CPI、うち生鮮食品を除く総合を東京コア CPI とする。 15 高部[2018]は、状態空間モデルを用いて、複数の経済指標から GDP 個人消費を推定しており、説明変数に既存の経済指標を用いる点では本分析と共通している。

2. CPI と東京 CPI16 2.1 CPI CPI は、家計の消費構造を一定のものに固定し、これに要する費用が物価の変動によってどう変化するかを指数値で示したものであり、総務省統計局より月次で作成・公表されている。指数算式は、ラスパイレス型で(1)式のように定義され、(2)式はその前年同月比である。現行
CPI の基準時及びウエイトの参照年次は、2015 年の 1 年間であり、指数のウエイトは、主に家計調査によって得られた 2015 年平均 1 か月の 1 世帯当たり品目別消費支出金額を用いて作成される17。指数品目の価格には、原則として小売物価統計調査によって得られた小売価格が用いられている。また、CPI の基調をみるためには、天候要因で値動きが激しい「生鮮食品」を除いた、「生鮮食品を除く総合（コア CPI）」が有用とされており、(3)式で定義される。 𝐼𝑡 = ∑ 𝑃𝑡,𝑖 𝑞0,𝑖 𝑛 𝑖=1 ∑ 𝑃0,𝑖 𝑞0,𝑖 𝑛 𝑖=1 × 100 = ∑ 𝑃𝑡,𝑖 𝑃0,𝑖 𝑤0,𝑖 𝑛 𝑖=1 ∑ 𝑤0,𝑖 𝑛 𝑖=1 × 100 (1) 前年同月比 (%) = 𝐼当月 − 𝐼前年同月 𝐼前年同月 × 100 (2) 生鮮食品を除く総合 = (𝐼総合 × 𝑤総合 ) − (𝐼生鮮食品 × 𝑤生鮮食品 ) 𝑤総合 − 𝑤生鮮食品 × 100 (3) CPI は、経済政策を的確に推進する上でも極めて重要な指標であり、家計調査や GDP 統計における家計消費支出等、他の重要な経済指標を実質化するためのデフレーターとして利用されるほか、国民年金や厚生年金等では、物価変動に応じて実質的な給付水準を見直すことが法律によって定められており、この物価の動きを示す指標として使われている。さらに、近年では、日本銀行が、2013 年 1 月に「物価安定の目標」を CPI の前年比上昇率 2％と定め18、2016 年 9 月には「長 16 総務省統計局 <http://www.stat.go.jp/data/cpi/2015/kaisetsu/index.html> <http://www.stat.go.jp/data/cpi/4.html>（参照日：2018 年 10 月 28 日） 17 CPI の基準年は、西暦年の末尾が 0 と 5 の年を基準時として、5 年ごとに改定（基準改定）される。その際、併せて指数に採用する品目等の見直しも行われる。採用品目は、世帯が購入する多種多様な財及びサービス全体の物価変動を代表できるように、家計の支出の中で重要度が高いこと、価格変動の面で代表性があること、継続調査が可能であること等の観点から選定した 584 品目に持家の帰属家賃１品目を加えた 585 品目（沖縄県のみで調査する 4 品目を含む）とする。 18 日本銀行 <http://www.boj.or.jp/announcements/release_2013/k130122c.pdf>（参照日：2018 年 10 月 28 日） I：指数、p：価格、q：購入数量、w：ウエイト( = pq)、i：品目、0：基準時、t：比較時

短金利操作付き量的・質的金融緩和」のもと、コア CPI の前年比上昇率の実績値が安定的に 2％を超えるまでマネタリーベースの拡大方針を継続する「オーバーシュート型コミットメント」を導入したことから19、金融政策の判断材料として注目されており、より早く、より正確に CPI を把握したいというニーズは高まっている。しかしながら、CPI の公表時期は、
「前月分指数を、原則として毎月 19 日を含む週の金曜日に公表」と、実勢とは半月以上のタイムラグが生じており、ナウキャスティングの必要性があるといえる20。 2.2 東京 CPI 東京 CPI は、総務省統計局より、CPI と同様の形式で作成され、その公表時期は、「当月分指数の中旬速報値を、原則として毎月 26 日を含む週の金曜日に公表」と、CPI に１ヶ月弱先行しており、CPI の先行指標として広く知られている。すなわち、東京 CPI を用いたナウキャスティングを行えば、当該月の CPI をラグなく当月中に予測することが可能になる21。図１はコア CPI と東京コア CPI の推移であり、両者のトレンドは概ね一致していることが確認される22。なお、両者の乖離については、(1)式の通り、品目別の価格動向やウエイトの差が影響している。表 1 は、10 大費目について、CPI と東京 CPI のウエイトを比較したものであり、それぞれの消費構造の違いから、住居、交通・通信等で差がみられる。 19 日本銀行 <http://www.boj.or.jp/announcements/release_2016/k160921a.pdf>（参照日：2018 年 10 月 28 日） 20 CPI の公表時期は、2018 年 1 月分以降、「26 日を含む週の金曜日」から 1 週間早期化された。 21 東京 CPI は、中旬速報値であるものの、確報値と大きな差が生じないことも先行指標としての利点の一つである。 22 前述の通り、東京コア CPI がコア CPI に対して、どの程度の予測力を持つのか等、その定量的な評価まで踏み込んだ分析事例は乏しく、本分析では、ベンチマークとして 3 章以降で評価する。 CPI 東京 CPI 食料生鮮食品を除く食料住居光熱・水道家具・家事用品被服及び履物保健医療交通・通信教育教養娯楽諸雑費 26% 22% 21% 7% 3% 4% 4% 15% 3% 10% 6% 25% 21% 26% 6% 3% 5% 4% 10% 5% 10% 5% 図 1 コア CPI と東京コア CPI（前年同月比）の推移表 1 CPI と東京 CPI の 10 大費目ウエイト（備考）総務省「消費者物価指数」により作成、「」によりコア CPI（実線）、「」により東京コア CPI （点線）、「」により

(単位：%) (単位：%) 平均中央値標準偏差最大値最小値平均中央値標準偏差
最大値最小値コアCPI(説明変数) 0.5 0.1 1.2 3.4 -2.4 シャツ・セーター類 0.5 0.5 3.2 10.6 -9.2 穀類 0.2 -0.1 3.4 12.5 -10.9 下着類 0.9 0.7 2.9 8.9 -5.6 肉類 0.8 0.5 2.6 9.2 -6.0 履物類 0.9 0.8 2.8 8.0 -6.6 乳卵類 0.5 0.1 3.7 14.3 -11.2 他の被服 0.6 0.3 2.5 8.5 -7.4 油脂・調味料 -0.1 -0.5 2.3 8.8 -4.7 被服関連サービス 0.9 0.5 1.6 5.9 -2.2 菓子類 1.0 0.3 2.0 8.2 -3.7 医薬品・健康保持用摂取品 0.0 -0.3 1.6 3.9 -3.7 調理食品 0.9 0.7 1.8 6.1 -4.0 保健医療用品・器具 -0.9 -1.1 1.9 4.5 -6.1 飲料 -0.5 -0.7 2.1 5.9 -5.8 保健医療サービス 1.9 0.8 4.5 24.9 -2.0 酒類 -0.1 -0.2 1.5 4.9 -3.4 交通 0.8 0.2 1.7 7.3 -1.8 外食 1.0 0.6 1.4 5.7 -2.5 自動車等関係費 0.4 0.6 2.3 6.1 -9.1 家賃 0.5 -0.1 1.5 4.2 -2.5 通信 -1.4 -1.0 2.2 3.2 -7.7 設備修繕・維持 0.6 -0.1 2.2 7.3 -3.1 授業料等 1.5 1.2 2.3 5.2 -10.0 電気代 -0.1 0.0 5.4 15.4 -14.6 教科書・学習参考教材 1.4 0.9 2.1 8.1 -1.8 ガス代 0.1 0.4 5.4 11.5 -19.5 補習教育 1.3 0.7 2.1 6.8 -4.9 他の光熱 2.4 1.3 14.3 49.3 -41.1 教養娯楽用耐久財 -9.3 -7.8 8.8 17.0 -36.2 上下水道料 0.7 0.0 2.8 15.4 -1.3 教養娯楽用品 -0.1 -0.2 2.2 6.8 -6.0 家庭用耐久財 -4.2 -3.7 5.0 12.1 -22.3 書籍・他の印刷物 1.5 0.5 2.4 10.7 -1.1 室内装備品 -1.3 -1.2 2.5 5.0 -8.9 教養娯楽サービス 1.1 1.0 2.0 8.0 -3.7 寝具類 -0.6 -0.9 2.8 10.1 -8.0 理美容サービス 1.1 0.5 1.4 4.9 -0.6 家事雑貨 0.8 0.4 1.9 7.3 -3.6 理美容用品 -0.3 -0.4 1.3 3.1 -3.8 家事用消耗品 -1.3 -1.6 2.3 7.1 -5.6 身の回り用品 0.8 0.7 2.5 9.1 -6.1 家事サービス 0.7 0.0 2.0 16.8 -3.0 たばこ 2.4 0.0 7.0 38.6 -0.3 和服 0.2 0.2 2.7 7.9 -9.0 他の諸雑費 2.1 0.0 5.1 23.5 -1.0 洋服 0.1 -0.4 3.4 11.4 -8.4 3. 分析手法 3.1 分析の概要本分析では、コア CPI を目的変数、東京 CPI のうちコア部分に相当する中分類 46 品目を説明変数としてナウキャスティングを行った23。分析には 1987 年 1 月から 2018 年 9 月までのデータを用い、1987 年 1 月から 2016 年 12 月の 360 か月分を学習データ、2017 年 1 月から 2018 年 9 月の 21 か月分をテストデータとした。表 2 は、目的変数（コア CPI）と説明変数（東京 CPI 中分類 46 品目）の基本統計量である。予測手法としては、図１で示したコア CPI と東京コア CPI の単回帰分析をベンチマークに、一般的な手法として①重回帰分析を、機械学習の手法として②エラスティックネット、③サポートベクトル回帰（変数選択なし）、④サポートベクトル回帰(感度分析法による変数選択)をそれぞれ用いて、テストデータにおける実績値と予測値の RMSE（平均平方二乗誤差）により、各手法の予測精度を比較した24,25。なお、機械学習の手法であるエラスィックネット、サポートベクトル回帰は、ハイパーパラメータを設定する必要があり、本分析では、学習データを 5 年ごとに分割した 6 分割交差確認法によりハイパーパラメータを選択した26。 23 東京 CPI の中分類のうち、生鮮食品を含む「魚介類」、「野菜・海藻」、「果物」を除いた 46 品目を説明変数とした。 24 分析には、統計解析ソフト「Ｒ」を用い、AIC には「MASS」パッケージ、エラスティックネットには「glmnet」パッケージ、サポートベクトル回帰には「kernlab」パッケージを用いた。 25 なお、本分析に際し、ランダムフォレスト等の手法も試したが、それほど良いパフォーマンスは得られなかった。この理由には、分析データのサンプルサイズがそれほど大きくないこと、分析データがそれほど強い非線形性を持たないこと等が考えられる。 26 交差確認法については、Hastie ら[2014]等を参照。評価には RMSE の平均値を用いた。表 2 本分析で用いるデータの基本統計量（備考）総務省「消費者物価指数」により作成、「」により

3.2 本分析で用いる予測手法の概要27 ① 重回帰分析一般的な予測手法として重回帰分析を用いた。重回帰分析のパラメータβは、(4)式の通り、最小二乗法により残差平方和が最小になるように求めることができる。なお、本分析では、AIC を基準としたステップワイズ法により、機械的に説明変数の選択を行った。 AIC
は(5)式で定義され、最も小さい値をとるモデルが最良と評価される。 𝛽𝐿𝑀 = argmin 𝛽 {∑(𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑝 𝑗=1 )2 𝑁 𝑖=1 } (4) AIC = −2 × (最大対数尤度) + 2 × (モデルの中のパラメータ数) (5) ② エラスティックネット重回帰分析において、説明変数間の相関が非常に高い場合や説明変数の数がサンプルサイズに近い、もしくはそれ以上の場合、最小二乗法では適切な推定量が得られない場合がある。このような問題を解消するために、回帰係数の大きさに罰則を課したリッジ回帰や lasso が用いられている。リッジ回帰は、(6)式で表され、(4)式に正則化項を追加した形となっている。正則化パラメータλ(≧0)が大きくなると、縮小度合いが大きくなり、係数は互いにゼロに向かって縮小されることになる。 𝛽𝑟𝑖𝑑𝑔𝑒 = argmin 𝛽 {∑ (𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑝 𝑗=1 )2 + 𝜆 ∑ 𝛽𝑗 2 𝑝 𝑗=1 𝑁 𝑖=1 } (6) lasso は、 (7)式で表され、 λを大きくすると、係数のいくつかは完全にゼロになる。それゆえ、 lasso によりある種の連続的な変数選択を行うことができる。 𝛽𝑙𝑎𝑠𝑠𝑜 = argmin 𝛽 { 1 2 ∑(𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑝 𝑗=1 )2 + 𝜆 ∑|𝛽𝑗 | 𝑝 𝑗=1 𝑁 𝑖=1 } (7) 27 各予測手法の詳細については、赤穂[2008]、川野ら[2018]、小寺ら[2018]、坂本ら[1983]、島谷[2012]、Hastie ら[2014]等を参照。 yi （i = 1,…,n）：目的変数、xij （i = 1,…,n, j = 1,…,p）：説明変数、β0 ,βj ：パラメータ

本分析では、リッジ回帰、lasso をそのまま用いるのではなく、両者の折衷案であるエラスティックネット（式(8)）を用い、交差確認法により適切なハイパーパラメータ（α,λ）を選択した28,29。 𝛽𝑒𝑙𝑎𝑠𝑡𝑖𝑐 𝑛𝑒𝑡 = argmin 𝛽 {∑
(𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑝 𝑗=1 )2 + 𝜆 ∑ (𝛼𝛽𝑗 2 + (1 − 𝛼)|𝛽𝑗 |) 𝑝 𝑗=1 𝑁 𝑖=1 } (8) ③ サポートベクトル回帰（変数選択なし）サポートベクトル回帰は、(9)式の制約の下、(10)式を解くことにより表現される30。(10)式の第一項は損失関数、第二項は正則化項、（ε,β,λ）はハイパーパラメータである。サポートベクトル回帰の特徴として、赤穂[2008]は、パラメータαの次元はサンプル数と同じであり、サンプル数が多いほど複雑な関数を表現できること、説明変数については、カーネル関数を用いているため、非線形な関数を実現できること、さらに(10)式の損失関数は、二乗誤差に比べて、外れ値に対してロバストであること等を指摘している31。 𝜉𝑖 ≥ 𝑦(𝑖) − 𝑓(𝒙(𝑖)) − ε, 𝜉𝑖 ≥ 0, 𝜉𝑖 ≥ −(𝑦(𝑖) − 𝑓(𝒙(𝑖))) − ε (9) min 𝝃,𝜶 ∑ 𝜉𝑖 𝑛 𝑖=1 + 𝜆 2 𝜶𝑡𝑲𝜶 (10) 28 Hastie ら[2014]は、「エラスティックネットは、lasso のように変数を選択し、リッジ回帰のように相関のある予測変数を同時に縮小させる」と指摘している。 29 交差確認の結果、本分析では、リッジ回帰（α=1）が選択された。 30 (9)、(10)式の各関数は以下の通り。第二式がカーネル関数であり、本分析ではガウスカーネルを用いた。 f(𝐱) = ∑ 𝛼𝑖 𝑘(𝒙(𝑖), 𝒙) 𝑛 𝑖=1 k(𝒙, 𝒙′) = exp (−β‖𝒙 − 𝒙′‖2) 𝜉𝑖 = 𝑟𝜀 (𝑦(𝑖) − 𝑓(𝒙(𝑖))) 𝑟𝜀 (z) = z − ε (ε ≤ z ), 0(−ε ≤ z < ε ), − z − ε (z < −ε ) 31 そのほか、田村ら[2018]は、サポートベクトル回帰では説明変数間の交互作用が自動的に対処されるため、交差項の追加が不要であることを指摘している。

④ サポートベクトル回帰(感度分析法による変数選択) サポートベクトル回帰は、ロバストな手法であるものの、田辺ら[2018]はサポートベクトル回帰において感度分析法による変数選択の有効性を指摘しており、本分析でも田辺[2018]らを参考に説明変数の選択を行った。当該手法は、目的変数に対する各説明変数の感度を計算し、感度の低い説明変数を順次削除しながら、モデルを学習最適化し、実績値と予測値の RMSE が最小となる
説明変数の組を探索する方法である。本分析における変数選択の手順は以下の通りである。 (1) 3.1 の通り、学習データについて、交差確認法によりハイパーパラメータを選択する。 (2) (1)の結果を用いて、学習データ全てについてのモデルを作成し、そのモデルを用いて、テストデータにおける実績値と予測値の RMSE を算出する32。 (3) 各説明変数の感度を求めるため、学習データにおいて、当該説明変数は実際の数値に、その他の説明変数は全期間の平均値にそれぞれ設定したデータセットを(2)のモデルに入力し、出力値を求める。 (4) 当該説明変数を説明変数、(3)の出力値を目的変数とする単回帰分析を行い、回帰分析の傾きを当該説明変数の感度とする。 (5) 全説明変数の中で感度の絶対値が最小の変数を取り除き、以上の操作を(2)の RMSE が上昇するまで繰り返す。 32 (1)、(2)は、予測手法②、③と共通である。

4. 分析結果分析の結果は図 2 の通りであり、一般的な予測手法である①重回帰分析の RMSE は 0.24％と、ベンチマーク（0.20％）にやや劣る結果となった。一方、機械学習の手法（②～④）では、それぞれ②エラスティックネットは
0.08％、③サポートベクトル回帰（変数選択なし）は 0.09％、④ サポートベクトル回帰(感度分析法による変数選択)は 0.06％と、いずれもベンチマークを上回る予測精度となり、その中でも④サポートベクトル回帰(感度分析法による変数選択)が最良となった。②～④の RMSE は、すべて 0.1％を下回っており、CPI の公表が小数点第一位までであることを踏まえれば、良好な予測結果といえる。また、ベンチマークや①では、時期によって実績値と予測値が大きくかい離する一方、②～④では、いずれも時期によらず安定した予測結果が得られた。以上より、既存の経済指標である東京 CPI のみでも、機械学習を活用することにより、当該月のコア CPI が当月中に高精度で予測可能であることが確認された。なお、本分析の目的はナウキャスティングであるため、コア CPI の変動要因等の分析は今後の課題とするが、最も予測精度の高かった④サポートベクトル回帰(感度分析法による変数選択)における感度分析では、説明変数のうち「外食」の感度が最も大きくなった。「外食」は、CPI に占めるウエイトは約 5％と大きくないものの、デフレの象徴とも形容されており（日本経済新聞 [2018]）、その価格動向がマクロな物価を象徴するものである可能性が示唆された。 5. まとめ既存の経済指標である東京 CPI を説明変数に、機械学習を活用してナウキャスティングを行ったところ、当該月のコア CPI が当月中に高精度で予測可能という結果が得られた。この結果は、他の経済指標についても同様に、高精度の予測が可能であることを示唆しており、更なる知見の蓄積のためにも、本分析で用いなかった機械学習の手法を含めて、様々な角度からの検討が必要である。但し、本分析手法にもいくつかの課題が残されている。一般に経済指標は、推計に用いる基礎統計の追加、基準年の改定、季節調整のかけ直し等から遡及改定されることがあり、目的変数、説明変数ともに改定された場合、予測の連続性が保たれなくなる可能性がある33。そのほか、前述の通り、機械学習の手法は、結果の解釈やその説明が難しいこと等にも留意が必要であるが、それでも本分析の結果は、ナウキャスティング手法の新たな可能性を示すものと考えており、引き続き研究を進めていく予定である34。 33 例えば、GDP 統計の改定については、以下を参照。内閣府<http://www.esri.cao.go.jp/jp/sna/data/data_list/sokuhou/gaiyou/pdf/note_j.pdf> <http://www.esri.go.jp/jp/archive/snaq/snaq134/snaq134b.pdf>（参照日：2018 年 10 月 28 日） 34 本分析では、「機械学習の活用」とともに、「既存の経済指標を説明変数とすること」に焦点を当て議論を進めてきたが、既存の経済指標に加え、POS データ等のビッグデータを組み合わせることにより、速報性や精度の更なる向上も期待され、この点についても今後の課題と考えている。

図 2 各予測手法のパフォーマンス ①重回帰分析（ベンチマーク）ベンチマーク（単回帰分析） ② エラスティックネット RMSE：0.20％実績値（実線） ①
重回帰分析 RMSE：0.24％予測値（点線） RMSE：0.08％ ③ サポートベクトル回帰（変数選択なし） RMSE：0.09％ ④ サポートベクトル回帰(感度分析法による変数選択) RMSE：0.06％（備考）総務省「消費者物価指数」により作成、「」により

参考文献 [1] 赤穂昭太郎（2008）「カーネル多変量解析―非線形データ解析の新しい展開」岩波書店 [2] 安部展弘、篠崎公昭（2018）「価格比較サイトのビッグデータと機械学習手法を用いた物価指数の試算：品質調整方法の比較分析と妥当性の検証」日本銀行ワーキングペーパーシリーズ [3] 岡崎陽介、敦賀智裕（2015）
「ビッグデータを用いた経済・物価分析について―研究事例のサーベイと景気ウォッチャー調査のテキスト分析の試み―」日本銀行調査論文 [4] 川野秀一、松井秀俊、廣瀬慧（2018）「スパース推定法による統計モデリング」共立出版 [5] 経済産業省（2017）「平成 28 年度 IoT 推進のための新産業モデル創出基盤整備事業（ビッグデータを活用した新指標開発事業）」 [6] 小寺信也、藤田隼平、井上祐介、新田尭之（2018）「POS・テキストデータを用いた消費分析 ―機械学習を活用して―」経済財政分析ディスカッション・ペーパー [7] 坂元慶行、石黒真木夫、北川源四郎（1983）「情報量統計学」共立出版 [8] 島谷健一郎（2012）「フィールドデータによる統計モデリングと AIC」近代科学社 [9] 白木紀行、松村浩平、松本梓（2013）「景気判断における検索データの利用可能性」日本銀行調査論文 [10] 高部勲（2018）「消費動向指数（CTI）：マクロ消費動向の推定について」統計研究彙報 [11] 高杉亮介、山名早人（2015）「国会議事録を用いた経済指標のナウキャスティング」DBSJ Japanese Journal [12] 田辺和俊、鈴木孝弘（2018）「都道府県の相対的貧困率の計測と要因分析」日本労働研究雑誌 [13] 内閣府政策統括官（経済財政分析担当）（2018）「日本経済 2017－2018―成長力強化に向けた課題と展望―」 [14] 日本経済新聞「「デフレの象徴」に動き物価上昇、持続は不透明」2018 年 5 月 23 日付朝刊 [15] 日本銀行（2017）「企業のインフレ予想形成に関する新事実：PartⅡ―機械学習アプローチ ―」日本銀行ワーキングペーパーシリーズ [16] 原尚子、山根渉太郎（2013）「GDP のナウキャスティング（足もと予測）のための新たな月次推計手法」日本銀行ワーキングペーパーシリーズ [17] Marta Banbura, Domenico Giannone, Lucrezia Reichlin （ 2010 ） “Nowcasting”, WorkingPapers Series, European Central Bank [18] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著, 杉山将ほか訳（2014）「統計的学習の基礎―データマイニング・推論・予測―」共立出版

機械学習を活用したコア CPI ナウキャスティング法の提案

機械学習を活用したコア CPI ナウキャスティング法の提案

secondapunta

More Decks by secondapunta

Other Decks in Research

Featured

Transcript

(単位：%) (単位：%) 平均中央値標準偏差最大値最小値平均中央値標準偏差

図 2 各予測手法のパフォーマンス ①重回帰分析（ベンチマーク）ベンチマーク（単回帰分析） ② エラスティックネット RMSE：0.20％実績値（実線） ①