Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習を活用したコア CPI ナウキャスティング法の提案
Search
secondapunta
December 24, 2018
Research
0
120
機械学習を活用したコア CPI ナウキャスティング法の提案
機械学習を活用したコア CPI ナウキャスティング法の提案
secondapunta
December 24, 2018
Tweet
Share
More Decks by secondapunta
See All by secondapunta
RとShinyで作る都営バス検索webアプリ(Tokyo.R #98)
secondapunta
1
1.1k
GDPナウキャスティング・webアプリ「NowcastingR」の概要
secondapunta
0
410
TobusR2
secondapunta
0
58
TobusR2_操作マニュアル
secondapunta
0
79
GDPナウキャスティングアプリ「Nowcaster of the seven keys」をリリースしました
secondapunta
0
360
オルタナティブデータを用いた日次経済指標の作成
secondapunta
0
100
機械学習を活用した GDP ナウキャスティング
secondapunta
0
120
Other Decks in Research
See All in Research
KDD論文読み会2024: False Positive in A/B Tests
ryotoitoi
0
240
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
260
研究の進め方 ランダムネスとの付き合い方について
joisino
PRO
56
20k
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
530
20240918 交通くまもとーく 未来の鉄道網編(こねくま)
trafficbrain
0
340
20240918 交通くまもとーく 未来の鉄道網編(太田恒平)
trafficbrain
0
360
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
700
言語と数理の交差点:テキストの埋め込みと構造のモデル化 (IBIS 2024 チュートリアル)
yukiar
4
920
Weekly AI Agents News! 9月号 論文のアーカイブ
masatoto
1
150
ミニ四駆AI用制御装置の事例紹介
aks3g
0
180
新規のC言語処理系を実装することによる 組込みシステム研究にもたらす価値 についての考察
zacky1972
1
270
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
1.2k
Featured
See All Featured
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Gamification - CAS2011
davidbonilla
80
5.1k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
Producing Creativity
orderedlist
PRO
341
39k
A Tale of Four Properties
chriscoyier
157
23k
The Invisible Side of Design
smashingmag
298
50k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
5
450
Transcript
機械学習を活用したコア CPI ナウキャスティング法の提案1,2 - 東京都区部消費者物価指数を説明変数として - 白井 洋至† 【要旨】 近年、機械の性能向上に加え、データ処理に必要なソフトウェアの導入コストが大幅に低下し
たこと等を背景に、ビッグデータや機械学習に関する研究が進んでおり(小寺ら[2018]) 、それら のナウキャスティング(速報性の高い情報を用いて足もとの未公表の経済指標を予測すること) への応用もみられている。しかしながら、こうした研究、特に機械学習の活用については、ナウ キャスティングを含めた経済分析において、未だ一般的とは言い難い状況にあり、その有効性を 適正に評価するためにも知見の蓄積が必要である。本稿では、機械学習を活用した一例として、 コア CPI のナウキャスティングを行った。 本分析の特徴は、 先行研究とは異なり、 説明変数に POS データやテキストデータ等のビッグデータではなく、既存の経済指標である東京都区部消費者物 価指数を用いたことである。分析の結果、当該月のコア CPI が当月中に高精度で予測可能である ことが確認された。 1 本稿の内容は、個人的な見解をもとにまとめたものであり、掲載されている内容により、直接的・間接的を問わ ず、何らかの被害をこうむった場合にも一切の責任を負いません。また、本稿の内容は予告なしに変更または廃止す ることがあります。 2 最終更新日:2018 年 10 月 28 日 † y.shirai.j“at”gmail.com
1. はじめに 景気の 「今」 をより早く、 より正しく把握することは、 エコノミストや市場参加者のみならず、 経済分析に携わるもの全てにとって大きな課題である。一般に政府や公的機関の経済指標は、公 表までにかなりの時間を要し、当該月の結果は次月以降に公表されることになる。そのため、い かに優れたエコノミストであろうと、景気の「今」を完全に把握することは不可能であり、それ
までに得られた情報から「今」を予測する必要がある。例えば、内閣府から公表される四半期別 GDP 速報(以下、GDP 統計)は、国民経済の活動状況を多面的・総合的に表す極めて重要な経済指 標であるものの、 各種の基礎統計を用いて推計される加工統計であるため、 その公表時期は、 1 次 速報が当該四半期終了後から 1 か月と 2 週間程度後、2 次速報はさらにその約 1 か月後と、ラグ が生じている3。 こうした経緯もあり、従前、GDP 統計をはじめ、速報性の高い情報を用いて足もとの未公表の 経済指標を予測する、ナウキャスティング4に関する研究が行われている。原ら[2013]は、速報性 の高い多数の経済指標を利用して月次 GDP を推計、それを用いて足もとの実質 GDP 成長率を予測 し、その精度は、主要民間調査機関を平均的に上回るという結果を得ている5。 近年では、機械の性能向上に加え、データ処理に必要なソフトウェアの導入コストが大幅に低 下したこと等を背景に、ビッグデータや機械学習に関する研究が進んでおり(小寺ら[2018]) 、そ れらのナウキャスティングへの応用もみられている6,7。ビッグデータを用いた例を挙げれば、株 式会社ナウキャストは、POS データ等を用いて、消費者物価指数を公表の約1か月前に先読みす る「日経 CPINow・S 指数」を公表している8,9。そのほか、近年では、経済産業省[2017]10、小寺ら [2018]は POS データを用いた、高杉ら[2015]、経済産業省[2017]はテキストデータを用いたナウ キャスティングを行い、いずれもその有効性を示している。また、小寺ら[2018]は、ナウキャス ティングに際し、複数の機械学習の手法を活用、その予測精度を比較し、ランダムフォレスト等 のアンサンブル学習は、線形回帰等よりも精度が高いことを報告している。 もっとも、筆者の知る限りでは、こうした研究、特に機械学習の活用については、ナウキャス 3 内閣府<http://www.esri.cao.go.jp/jp/sna/data/reference1/h23/pdf/sakusei_houhou23_201711.pdf> <http://www.esri.cao.go.jp/jp/sna/sokuhou/contents/mokuteki.html>(参照日:2018 年 10 月 28 日) 4 ナウキャスティングという言葉は、しばしば用いられるものの、その厳密な定義については必ずしも定まっていな いように思われる。本稿では、白木ら[2013]を参考に、 「速報性の高い情報を用いて足もとの未公表の経済指標を予 測すること」と定義し、以後の議論を進めるが、そのほかにも、例えば、Banbura ら[2010]は、 「We define nowcasting as the prediction of the present, the very near future and the very recent past」としている。 5 原ら[2013]は、限られた代表的な変数のみを用いて GDP 変動の大部分を説明した後、多数の GDP 基礎統計から抽出 した主成分を用いて残りの変動部分を説明する、という 2 段階構造を採っている。 6 白木ら[2013]は、ビッグデータについて、 「ビッグデータの定義は定まっていないが、①近年の情報通信技術の進展 により初めて処理が可能となったほどの大量の情報を含んでおり、②テキストデータや画像など、必ずしも定型化さ れておらず、③リアルタイム性が高い、などといった特徴を持つデータ群を指す場合が多い」としている。 7 岡崎ら[2015]は、ビッグデータを用いた経済・物価分析に関する近年の研究を包括的に整理している。 8 株式会社ナウキャスト <https://lp.nowcast.co.jp/> <http://www.nikkei.co.jp/nikkeiinfo/news/release_20160120_01.pdf>(参照日:2018 年 10 月 28 日) 9 同社技術顧問の渡辺は、 『S 指数を用いた日銀版コアコア指数の予測(2016 年 1 月 25 日) 』において、 「日経 CPINow の S 指数は、総務省 CPI のレプリカであり、対象商品の選定基準、集計の際のウエイトのかけ方、品質調整の方法、 特売の扱い、商品の世代交代の扱いなど、全ての面で総務省の方法を踏襲したものである。唯一異なるのは価格デー タのソースだけであり、総務省は調査員が店舗に出向き値札を見てくるのに対して、S 指数はスーパーから送られて くる POS データを用いている」と述べている。<http://lp.nowcast.co.jp/doc/ja/d.html>(参照日:2018 年 10 月 28 日) 10 総務省<http://www.soumu.go.jp/main_content/000514024.pdf>(参照日:2018 年 10 月 28 日)
ティングを含めた経済分析において、未だ一般的とは言い難い状況にある11。この一因には、機械 学習の性質によるところが大きいと考えられる。すなわち、サポートベクトルマシン等に代表さ れる機械学習の手法は、非線形の手法であり、高い予測精度こそ期待されるものの、結果の解釈 やその説明は、線形回帰等に比べて難しく、経済学的な理論モデルやエコノミストの実務等には 馴染み辛いという特性を持つ12。しかし、ナウキャスティングのみに焦点を当てれば、その最大の 目的が足もとの未公表の経済指標の予測であるため、こうした問題は、さほど大きくはならない のではないだろうか。なにより、機械学習の活用による知見が十分に蓄積していない現状を踏ま えれば、その有効性を適正に評価するためにも、検討の余地があると考えられる。 本稿では、機械学習を活用した一例として、消費者物価指数(生鮮食品を除く総合、以下コア CPI)13のナウキャスティングを行った。本分析の特徴は、前述の先行研究とは異なり、説明変数
に POS データやテキストデータ等のビッグデータではなく、東京都区部消費者物価指数(以下、 東京 CPI)14を用いたことである。その理由として、当該指標は、CPI の先行指標として広く知ら れているものの、どの程度の予測力を持つか等、その定量的な評価まで踏み込んだ分析事例が乏 しく、 さらに、 機械学習の活用により、 既存の経済指標のみでも、 良好な予測結果が得られれば、 今後のナウキャスティング手法に新たな可能性を示すことにも繋がると考えたからである15。 以下では、2 章で CPI と東京 CPI の概要や CPI ナウキャスティングの必要性等を整理した後、 3 章、4 章でそれぞれ分析手法とその結果、5 章で全体をまとめる。 11 ナウキャスティングではないものの、近年の経済分析における機械学習の活用例としては、安部[2018]、日本銀行 [2017]、内閣府[2018]等が挙げられる。 12 日本銀行[2017]は、機械学習によるアプローチについて、 「伝統的な経済学サイドからは、 「ルーカス批判」が寄せ られるかもしれない。すなわち、得られた分析結果は、 「機械」が学習した「経験則」にもとづいており、学習され たパラメータが構造的なものでないとの指摘である」と述べている。 13 以下、消費者物価指数を CPI、うち生鮮食品(生鮮魚介、生鮮野菜、生鮮果物)を除く総合をコア CPI とする。 14 以下、東京都区部消費者物価指数(中旬速報値)を東京 CPI、うち生鮮食品を除く総合を東京コア CPI とする。 15 高部[2018]は、状態空間モデルを用いて、複数の経済指標から GDP 個人消費を推定しており、説明変数に既存の経 済指標を用いる点では本分析と共通している。
2. CPI と東京 CPI16 2.1 CPI CPI は、家計の消費構造を一定のものに固定し、これに要する費用が物価の変動によってどう 変化するかを指数値で示したものであり、総務省統計局より月次で作成・公表されている。指数 算式は、ラスパイレス型で(1)式のように定義され、(2)式はその前年同月比である。現行
CPI の 基準時及びウエイトの参照年次は、2015 年の 1 年間であり、指数のウエイトは、主に家計調査に よって得られた 2015 年平均 1 か月の 1 世帯当たり品目別消費支出金額を用いて作成される17。指 数品目の価格には、原則として小売物価統計調査によって得られた小売価格が用いられている。 また、CPI の基調をみるためには、天候要因で値動きが激しい「生鮮食品」を除いた、 「生鮮食品 を除く総合(コア CPI) 」が有用とされており、(3)式で定義される。 𝐼𝑡 = ∑ 𝑃𝑡,𝑖 𝑞0,𝑖 𝑛 𝑖=1 ∑ 𝑃0,𝑖 𝑞0,𝑖 𝑛 𝑖=1 × 100 = ∑ 𝑃𝑡,𝑖 𝑃0,𝑖 𝑤0,𝑖 𝑛 𝑖=1 ∑ 𝑤0,𝑖 𝑛 𝑖=1 × 100 (1) 前年同月比 (%) = 𝐼当月 − 𝐼前年同月 𝐼前年同月 × 100 (2) 生鮮食品を除く総合 = (𝐼総合 × 𝑤総合 ) − (𝐼生鮮食品 × 𝑤生鮮食品 ) 𝑤総合 − 𝑤生鮮食品 × 100 (3) CPI は、経済政策を的確に推進する上でも極めて重要な指標であり、家計調査や GDP 統計にお ける家計消費支出等、他の重要な経済指標を実質化するためのデフレーターとして利用されるほ か、国民年金や厚生年金等では、物価変動に応じて実質的な給付水準を見直すことが法律によっ て定められており、この物価の動きを示す指標として使われている。さらに、近年では、日本銀 行が、2013 年 1 月に「物価安定の目標」を CPI の前年比上昇率 2%と定め18、2016 年 9 月には「長 16 総務省統計局 <http://www.stat.go.jp/data/cpi/2015/kaisetsu/index.html> <http://www.stat.go.jp/data/cpi/4.html>(参照日:2018 年 10 月 28 日) 17 CPI の基準年は、西暦年の末尾が 0 と 5 の年を基準時として、5 年ごとに改定(基準改定)される。その際、併せ て指数に採用する品目等の見直しも行われる。採用品目は、世帯が購入する多種多様な財及びサービス全体の物価変 動を代表できるように、家計の支出の中で重要度が高いこと、価格変動の面で代表性があること、継続調査が可能で あること等の観点から選定した 584 品目に持家の帰属家賃1品目を加えた 585 品目(沖縄県のみで調査する 4 品目を 含む)とする。 18 日本銀行 <http://www.boj.or.jp/announcements/release_2013/k130122c.pdf>(参照日:2018 年 10 月 28 日) I:指数、p:価格、q:購入数量、w:ウエイト( = pq)、i:品目、0:基準時、t:比較時
短金利操作付き量的・質的金融緩和」のもと、コア CPI の前年比上昇率の実績値が安定的に 2% を超えるまでマネタリーベースの拡大方針を継続する「オーバーシュート型コミットメント」を 導入したことから19、金融政策の判断材料として注目されており、より早く、より正確に CPI を把 握したいというニーズは高まっている。しかしながら、CPI の公表時期は、
「前月分指数を、原則 として毎月 19 日を含む週の金曜日に公表」と、実勢とは半月以上のタイムラグが生じており、ナ ウキャスティングの必要性があるといえる20。 2.2 東京 CPI 東京 CPI は、総務省統計局より、CPI と同様の形式で作成され、その公表時期は、 「当月分指数 の中旬速報値を、原則として毎月 26 日を含む週の金曜日に公表」と、CPI に1ヶ月弱先行してお り、CPI の先行指標として広く知られている。すなわち、東京 CPI を用いたナウキャスティング を行えば、当該月の CPI をラグなく当月中に予測することが可能になる21。図1はコア CPI と東 京コア CPI の推移であり、両者のトレンドは概ね一致していることが確認される22。なお、両者の 乖離については、(1)式の通り、品目別の価格動向やウエイトの差が影響している。表 1 は、10 大 費目について、CPI と東京 CPI のウエイトを比較したものであり、それぞれの消費構造の違いか ら、住居、交通・通信等で差がみられる。 19 日本銀行 <http://www.boj.or.jp/announcements/release_2016/k160921a.pdf>(参照日:2018 年 10 月 28 日) 20 CPI の公表時期は、2018 年 1 月分以降、 「26 日を含む週の金曜日」から 1 週間早期化された。 21 東京 CPI は、中旬速報値であるものの、確報値と大きな差が生じないことも先行指標としての利点の一つである。 22 前述の通り、東京コア CPI がコア CPI に対して、どの程度の予測力を持つのか等、その定量的な評価まで踏み込ん だ分析事例は乏しく、本分析では、ベンチマークとして 3 章以降で評価する。 CPI 東京 CPI 食料 生鮮食品を除く食料 住居 光熱・水道 家具・家事用品 被服及び履物 保健医療 交通・通信 教育 教養娯楽 諸雑費 26% 22% 21% 7% 3% 4% 4% 15% 3% 10% 6% 25% 21% 26% 6% 3% 5% 4% 10% 5% 10% 5% 図 1 コア CPI と東京コア CPI(前年同月比)の推移 表 1 CPI と東京 CPI の 10 大費目ウエイト (備考)総務省「消費者物価指数」により作成 、 「」により コア CPI(実線) 、 「」により 東京コア CPI (点線) 、 「」により
(単位:%) (単位:%) 平均 中央値 標準偏差 最大値 最小値 平均 中央値 標準偏差
最大値 最小値 コアCPI(説明変数) 0.5 0.1 1.2 3.4 -2.4 シャツ・セーター類 0.5 0.5 3.2 10.6 -9.2 穀類 0.2 -0.1 3.4 12.5 -10.9 下着類 0.9 0.7 2.9 8.9 -5.6 肉類 0.8 0.5 2.6 9.2 -6.0 履物類 0.9 0.8 2.8 8.0 -6.6 乳卵類 0.5 0.1 3.7 14.3 -11.2 他の被服 0.6 0.3 2.5 8.5 -7.4 油脂・調味料 -0.1 -0.5 2.3 8.8 -4.7 被服関連サービス 0.9 0.5 1.6 5.9 -2.2 菓子類 1.0 0.3 2.0 8.2 -3.7 医薬品・健康保持用摂取品 0.0 -0.3 1.6 3.9 -3.7 調理食品 0.9 0.7 1.8 6.1 -4.0 保健医療用品・器具 -0.9 -1.1 1.9 4.5 -6.1 飲料 -0.5 -0.7 2.1 5.9 -5.8 保健医療サービス 1.9 0.8 4.5 24.9 -2.0 酒類 -0.1 -0.2 1.5 4.9 -3.4 交通 0.8 0.2 1.7 7.3 -1.8 外食 1.0 0.6 1.4 5.7 -2.5 自動車等関係費 0.4 0.6 2.3 6.1 -9.1 家賃 0.5 -0.1 1.5 4.2 -2.5 通信 -1.4 -1.0 2.2 3.2 -7.7 設備修繕・維持 0.6 -0.1 2.2 7.3 -3.1 授業料等 1.5 1.2 2.3 5.2 -10.0 電気代 -0.1 0.0 5.4 15.4 -14.6 教科書・学習参考教材 1.4 0.9 2.1 8.1 -1.8 ガス代 0.1 0.4 5.4 11.5 -19.5 補習教育 1.3 0.7 2.1 6.8 -4.9 他の光熱 2.4 1.3 14.3 49.3 -41.1 教養娯楽用耐久財 -9.3 -7.8 8.8 17.0 -36.2 上下水道料 0.7 0.0 2.8 15.4 -1.3 教養娯楽用品 -0.1 -0.2 2.2 6.8 -6.0 家庭用耐久財 -4.2 -3.7 5.0 12.1 -22.3 書籍・他の印刷物 1.5 0.5 2.4 10.7 -1.1 室内装備品 -1.3 -1.2 2.5 5.0 -8.9 教養娯楽サービス 1.1 1.0 2.0 8.0 -3.7 寝具類 -0.6 -0.9 2.8 10.1 -8.0 理美容サービス 1.1 0.5 1.4 4.9 -0.6 家事雑貨 0.8 0.4 1.9 7.3 -3.6 理美容用品 -0.3 -0.4 1.3 3.1 -3.8 家事用消耗品 -1.3 -1.6 2.3 7.1 -5.6 身の回り用品 0.8 0.7 2.5 9.1 -6.1 家事サービス 0.7 0.0 2.0 16.8 -3.0 たばこ 2.4 0.0 7.0 38.6 -0.3 和服 0.2 0.2 2.7 7.9 -9.0 他の諸雑費 2.1 0.0 5.1 23.5 -1.0 洋服 0.1 -0.4 3.4 11.4 -8.4 3. 分析手法 3.1 分析の概要 本分析では、コア CPI を目的変数、東京 CPI のうちコア部分に相当する中分類 46 品目を説明 変数としてナウキャスティングを行った23。分析には 1987 年 1 月から 2018 年 9 月までのデータ を用い、1987 年 1 月から 2016 年 12 月の 360 か月分を学習データ、2017 年 1 月から 2018 年 9 月 の 21 か月分をテストデータとした。表 2 は、目的変数(コア CPI)と説明変数(東京 CPI 中分類 46 品目)の基本統計量である。予測手法としては、図1で示したコア CPI と東京コア CPI の単回 帰分析をベンチマークに、一般的な手法として①重回帰分析を、機械学習の手法として②エラス ティックネット、③サポートベクトル回帰(変数選択なし) 、④サポートベクトル回帰(感度分析 法による変数選択)をそれぞれ用いて、テストデータにおける実績値と予測値の RMSE(平均平方 二乗誤差)により、各手法の予測精度を比較した24,25。なお、機械学習の手法であるエラスィック ネット、サポートベクトル回帰は、ハイパーパラメータを設定する必要があり、本分析では、学 習データを 5 年ごとに分割した 6 分割交差確認法によりハイパーパラメータを選択した26。 23 東京 CPI の中分類のうち、生鮮食品を含む「魚介類」 、 「野菜・海藻」 、 「果物」を除いた 46 品目を説明変数とし た。 24 分析には、統計解析ソフト「R」を用い、AIC には「MASS」パッケージ、エラスティックネットには「glmnet」パ ッケージ、サポートベクトル回帰には「kernlab」パッケージを用いた。 25 なお、本分析に際し、ランダムフォレスト等の手法も試したが、それほど良いパフォーマンスは得られなかった。 この理由には、分析データのサンプルサイズがそれほど大きくないこと、分析データがそれほど強い非線形性を持た ないこと等が考えられる。 26 交差確認法については、Hastie ら[2014]等を参照。評価には RMSE の平均値を用いた。 表 2 本分析で用いるデータの基本統計量 (備考)総務省「消費者物価指数」により作成 、 「」により
3.2 本分析で用いる予測手法の概要27 ① 重回帰分析 一般的な予測手法として重回帰分析を用いた。重回帰分析のパラメータβは、(4)式の通り、最 小二乗法により残差平方和が最小になるように求めることができる。なお、本分析では、AIC を 基準としたステップワイズ法により、 機械的に説明変数の選択を行った。 AIC
は(5)式で定義され、 最も小さい値をとるモデルが最良と評価される。 𝛽𝐿𝑀 = argmin 𝛽 {∑(𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑝 𝑗=1 )2 𝑁 𝑖=1 } (4) AIC = −2 × (最大対数尤度) + 2 × (モデルの中のパラメータ数) (5) ② エラスティックネット 重回帰分析において、説明変数間の相関が非常に高い場合や説明変数の数がサンプルサイズに 近い、もしくはそれ以上の場合、最小二乗法では適切な推定量が得られない場合がある。このよ うな問題を解消するために、回帰係数の大きさに罰則を課したリッジ回帰や lasso が用いられて いる。リッジ回帰は、(6)式で表され、(4)式に正則化項を追加した形となっている。正則化パラ メータλ(≧0)が大きくなると、 縮小度合いが大きくなり、 係数は互いにゼロに向かって縮小され ることになる。 𝛽𝑟𝑖𝑑𝑔𝑒 = argmin 𝛽 {∑ (𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑝 𝑗=1 )2 + 𝜆 ∑ 𝛽𝑗 2 𝑝 𝑗=1 𝑁 𝑖=1 } (6) lasso は、 (7)式で表され、 λを大きくすると、 係数のいくつかは完全にゼロになる。 それゆえ、 lasso によりある種の連続的な変数選択を行うことができる。 𝛽𝑙𝑎𝑠𝑠𝑜 = argmin 𝛽 { 1 2 ∑(𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑝 𝑗=1 )2 + 𝜆 ∑|𝛽𝑗 | 𝑝 𝑗=1 𝑁 𝑖=1 } (7) 27 各予測手法の詳細については、赤穂[2008]、川野ら[2018]、小寺ら[2018]、坂本ら[1983]、島谷[2012]、Hastie ら[2014]等を参照。 yi (i = 1,…,n) :目的変数、xij (i = 1,…,n, j = 1,…,p) :説明変数、β0 ,βj :パラメータ
本分析では、リッジ回帰、lasso をそのまま用いるのではなく、両者の折衷案であるエラステ ィックネット(式(8))を用い、交差確認法により適切なハイパーパラメータ(α,λ)を選択し た28,29。 𝛽𝑒𝑙𝑎𝑠𝑡𝑖𝑐 𝑛𝑒𝑡 = argmin 𝛽 {∑
(𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑝 𝑗=1 )2 + 𝜆 ∑ (𝛼𝛽𝑗 2 + (1 − 𝛼)|𝛽𝑗 |) 𝑝 𝑗=1 𝑁 𝑖=1 } (8) ③ サポートベクトル回帰(変数選択なし) サポートベクトル回帰は、(9)式の制約の下、(10)式を解くことにより表現される30。(10)式の 第一項は損失関数、第二項は正則化項、 (ε,β,λ)はハイパーパラメータである。サポートベク トル回帰の特徴として、赤穂[2008]は、パラメータαの次元はサンプル数と同じであり、サンプ ル数が多いほど複雑な関数を表現できること、説明変数については、カーネル関数を用いている ため、非線形な関数を実現できること、さらに(10)式の損失関数は、二乗誤差に比べて、外れ値 に対してロバストであること等を指摘している31。 𝜉𝑖 ≥ 𝑦(𝑖) − 𝑓(𝒙(𝑖)) − ε, 𝜉𝑖 ≥ 0, 𝜉𝑖 ≥ −(𝑦(𝑖) − 𝑓(𝒙(𝑖))) − ε (9) min 𝝃,𝜶 ∑ 𝜉𝑖 𝑛 𝑖=1 + 𝜆 2 𝜶𝑡𝑲𝜶 (10) 28 Hastie ら[2014]は、 「エラスティックネットは、lasso のように変数を選択し、リッジ回帰のように相関のある予 測変数を同時に縮小させる」と指摘している。 29 交差確認の結果、本分析では、リッジ回帰(α=1)が選択された。 30 (9)、(10)式の各関数は以下の通り。第二式がカーネル関数であり、本分析ではガウスカーネルを用いた。 f(𝐱) = ∑ 𝛼𝑖 𝑘(𝒙(𝑖), 𝒙) 𝑛 𝑖=1 k(𝒙, 𝒙′) = exp (−β‖𝒙 − 𝒙′‖2) 𝜉𝑖 = 𝑟𝜀 (𝑦(𝑖) − 𝑓(𝒙(𝑖))) 𝑟𝜀 (z) = z − ε (ε ≤ z ), 0(−ε ≤ z < ε ), − z − ε (z < −ε ) 31 そのほか、田村ら[2018]は、サポートベクトル回帰では説明変数間の交互作用が自動的に対処されるため、交差項 の追加が不要であることを指摘している。
④ サポートベクトル回帰(感度分析法による変数選択) サポートベクトル回帰は、ロバストな手法であるものの、田辺ら[2018]はサポートベクトル回 帰において感度分析法による変数選択の有効性を指摘しており、本分析でも田辺[2018]らを参考 に説明変数の選択を行った。当該手法は、目的変数に対する各説明変数の感度を計算し、感度の 低い説明変数を順次削除しながら、 モデルを学習最適化し、 実績値と予測値の RMSE が最小となる
説明変数の組を探索する方法である。本分析における変数選択の手順は以下の通りである。 (1) 3.1 の通り、学習データについて、交差確認法によりハイパーパラメータを選択する。 (2) (1)の結果を用いて、学習データ全てについてのモデルを作成し、そのモデルを用いて、テ ストデータにおける実績値と予測値の RMSE を算出する32。 (3) 各説明変数の感度を求めるため、学習データにおいて、当該説明変数は実際の数値に、その 他の説明変数は全期間の平均値にそれぞれ設定したデータセットを(2)のモデルに入力し、 出力値を求める。 (4) 当該説明変数を説明変数、(3)の出力値を目的変数とする単回帰分析を行い、回帰分析の傾 きを当該説明変数の感度とする。 (5) 全説明変数の中で感度の絶対値が最小の変数を取り除き、以上の操作を(2)の RMSE が上昇 するまで繰り返す。 32 (1)、(2)は、予測手法②、③と共通である。
4. 分析結果 分析の結果は図 2 の通りであり、一般的な予測手法である①重回帰分析の RMSE は 0.24%と、 ベンチマーク(0.20%)にやや劣る結果となった。一方、機械学習の手法(②~④)では、それ ぞれ②エラスティックネットは
0.08%、③サポートベクトル回帰(変数選択なし)は 0.09%、④ サポートベクトル回帰(感度分析法による変数選択)は 0.06%と、 いずれもベンチマークを上回る 予測精度となり、その中でも④サポートベクトル回帰(感度分析法による変数選択)が最良となっ た。②~④の RMSE は、すべて 0.1%を下回っており、CPI の公表が小数点第一位までであること を踏まえれば、良好な予測結果といえる。また、ベンチマークや①では、時期によって実績値と 予測値が大きくかい離する一方、②~④では、いずれも時期によらず安定した予測結果が得られ た。以上より、既存の経済指標である東京 CPI のみでも、機械学習を活用することにより、当該 月のコア CPI が当月中に高精度で予測可能であることが確認された。 なお、本分析の目的はナウキャスティングであるため、コア CPI の変動要因等の分析は今後の 課題とするが、最も予測精度の高かった④サポートベクトル回帰(感度分析法による変数選択)に おける感度分析では、説明変数のうち「外食」の感度が最も大きくなった。 「外食」は、CPI に占 めるウエイトは約 5%と大きくないものの、デフレの象徴とも形容されており(日本経済新聞 [2018]) 、その価格動向がマクロな物価を象徴するものである可能性が示唆された。 5. まとめ 既存の経済指標である東京 CPI を説明変数に、機械学習を活用してナウキャスティングを行っ たところ、当該月のコア CPI が当月中に高精度で予測可能という結果が得られた。この結果は、 他の経済指標についても同様に、高精度の予測が可能であることを示唆しており、更なる知見の 蓄積のためにも、本分析で用いなかった機械学習の手法を含めて、様々な角度からの検討が必要 である。 但し、本分析手法にもいくつかの課題が残されている。一般に経済指標は、推計に用いる基礎 統計の追加、基準年の改定、季節調整のかけ直し等から遡及改定されることがあり、目的変数、 説明変数ともに改定された場合、予測の連続性が保たれなくなる可能性がある33。そのほか、前述 の通り、機械学習の手法は、結果の解釈やその説明が難しいこと等にも留意が必要であるが、そ れでも本分析の結果は、ナウキャスティング手法の新たな可能性を示すものと考えており、引き 続き研究を進めていく予定である34。 33 例えば、GDP 統計の改定については、以下を参照。 内閣府<http://www.esri.cao.go.jp/jp/sna/data/data_list/sokuhou/gaiyou/pdf/note_j.pdf> <http://www.esri.go.jp/jp/archive/snaq/snaq134/snaq134b.pdf>(参照日:2018 年 10 月 28 日) 34 本分析では、 「機械学習の活用」とともに、 「既存の経済指標を説明変数とすること」に焦点を当て議論を進めてき たが、既存の経済指標に加え、POS データ等のビッグデータを組み合わせることにより、速報性や精度の更なる向上 も期待され、この点についても今後の課題と考えている。
図 2 各予測手法のパフォーマンス ①重回帰分析(ベンチマーク) ベンチマーク(単回帰分析) ② エラスティックネット RMSE:0.20% 実績値(実線) ①
重回帰分析 RMSE:0.24% 予測値(点線) RMSE:0.08% ③ サポートベクトル回帰(変数選択なし) RMSE:0.09% ④ サポートベクトル回帰(感度分析法による変数選択) RMSE:0.06% (備考)総務省「消費者物価指数」により作成 、 「」により
参考文献 [1] 赤穂昭太郎(2008) 「カーネル多変量解析―非線形データ解析の新しい展開」岩波書店 [2] 安部展弘、篠崎公昭(2018) 「価格比較サイトのビッグデータと機械学習手法を用いた物価 指数の試算:品質調整方法の比較分析と妥当性の検証」日本銀行ワーキングペーパーシリーズ [3] 岡崎陽介、敦賀智裕(2015)
「ビッグデータを用いた経済・物価分析について―研究事例の サーベイと景気ウォッチャー調査のテキスト分析の試み―」日本銀行調査論文 [4] 川野秀一、松井秀俊、廣瀬慧(2018) 「スパース推定法による統計モデリング」共立出版 [5] 経済産業省(2017) 「平成 28 年度 IoT 推進のための新産業モデル創出基盤整備事業(ビッグ データを活用した新指標開発事業) 」 [6] 小寺信也、藤田隼平、井上祐介、新田尭之(2018) 「POS・テキストデータを用いた消費分析 ―機械学習を活用して―」経済財政分析ディスカッション・ペーパー [7] 坂元慶行、石黒真木夫、北川源四郎(1983) 「情報量統計学」共立出版 [8] 島谷健一郎(2012) 「フィールドデータによる統計モデリングと AIC」近代科学社 [9] 白木紀行、松村浩平、松本梓(2013) 「景気判断における検索データの利用可能性」日本銀 行調査論文 [10] 高部勲(2018) 「消費動向指数(CTI) :マクロ消費動向の推定について」統計研究彙報 [11] 高杉亮介、山名早人(2015) 「国会議事録を用いた経済指標のナウキャスティング」DBSJ Japanese Journal [12] 田辺和俊、鈴木孝弘(2018) 「都道府県の相対的貧困率の計測と要因分析」日本労働研究雑 誌 [13] 内閣府政策統括官(経済財政分析担当) (2018) 「日本経済 2017-2018―成長力強化に向け た課題と展望―」 [14] 日本経済新聞「 「デフレの象徴」に動き 物価上昇、持続は不透明」2018 年 5 月 23 日付朝 刊 [15] 日本銀行(2017) 「企業のインフレ予想形成に関する新事実:PartⅡ―機械学習アプローチ ―」日本銀行ワーキングペーパーシリーズ [16] 原尚子、山根渉太郎(2013) 「GDP のナウキャスティング(足もと予測)のための新たな月 次推計手法」日本銀行ワーキングペーパーシリーズ [17] Marta Banbura, Domenico Giannone, Lucrezia Reichlin ( 2010 ) “Nowcasting”, WorkingPapers Series, European Central Bank [18] Trevor Hastie, Robert Tibshirani, Jerome Friedman 著, 杉山将ほか訳(2014) 「統計的 学習の基礎―データマイニング・推論・予測―」共立出版