Upgrade to Pro — share decks privately, control downloads, hide ads and more …

一橋大学「経済学のための実践的データ分析」2020冬 1/12

yasushihara
November 05, 2020

一橋大学「経済学のための実践的データ分析」2020冬 1/12

一橋大学「経済学のための実践的データ分析」
2020冬: 1/12
1.はじめに
1.1データ分析とは
1.2講義の運営方法
1.3統計ソフトの比較
1.4Colaboratoryと Jupyter 利用方法

yasushihara

November 05, 2020
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 今日の内容 • 10:30-10:45 • プレ講義 [録画なし] • 10:45-11:05 • 1.1

    データを分析すると いうこと [録画あり] • 11:05-11:10 • インターミッション[録画な し] • 11:10-11:30 • 1.2 この講義の運営スタ イルについて [録画あり] • 11:30-11:35 • インターミッション 2[録画なし] • 11:35-11:55 • 1.3 統計ソフトの比較 • 11:55-12:00 • インターミッション 3[録画なし] • 12:00-12:20 • 1.4 Jupyter Labs/Google Colaboratory の導 入の仕方 [録画]
  2. 自己紹介 • 1998-2004 • TOYOTA NATIONAL COLLEGE OF TECHNOLOGY •

    2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University
  3. “IT スタートアップ” とは言っても… • 働き出したころ(2002年) は従業員7名 • 辞めるころ (2009年) でも従業員70名

    • “レンタルサーバ”と呼ばれていた時代で、クラウドコンピュー ティングがまだまだ普及する前 (AWS の黎明期) • 仮想化 (virtualization) という、サーバのハードウェアレイヤー とOSレイヤーをカーネルレベルで独立させる技術が一般化しつ つ会った時代 (VMware や Parallels Container など) • Web で注文を掛けて、FAXで受注するような時代 • 購買システムと受注システムと会計システムがバラバラだった 時代
  4. VPS(バーチャルプライベートサーバ) • サーバサービスは当時価格競争に 突入しており、3000円弱の新サー ビス(Demi)を投入することに • ところが、最低価格のプロダクト (Demi)ではなく、中価格帯(Solo) が最も売れるようになる •

    でも、なぜ一番安いモデルが売れない のか説明できない • 「相対価格」で説明して、なんと なく上司が納得する(腹落ちする) • Demi をベースにすると, 1.67 -> 2.34 -> 3.35 • その後最安価モデルは廃止 https://web.archive.org/web/20050208123052/http://clara.jp/service/vps/
  5. エビデンスに基づく 科学技術イノベーション政策と「ポンチ絵」 • いままでのキャリアで、ベンチャー(スタートアップ)とアカデミア をやったことに気づき、数年だけならばと、政策大学大学院大学の 文部科学省の科学技術イノベーション政策のセンター (SciREX セン ター) で働くことに

    • どうやら、研究内容やどういうジャーナルに載ったかとか、それが どういうインパクトファクター(IF)だったかよりも、政策立案のプ ロセス内で使われるポンチ絵の一部になっていることが重要らしい。 • ポンチ絵の要件 • 数十秒で読んで理解できること • しかも、内容が過不足なく明記されていること • 色がいっぱい使われていること • 何よりも予算が取れること
  6. ここまでのまとめ • (個人的には、)ITスタートアップも中央官庁も「データ分析」 に対するアティチュードはそんなに違いはなかった • 「直感でわからないことや、うまくいかなくなったことを分析した い」ことへの高いニーズはあるし、それぞれにデータもある • しかし、部署ごとにデータがバラバラになっており、繋がっていない •

    解析を行うための方法論や理論もあまりない • 誘導系でも構造系でも、統計的な分析モデルを構築するというよりは、 棒グラフや線グラフで経過を見るだけで必要十分だった(意思決定プロ セスの上位過程にまわるタイミングで、説明が出来るレベルに留める ことが肝要)
  7. Q. データを使えばビジネスはわかるか? もしくは、政策評価はできるか? • ちょっと昔に言われたこと • 「データはあくまで数をみているだけ。経営者の心の機微や組織体制の細やかな変容や経 営者の意思決定の変化を、細かくデータで追うことは出来ない。」 • ここ数年、実際の世の中で起きたこと

    • テキスト解析手法の進化 • 因果推論の推定手法の開発と普及 • 機械学習のあっという間の普及 • データベースの普及と重要性が認識されるようになった • データ解析に係る導入コストの低下 • as 統計ソフトを買わなくても良くなった • A. 2020年5月段階の(個人的な)答え • データがあれば、かなり色々なことがわかる。データ分析の技法は取得したほうが良い。 • データで説明しきれない特殊性や特筆性については、まだ定性分析に出来ることはある
  8. 企業活動に関連するデータベース 研究開発 調達 生産 販売 マーケ ティング 科学技術基本 調査(総務省) 企業活動基本調査

    (経済産業省) 経済センサス (総務省) 政府系 データベース 商用 データベース 帝国 データバンク 特許 データ ベース 論文 データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) 商用と政府系のデータベー スを組み合わせれば、企業 行動をデータで「辿る」こ とは可能になる
  9. 帝国データバンクデータベース (Commercial) • 一橋CAREE センターで利用可能なデータセット • パネルデータ化が可能. • アーカイブデータも利用可能(政策フォーラム午前中の岡室先生の発表) •

    ご関心のある先生方は、是非ともお問い合わせください 企業信用調査報告書に関するデータ 取引データ,出資データ,銀行取引データ 企業財務データベースに関するデータ 決算書データ 企業概要ファイルに関するデータ 取引データ,企業情報データ,銀行取引データ その他企業に関するデータ 合併データ,倒産データ
  10. 企業活動に関連するデータベース(extended) 研究開発 調達 生産 販売 マーケ ティング 研究開発に関 わる作業ログ /ノート/機器

    の稼働状況 調達や部品の調達 に関するログ/メー ル/電話のやり取り 販売価格決定 に関わる意思 決定に関わる エビデンス 企業内のログ 商用 データベース 帝国 データバンク 特許 データ ベース 論文 データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) さらに、企業内に介在する ログを組み合わせることで、 企業の意思決定をエビデン スベースに基づき実行する ことが可能になる
  11. データを「データベース化」する • 不定形データをデータ化する • JSON やXML をCSV にして、人間が読めるようにする • もしくはその逆

    • データをデータベース化する • Machine Readable • SQL, NoSQL etc… • データを管理し保持する (データマネジメント) • 大昔; 紙 • 昔; Excel • 一昔前; スタンドアロンのサーバ • ちょっと昔; パブリッククラウド (AWS, Microsoft Azure, GCP etc…) • 現代; サーバーレス
  12. Data Lake • “データレイクは、規模にかかわ らず、すべての構造化データと 非構造化データを保存できる一 元化されたリポジトリです。 データをそのままの形で保存で きるため、データを構造化して おく必要がありません。また、

    ダッシュボードや可視化、ビッ グデータ処理、リアルタイム分 析、機械学習など、さまざまな タイプの分析を実行し、的確な 意思決定に役立てることができ ます。” https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
  13. データベースの種類 • RDB(OLTP; Online Transaction Processing) • DocDB • グラフDB

    • Hadoop • RDB(DWH) Hadoop (HDFS+MapReduce) • Apache Hadoop • CloudEra • MapR • Hortonworks RDB(DWH) • Oracle Exadata • Teradata • Netezza • RedShift KVS/DocDB KVS • Cassandra • Redis DocDB • MongoDB • CouchBase RDB(OLTP) • Oracle • SQL Server • MySQL • PostgreSQL GraphDB • Neo4j • Datadog • OrientDB 引用: RDB技術者のためのNoSQLガイド スケールアウトできる スケールアウトできない スループット重視 オペレーション用途
  14. 構造データと半構造データ データの分類 説明 データの例 非リレーショ ナルデータ 非構造データ バイナリや テキスト形 式など,

    データの構 造化が行わ れていない 半構造データ (ex. XML/JSON) 構造はある がスキーマ がない。頻 繁に構造が 変わる。 リレーショナ ルデータ 構造化データ (ex. RDBMS) スキーマが あり, 構造 が変わらな い。 電子 メール テキス ト・音声 データ システ ムログ オフィ ス文章 経理・財 務・人事 商品・ 在庫 営業・ CRM 決済・ 残高 センサ リング 情報 口コミ SNS 健康・ 医療 データ 統計 データ 行政 データ 他社保 有デー タ 引用: RDB技術者のためのNoSQLガイド
  15. PATSTAT のモデル図 5/14/2015 31 • テーブルとテーブルをつなぎ合わせ るIDがあり • IDを介して複数のテーブルの関係性 (リレーショナル)

    が構築されている • これらのテーブルをつなぎ合わせる ことで、複雑なデータの解析を行う ことができる
  16. グラフDBのデータ構造 :ラベル ノード 属性 {キー: バリュー, キー:バリュー} :ラベル ノード 属性

    {キー: バリュー, キー:バリュー} :タイプ 属性 {キー: バリュー, キー:バリュー} 関係性 ラベル; 同じ種類のノードを識別するためのドメインの定義 ノード; RDB におけるレコードに相当。複数の属性を{キー:バリュー}で保持出来る 関係性; ノードとノードの間に存在, ノード間のつながりを表現する. 属性; RDB におけるカラム.
  17. Ex2.) Singapore COVID-19 Dashboard • https://co.vid1 9.sg/singapore/ dashboard • Total

    Cases • Active Cases • Deceased • Discharged などが掲載され ている
  18. Data Lake(cont.) 特徴 データウェアハウス データレイク データ トランザクションシステム、業務 データベース、基幹業務アプリ ケーションからのリレーショナル データ

    IoT デバイス、ウェブサイト、モ バイルアプリケーション、ソー シャルメディア、企業アプリケー ションからの非リレーショナル データとリレーショナルデータ スキーマ DW の実装前に設計 (スキーマオ ンライト) 分析時に書き込み (スキーマオン リード) 料金/パフォーマンス 高コストのストレージを使用、ク エリ結果の取得は最速 低コストのストレージを使用して クエリ結果をより速く取得 データ品質 高度にキュレートされたデータで、 事実の情報源として機能 任意のデータで、キュレートでき るかどうかは不明 (raw データ) ユーザー ビジネスアナリスト (キュレートされたデータを使用す る) データサイエンティスト、 データ開発者、ビジネスアナリス ト 分析 バッチレポート、BI、可視化 機械学習、予測分析、データ検出、 プロファイリング https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
  19. 分析手法 • Step1; グラフにする • 「まずは散布図を書いてみる」 • Step2; 統計的処理を行う (平均値,

    中央値, 最大値, 最小値 etc..) • このあたりから、内生性や見せかけの回帰との戦いがはじまる • Step3; 回帰分析など, 入力と出力間の関係性を見る • 重回帰分析 • スパース推定 • 決定木分析, SVM (教師あり/教師なしの機械学習) • Step4; 因果効果を識別する • 因果関係と相関関係を識別する(次のページ)
  20. 因果識別の手法(1) 実験対象 Treated Group Control Group y x Cut-off Point

    • ランダム化比較試験 (RCT) • 対象者と非対象者を無 作為抽出して比較実験 • 回帰不連続(RD) デザイン – 回帰直線シフト 37 実験対象 Treated Group Control Group • 傾向スコアマッチン グ(PSM): – 各政策対象企業と同じ「政 策対象傾向」を持つ企業を 対照群から抽出 引用:岡室博之 (2019) 産業クラスターと地方創生:地域イノベーション政策の展開と分析方法, 一橋大学公開講座
  21. 因果識別の手法(2) • 差の差の分析(DID) • 処置群と対照群の比較 と政策前後比較の二重 差 y t Control

    Group Treated Group t+u t-s ▲t • パネル固定効果分析 • パネルデータを用いて、 各企業の固有の属性の 影響を除去 y x t+i t • 操作変数法(IV): – 内生変数を外生変数 (操作変数)に置き換 える2段階推定 Z X Y U β α 引用:岡室博之 (2019) 産業クラスターと地方創生:地域イノベーション政策の展開と分析方法, 一橋大学公開講座
  22. データサイエンスをタピオカミルクティー にしない方法 1. データを公開する. Linked Open Data を活用する. 2. データの知的財産権を明確化する.

    3. 神エクセルをなくす. (as DX の推進) 4. オープンソースソフトウェアを使う, あるいは教育する. 2020年初頭の最適解はR もしくは Python (3.x系). 5. AI という言葉に踊らされない. 使い倒す.
  23. (いくつかの)ギャップ • 願望投影型政策 (森田 2015) とEBPM • データが、推進したい施策に基づき構築される可能性 • ナラティブなストーリーとデータ解析

    • 統計的な素養を政策立案者や企業戦略の決定者すべてが有しているわけでは ない。データに基づく解析結果を広く共有するためには、ストーリーに落と し込むことが必要 • データのオープン化と、ITセキュリティ対策 • RESAS や Notebook や Linked Open Data を利用しようとしても, 自治体や 中央政府、企業のITセキュリティ上制限が掛けられており(ex. 自治体のネッ トワーク分離), 業務用PC などでこれらのツールを利用することが出来ない。
  24. Source: OECD (2017[3]), Core Skills for Public Sector Innovation, https://www.oecd.org/media/oecdorg/satellite

    sites/opsi/contents/files/OECD_OPSI-core_skills_for_public_sector_innovation-201704.pdf OECD が定義するデジタルスキル
  25. Conclusion • データサイエンスと呼ばれているものは、プログラミングスキ ルと数学とエンジニアリングスキルと因果関係を特定するため のスキルが混ざりあったもの • 政府のみなさんへ • とりあえずデータを、Machine-Readable な形で公開してください

    • PDF でも Excel でもなくて、JSON やRDF 形式だとかなりベター • 企業のみなさんへ • 組織内のデータと、外部データを組み合わせることで新たな知見を得 られる可能性が • 経済学や(実証的な規範に基づく)経営学は思ったよりも「役に立 つ」と思います
  26. 目的と概要 • 統計解析手法の発達および、クラウドコンピュー ティングに代表されるコンピューティングパワー の増大により、従来は分析が困難だった様々な データを経済学の研究において活用することで、 より現実に即した形での実証研究を行うことが可 能になりつつあります。 • しかし、「ビッグデータ」とも呼称されるこれら

    のデータは不定形であり、解析を円滑に行うため にはデータ自体の整形処理等も必要です。 • 本講義では、(1) データの管理、(2) データの処理、 (3) データの解析それぞれに焦点を挙げ、Stata, R もしくは python を用いた演習を行うことで、体系 的な知識の修得を行うことを目指します。事前の プログラミング言語の知識は必要としませんが、 受講した内容を自らの研究で活用するためには、 自発的かつ継続的な学習を推奨します。また、 BYOD (Bring Your Own Device) を推奨します。
  27. どういうことかというと… • 本講義のポジショニングはこんな感じです 計量経済学 統計学 経済学のための実 践的データ分析 ・統計学や計量経済学の講義ではカバー しきれない範囲を、本講義では取り上げ ます

    ・具体的な理論については、それぞれの 講義を並行して受講されることをオスス メします ・できるだけ、具体的なデータや事例に 基づいて実習を行います 教養のプログ ラミング講義
  28. テキスト • Big Data and Social Science • 適宜講義資料をオンライン配布 します

    • 春/夏/秋学期の資料は Slideshare/SpeakerDeck に アップロードされています • https://www.slideshare.net/ya sushihara • https://speakerdeck.com/yasu shihara/
  29. 授業時間外の学習 (求められる予習・ 復習等) • 講義ごとに取り上げた内容につい て、自発的に予習および復習を行 うことを勧めます。プログラミン グおよび分析ツールの習熟には、 自らの手で試行錯誤を行うことが 必要不可欠です。

    • 講義では、こうした学習を支援す るサイトやツールを都度紹介しま す。 • また、講義内容の共有を行うため, Manaba あるいは Slack を用いた グループを運用する予定です。
  30. 講義の配信方法 • 本講義ではリアルタイム配信と録画配信を組み合わせます。受講者 は、講義時間にリアルタイムで講義を受講するか、録画を後ほど閲 覧することを選択出来ます。 • すでにいくつかのコンテンツについては春/夏学期で録画を取っているので、 それをご覧いただく形にしたく思います。 • リアルタイム配信は、継続性を考えいくつかの配信手段を検討して

    います。基本は Zoom (https://zoom.us/) を利用予定ですが, セ キュリティや通信の安定性などを勘案して、別の動画配信ツールを 用いる可能性があります。 • 2020/11/1 時点では, Zoom を含め以下の優先度にて、動画配信 ツールを利用予定にしています。 • 1. Zoom; https://zoom.us • 2. Google Classroom/Meet https://hangouts.google.com/ • 3. Bluejeans/jitsi meet • 4. Skype または LINE グループ
  31. 講義の配信方法(2) • Slack で次回講義のZoom URLとパスワードを告知します • 冬学期については、月曜日と木曜日の10:45-12:30 に講義をリ アルタイム配信します。 •

    春・夏学期の講義録画はすべてご覧頂けます • その後、録画したものを Google Classroom および Slack に通 知します • 録画バージョンは、基本的に一回の講義あたり20分の動画 x4本になり ます。
  32. 講義の実施方法 (冬学期) • 本学は通常105分講義ですが, オンラインであることを鑑み以下のような構成で実施予定 にしています. • Youtuber 方式で、講義のコア部分は20分以内でまとめるようにします (ベストエフォート!)

    • 春学期/夏学期の場合は、以下のタイムラインで配信を行う予定です. • 10:30-10:45 プレ講義(雑談 etc…) (15分) • 10:45-11:05 講義モジュール1 [録画あり] • 11:05-11:10 休憩 • 11:10-11:25 講義モジュール2 [録画あり] • 11:25-11:30 休憩 • 11:30-11:50 講義モジュール3 [録画あり] • 11:50-11:55 休憩 • 11:55-12:15 講義モジュール4 [録画あり] • 12:15-12:30 Slack およびブレイクアウトルームを用いた質疑応答タイム
  33. 冬学期講義スケジュール(1) • 1. 11/5 [今日; Zoom配信+録画] • イントロダクション (ビッグデータと社会科学), 分析環境の構築とプログラ

    ミング言語入門 • 経済学で大量かつ様々なタイプのデータを用いることに、果たしてどのような意味が あるのでしょうか?初回の講義では、経済学はじめ社会科学の研究でデータを活用す る意義について、具体的な研究事例などを交えながら紹介します。また、今日広く用 いられている Jupyter Lab/Google Colaboratoryなどの分析環境の導入方法について 説明します。併せて、教養課程でプログラミング講習を履修していない学生に向けて、 プログラミングの基礎について解説します。 • 2. 11/9 [録画] • 記述統計と(重)回帰分析/統計ソフトの比較 • 本講義で主に利用する jupyter labs/google colaboratory を用いて, python やR の基 本的なコマンドについて実習を交え説明を行います。記述統計の導出や回帰分析など、 統計学や計量経済学の講義で扱う内容を、Notebook 環境上で行えるようにすること を目指します。今回のテーマは「サンクコスト」です。
  34. 秋学期講義スケジュール(2) • 3. 11/12 [録画] • データの取得と前処理 (Web スクレイピング, RPA,

    API そして手入力) / SQL の使い 方 • データといっても、そのほとんどは実のところ定型化されていません。Web サイトや書籍や国 会図書館から手作業でひとつひとつ入力し、あるいは、Web スクレイピングやAPI, RPA を用 いて, Web から取得する必要があります。データ分析は、こうした事前の作業が作業全体の60- 70パーセントを占めています。こうした手続きの具体例について、座学を用いて紹介した後、 雑誌や Web に掲載されたデータを取得する手法についてご紹介します。 • 後半では, SQL の使い方について概要を説明します。大量のデータを運用し活用するためには、 データベースを用いると便利です。Google BigQuery を用い、データから必要な情報を抽出し、 データ同士を接合する方法について簡単に解説を行います。また続いて, Google Big Query を 用いて解析を行いますまた, 必要に応じて MySQL サーバおよび MySQL Workbench の導入方 法、多変量データの展開方法について解説します。 • 4. 11/16 [録画] • データの可用性とプライバシー • インターネットには様々な情報が掲載されています。あるいは、大学の図書館からデータベー スにアクセスすれば、様々な情報を得ることが出来ます(一橋大学の場合は特に!)。しかしな がら、データには個人情報や企業の機密情報などが含まれており、これらの適切に管理し運用 することは極めて重要です。テキストブックの内容に基づき、説明を行います。
  35. 秋学期講義スケジュール(2) • 5. 11/19 質疑応答セッションその1 [Zoom配信+録画] • レポート1やこれまでの講義でわからなかったこと/解決したいことを ひたすら質疑応答する回です。 •

    リモート講義で、やりにくい部分もあるとたくさんあると思うので、 そもそもコーディングの考え方や配っている Notebook が動かない! などの課題を、peer に解く回にしようと思います。
  36. 秋学期講義スケジュール(2) • 6. 11/26 [Zoom 配信+録画] • 企業行動/産業のデータ分析 (企業情報、財務、特許と論文) •

    帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb- caree/about-caree/) や、日経NEEDS などが提供する企業のデータベースについて説明を行い ます。本データベースには、企業の取引、出資、銀行取引データや、決算書データなどが含ま れています。こうしたデータセットに基づき、問いに基づきデータを解析することを目指しま す。また講義の後半では、RESASを用いて地域産業の情報の取得する方法と、NISTEP 企業名 辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation-on-industry) などを用い, ID ベースでデータセット間を接合する手法について説明します。 • 企業の研究開発活動を解析するためには、特許や学術論文の動向について測ることで、産業内 での動態を観察することが出来ます。知的財産研究所が提供する IIP パテントデータベース (http://www.iip.or.jp/patentdb/), Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/web-of-science/), Lens.org などを用いることで、 - 「どの企業が最も特許を出願しているのか?」 - 「どのような分野に特許を出願しているのか?」 - 「日本の大学で最も年ごとの論文数が多いのは何処か?」 - 「(指導教官の)◦◦先生が書いた論文はt年にx本で、その論文は累計 y 回引用された」 などの情報を取得し分析する方法を解説の上、実習を行います。
  37. 秋学期講義スケジュール(3) • 7. 11/30 [録画] Open Linked Data の活用 (RDF,

    RISIS などの事例紹介および試用) • オープンサイエンスやオープンガバメントの進展によって、特にヨーロッパでは Open Linked Data と呼ばれるデータセットを用いた解析プラットフォームや、解析手法が用いられはじめて います。本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノベーション分析のための データプラットフォームについて解説を行い、RDF を用いた解析について解説および簡単な実 習を行います。 • 8. 12/3 [録画] • テキスト分析 (Wordcloud, Word2vec, Topic Model, 計量テキスト分析)/SNS データ の取得および分析 • これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。 具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文 名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学び ます。具体的には, Wordcloud, Word2vec, Topic モデルなどについて解説します。 • また計量テキスト分析、特に共起ネットワーク, 分散分析などの手法について, KHcoder (http://khcoder.net) を用い解析を行います。関連して、Twitter などのソーシャル・ネット ワークからAPI などの手法を用いてテキストデータを取得し解析する方法について解説します。
  38. 秋学期講義スケジュール(2) • 9. 12/7 [録画] • データのビジュアライゼーションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活用する手法を学ぶ ことを目指します。Python

    やR などを用いたデータの可視化手法の確認や、 Ploty, D3.js やTableau (https://www.tableau.com/ja-jp) などのデータ可視化ソ フトウェアの紹介および実習を行います。 • 10. 12/10 質疑応答セッションその2 [Zoom配信+録画] • レポート2や最終レポートでわからなかったこと/解決したいことをひ たすら質疑応答する回です。 • リモート講義で、やりにくい部分もあるとたくさんあると思うので、 そもそもコーディングの考え方や配っている Notebook が動かない! などの課題を、peer に解く回にしようと思います。
  39. 春学期講義スケジュール(4) • 11. 12/14 [録画] • 機械学習と因果推論 [座学, 実習] •

    Python および R を用いて、決定木分析やSVM, スパース推定について、具体例 の紹介および実習を行います。また、DID や非連続回帰デザインなどの因果推論 の分析手法についても簡単な解説を行います。講義の後半では, 最終レポートに ついての説明を行います。これまでに学んだ手法を用いデータ解析を行うことで、 グループでのレポートをまとめます。このグループの決定を行います。 • 12. 12/17 [Zoom 配信] • まとめ、および最終レポート発表会 • これまでの講義の内容を振り返った上で、グループごとの最終レポートの発表を 行います。レポートは発表時間10分、質疑応答5分で、グループごとに実施しま す。
  40. これまでの最終レポート例 • a. 「カジノ開設のための実践的データ分析」 カジノやパチンコが地域に与える影響についてクロスセクション分析. OECD や政府統計などの データソースを活用. • b.

    「重大な交通事故に与える影響の実証分析」 Google Bigquery からアメリカの交通事故データをランダムサンプリングして取得し, 天候など, 事 故の主な要因を分析 • c. 「著名人の Twitter における発言とその後のトレンドへの影響」 ドナルド・トランプの Twitter データを一括取得し, アメリカ/日本為替レートに与えた影響を測定. 感情推定やTF-IDF を活用. • d. 「医師数の偏りの要因についてのデータ分析」 地方で医師が足りなくなる原因について, 政府統計データを一括してスパース推定を実施. 重回帰分 析と組み合わせてクロスチェック. • e. 「マラソンの記録に対する気候条件の影響分析」 マラソンの成績がどのような要因で決まるのか, 東京マラソンと北海道マラソンのデータを取得し, 気温や風などのデータを用いて分析. • f. 「先物取引のための実践的データ分析」 コメの終了が気候から予測できるのか, 作況指数や高数量, 日照時間や気温のデータを取得し要因を 分析.
  41. ご相談 • 最終レポートについて • はやめにグループを作りたいと考えてみます • ランダムに割当か、友だち同士グループのほうどちらが良いでしょう か? • 取り上げる内容について

    • やってほしい内容があればSlack やチャットで教えてください • 昨年度慶應義塾大で行った講義でのリクエスト • SNS の口コミ分析 • 感情分析 • RESAS データの一括取得 (API の利用方法) と解析
  42. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github

    経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  43. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint

    以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  44. 受講生に対するメッセージ • 講師は一年間パリで研究活動を行っていました。海外留学や大 学院進学等について、質問がありましたらお寄せ頂けましたら 幸いです。 • また、質問は Slack や, ツイッター

    (@harayasushi) でも受け 付けます。不明な点などありましたらお問い合わせくださいま せ。 • (すっかり流行らなくなりましたが、)ツイッターやフェイス ブック上でハッシュタグ #経済学のための実践的データ分析 で 情報共有も行いたく思います。
  45. そもそも。 • なぜこの講義は python やR を使うのか? • 一番の理由: 無償だから •

    有償の統計分析ソフト (ex. Stata) の場合 • 学生の間は導入コストはかなり低い • が、社会人になると継続して最新バージョンを継続的に導入するコス トは極めて高くなる • (せっかく計量経済学を学んで、パネルデータで固定効果モデルを解析 する方法を学んでも、日々の喧騒の中で人は思い出とともに統計学や 経済学を忘れていく・・・) • マスターコースやドクターコースに行こう
  46. 経済/経営学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應} • 各大学の2019年度シラバスから、 • SPSS •

    Eviews • Stata • SAS • Python • Excel というタームが含まれている講義を抽出。 ※. R は exact matching できないので除外。 • 経済学部・経営学部/MBAの講義で、どういった統計ソフトが 使われているかを調査
  47. 経済学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應, 東経大} • Findings • SPSS

    のユーザ数は減少 • Stata で統計分析を教えるシェアは未だ高い • 早稲田大学, 謎のSAS 人気 • Python はデータサイエンス系の講義で広く登場 • 一橋大学経済学部でpython というタームが出てくるのは、本講義以外だと山田 先生の講義
  48. SPSS is dying (cont.) • “I predict that R overtakes

    SPSS in yearly citations by 2020. The implications are clear: • If you use SPSS in your business or research, move to R now rather than later. • Do not ask for SPSS competences in job postings. You will scare away the good candidates. • We are doing students a disservice by teaching SPSS. Switch to JASP for simple one-off analyses and R for complex or repeated analyses. Rstudio Desktop is a highly recommended interface to R.” Source: http://lindeloev.net/spss-is-dying/
  49. Data Analytics Job Market The number of data science jobs

    for the more popular software (those with 250 jobs or more, 2/2017). Jobs trends for R (blue & lower) and Python (orange & upper). http://r4stats.com/articles/popularity/
  50. 各統計ソフトの比較 1. Stata 2. SPSS 3. EViews 4. (Microsoft) Excel

    幸いなことにどのソフトウェアも持っているので、実機をお見せ しながら説明します
  51. 1. Stata • 事実上のデファクトスタンダー ド(だった) • (重)回帰分析やパネルデータ分 析, 主成分分析など, 経済学・経

    営学での多変量解析はほぼ網羅 している • 大学の経済学・(定量分析を行 う)経営学の先生の使用率も高 い • ゼミによっては基本的な分析ソ フトとして指定されている場合 も • 主なテキストブック
  52. 2. SPSS • Stata 以前のデファクトスタ ンダード • 12年前に一橋大でマーケティ ングサイエンスの講義を受講 したときは、SPSS

    が指定さ れていました • 現在はIBM が保有 • GUI ベースでデータの処理お よび解析が行えることが特徴
  53. 3. EViews • やはり一世代前に主力の統計 分析ソフト • ファイナンス・時系列分析 (ARCH, GARCH, MR,

    AR, VAR) などに特化 • 詳しくは関連するファイナン ス・計量経済学の講義で • 回帰分析など、行える分析は Stata/SPSS とほぼ同じ
  54. 3. EViews ・変数をExcel or SAS or Stata or SPSS 経由で取り込み

    ・変数の長さを最初に指定して ・コマンドを上のウインドウに 打ち込んで、解析を行う
  55. 4. Excel • Microsoft Office 365 で現在は 主に提供 • 生協で買うパソコンや

    Surface に必ず入ってるやつ • 某省庁のデータ分析はだいたい Excel で完結してたりする(で ビックデータの時代とか言いが ち) • 記述統計や、基本的なデータの 分析であればExcel で十分 • 一昔まえの「定量的な」卒論とか
  56. まとめ 名称 Stata SPSS EViews Excel 販売・提供母体 Stata IBM ライムストーン

    マイクロソフト インターフェース GUI (コマンドベー ス) GUI GUI (コマンドベー ス) GUI 主なメリット (経済学・経営学周 りの)ユーザーが多 い クリックだけで データ解析ができ る 時系列解析をする ときに、コマンド を書く必要がない すぐに手に入る。 情報基盤センター のPCやスマホから 扱える コスト(学生編) ・イニシャルコス ト 86,400円 (キャン ペーン中) 124,000円 63,720円 0円 (一橋大学生は office 365 サブス クリプションあり) ・アップグレード コスト 101,520円 136,600円 49,680円 0円(一橋大学生は office 365 サブス クリプションあり) コスト(社会人編) 262,440円 310,000円 206,280円 12,744円 ・アップグレード コスト 172,,800円 54,900円 97,200円 12,744円
  57. まとめ(2) • ランニングコストやサンクコストを考えると, 実は Excel でなんでも 出来るようになるのが最適コースの可能性 • Stata や

    SPSS など統計ソフトは、学生の身分だと比較的安価に導 入出来る。が、最新の機能をキャッチアップするのは辛い。 • (会社で稟議書が通るかというと、関連部局でも割と怪しい。) • ちなみに、IT スタートアップで働いていたときは、大学生の身分で買った Eviews やSPSS を用いて解析をしていました • 某広告代理店では, すべてのPCに R Studio が導入されている、らしい。 • ということで、Excel + 無償で導入できる R and/or Python が2019 年現時点での最適解! • 会社によっては, Jupyter Notebook やR Studio が自由にインストールできる PC が供給されない可能性も (2019年現在は) • クラウドにアップしてもOKなデータは Google Colaboratory で
  58. 次回予定. python, R, Jupyter notebook 事始め • Stata や SPSS,

    SAS など統計分析ソフトは多数存在します。 これらのメリットや特徴について前半は説明します。 • 後半は、本講義で主に利用する jupyter notebook を用いて, python やR の基本的なコマンドについて実習を交え説明を行 います。テーマは「サンクコスト」です。