Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

ChatGPTによるお手軽データ分析 / Easy data analysis with Ch...

yayoi_dd
July 18, 2024

ChatGPTによるお手軽データ分析 / Easy data analysis with ChatGPT

弥生株式会社 もくテク
AIを活用した業務効率化 ~ChatGPT導入事例集~(2024/07/18)
https://mokuteku.connpass.com/event/322629/

yayoi_dd

July 18, 2024
Tweet

More Decks by yayoi_dd

Other Decks in Technology

Transcript

  1. 次世代本部 R&D室 - 飯田 頌平 2024/7/18 © 2024 Yayoi Co.,

    Ltd. All rights reserved. ChatGPTによる お手軽データ分析
  2. © 2024 Yayoi Co., Ltd. All rights reserved. 2 自己紹介

    | R&D室紹介 Name: 飯田 頌平 Team: R&D室 Roll: MLエンジニア Skill: ML, NLP Hobby: アウトドア About me About Team Established: 2023/10/1 Department: 次世代本部 Members: Mission: AI/MLによる価値創出 Work: 企画立案~PoC実施~MVP作成
  3. © 2024 Yayoi Co., Ltd. All rights reserved. 3 0.

    もくテクでの公開にあたって 1. 概要 2. 環境構築 1. VS Code のインストール 2. Python のインストール 3. Jupyter のインストール 3. 分析 1. Jupyter Notebookの使い方 2. 分析テーマの紹介 - Titanic 3. 分析のいろは 4. ChatGPTを駆使してお手軽に分析 5. 自習 4. まとめ アジェンダ
  4. © 2024 Yayoi Co., Ltd. All rights reserved. 4 この資料は、6/21に社内で実施したデータ分析ハンズオン

    「Pythonを使ったデータ分析 はじめの一歩」において使用 したものです。 3時間のハンズオンで実施した内容をもくテクの発表枠の中で すべてお伝えすることは難しいため、主な流れと要点だけ説 明させていただき、詳細についてはお手元で振り返っていた だく形にしたいと思います。 0. もくテクでの公開にあたって
  5. © 2024 Yayoi Co., Ltd. All rights reserved. 5 1.

    概要 背景 Pythonを使ったデータ分析はとても簡単! 業務に役立て弥生の分析力を底上げしたい。 本日の趣旨 ハンズオンという場でリラックスして はじめの一歩を踏み出してほしい。 ゴール JupyterとPythonを使用したデータ分析を 自分で実施できるようになること。
  6. © 2024 Yayoi Co., Ltd. All rights reserved. 6 普段みなさんがお使いである、会社支給のWindows

    PC上に 環境構築していきたいと思います。必要となるツールは主に 次の3点です。 2. 環境構築 VS Code いわば高機能なメモ 帳で、コードを書く ツールです。 Python Pythonコードをプロ グラムとして実行す るソフトです。 Jupyter Pythonコードの実行 結果を見やすくする ためのものです。
  7. © 2024 Yayoi Co., Ltd. All rights reserved. 7 2.1.

    VS Codeのインストール – Step. 1 次のURLにアクセスし、上記のページを開いてください。 ➢ https://code.visualstudio.com/download
  8. © 2024 Yayoi Co., Ltd. All rights reserved. 8 2.1.

    VS Codeのインストール – Step. 2 ① 「Windows」ボタンをクリックしてください。インストーラーのダウ ンロードが開始されます。ダウンロードが終了したら、次の手順に進んで ください。 ①
  9. © 2024 Yayoi Co., Ltd. All rights reserved. 9 2.1.

    VS Codeのインストール – Step. 3 ① 前の手順でダウンロードしたファイル「VSCodeUserSetup-x64- 1.89.1.exe」を実行し、セットアップ画面を表示してください。なお、 バージョン(1.89.1)は時期によって異なる可能性があります。 ①
  10. © 2024 Yayoi Co., Ltd. All rights reserved. 10 2.1.

    VS Codeのインストール – Step. 4 ①「同意する」を選択して、②「次へ」をクリックしてください。 ① ②
  11. © 2024 Yayoi Co., Ltd. All rights reserved. 11 2.1.

    VS Codeのインストール – Step. 5 ①「次へ」をクリックしてください。 ①
  12. © 2024 Yayoi Co., Ltd. All rights reserved. 12 2.1.

    VS Codeのインストール – Step. 6 ①「次へ」をクリックしてください。 ①
  13. © 2024 Yayoi Co., Ltd. All rights reserved. 13 2.1.

    VS Codeのインストール – Step. 7 ①「次へ」をクリックしてください。 ①
  14. © 2024 Yayoi Co., Ltd. All rights reserved. 14 2.1.

    VS Codeのインストール – Step. 8 ①「インストール」をクリックしてください。 ①
  15. © 2024 Yayoi Co., Ltd. All rights reserved. 15 2.1.

    VS Codeのインストール – Step. 9 ①「完了」をクリックしてください。なお、初回はこのままVS Codeが立 ち上がりますが、二回目以降はスタートメニューから「Visual Studio Code」と検索するとアプリケーションを実行できます。 ①
  16. © 2024 Yayoi Co., Ltd. All rights reserved. 16 2.1.

    VS Codeのインストール – Step. 10 ①「Open Folder」をクリックしてください。なお、初回はこのままVS Codeが立ち上がりますが、二回目以降はスタートメニューから「Visual Studio Code」と検索するとアプリケーションを実行できます。 ①
  17. © 2024 Yayoi Co., Ltd. All rights reserved. 17 2.1.

    VS Codeのインストール – Step. 11 ユーザーフォルダの下のフォルダが開かれます。ここに今回のハンズオン で使用する作業用フォルダを作成しましょう。①エクスプローラー上の何 もない場所で右クリックしてください。 ①
  18. © 2024 Yayoi Co., Ltd. All rights reserved. 18 2.1.

    VS Codeのインストール – Step. 12 ①「新規作成」②「フォルダー」とクリックして「新しいフォルダー」を 作成してください。 ① ②
  19. © 2024 Yayoi Co., Ltd. All rights reserved. 19 2.1.

    VS Codeのインストール – Step. 13 ①「新しいフォルダー」の名前を「workspace」に変更します。この際、 フォルダ名は半角の英語で記述し、またスペースが入らないように注意し てください。NG例:「work space」「ワークスペース」 ①
  20. © 2024 Yayoi Co., Ltd. All rights reserved. 20 2.1.

    VS Codeのインストール – Step. 14 ①「workspace」フォルダをクリックして ②「フォルダーの選択」をク リックしてください。 ① ②
  21. © 2024 Yayoi Co., Ltd. All rights reserved. 21 2.1.

    VS Codeのインストール – Step. 15 上記のようなウインドウが表示されたら ①「Yes, I trust the authors」を クリックしてください。以上でVS Codeのインストールは完了しました。 ①
  22. © 2024 Yayoi Co., Ltd. All rights reserved. 22 2.2.

    Pythonのインストール – Step. 1 次のURLにアクセスし、上記のページを開いてください。 ➢ https://www.python.org/downloads/windows/ (注)Windows Storeからはインストールしないでください。
  23. © 2024 Yayoi Co., Ltd. All rights reserved. 23 2.2.

    Pythonのインストール – Step. 2 「Stable Releases」の欄にある①「Windows installer (64 bit)」を選択し てください。なお、図におけるPythonのバージョンは「3.12.3」ですが、 実行する時期によってはアップデートされる可能性があります。 ①
  24. © 2024 Yayoi Co., Ltd. All rights reserved. 24 2.1.

    Pythonのインストール – Step. 3 ① 前の手順でダウンロードしたファイル「python-x64-3.12.3- amd64.exe」を実行し、セットアップ画面を表示してください。なお、 バージョン(3.12.3)は時期によって異なる可能性があります。 ①
  25. © 2024 Yayoi Co., Ltd. All rights reserved. 25 2.1.

    Pythonのインストール – Step. 4 ① 「Use admin privileges when installing py.exe」②「Add python.exe to PATH」にチェックを入れた後、③「Install Now」をクリックしてくだ さい。その後、許可を求められたら「はい」をクリックしてください。 ① ② ③
  26. © 2024 Yayoi Co., Ltd. All rights reserved. 26 2.1.

    Pythonのインストール – Step. 5 ① 「Close」を押してください。これでPythonのインストールが完了し、 VS Codeからも利用できるようになりました。 ①
  27. © 2024 Yayoi Co., Ltd. All rights reserved. 27 2.3.

    Jupyterのインストール – Step. 1 ①「New File」をクリックしてください。 ①
  28. © 2024 Yayoi Co., Ltd. All rights reserved. 28 2.3.

    Jupyterのインストール – Step. 2 ①「Jupyter Notebook」をクリックしてください。すると、新たなノート ブックファイル「Untitled-1.ipynb」が作成されます。 ①
  29. © 2024 Yayoi Co., Ltd. All rights reserved. 29 2.3.

    Jupyterのインストール – Step. 3 ①「Select Kernel」をクリックしてください。 ①
  30. © 2024 Yayoi Co., Ltd. All rights reserved. 30 2.3.

    Jupyterのインストール – Step. 4 ①「Browse marketplace for kernel extensions」をクリックしてくださ い。その後、画面左側に使用できるカーネルが表示されます。 ①
  31. © 2024 Yayoi Co., Ltd. All rights reserved. 31 2.3.

    Jupyterのインストール – Step. 5 ①Jupyterの欄で「Install」をクリックしてください。 ①
  32. © 2024 Yayoi Co., Ltd. All rights reserved. 32 2.3.

    Jupyterのインストール – Step. 6 図の画面が表示されたらJupyterのVS Code拡張機能のインストールが完了 しました。次のステップではJupyter本体をインストールします。①先程作 成したファイル「Untitled-1.ipynb」へと戻ってください。 ①
  33. © 2024 Yayoi Co., Ltd. All rights reserved. 33 2.3.

    Jupyterのインストール – Step. 7 ①再び「Select Kernel」をクリックしてください。 ①
  34. © 2024 Yayoi Co., Ltd. All rights reserved. 34 2.3.

    Jupyterのインストール – Step. 8 ①「Python Environments」をクリックしてください。するとしばらく時 間をかけ、Jupyterのインストールが自動的に実行されます。 ①
  35. © 2024 Yayoi Co., Ltd. All rights reserved. 35 2.3.

    Jupyterのインストール – Step. 9 ①「Python 3.12.3」をクリックしてください。 ①
  36. © 2024 Yayoi Co., Ltd. All rights reserved. 36 2.3.

    Jupyterのインストール – Step. 10 ①ノートブックのセル(欄)をクリックすると、セルに文字を記入できる ようになります。ここでは動作確認のため「1+1」と書き込んでください。 ①
  37. © 2024 Yayoi Co., Ltd. All rights reserved. 37 2.3.

    Jupyterのインストール – Step.11 ①「▹」をクリックしてください。 ①
  38. © 2024 Yayoi Co., Ltd. All rights reserved. 38 2.3.

    Jupyterのインストール – Step. 12 計算結果として「2」が表示されていれば、Jupyterのインストールが完了 しました。以上の手順で、環境構築は無事に成功しました。
  39. © 2024 Yayoi Co., Ltd. All rights reserved. 39 環境構築が一通り完了したため、今度はJupyterの使い方を学

    びましょう。詳細な手順については追って紹介するとして、 まずはJupyterについて紹介します。 3.1. Jupyterについて & Jupyterの使い方 Jupyterとは Pythonによるデータ分析の 支援ツールです。 主に表やグラフを見える化 することが得意です。 さらに実行結果をインタラ クティブに表示できます。 →次ページ以降で説明… https://jupyter.org/
  40. © 2024 Yayoi Co., Ltd. All rights reserved. 40 3.1.

    Jupyterの使い方 – Step. 1 まずは今のノートブックを保存しましょう。①のアイコンをクリックし、 左側の画面をエクスプローラーにしてください。 ①
  41. © 2024 Yayoi Co., Ltd. All rights reserved. 41 3.1.

    Jupyterの使い方 – Step. 2 ①の「File」(または「三」アイコン)をクリックし、続けて②「Save」 をクリックしてください。するとファイルを保存する画面となるので、 「sample.ipynb」という名前で保存してください。 ① ②
  42. © 2024 Yayoi Co., Ltd. All rights reserved. 42 3.1.

    Jupyterの使い方 – Step. 3 保存に成功すると、ファイル名が「sample.ipynb」に代わり、画面左のエ クスプローラー上にも表示されるようになります。
  43. © 2024 Yayoi Co., Ltd. All rights reserved. 43 3.1.

    Jupyterの使い方 – Step. 4 今度は新たなPythonコードを実行しましょう。マウスカーソルを「1+1」 と記述したセルの下側(①の周辺)にあてると、セルを追加するためのボ タンが表示されます。その後「+ Code」をクリックし、セルを追加しま す。 ①
  44. © 2024 Yayoi Co., Ltd. All rights reserved. 44 3.1.

    Jupyterの使い方 – Step. 5 ①追加されたセルに「uriage = 100」と記入してください。②その後、セ ルを実行してください。③最後に、新たなセルを作成してください。 ① ② ③
  45. © 2024 Yayoi Co., Ltd. All rights reserved. 45 3.1.

    Jupyterの使い方 – Step. 6 現在は「uriage」という名前に100という数字が割り当てられています。 試しに、新たなセルに「print(uriage)」と記入し、実行してください。
  46. © 2024 Yayoi Co., Ltd. All rights reserved. 46 3.1.

    Jupyterの使い方 – Step. 7 すると「uriage」は数値の100として認識されていることがわかります。 Jupyterでは、このようにセルごとにインタラクティブに実行結果を確認で きます。これでJupyterの基本的な使い方をマスターできました。
  47. © 2024 Yayoi Co., Ltd. All rights reserved. 47 今回取り上げるお題は「Titanic」と呼ばれるもので、沈没し

    たタイタニック号の乗客に関するデータセットを用い、どの ような乗客が生存したのかを分析します。 3.2. 分析テーマの紹介・分析の準備 https://www.kaggle.com/c/titanic
  48. © 2024 Yayoi Co., Ltd. All rights reserved. 48 3.2.

    分析の準備 - Step. 1 まずは https://www.kaggle.com/c/titanic/overview にアクセスします。 そして①の[Sign In]をクリックしてください。 ①
  49. © 2024 Yayoi Co., Ltd. All rights reserved. 49 3.2.

    分析の準備 - Step. 2 ログインページではお好きな方法でログインいただいて構いませんが、こ こではGoogleアカウントを使う方法を推奨します。①をクリックして Googleの認証を実施すると、Kaggleにログインできます。 ①
  50. © 2024 Yayoi Co., Ltd. All rights reserved. 50 3.2.

    分析の準備 - Step. 3 ログイン後は①の[Data]タブをクリックし、画面を一番下までスクロール してください。 ①
  51. © 2024 Yayoi Co., Ltd. All rights reserved. 51 3.2.

    分析の準備 - Step. 4 ダウンロードしたデータ「titanic.zip」を解凍して、フォルダを先程作成 した「workspace」」フォルダの下に置いてください。
  52. © 2024 Yayoi Co., Ltd. All rights reserved. 52 3.2.

    分析の準備 - Step. 5 次にVSCodeへ移り、ファイル・フォルダの一覧が並んでいる場所(①) で右クリックしてください。表示されるメニューの中から②の[New File] を選択し「titanic.ipynb」という名前でファイルを作成してください。 ① ②
  53. © 2024 Yayoi Co., Ltd. All rights reserved. 53 3.2.

    分析の準備 - Step. 6 セル①に「!pip install pandas」と打ち込み、実行ボタン②を押してくだ さい。冒頭の「!」はPythonコードではなくコマンドプロンプトで動作す るコードを実行するという意味で、今回だけ付与します。 ① ②
  54. © 2024 Yayoi Co., Ltd. All rights reserved. 54 3.2.

    分析の準備 - Step. 7 セル①に「import pandas as pd」と打ち込み、実行ボタン②を押してく ださい。これにより、データ分析のためのパッケージ「pandas」をこの Notebook上で利用できるようになりました。 ① ②
  55. © 2024 Yayoi Co., Ltd. All rights reserved. 55 3.2.

    分析の準備 - Step. 8 セル①に「df=pd.read_csv("titanic/train.csv")」と打ち込み、実行ボタン ②を押してください。以後、「df」という変数からTitanicの訓練データを 参照することができるようになります。(注)データと同じ階層にtitanic. ipynbを作成した場合「df=pd.read_csv("train.csv")」としてください。 ① ②
  56. © 2024 Yayoi Co., Ltd. All rights reserved. 56 3.2.

    分析の準備 - Step. 9 最後に確認のため、データの中身を見てみましょう。セル①に「df」と打 ち込み、実行ボタン②を押してください。表形式でデータが表示されれば、 分析の準備が完了しました。 ① ②
  57. © 2024 Yayoi Co., Ltd. All rights reserved. 57 ここからは実際に分析に入りますが、まず基礎的なポイント

    だけは抑えていこうと思います。分析において重要なものは、 主に次の3点です。 3.3. 分析のいろは 課題の整理 目的を言語化し、 要件定義のできる 状態にします。 目的変数の定義 課題解決のコアとな る情報を定義しデー タから抽出します。 基礎集計 平均値、中央値、欠 損値、異常値などを 確認します。
  58. © 2024 Yayoi Co., Ltd. All rights reserved. 58 通常はみなさんが抱えているデータ分析の課題を整理する、

    という作業が必要となりますが、今回はデータ分析コンペの プラットフォーム「Kaggle」で提供されているお題を使用し ているので、事前に定義された課題を掲載します。 3.3. 分析のいろは - 課題の整理 https://www.kaggle.com/c/titanic use machine learning to create a model that predicts which passengers survived the Titanic shipwreck. 機械学習を使用して、タイタニック号の沈没でどの乗客が生き残っ たかを予測するモデルを作成します。 この教材では機械学習モデル作成のところはスコープアウト して、生き残った乗客を分析することに集中しましょう。
  59. © 2024 Yayoi Co., Ltd. All rights reserved. 59 データを見ると下記のような変数(列)が存在します。今回

    の課題は「生存者の予測」なので、ふさわしい目的変数は 「Survived」であると判断されます。 3.3. 分析のいろは - 目的変数の定義 Survived PassengerID Pclass Name Sex Age Parch SibSP Ticket Fare Cabin Embarked 生存フラグ 乗客ID 等級 氏名 性別 年齢 乗船した 両親/子供 の人数 乗船した 兄弟/配偶者 の人数 チケット 番号 運賃 船室番号 乗船地
  60. © 2024 Yayoi Co., Ltd. All rights reserved. 60 テーブルデータにおいては、主に次の集計を実施します。数

    値変数とは年齢などの連続値であり、カテゴリ変数は性別な どの離散値で表されるものです。 3.3. 分析のいろは - 基礎集計 数値変数 カテゴリ変数 平均値 四分位数 欠損値 頻度 〇 〇 〇 〇 〇 また四分位数とは25%の値・中央値・75%の値の総称で、頻 度は同じものをカウントした数、欠損値は入力されていない データを指します。 最大/最小値
  61. © 2024 Yayoi Co., Ltd. All rights reserved. 61 次に、Pythonコードを書いて実際に基礎集計を実施します。

    これまでコーディングにはある程度の経験が必要でしたが、 最近はChatGPTが教えてくれます。お手元のブラウザで ChatGPTにアクセスしてください。 3.4. ChatGPTを駆使してお手軽に分析 https://chatgpt.com/
  62. © 2024 Yayoi Co., Ltd. All rights reserved. 62 下記のプロンプトを用いてChatGPTに質問してみましょう。

    3.4. ChatGPTを駆使してお手軽に分析 - Step. 1 ◼ データ分析のためのPythonコードを作成してください。 ◼ ## データの概要 ◼ データの形式:DataFrame ◼ データの変数名:df ◼ ## 分析の目的 ◼ 実行したい分析の種類:平均値の集計 ◼ ## 具体的なリクエスト内容 ◼ Ageカラムの平均値の数を集計したい (注)GPTの生成するコードにはサ ンプルのdfが含まれるのでTitanicの dfに置き換えてください。
  63. © 2024 Yayoi Co., Ltd. All rights reserved. 63 下記のプロンプトを用いてChatGPTに質問してみましょう。

    3.4. ChatGPTを駆使してお手軽に分析 - Step. 2 データ分析のためのPythonコードを作成してください。 ## データの概要 データの形式:DataFrame データの変数名:df ## 分析の目的 実行したい分析の種類:各数値変数カラムの平均値を求めたい ## 具体的なリクエスト内容 カテゴリ変数のカラムを無視すること
  64. © 2024 Yayoi Co., Ltd. All rights reserved. 64 下記のプロンプトを用いてChatGPTに質問してみましょう。

    3.4. ChatGPTを駆使してお手軽に分析 - Step. 3 データ分析のためのPythonコードを作成してください。 ## データの概要 データの形式:DataFrame データの変数名:df ## 分析の目的 実行したい分析の種類:等級別に生存者数を見てみたい ## 具体的なリクエスト内容 生存者フラグは"Survived", 等級カラムは"Pclass", Seabornで描画 (注)もしエラーが発生したら 次のStepに進んでください
  65. © 2024 Yayoi Co., Ltd. All rights reserved. 65 もしStep.3で生成されたプロンプトを実行したところ、モ

    ジュールの読み込みに失敗した場合には、下記のプロンプト を用いてChatGPTに質問してみましょう。 3.4. ChatGPTを駆使してお手軽に分析 - Step. 4 Jupyterで次のようなエラーメッセージが出力されました。 Jupyter上のセルから解決するための方法を教えてください。 ---------- ModuleNotFoundError Traceback (most recent call last) Cell In[9], line 1 ----> 1 import matplotlib.pyplot as plt ModuleNotFoundError: No module named 'matplotlib' (注)matplotlibとseabornで2回発生すると思われるので、都度実行してください。
  66. © 2024 Yayoi Co., Ltd. All rights reserved. 66 Step.

    3の実行結果の例を掲載します。この結果から、三等客 室の乗客の死亡率が著しく高いことがわかります。よって、 裕福な乗客ほど生き残ったという示唆が得られました。 3.4. ChatGPTを駆使してお手軽に分析 - Step. 5
  67. © 2024 Yayoi Co., Ltd. All rights reserved. 67 これまで、ChatGPTを用いた分析の一例をご紹介しました。

    残りの時間では、これまでご説明したツールやプロンプトを 使用して、ご自由に分析していただければと思います。 3.5. 自習 さきほどの例で「裕福な乗客ほど有利な状況だった」という ことが明らかになったように、データを分析することで物事 の思わぬ一面を明らかにしたり、直感を客観的に裏付けるこ とができるようになります。 みなさんも独自に仮説を立てて集計し、自分だけの分析結果 というものを得られるよう手を動かしてみましょう。
  68. © 2024 Yayoi Co., Ltd. All rights reserved. 68 本日は冒頭で、ゴールを次のようにご説明しました。

    4. まとめ JupyterとPythonを使用したデータ分析を自分で実施できるように なること。 ハンズオンという形でみなさんに手を動かしていただいたこ とで、個人差はあれどある程度の目標は達成できたのではな いでしょうか。 この講義を通して、みなさんはデータ分析のはじめの一歩を 踏み出すことに成功しました。今後は自信をもって自由な テーマで自分なりの分析をしていただければと思います。
  69. © 2024 Yayoi Co., Ltd. All rights reserved. 69 弥生株式会社

    次世代本部 R&D室 飯田 頌平 納所 尭道 PB本部 サービス企画部 柿澤 裕太 クレジット