Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ご当地グルメマップを作ろう

 ご当地グルメマップを作ろう

PyCon APAC 2023 Day2 2023/10/28

Hiroshi Sano

October 28, 2023
Tweet

More Decks by Hiroshi Sano

Other Decks in Programming

Transcript

  1. Self Infroduction Hiroshi Sano(佐野浩士)@hrs_sano645 : Shizuoka, Eastern part : 株式会社佐野設計事務所

    CEO : PyCon mini Shizuoka Stuff / Shizuoka.py / Unagi.py / Python駿河 CivicTech, Startup Weekend Organizer Hobby: Camp ,DIY ,IoT 3
  2. 4

  3. 今回のトークでできること 1. お店情報をデータにする: WEBスクレイピング 2. データを整形をする: CSVファイルにする 3. データを使ってみる: Googleマイマップ

    抽象的に言い直すと... ⬇️ 1. どこから データを取り出すか 2. どんな データを作るか 3. どこへ データを渡すか 13
  4. WEBスクレイピングで利用するライブラリ requests: HTTPアクセス→情報取得(今回はHTML) BeautifulSoup4: HTML(マークアップ言語)解析と抽出 pip install requests pip install

    beautifulesoup4 ※ PyCampの終盤で利用するライブラリです。今回は詳細解説は省きます ※ スライドのコードは説明向けです。そのままだと動かないこともあります ※ 資料のリポジトリから動作するスクリプトをDL可能です 15
  5. お店一覧をざっくり収集します import requests from bs4 import BeautifulSoup url = "https://umya-yakisoba.com/shop/"

    res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') # ここではdiv.p-shopList > a にURL がある # その中にお店情報がまとまっているので、a タグから取り出す shopinfo_tags = soup.find( 'div', class_='p-shopList' ).find_all("a") 18
  6. aタグのURLと内部のタグから必要な情報を取得する # お店情報をまとめるリスト shopinfo_list = [] for shopinfo_tag in shopinfo_tags:

    shopdata = {} # div タグの並びは上から店名、住所、電話番号、定休日 # ここではurl と店名だけまとめたリストを作る shopdata['specurl'] = shopinfo_tag.get('href') shopdata[' 店名'] = shopinfo_tag.find_all("div")[1].text shopinfo_list.append(shopdata) 19
  7. お店の詳細URL, 店名が集まりました >>> shopinfo_list [{'specurl': 'https://umya-yakisoba.com/shop/3776/', ' 店名': ' お好焼

    あき'}, {'specurl': 'https://umya-yakisoba.com/shop/3777/', ' 店名': ' あさ家'}, {'specurl': 'https://umya-yakisoba.com/shop/3774/', ' 店名': ' あるばとろす'}, {'specurl': 'https://umya-yakisoba.com/shop/3616/', ' 店名': ' いっぷく亭'}, ... ] ※ この例では店名に \u3000 (全角スペースの意味) が入ることがあり、半角スペースへ置き換え処理をした結果になります 20
  8. 詳細URLへアクセスして、各お店の詳細情報を収集します for shopinfo in shopinfo_list: # URL から店舗情報を取得 res =

    requests.get(shopinfo['specurl']) soup = BeautifulSoup(res.text, 'html.parser') # dl.p-shopDetails > dt/dd 構造 # dt が項目名、dd が項目の値になっている。 # zip 関数で両者組み合わせて同時に取り出す shopspecs = {} for dt, dd in zip( soup.find('dl', class_='p-shopDetails').find_all('dt'), soup.find('dl', class_='p-shopDetails').find_all('dd') ): # 辞書形式にする # 値に 改行や空白文字があるので取り除く shopspecs[dt.text] = dd.text # 店舗情報をマップ情報に追加 shopinfo.update(shopspecs) # INFO: ここにランダム待機時間があるとよさそう dt と dd タグは記述リスト、説明リストと呼ばれるHTMLタグ 21
  9. 最終的にできるデータ >>> from pprint import pprint >>> pprint(shopinfo_list) [{'TEL': '0544-27-0004',

    'specurl': 'https://umya-yakisoba.com/shop/3776/', ' お店名ふりがな': ' あき', ' エリア': ' まちなか', ' 住所': ' 富士宮市野中東町112-1', ' 受入人数': '12', ' 営業時間': '10:00 -21:00', ' 地図': 'B6', ' 定休日': ' 火曜日', ' 店名': ' お好焼 あき', ' 料金目安': '350 ~600 円', ' 業種': ' 飲食店', ' 焼き方': ' お店', ' 調査員おすすめメニュー': ' キムチとチーズ入り', ' 調査員が見た特徴': ' キャベツとネギが多めに入っている', ' 駐車場': '4'}, # 以下お店情報の辞書が続いて入る... ] ※ この例では各項目に \n (改行コード) が入ることがあり、空白へ置き換え処理をした結果になります 22
  10. 上記コードの注意点 ※ WEBスクレイピングは注意が必要です 短時間で多数アクセスはしないように注意 → ランダムな時間待機を入れる 規約やポリシーを守りましょう ※ サイト上に見えない文字があることがあります →

    文字列置換をしましょう ※ この例ではサイトのページネーションに対応していません ページネーションについては資料のコードで対応しています 23
  11. WEBスクレイピングでランダム時間を待機する関数の例 import random from time import sleep def random_sleep(a: int,b:

    int) -> None: """ a からb までのランダムな秒数を待つ """ time.sleep(random.randint(a,b)) # 例: 2~5 秒の間でランダムに待つ # 複数回アクセスする時、ループの最後に差し込むと良い random_sleep(2, 5) 24
  12. Python標準のCSVライブラリを使って書き出します csv.DictWriter を使うとリスト>辞書構造のデータをCSVファイルにしやすいです import csv with open('mapdata.csv', 'w', newline='') as

    csvfile: # ※: お店の詳細情報の各項目: 辞書のキー が部分的に異なるため、 # 全ての項目名: 辞書のキーを集めて重複を取り除いたリストを作成しています csv_fieldnames = list(set().union(*shopinfo_list) writer = csv.DictWriter(csvfile, fieldnames=csv_fieldnames) # 最初の行に項目名→ 列名を書き出す writer.writeheader() # 辞書のキーをもとに行として書き出す for shopinfo in shopinfo_list: writer.writerow(shopinfo) 27
  13. 今回のトークでできること 1. お店情報をデータにする: WEBスクレイピング 2. データを整形をする: CSVファイルにする 3. データを使ってみる: Googleマイマップ

    抽象的に言い直すと... ⬇️ 1. どこから データを取り出すか 2. どんな データを作るか 3. どこへ データを渡すか 38
  14. どこから データを取り出すか データベースから取り出す データベース接続、API 現実の統計データを使う データセット、オープンデータ センサーデータで現実環境を扱う ハードウェア操作 どんな データを作るか

    データを加工して新しいデータを作る 前処理、後処理 データを整形する ファイル形式、データ構造 どこへ データを渡すか データの可視化をして分析 グラフ、ダッシュボード データを使って業務工程改善 オートメーション、システム連携 データを使ってAIで予測 機械学習、ディープラーニング データの流れを意識すると、作りたいプログラムの流れも理解しやすい 40