Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMとPlaywrightで実現する非定型なデータの収集

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for yukiyamamuro yukiyamamuro
December 05, 2024
290

 LLMとPlaywrightで実現する非定型なデータの収集

Avatar for yukiyamamuro

yukiyamamuro

December 05, 2024
Tweet

Transcript

  1. 自己紹介 名前・所属 山室友樹(Yuki Yamamuro)
 株式会社Macbee Planet・MOps Group 経歴 マーケティングデータ活h q

    データ基V q ReverseETQ q 広告運h q LLMを利用したPoC 好きなRaycast機能 q Snippet“ q VS Code拡張(Search Recent Project)
  2. 広告主の掲載順位を知りたい! e 検索結果であればahrefsやSemrushがあu e 前a e 一般的に上位に表示されている方が獲得数が多v e 制T e

    数100にもなるWebサイトを案件の担当者が全て調 べることはできなv e 各WebサイトでHTML構造が違う・随時変更されるの で従来のスクレイピングでは機械的に取得できなかっ た
  3. TIPS2: Gemini APIとVertexAIなどそれぞれ違った制約がある Rate Limit 課金対象 GeminiAPI(無料) 15 RPM(リクエスト /

    分) 100 万 TPM(1 分あたりのトークン数) 1,500 RPD(1 日あたりのリクエスト数) 無料 GeminiAPI(有料) 2,000 RPM(1 分あたりのリクエスト 数) 400 万 TPM(1 分あたりのトークン数) 入力:100 万 あたり $0.075 トーク ン Vertex AI(flash) 200 RPM(us-central1)
 400 万 TPM 入力:1000 あた り$0.00001875 文字 文字はUTF-8のコードポイントでカウント https://cloud.google.com/vertex-ai/generative-ai/pricing
  4. 制約の緩和方法がModelによって違う j gemini-1.5-flash-00p j 上限緩和の申請が必h j gemini-1.5-flash-00 j 動的共有クオータが適用され利用容量に応じて拡張されu j

    指数バックオフアルゴリズムを利用したRetryを行t j 安定的に運用するためにはProvisionedThroughputを購入する必要がある