Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Watsonの見果てぬ夢は大規模言語モデルで花開く

makaishi2
October 12, 2023

 Watsonの見果てぬ夢は大規模言語モデルで花開く

講演者はかつてWatsonの技術セールスだった。当時のWatsonはできることが限定されていて、技術セールスの仕事はお客様の夢を実現可能な話に落とし込むことだった。最近、生成系AIに触れて「Watsonでやりたかったのはこういうことだっだなあ」と感じる。当講演ではその具体的な内容について、講演者が出版した書籍に関わるテーマから紹介する。

makaishi2

October 12, 2023
Tweet

More Decks by makaishi2

Other Decks in Business

Transcript

  1. 講演者紹介 ⾚⽯ 雅典 (Masanori Akaishi) アクセンチュア ビジネス コンサルティング本部 AIグループ シニア・プリンシパル

    • IBMでWatsonのテクニカルセールスを経験後、アクセンチュア⼊社。 AI・データサイエン ス系のプロジェクトの技術リードやクライアントのAI⼈材育成⽀援などを担当。 • 『Pythonで儲かるAIをつくる』、『最短コースでわかるディープラーニングの数学』、 『Python⾃然⾔語処理⼊⾨』などAIやアナリティクスを題材とした著書多数。 この11⽉には、⾃⾝7冊⽬の本(ベイズ推論の⼊⾨書)を出版予定 • 関⻄の⼤学院にて授業を開講中
  2. 次回著書 『Pythonでスラスラわかる ベイズ推論「超」⼊⾨』 2023年11⽉24⽇ 出版予定 アマゾンリンク https://www.amazon.co.jp/dp/4065337631 サポートサイトリンク https://bit.ly/46v0mV3 主な特徴

    • 確率分布の初歩をプログラミングとの対⽐で理解 • PyMCとArVizの使い⽅を⼀歩⼀歩学ぶ • くじびきの簡単な題材を例にして、ベイズ推論の考え⽅を理解 • 正規分布の推論から潜在変数モデルまで、さまざまなベイズ推論問題に対応 • ABテストや線形回帰モデルの効果検証など、業務観点でのベイズ推論活⽤事例も学べる • 各章・節のコラムでやや⾼度だが重要な技法・概念もカバー サポートサイト
  3. 最新著書 『最短コースでわかる Pythonプログラミングとデータ分析』 2022年12⽉17⽇ 出版 アマゾンリンク https://www.amazon.co.jp/dp/4296201123 サポートサイトリンク http://bit.ly/3TV1E57 主な特徴

    (DSスキル習得の「⾼速道路」) • 必要⼗分な知識項⽬の精査 (データ分析の「出る単」) 「データ分析」という⽬標を実現するのに必要⼗分な知識項⽬を精査・体系化 • プログラミングスキルの実地訓練 各節の最後に演習問題を設定し、抽象的な業務要件を具体的実装に落とすトレーニングを実施 • 分析シナリオで洞察導出 公開データセットの活⽤で実業務に近い分析シナリオを提⽰し、洞察導出の過程も経験 本⽇のデモは、この本の3章の 中⾝を題材としています。
  4. 著書紹介 ⽇経BP 2020年8⽉6⽇出版 • 「Pythonによる機械学習の教科書」を 狙って書いた本。 • 2020年12⽉にはKindle版がAmazon⼈ ⼯知能カテゴリで2週間連続1位。 •

    企業向けAI教育の教材としても利⽤で きる。 • アイデミー社のAI講座教科書として採 ⽤された。 • qiitaに掲載した紹介記事リンク https://bit.ly/2JRLZF3 • アマゾンリンク https://amzn.to/3eFxqlH ⽇経BP 2019年4⽉11⽇出版 • ディープラーニングの学習アルゴリズ ムである勾配降下法、バックプロパ ゲーションを⾼校1年程度の前提知識で 理解するための本。 • 必要な数学の概念は最低限のものに限 定(「最短コース」の所以)。 • 厳密な「証明」にはこだわらず、視覚 的なイメージによる「説明」を重視。 • サポートページリンク https://bit.ly/2HpVgTY • アマゾンリンク https://amzn.to/32LOqQR 翔泳社 2020年1⽉20⽇出版 • テキスト分析の領域でOSS/Watson そ れぞれの世界でできることを俯瞰して解 説した本。 • OSSとしてはWord2VecやBERTを紹介 • アマゾンリンク http://amzn.to/3teVEqW ⽇経BP 2021年9⽉17⽇出版 • PyTorchでディープラーニングのプログ ラミングをしたい⼈向けの⼊⾨書。 • 「ディープラーニングの数学」の姉妹編 にもなっている • アマゾンリンク https://amzn.to/3Imz9rd
  5. Watson振り返り 2016年当時、⼭のようなイメージCMが放送されていた。 これからお⾒せするのは、YouTubeで⾒つけた当時のCMの⼀部。 出演者 テーマ 時間 URL ボブディラン ⾳楽 0:37

    https://www.youtube.com/watch?v=8xYvwcnHn9k 渡辺謙 ⾔語 0:30 https://www.youtube.com/watch?v=39YTmT7QUZY セリーナ・ウィリアムズ スポーツ 0:30 https://www.youtube.com/watch?v=oRLwM3QnDZ4 (⼦供) 健康 0:30 https://www.youtube.com/watch?v=bWUR48Su8Dc
  6. Watson振り返り 当時、実⽤レベルまで達していたWatson AI利⽤サービスの例 • 東⽇本旅客鉄道株式会社(JR東) コンタクトセンター⽀援 電話応対時のオペレーターの⾳声をAIで認識し、関連する情報をリアルタイム表⽰してオペレーターの回答 品質を⾼める https://www.ibm.com/jp-ja/case-studies/jreast •

    外資系販社 ⾳声認識・チャット・⾳声合成を組み合わせて、ユーザー初期登録時の⼀部対応を、オペレータなしに⾃動 化する • 国内製造系企業 画像分類を⽤いて、シリコンウエハーの⽋陥検査を実施
  7. ⽣成AIデモ Advanced Data Analysisを⽤いたデモを紹介する Advaniced Data Analysisの概要 • OpenAIで提供しているChatGPTのオプション機能 •

    ChatGPT plusという有償の追加オプション契約が必要(⽉3000円程度、講演者は個⼈契約している) • ChatGPT内に仮想Python仮想環境をもっている • 利⽤者から指⽰を受けるとChatGPTは仮想環境で実際に⽣成したプログラムを動かし結果を質問者に返す • 仮想環境でエラーが起きた場合、ChatGPTは⾃⼒で問題判別を試みる • ChatGPTはインターネットアクセスが認められていない(セキュリティ対策) • ファイルアップロード機能はあるので、必要なファイルは事前に利⽤者が準備すればいい 利⽤者 ChatGPT Python仮想環境 • ユーザーからChatGPTへの指⽰はハイレベルの⼤雑把なもので構わない。具体例はデモで説明する
  8. ⽣成AIデモ • 分析対象データ Pittsburgh Bridges Dataset • 講演者書籍『最短コースでわかるPythonプログラミングとデータ分析』 • 3.2/3.3/3.5節の内容から引⽤

    ID RIVER LOCATION ERECTED PURPOSE LENGTH LANES CLEAR-G T-OR-D MATERIAL SPAN REL-L TYPE E1 M 3 1818 HIGHWAY 2 N THROUGH WOOD SHORT S WOOD E2 A 25 1819 HIGHWAY 1037 2 N THROUGH WOOD SHORT S WOOD E3 A 39 1829 AQUEDUCT 1 N THROUGH WOOD S WOOD E5 A 29 1837 HIGHWAY 1000 2 N THROUGH WOOD SHORT S WOOD E6 M 23 1838 HIGHWAY 2 N THROUGH WOOD S WOOD 川コード 位置コード 建設年 ⽤途 ⻑さ ⾞線数 通⾏可否 通⾏形式 材料 スパン 位置関係 タイプ 下記データセットは、アメリカピッツバーグ市の橋のデータをまとめたもの。 今後のデータ分析はどんな形でできるようになるのかを、このデータを⽤いたデモで紹介する。 https://archive.ics.uci.edu/dataset/18/pittsburgh+bridges
  9. ⽣成AIデモ • 添付のzipファイルでライブラリを導⼊してください • サンプルプログラムで正しくグラフの⽇本語表⽰ができることを確認してください • 添付のEXCELをデータフレームdfに読み込んで下さい • このデータは「ピッツバーグ・ブリッジ・データセット」と呼ばれる、アメリカピッツバー市の橋の情報をまとめたものです。 •

    下記の解説(Kaggleの解説から取ってきた情報)を含めて今後の分析で活⽤して下さい。(以下略) • 項⽬名を⽇本語に変換して下さい。 • 「垂直クリアランス要件」はどんな意味ですか。「垂直クリアランス要件」ではどんなカテゴリ値が何件あるか教えてくださ い • 「道路の位置」はどんな意味ですか。「道路の位置」ではどんなカテゴリ値が何件あるか教えてください • 「スパン」はどんな意味ですか。「スパン」ではどんなカテゴリ値が何件あるか教えてください • 「タイプ」はどんな意味ですか。「タイプ」ではどんなカテゴリ値が何件あるか教えてください • シンプルトラスとはどんな構造ですか • これらの橋の構造で、最も⻑い橋を作れるものはどれでしょうか デモ⽤に準備したプロンプトサンプル 毎回、ChatGPTの回答は異なるので進⾏によってプロンプトが異なる場合もある
  10. ⽣成AIデモ • dfの各項⽬の⽋損値を調べてください。 • 「材料」の⽋損値を除去してください。除去はdropna関数を⽤いて⾏ごと削除します。 • 建設年と⻑さで散布図を描画して下さい。描画時には、材料でマーカーを変えて下さい。 • マーカーの⼤きさを⼤きくしてもらえますか。 •

    1900年くらいに、4000m以上の橋が2つ建設されています。この点に関して、何か仮説が⽴てられれば教えて下さい。 • 技術的進歩について、材料の観点で何か仮説が⽴てられますか? • 建設年で箱ひげ図を描画して下さい。図は材料別にしてください。 • これからピッツバーグ市の橋の改修計画を策定する場合、箱ひげ図から何か得られる知⾒はありますか。 • (⽊製の橋の改修を計画するにあたって、追加で検討すべき観点はありますか) • 歴史的価値を考慮に⼊れて改修計画を⽴案する際の具体的な進め⽅のアドバイスをお願いします。 • ⼤変参考になりました。また、わからないことだあったら教えてください。 デモ⽤に準備したプロンプトサンプル 毎回、ChatGPTの回答は異なるので進⾏によってプロンプトが異なる場合もある
  11. その他の⽣成AI • 時間の関係でデモはしないが、 Open interpreterというサービスもある。 • この場合、Python環境は⾃前で準備する。(Google Colabでも可) • Jupyter

    Notebook上でインタラクティブなプロンプトが動き、ユーザーが指⽰を出すと、不⾜ライブラリの 導⼊を含めてChatGPTが勝⼿に対応してくれる。 • 参考資料(IBM柳さんの記事) https://qiita.com/yanagih/items/466a5560bd771e2b9030 プロンプト例 結果例(何回かのやりとり後)
  12. 最新著書 『最短コースでわかる Pythonプログラミングとデータ分析』 2022年12⽉17⽇ 出版 アマゾンリンク https://www.amazon.co.jp/dp/4296201123 サポートサイトリンク http://bit.ly/3TV1E57 主な特徴

    (DSスキル習得の「⾼速道路」) • 必要⼗分な知識項⽬の精査 (データ分析の「出る単」) 「データ分析」という⽬標を実現するのに必要⼗分な知識項⽬を精査・体系化 • プログラミングスキルの実地訓練 各節の最後に演習問題を設定し、抽象的な業務要件を具体的実装に落とすトレーニングを実施 • 分析シナリオで洞察導出 公開データセットの活⽤で実業務に近い分析シナリオを提⽰し、洞察導出の過程も経験 (再掲) • この本の3章・4章の題材はすべてChatGPTを伴 ⾛者としたデータ分析の題材として利⽤可能。具 体的な題材が欲しい場合にご活⽤ください。 • もちろん、書籍本来の⽬的(Pythonとデータ分析 系ライブラリ利⽤⽅法のマスター)でも活⽤可能 です。
  13. ⽣成AIとの向き合い⽅(AIソリューション検討) • ⽣成AIは数年前のAIと違うレベルに達しているため、考え⽅を根本から改める必要がある • AIソリューション検討の観点でこれからこのAIとどう向き合うべきか、講演者が考えているところ 従来型AI ⽣成AI AIにできる範囲 限定的 汎⽤的

    AIソリューション 検討⽅法 ボトムアップアプローチ トップダウンアプローチ AIソリューション 検討時のポイント 技術的実現可能性 業務観点で真の価値創出ができる ユースケースの発⾒(費⽤対効果を含む) AIソリュー ション構築時 のポイント フレームワークを活⽤可能な⾼度なプログラミング能⼒ 要件を論理的に整理し簡潔に表現する⾔語能⼒ データ 構築 ⼤量・⾼品質の学習データ作成 例外系も網羅した正解データ収集