Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Watson最新ソリューション (AutoAI & OpenScale)ご紹介

makaishi2
September 12, 2019

Watson最新ソリューション (AutoAI & OpenScale)ご紹介

Watson の機械学習モデル開発環境の最新ソリューションであるAutoAIとOpenScale紹介資料

makaishi2

September 12, 2019
Tweet

More Decks by makaishi2

Other Decks in Business

Transcript

  1. © 2019 IBM Corporation 赤石 雅典 Data & AI Platform

    W atsonテク ニカ ルセールス Executive IT Specialist 【 主な経歴】 1 9 8 7 年日本アイ ・ ビー・ エムに入社。 入社当時は、 東京基礎研究所研究員と し てAPL2 を利用し た数式 処理システム、 数学教育支援システムの研究開発に従事する。 1 9 9 3 年にSE部門に異動し 、 ITスペシャ リ スト と し て主にオープン系システムのイ ンフ ラ 設計・ 構築及 びアプリ ケーショ ンデザイ ンを担当。 2 0 1 3 年より スマータ ーシティ 事業に転属し 、 2 0 1 6 年8 月にワト ソ ン事業部に異動、 今に至る。 いろ いろ な領域を幅広く やっ ているので、 IT基盤系・ アプリ 開発・ プログラ ム言語・ SQLチュ ーニング はも と より W atsonや機械学習、 ディ ープラ ーニングまで一通り 語れるのが自慢。 【 社外講師】 金沢工業大学大学院 虎ノ 門キャ ンパス 客員教授 「 AI技術特論」 【 著作】 「 W atson Stud ioで始める機械学習・ 深層学習」 リ ッ ク テレコ ム社 「 最短コ ースでわかるディ ープラ ーニングの数学」 日経BP社 q iita (http s://q iita.com /m akaishi2 ) 、 雑誌記事等執筆多数 自己紹介 おかげさまで大好評です! 3刷 10,000部!
  2. © 2019 IBM Corporation 書籍出版元の日経BP様主催のいくつかのイベントで、講演などを行います。 関心のある方は是非ご参加を! 2019年09月20日(金) 19:00- @丸善・丸の内本店 3F日経セミナールーム

    日経BP刊『独学プログラマー』著者コーリー・アルソフ氏来日記念イベント 「コーリー・アルソフ×赤石雅典 トークセッション」 (無料 但し書籍購入が条件) https://honto.jp/store/news/deail_041000037195.html 2019年10月9日(水)14:30~15:10 @東京ビッグサイト 会議棟1F xPython Meet Up & Conference 2019 「Pythonで理解するディープラーニング入門」 (無料) https://expo.nikkeibp.co.jp/xpython/ 2019年 11月 7日(木) 10:00~16:30(開場9:30)@神田 エッサム神田ホール2号館 「人気書籍『ディープラーニングの数学』著者が教える! 最短コースで分かる機械学習」 (69,800円 (書籍代込み)) https://www.nikkeibp.co.jp/seminar/atcl/nxt/nc191107/ イベントご案内
  3. © 2019 IBM Corporation Agenda 5 1. IBMのAIソリューション全体像 2. AutoAI

    2-1 AIの業務利用と課題 2-2 AutoAI紹介 2-3 AutoAI詳細機能 3. OpenScale 3-1 AIの課題とIBMの取り組み 3-2 Watson OpenScale概要 3-3 ダッシュボード 3-4 説明性(Explainability) 3-5公平性(Fairness) 4. まとめ
  4. © 2019 IBM Corporation Watson Solution 全体像 7 Watson API

    Visual Recognition (画像) Speech to Text (⾳声認識) Text to Speech (⾳声合成) NLC (⾃然⾔語分類) NLU(⾃然⾔語理解) Discovery(AI検索エンジン) Assistant(チャットボット) 等 Language Translator (翻訳) Watson Studio (モデル開発環境) AutoAI (モデル⾃動構築ツール) Neural Network Designer (深層学習モデル構築ツール) Experiments Builder (GPU学習環境) SPSS Modeler Flow (機械学習モデル構築ツール) Jupyter Notebook R Studio Watson Knowledge Catalog(データ基盤) 接続情報・テーブル登録 アクセス管理 データ整形 マスキング Lineage(世代管理)等 Watson Machine Learning (モデル実⾏環境) Web Service化 CLS (継続学習システム) GPU 対応FW・ライブラリ sckit-learn SPSS Spark Mlib XGBoost Tensorflow Keras PyTorch Caffe Watson OpenScale (モデル運⽤環境) 説明性 公平性 正確性 呼出しログ 性能 NeuNetS(深層モデル⾃動構築) 事前構築済みモデル カスタムモデル開発 Knowledge Studio (カスタム学習によるアノテーション) AutoAI(機械学習モデル⾃動構築)
  5. © 2019 IBM Corporation Watson Anywhere 8 オンプレミス IBM Cloud

    他社Cloud Power AI Intel ESS (Storage) ACC922 (Server) Watson ML Community Edition Watson ML Accelerator PowerAI Vision H2O Driverless AI Kubernetes Docker Watson Knowledge Catalog Watson ML Watson Studio Watson OpenScale Watson API Kubernetes Docker Watson Knowledge Catalog Watson ML Watson Studio Watson OpenScale Watson API Watson Knowledge Catalog Watson Machine Learning Watson Studio Watson OpenScale Watson API Cloud Foundry Storage / Database GPU ※ ※ Think2019でIBMは「Watson Anywhere」というコンセプトを提唱しました。 オープンを前提とした仮想化技術、クラウドサービス、ハードウェア製品、基礎研究などIBMの総合力を発揮して 「いつでもどこでも使えるAI」の提供を目指します。
  6. © 2019 IBM Corporation 11 AI の業務利用について 日本においてもAIの業務利用が本格化してきました。 しかし、本番業務で利用できるAIシステムの開発のためには、様々な役割の専門家の協力が必要です。 業務専門家

    ・AI利用のアイデア出し ・必要な入力項目の洗い出し データ専門家 ・学習用データの準備 (非正規化データの作成) ・データ整形 (クレンジング) データ サイエンティスト ・モデルの最適化 -> 高精度のモデル実装 アプリ 開発者 ・できあがったモデルを 本番環境にデプロイ ・モデルを利用するオン ラインアプリの実装
  7. © 2019 IBM Corporation 12 AI の業務利用について 前ページで説明したそれぞれの専門家の典型的な関心事を、以下に書き下してみました。 業務専門家 データ専門家

    データ サイエンティスト アプリ 開発者 テレマーケティングで効 率化のため、成約予測モ デルを作りたい。 入力項目として意味のあ りそうなのは、年齢、職 業、...、キャンペーン接 触回数、最終キャンペー ンの結果だろうな。 学習データを作るため、 正規化を崩した表を作る 必要がある。 顧客マスターと営業履歴 をJOINすればいいな。 モデルの精度を上げるため、以 下のことをしよう。 前処理で、XX項目は正規化して 、YY項目の欠損値は平均値で埋 めよう。 このタイプのデータには勾配ブ ースティングがモデルとして向 いているので、これを使おう。 ハイパーパラメータはいくつか のパターンでテストしてみる必 要があるな。 できたモデルをオンラン サービスにするため、基 盤はどうしようか。
  8. © 2019 IBM Corporation 13 AI の業務利用時の課題点 AI利用時の最大の課題は、専門家のうち、データサイエンティストが不足していることです。 従来、データサイエンティストには、高度の専門知識・経験が必要でした。経験の少ないデータサイエン ティストによって作られた精度の低いモデルを本番利用すると、せっかくのAI利用のアイデアが有効活用で

    きない結果になってしまいます。 業務専門家 データ専門家 データ サイエンティスト アプリ 開発者 テレマーケティングで効 率化のため、成約予測モ デルを作りたい。 入力項目として意味のあ りそうなのは、年齢、職 業、...、キャンペーン接 触回数、最終キャンペー ンの結果だろうな。 学習データを作るため、 正規化を崩した表を作る 必要がある。 顧客マスターと営業履歴 をJOINすればいいな。 モデルの精度を上げるため、以 下のことをしよう。 前処理で、XX項目は正規化して 、YY項目の欠損値は平均値で埋 めよう。 このタイプのデータには勾配ブ ースティングがモデルとして向 いているので、これを使おう。 ハイパーパラメータはいくつか のパターンでテストしてみる必 要があるな。 できたモデルをオンラン サービスにするため、基 盤はどうしようか。
  9. © 2019 IBM Corporation 14 AutoAIの位置付け AutoAIは、このようなデータサイエンティスト不足の課題に応えるためのソリューションです。 学習データをCSV形式で与え、2,3の指示をマウスクリックで行うだけで、あとは全自動で実用に耐えうる 精度の機械学習モデルを構築することが可能となります。 業務専門家

    データ専門家 AutoAI アプリ 開発者 テレマーケティングで効 率化のため、成約予測モ デルを作りたい。 入力項目として意味のあ りそうなのは、年齢、職 業、...、キャンペーン接 触回数、最終キャンペー ンの結果だろうな。 学習データを作るため、 正規化を崩した表を作る 必要がある。 顧客マスターと営業履歴 をJOINすればいいな。 CSVファイルのアップロードし て、目的変数だけ教えてもらえ ば、あとはまかせて! できたモデルをオンラン サービスにするため、基 盤はどうしようか。
  10. © 2019 IBM Corporation 16 想定ユースケース 以下では、よりAutoAIの利用イメージが持てるよう、実際の想定ユースケースに基づいたシナリオによって説 明します。 想定ユースケースとしては、以下の要件を考えます。 【想定業務】

    銀行業務のテレマーケティング。 既存の顧客名簿に基づいて、コールセンターからアウトバウンドのテレマーケティングを行っている。 【仮説】 顧客属性を入力として、成約の確率の高い顧客を予測するモデルを作る。 精度の高いモデルを作り確度の高い見込み客のみコールの対象とすれば、営業効率がよくなるはずである。
  11. © 2019 IBM Corporation 17 利用データ ネット上に公開されている下記データセットを使います。 入力項目名とそれぞれの項目の意味は以下の通りです。 ※実際のプロジェクトでは、下記のような学習データは、データ専門家により準備される想定です。 変数名

    内容 age 年齢 job 仕事 marital 婚姻有無 education 教育水準 default クレジットカードの債務不履行有無 balance 年間平均残高(€) housing 住宅ローンの有無 loan 個人ローンの有無 contact 連絡方法 day 最終接触日 month 最終接触月 duration 最終接触時間(秒) campaign キャンペーン中の連絡数 pdays 最後に連絡した日からの日数 previous キャンペーンまでに接触した回数 poutcome 以前のマーケティングキャンペーンの結果 https://archive.ics.uci.edu/ml/datasets/bank+marketing ※ 公開データセットには、フルセットとサブセットがあります。 以下のデモでは4521件あるサブセットを利用し、4000件を学習 用に、521件を検証用としました。
  12. © 2019 IBM Corporation 23 正解 yes no 予測 yes

    22 41 no 11 447 テストデータを利用した評価 デプロイしたWebサービスを呼び出すことで、学習に利用していない521件のデータを利用してモデルによる 予測値を取得しました。 その結果は下の表のとおりです。モデルがyesと予測した63件のうち、22件が本当にyesでした。 正答率(Precision)は34.9%となり、モデルを作らない状態でコールするより、はるかに効率がいいことが わかります。この時、モデル精度の高さが業務効率に直結することもわかります。
  13. © 2019 IBM Corporation 26 AutoAIの自動学習 データ前処理 効率のいいモデル作成に必須の処理である、欠損値の補完、データのエンコードなどを、最 適な形で自動的に行います。 モデル選定

    モデル選定に関しては、少ないデータで簡易的なモデルを作成し、有力な候補のモデルを絞 り込む方式を採用しています。この方法により、少ない処理時間で効率よく精度の高いモデ ルを選定することが可能です。候補となるモデル数は 分類型: 30種類 回帰型: 44種類で す。 特徴量最適化 AutoAIでは、強化学習の仕組みを利用して、しらみつぶしではない効率のいい方法により、 精度の最適化をするための特徴量チューニングを行います。 ハイパーパラメータ最適化 モデルの精度に影響のある、ハイパーパラメータの最適化についても、計算資源をあまり使 わない効率のいい方法で行います。 参照: https://dataplatform.cloud.ibm.com/docs/content/wsj/analyze-data/autoai-overview.html?audience=wdp
  14. © 2019 IBM Corporation 27 (参考) AutoAIでサポートしているモデル(分類) 分類型モデルでは、次の30種類のモデルをサポートしています。 AdaBoost Classifier

    Gaussian Naïve Bayes Classifier Label Spreading Logistic Regression Passive Aggressive Classifier Ridge Classifier with Cross- Validation Bernoulli Naïve Bayes Classifier Gaussian Process Classifier LGBM Classifier MLP Classifier Perceptron Ridge Classifier Calibrated Classifier with Cross-Validation Gradient Boosted Tree Classifier Linear Discriminant Analysis Multinomial Naïve Bayes Classifier Quadratic Discriminant Analysis SGD Classifier Decision Tree Classifier Nearest Neighbor Analysis (KNN) Classifier Linear Support Vector Classifier Nearest Centroid Radius Neighbors Classifier Support Vector Classifier Extra Trees Classifier Label Propagation Logistic Regression with Cross-Validation Nu Support Vector Classifier Random Forest Classifier XGBoost Classifier
  15. © 2019 IBM Corporation 28 (参考) AutoAIでサポートしているモデル(回帰) 回帰型モデルでは、次の44種類のモデルをサポートしています。 AdaBoost Regression

    Elastic Net with Cross- Validation Nearest Neighbor Analysis (KNN) Lasso Lars with Cross- Validation MLP Regression Orthogonal Matching Pursuit with Cross- Validation Random Forest Regression Theil-Sen Regression ARD Regression Elastic Net Kernel Ridge Lasso Lars MultiTask Elastic Net CV Orthogonal Matching Pursuit RANSAC Regression XGBoost Regression Bayesian Ridge Regression Gaussian Process Lars with Cross- Validation Lasso Lars IC MultiTask Elastic Net Passive- Aggressive Regression Ridge with Cross- Validation CCA Gaussian Process Regression Lars LGBM Regression Multi Task Lasso CV PLS Canonical Ridge Decision Tree Regression Gradient Boosting Regression Lasso with Cross- Validation Linear Regression Multi Task Lasso PLS Regression SGD Regression Extra Trees Regression Huber Regression Lasso Linear Support Vector Regression Nu SVR Radius Neighbors Regression Support Vector Regression
  16. ©2019 IBM Corporation 31 日本政府が策定した「人間中心のAI社会原則」 公平性、説明責任及び透明性の原則 「AI-Readyな社会」においては、AIの利用によって、人々が、その人の持つ背景に よって不当な差別を受けたり、人間の尊厳に照らして不当な扱いを受けたりすること がないように、公平性及び透明性のある意思決定とその結果に対する説明責任(アカ ウンタビリティ)が適切に確保されると共に、技術に対する信頼性(Trust)が担保され

    る必要がある。 ・AIの設計思想の下において、人々がその人種、性別、国籍、年齢、政治的信念、宗 教等の多様なバックグラウンドを理由に不当な差別をされることなく、全ての人々が 公平に扱われなければならない。 ・AIを利用しているという事実、AIに利用されるデータの取得方法や使用方法、AIの 動作結果の適切性を担保する仕組みなど、用途や状況に応じた適切な説明が得られな ければならない。 参照 https://www8.cao.go.jp/cstp/aigensoku.pdf
  17. ©2019 IBM Corporation 32 Explainable AI (説明可能なAI) アンサンブル ニューラルネット 深層学習

    回帰(一次関数) 決定木 わかりやすい (whitebox) わかりにくい (blackbox) 精度が低い 精度が高い モデルの精度(正解率の高さ)と「わかりやすさ」はトレードオフの関係 -> 高い精度を保ちつつ説明性を担保する方法はないのか?
  18. ©2019 IBM Corporation 33 「AIの公平性」の問題 被告の再犯可能性を予測するAIシステム「Compas」 米国で実際に本番利用されている機械学習モデル 137問の質問への回答を入力に、再び犯罪を犯す危険性を10段階の点数として算出 調査報道サイト「プロパブリカ」により、以下の調査結果が判明し大きな社会問題 となりました。

    偽陽性 (再犯の疑いありの判定で 実際には再犯なし) 偽陰性 (再犯の疑いなしの判定で 実際には再犯あり) 白人 23.5% 47.7% 黒人 44.9% 28.0% 出典: https://kaztaira.wordpress.com/2018/09/22/aiのバイアス問題、求められる「公平」とは何/
  19. ©2019 IBM Corporation 34 IBMの取り組み • 2017年 Corporate Responsibility Report

    最初の項目にTrust and transparencyがあり、AIに関する責任性に言及 • 2018年9月21日「AI倫理のためのガイド」 出典 https://www.ibm.com/blogs/think/jp-ja/everyday-ethics-for-artificial-intelligence/
  20. ©2019 IBM Corporation 35 IBMの取り組み IBMでは以上の全社的な方針を受けて、次の2つの製品・サービスを提供していま す。 Watson OpenScale Watson

    StudioやWatson Machine Learningと同じIBMクラウド上のサービス。 ただし、他のサービスと異なり、他社AIも管理対象に含む。 AI Fairness 360 / AI Explainability 360 Python APIをOSSとして公開。 ライブラリだけでなく、API Reference、チュートリアル、デモアプリなども一般 に利用可能。 ユーザーは自分でPythonコーディングを行うことが前提。 AIF360: http://aif360.mybluemix.net/ AIX360: http://aix360.mybluemix.net/
  21. ©2019 IBM Corporation 36 OpenScaleとAIF360 OpenScaleとAIF360/AIX360の目的・役割・対象などを整理すると次のようになります。 Watson OpenScale AIF360/AIX360 位置付け

    商用製品/商用サービス オープンソース 想定ユーザー 企業ユーザー データサイエンティスト 研究者、開発者 提供形態 ICP, IBM Cloud、他社クラウド Pythonライブラリーとツールの集合 利用フェーズ モデル実行/運用時 モデル開発時 提供機能 説明性 ◦ ◦ (AIX360) 公平性 ◦ ◦ (AIF360) 正確性(精度) ◦ -
  22. ©2019 IBM Corporation 38 Watson OpenScaleの特徴 Watson OpenScaleのハイレベルな特徴として以下のことがあげられます。 Open (オープン):

    代表的な機械学習・深層学習フレームワーク・他社AIサービス(MS Azureと Amazon Sagemaker)を管理対象とすることが可能。 Scale (拡張性): パブリック、プライベート、ハイブリッド・クラウド、どの環境でも提供可能。 Explainability (説明性): AIモデルの評価結果において、その判断理由を説明。 Fairness (公平性): AIモデルの導出した結果の公平性をチェックし、是正する。
  23. ©2019 IBM Corporation 39 Watson OpenScaleの主要機能 Payload Logging機能がベースの機能となっています。 Payload Loggingを使って説明性(Explainability)

    と公平性(Fairness) を実現して います。 それぞれの拡張機能としてContrastive ExplanationとBias mitigationがありま す。 それ以外にモニタリング機能や、ドリフト・モニタリング機能がなどがあります。 Payload Logging 説明性 (Explainability) 公平性 (Fairness) Contrastive Explanation Bias mitigation ・Monitoring ・Performance ・Drift monitoring Watson OpenScale 主要機能
  24. ©2019 IBM Corporation 44 説明性(Explainability) 説明性(Explainability)機能の実現方法 LIME(Local Interpretable Model-agnostic Explanations)という方法をベースにしています。

    ・特定の機械学習の結果を解析したい場合、その近傍の入力データで出力がどうなるかを調べます。 ・集まったデータを使って、モデルを局所的に近似する簡易モデルを作ります。 ・簡易モデルは構造が簡単なため、寄与度を求めることが可能です。 このアプローチであれば、対象が深層学習モデルのような複雑なモデルでも解析可能になります。 出典: https://arxiv.org/abs/1602.04938
  25. ©2019 IBM Corporation 48 公平性 バイアス検知の方法 perturbation analysis 入力データのバリエーション を増やす

    監視対象 モデル Payloadだけではデータが不足している場合、OpenScaleは入力データのバリエーションを増やし (perturbation analysis)、それぞれの結果を見ることで、バイアスの有無を検知します。 payloadから取得した記 録 増やしたデータに関して、モ デルを呼び出し結果を調べる 結果を統計的に処理 してバイアスの有無 を判断
  26. ©2019 IBM Corporation 52 まとめ IBM のAI戦略 ・従来のAPIのサービスだけでなく、AI開発・実行・運用基盤も提供 ・従来のパブリッククラウドだけなく、オンプレミス・ハイブリッドクラウドへの対応 ->

    Watson Anywhere AutoAI ・AI開発の最大のボトルネックである、データサイエンティスト不足へのソリューション ・前処理・モデル選択・特徴量抽出・パラメータチューニングを全自動で実施 -> AIによるAI OpenScale ・AI化の課題である、説明性・公平性に対するソリューション ・機械学習のスキルは不要・業務知識のみで利用可能
  27. ©2019 IBM Corporation 54 参考リンク タイトル リンク 【AutoAI】 AutoAIでお手軽機械学習(その1) 準備編

    https://qiita.com/makaishi2/items/d63f0bbac32a975c391e AutoAIでお手軽機械学習(その2) モデル構築編 https://qiita.com/makaishi2/items/d6cd449f7a9f7186a833 AutoAIでお手軽機械学習(その3) Webサービス編 https://qiita.com/makaishi2/items/e5ad4d068bd364fdc056 【OpenScale】 Openscaleでscikit-learn モデルの説明性を確認する【セットアップ編】 https://qiita.com/makaishi2/items/cd54e91c635cd32437ad Openscaleでscikit-learn モデルの説明性を確認する【動作確認編】 https://qiita.com/makaishi2/items/a3f9330fe17b5eaf8d26 【AIF360/AIX360】 AI Frieness 360 Toppage http://aif360.mybluemix.net/ AI Explainability 360 Top Page http://aix360.mybluemix.net/ 【Decision Optimizer】 Watsonで数独を解く! Decision Optimizerを使ってみた https://qiita.com/makaishi2/items/d1cc9a3f49f640a3b649 Watsonで巡回セールスマン問題を解く https://qiita.com/makaishi2/items/78570f9283c0bc6c7e6c ※ Decision Optimizerは今回時間の関係上ご紹介できなかった、Watson Studioの新機能(最適化を行うソフトCPLEXのクラウド版)です。 機会があれば別途ご紹介したいと思います。