Upgrade to Pro — share decks privately, control downloads, hide ads and more …

今さら聞けないシリーズ - はじめてのNLP

今さら聞けないシリーズ - はじめてのNLP

こちらのウェビナーの資料です。

今さら聞けないシリーズ : はじめての自然言語処理 (NLP) | Databricks https://www.databricks.com/jp/resources/webinar/apj-ve-fundamental-series-nlp

Takaaki Yayoi

May 13, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. 自己紹介 弥生 隆明 (やよい たかあき) シニアソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにおいて、プレセー ルス、POCに従事

    ▪ 前職はコンサルティングファーム、総合電機メーカーにて データ分析・Webサービス構築などに従事。インド赴任経 験あり。 ▪ 総合電機メーカー在籍時には、某DBMS製品のテキスト 検索プラグインの研究開発に従事していました。 ▪ Qiitaでいろいろ書いています。
  2. ©2022 Databricks Inc. — All rights reserved 日本初のデータブリックス本を出版しました データブリックス クイックスタートガイド

    • 「データブリックスって聞くけど、一体どういうものなのだろうか」と思われている方、データブリックスを触り始めた方を対象として、 データブリックス・ジャパンのエンジニアの有志で本書を執筆しました。本書をご一読いただければ、データブリックスとは何か、 データブリックスをどのように使うのかを一通り理解できる内容となっています。 • データとAIを活用して業務を変えたい、機械学習モデルを本格的に運用することを前提としてデータ /AI基盤を構築したいと考えら れている方に本書が一助になれば幸いです。 1章 Databricks(データブリックス)とは? 1. はじめに 2. 背景 3. レイクハウスの誕生 4. データブリックスとは 5. コンセプト 6. アーキテクチャ 7. 主要機能 8. コスト 2章 データブリックスのセットアップ 1. データブリックスのセットアップ - AWS 2. Azure Databricksのセットアップ 3. データブリックスのセットアップ - Google Cloud 3章 データブリックスを使ってみる 1. データブリックスのユーザー・グループ 2. Databricksクラスター 3. Databricksノートブック 4. データブリックスのジョブ 4章 ユースケース別ガイド 1. データエンジニアリング 2. 機械学習 3. BI 5章 ツール連携 1. Repos 2. Partner Connect 6章 MLOpsの実現に向けて
  3. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは 我々が日常的に使っている自然言語をコンピューターで処理する技術です こんにちは。私の名前は データ・ブリックスです。好 きな食べ物は鶏の唐揚げ です。 ?! 自然言語 コンピュータが解釈するプログ ラミング言語は人工言語と呼ば れています。
  4. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは そもそも、なぜ自然言語を処理する必要があるのでしょうか? 世界は自然言語で溢れていますが分析が困難です 2015年、HIMSS(医療情報管理システム協会)は、アメリカのヘルスケア業界において12億の医療ド キュメントが作成されたと推定しました。これ以降、毎年生成される医療テキストデータは増える一方 です。電子フォーム、オンラインポータル、PDFレポート、メール、テキストメッセージ、チャットボット、こ れら全てが現在のヘルスケアコミュニケーションの中心となっていますが、あまりに量が多くて人間に よる解釈、計測は不可能となっています。 ヘルスケアにおける大規模テキストデータへの自然言語処理の適用 しかし、重要な洞察は自然言語のデータからもたらされます 患者の安全のモニタリングはより多くのデータを収集するにつれて複雑になっています。薬害イベント の5%以下が公式なチャネル経由で報告されており、それ以外の大部分は患者サポートセンターへの メール・電話や、ソーシャルメディアへの投稿、医師と医薬品セールスの会話、オンラインの患者 フォーラムなどのフリーテキストのチャネル経由で報告されています。 NLPを用いた薬害イベント検知による薬品安全性の改善
  5. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは ここ数年でNLPと機械学習を組み合わせる取り組みが増えています 機械学習(Machine Learning) タスクを実行するために、コンピュータに対して明示的に プログラムを行うのではなく、機械学習においては コンピュータがタスクの実行方法を学習します。
  6. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは また、ここ数年でNLPと機械学習を組み合わせる取り組みが増えています P( )
  7. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは また、ここ数年でNLPと機械学習を組み合わせる取り組みが増えています P( ) 一週間前から患者の 体温の変動が激しく、 咳き込む回数も増え ているとのこと。家族 は心配しており、対策 を求められているが原 因を特定できていな い。◦◦を処方したが効 果は認められていな い。 伝染病
  8. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは テキストデータを分析することで様々な価値を生み出すことができます 感情分析 予測 異常検知 こんにち は、実は… NLP 機械学習
  9. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは 数多くの自然言語処理技術が存在しています 形態素解析 ある文章を入力とし、その文章に含まれる 意味をもつ表現要素の最小単位 (形態素)を特定します。これにより一連の文章を 形態素に分解することができ、単語の数をカウントするなどコンピューターによる処理が容易になります。英語の場合、単語 は空白で区切られていますが日本語はそうでないため、日本語の自然言語処理では形態素解析が重要な役割を担います。 すもももももももものうち すもも も もも も もも の うち 名詞 助詞 名詞 助詞 名詞 助詞 名詞 形態素 文章
  10. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは 数多くの自然言語処理技術が存在しています 構文解析 ある文章を入力とし、文章に含まれる要素同士の関係性を解析します。係受け解析とも呼ばれます。 太郎は走った 太郎 は 走っ た 名詞 助詞 動詞 助動詞 文章 名詞句 動詞句 文章
  11. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは 数多くの自然言語処理技術が存在しています 検索 単語あるいは自然文を入力とし、単語を含む文書や関連する文書を返却します。 テキスト分類 文書の類似性に基づいて文書をグルーピングします。 トピックモデリング テキストのグループからトピックを表すキーワードを特定します。 文章要約 長い文章を数文に要約します。 機械翻訳 ある言語で記述されている文章を別の言語に翻訳します。 文章生成 複数の文章を学習するなどして、自動的に文章を生成します。
  12. ©2022 Databricks Inc. — All rights reserved 自然言語処理(Natural Language Processing:

    NLP)とは 自然言語処理には特有の難しさがあります 曖昧性の取り扱い 自然言語には読み手の解釈によって意味が異なる曖昧性が含まれており、コンピューターでの取り扱いには課題がありま す。 「絶対値が上がる」は「絶対値が上がる」なのか「絶対(に)値(段)が上がる」なのか? 新語への対応 コンピューターは勝手に新語を学ばないので何かしらの手段で新語を学習させる必要があります。 文脈の理解 同じ単語であっても、文脈によって意味が異なるケースがあります。 米飯:土鍋を使ってご飯を炊く。 食事:運動をしたので今日のご飯は美味しい。 献立:今日のご飯を何にするか考える。 しかし、最近の技術の進歩によって、これらの課題にある程度対応できるよう になってきています! 例えば「ご飯」
  13. ©2022 Databricks Inc. — All rights reserved 自然言語処理の適用事例 適切に自然言語を処理することで様々な価値を生み出すことができます •

    科学文献と膨大なデータソースに自然言語処理 (NLP)を適用すること で後段でのデータ分析に活用 • 研究者の意思決定に役立つ推薦モデルを構築 • ゲーム中の不正な言葉をリアルタイムで検出して防止することで、 チャット上の誹謗中傷によるコミュニティの悪化を回避 • 特に、同じ単語でも文脈によって意味合いが異なる複数言語の解析 が必要であり、このような要件に応えるモデルの精緻化を実現 • 患者のCOVID-19のリスクを特定するために600,000以上の遠隔医 療レコードにNLPを適用 • 特定した高リスク患者に対して優先度を上げて COVID-19の検査を実 施
  14. ©2022 Databricks Inc. — All rights reserved NLPでできること 適切に自然言語を処理することで様々な価値を生み出すことができます 検知

    テキストの内容に基づいて、例えば、回避すべきイベントを検知し早期の対策を講じることができます。 チャットbot 製品・サービスに対する問い合わせに対する応答を自動化することができます。対象を音声にまで拡大すれば、 Siriのような 対話システムも構築することができます。 感情分析 製品・サービスに対するポジティブ・ネガティブな感情を分析することでフィードバックに活用することができます。 レコメンデーション 文書の内容に基づいて、関連する別の文書を提示することで、必要とする文書にクイックにアクセスすることができるようにな ります。
  15. ©2022 Databricks Inc. — All rights reserved NLPのウォークスルー 実際に基本的なNLPの技術を使ってみます ライブラリのインストール

    Pythonで簡単にNLPを適用できるライブラリが提供されています。今回は Janomeを使用して形態素解析を行います。 MeCabを使用することもできます。 形態素解析 テキストを入力として形態素を抽出します。 テキストの前処理 構造化データと同様に、テキストデータにおいてもデータのクレンジングが必要となります。 ワードクラウドによる可視化 抽出した形態素は単語の羅列のようなものであるため、これだけを眺めても得られるものは少ないです。例えば、文書に出 現する単語の頻度に基づいて可視化をすることで、文章の概要を把握することができます。これには ワードクラウドと呼ばれ る可視化手法を用いることが一般的です。ワードクラウドは出現頻度の多い単語を大きく、中央に表示するように可視化を行 います。
  16. ©2022 Databricks Inc. — All rights reserved NLPのウォークスルー 実際に基本的なNLPの技術を使ってみます 自然言語処理におけるSparkの活用

    大規模なテキストデータに対する処理に Sparkの並列分散処理を活用して高い性能を発揮します。 自然言語処理による予測の実施 雲の量や湿度から降水確率を予測するのと同じように、テキストの内容に基づいてレビューの点数を予測します。
  17. ©2022 Databricks Inc. — All rights reserved (機械学習ベースの)NLPの最新技術動向 これは一部ですが日々新たな技術が生まれています scikit-learn

    最新技術ではないですが、最初に使い始めるのには適していると思います。 Word2vec Word2vecは、2013年にGoogleの研究者トマス・ミコロフ氏によって提案された手法です。単語の意味ベクトルを得ること で、単語の意味を考慮した処理が可能となります。 BERT(Bidirectional Encoder Representations from Transformers) 2018年にGoogleから発表されたニューラル言語モデルです。事前学習済みモデルをファインチューニングすることで様々な 自然言語処理タスクで高い精度を発揮しています。日本語向けのモデルも公開されています。 Spark NLP Spark向けNLPライブラリです。John Snow Labsによって提供されています。日本語にも対応しています。 BigARTM 新たなトピックモデリングの手法です。
  18. ©2022 Databricks Inc. — All rights reserved まとめ DatabricksでNLPを活用してビジネス価値を生み出してみませんか 感情分析

    予測 異常検知 こんにち は、実は… NLP 機械学習 • 並列分散処理による高速化 • GPUクラスターの活用 • さまざまなライブラリをサポート • 確固たるMLOpsの実現 ブリックスちゃん
  19. ©2022 Databricks Inc. — All rights reserved まとめ 見てみたい! もっと知りたい!

    試してみたい! デモ・ハンズオン ご興味のテーマに関し て深堀 PoC • 実環境を使ったデモや、一時的に触っ ていただける環境を活用したハンズオ ンを実施 • デモ・ハンズオン共に、ETLや機械学 習といったテーマでご案内 • セキュリティ・ガバナンス、アーキテク チャー、課金体系等気になる点に関し て追加での説明 or 資料共有 • 類似サービスとの比較・相違点等のご 紹介 • 無償でPoCをサポート • 通常2週間のPoC期間中、Databricks 使用料と技術サポートを無償でご提供 • パブリッククラウドのストレージ、コン ピュートコストはお客様ご負担となりま す (AWSの場合S3やEC2等) Databricksにご興味が出たらお声がけください
  20. ©2021 Databricks Inc. — All rights reserved 28 JEDAIは、データブリックスを最大限 ご活用いただくための有益な情報を

    ご提供するとともに、ユーザー同士 がつながり、関係を深めることができ る場として活動いたします。
 2021年は5回の開催を予定していま す。ぜひお気軽にご参加ください。
 データブリックス・ジャパン株式会社 
 Senior Customer Success Engineer 
 徳元 大 輔
 通信事業者で様々な業務を経験した 後にビッグデータ業界に。現在は Databricks Japanでポストセールス の頼れるなんでも屋さんを目指して いる。趣味は、飲み食べ歩き・キック ボクシングと過度なエクササイズ・海 外SF小説。好きな映画:ブレードラン ナー、パルプフィクション。座右の銘: 無欲は怠惰の元である。
 お客様セッション
 5・7・9・11・1月開催(予定)
 データブリックスをご利用頂いてるお客様企業やデータ&AIのプロ フェッショナルをお招きして、実際現場で苦悩されている点や、さらに は普段他では話すことのできないハプニング、ココでしか聞けない開 発秘話など、存分にお話いただきます。
 セッションの他にも、Q&Aの時間をたっぷり設け、オンラインの枠を 超えた、できる限りインタラクティブなコミュニケーションが取れるよう にいたします。
 テーマ別セッション
 6・8・10・12月開催(予定)
 データプロジェクトにおける世界の最新トレンドからAI/機械学習プロ ジェクトの実運用まで、毎回テーマを設定し、弊社のパートナー様や弊 社のデータ&AI プロフェッショナルが、ご説明します。セッションの他に も、Q&Aの時間をたっぷり設け、オンラインの枠を超えた、できる限り インタラクティブなコミュニケーションが取れるようにいたします。
 プログラム概要
 コミュニティへの登録方法
 コミュニティの運営は「Connpass」を利用いたします。
 こちらの登録は、Eメールアドレスに加え、各種ソーシャルアカウント(Twitter, Facebook)との連携が可能です。
 ご登録はこちら>
 https://jedai.connpass.com/
 Community Guide 

  21. ©2022 Databricks Inc. — All rights reserved 参考リンク集 • 書籍「データブリックス

    クイックスタートガイド」 ◦ https://www.amazon.co.jp/dp/B09V1YXFVQ/ • ウェビナーで使用したDatabricksノートブック ◦ 以下のリポジトリからダウンロードできます。 ◦ https://github.com/taka-yayoi/public_repo/tree/main/20220421_NLP_webinar • Spark NLP ◦ https://nlp.johnsnowlabs.com/ • BigARTM ◦ https://github.com/bigartm/bigartm • データブリックス漫画シリーズ ◦ https://databricks.com/discover/manga-series-jp • データブリックスユーザー会 ◦ https://jedai.connpass.com/ • データブリックスのQiitaページ ◦ https://qiita.com/organizations/databricks