エンタープライズNLPの最初のステップは、 基本的なレベルでの⾔語の理解です。これに は、⽂章の意味的理解、⽂書内の主要なエン ティティやコンセプトの抽出、エンティティ 間の関係の特定、さらには複雑な⽂書の フォーマットの理解などが含まれます。この 研究の⼀部は、⽂書内のカスタムフィールド やアーティファクトを抽出して解釈するよう に訓練されたWatson Discovery Smart Document Understanding(SDU)など、 IBMのAI製品にすでに組み込まれています。 さらに、IBMリサーチは、⽂書レイアウト分 析(PDF⽂書に埋め込まれた情報を抽出する プロセスを合理化すること)を⽬的とした史 上最⼤のデータセットであるPubLayNetを開 発し、公開しました。 CLASSIFY 第2のステップは、テキストやドキュメント をより⾼いレベルの構成要素に分類するこ とである。これらには、⽂書または⽂書の ⼀部の全体的なセンチメント(⽂書内の概 念の関連付け)や、より⼀般的には⽂書内 の⽂、段落、表、グラフ、図の要素分類が 含まれます。IBMは2020年3⽉、IBMリ サーチのProject DebaterのNLP機能を Watson Discovery、Watson Assistant、 Watson Core Servicesに統合し、企業が初 めて⾼度なセンチメント分析、⾼度なト ピック・クラスタリング、ビジネス⽂書の 要素のカスタマイズ可能な分類を利⽤でき るようにしました。 RETRIEVE テキストが理解され、分類されると、アプ リケーションはこれを利⽤して、データの 検索や探索を⾏うことができます。これに は、ユーザークエリに基づくドキュメント、 パラグラフ、テーブルのきめ細かな検索、 質問応答(QA)、ドキュメントにカプセル 化された知識の視覚化とナビゲーションな どが含まれます。IBMリサーチは最近、 COVID-19上の科学論⽂のCORD-19コーパ スにQAシステムを展開し、QA技術が統合 された場合に企業がWatson Discoveryを 使って独⾃のコンテンツに期待できる機能 を実証しました。また、IBMリサーチは昨 秋、IBMリサーチのトップパフォーマンス であるGAAMA(Go Ahead Ask Me Anything)システムをベースにした TechQAリーダーボードを発表しており、 企業のQAユースケースに対応した初のリー ダーボードとなっています。 GENERATE 最後に、新しい⾔語が⽣成されることがありま す。この例としては、単⼀のドキュメント、ま たは複数のドキュメント、そしてクエリの⽂脈 でのサマリーが挙げられます。NLPシステムは、 カスタマーサポートの質問、取引、⼀般的なガ イダンスなどのリクエストを解決しようとする ⼈間と会話をします。IBMの対話システムの代 表的なソリューションであるWatson Assistantは、IBMリサーチのいくつかのイノ ベーションに基づいています。また現在、ログ ファイル、ユーザーマニュアル、ウェブページ など、企業のコミュニケーションの構造や内容 を⽂書化したものを分析し、ダイアログ⽣成プ ロセスを⾃動化する⽅法をさらに開発していま す。特に、最近のグラミー賞授賞式では、IBM リサーチのサマライズ技術を⽤いて、1,800万 件のニュース記事、ブログ、バイオグラフィー を分析し、レッドカーペットのライブストリー ムに、より深い⽂脈と情報を追加して、ライブ 感を提供しました。 下記⽇本語は機械翻訳になりますので、 必ず元の内容をご確認ください