Upgrade to Pro — share decks privately, control downloads, hide ads and more …

どんな文書でもわかりやすく、複雑な文書を解析する技術 / 2025 AI TECHNOLOGY...

どんな文書でもわかりやすく、複雑な文書を解析する技術 / 2025 AI TECHNOLOGY TALK

2025年6月13日開催 Women in Data Science Tokyo @ IBM
AI TECHNOLOGY TALK 資料

Speaker: 鈴木 祥子
日本アイ・ビー・エム株式会社
東京基礎研究所 ナレッジインフラストラクチャー
スタッフ・リサーチ・サイエンティスト

https://widstokyoibm2025.pages.dev/

Avatar for wids-tky-i

wids-tky-i

June 13, 2025
Tweet

More Decks by wids-tky-i

Other Decks in Technology

Transcript

  1. 自己紹介 • ~2004 理論物理専攻(博士課程) • 2004~2013 IBM入社後、東京基礎研究所の数理解析チームなどに所属 • 異常検知などのデータ解析 •

    2013~ テキスト分析のチームに所属 • 特に特許などの技術文書や教育コンテンツなどを対象とした研究を行う。 • 特許分析のお客様プロジェクトにアドバイザーとして参画。 • 最近はAIを用いた文書理解や文書構造抽出、特に表やkey-value ペアといった構造の抽出を IBMの海外Labと一緒に行っている。 (c) IBM Corporation 2025
  2. 自己紹介(裏):好きなものの歴史 仕事・子育て 大学・大学院 中学・高校 小学校 映画 本 数学 理論物理 登山・ボルダリング

    テキスト解析 子供 数理と文章 との出会い 直接人の役に立 つこともした い。。 本や映画の多様 な世界が好き 数理で記述され た世界が好き (c) IBM Corporation 2025
  3. 各種テキスト分析技術 • 形態素解析、構文解析 • 情報抽出(固有名詞抽出、語の関係抽出、etc. ) • 翻訳 • スコアリング/分類

    • 検索 • 要約 • テキストマイニング/時系列分析 アトラクションへの入場を管理する アトラクション へ の 入場 を 管理する 名詞 助詞 助詞 名詞 助詞 動詞 アトラクション へ の 入場 を 管理する 人手で付与された大量の単語分解、品詞タグ付け、係り 受けのデータ(アノテーション)をもとに入力文を解析 (c) IBM Corporation 2025
  4. 各種テキスト分析技術 • 形態素解析、構文解析 • 情報抽出(固有名詞抽出、語の関係抽出、etc. ) • 翻訳 • スコアリング/分類

    • 検索 • 要約 • テキストマイニング/時系列分析 ダイヤモンド等の砥粒 上位 下位 西部池袋線の沿線 固有名詞 情報抽出には、人手で付与された正解データ(アノテーショ ン)を利用して学習する機械学習による手法と、あらかじめ ルールを設定した上で抽出するルールベースの手法が存在する (c) IBM Corporation 2025
  5. 各種テキスト分析技術 • 形態素解析、構文解析 • 情報抽出(固有名詞抽出、語の関係抽出、etc. ) • 翻訳 • スコアリング/分類

    • 検索 • 要約 • テキストマイニング/時系列分析 請求項中の1以上のキーワードを抽出する為のコンピュータ実装方法であって、 独立 請求項を、1以上の語をそれぞれ含む複数の要素に分解すること、 前記複数の要素か ら依存構造を構築すること、ここで、前記複数の要素のそれぞれは前 記依存構造におい て深さを有し、 前記独立請求項中の語のそれぞれについて、当該語に対応する要素の 深さを使用してス コアを計算すること、及び 所定の閾値に等しい又はそれよりも大 きいスコアを有する1以上の語を、1以上のキー ワードとして抽出すること を含む、 前記方法。 A computer-implemented method for extracting at least one keyword in a claim, the method comprising: decomposing an independent claim into a plurality of elements, wherein each element in the plurality of elements has at least one term; constructing a dependency structure from the plurality of elements, wherein each element in the plurality of elements has a depth in the dependency structure; calculating a score using the depth of the element corresponding to the at least one term in the independent claim; and extracting at least one keyword from the at least one term having a score equal to or larger than a predetermined threshold. 人手による大量の翻訳ペアから翻訳モデルを学習し、入 力文を翻訳 (c) IBM Corporation 2025
  6. 各種テキスト分析技術 • 形態素解析、構文解析 • 情報抽出(固有名詞抽出、語の関係抽出、etc. ) • 翻訳 • スコアリング/分類

    • 検索 • 要約 • テキストマイニング/時系列分析 人手によって与えられた分類/スコアを再現する 機械学習モデルの構築 類似する文書同士をクラスタリング (c) IBM Corporation 2025
  7. 各種テキスト分析技術 • 形態素解析、構文解析 • 情報抽出(固有名詞抽出・語の関係抽出) • 翻訳 • スコアリング/分類 •

    検索 • 要約 • テキストマイニング/時系列分析 大量文書集合から(個別の文書だけからは得られない) 知見を発見する手法 • 文書中キーワードの統計的な偏りから依存関係のある 事象を抽出する • 過去の時系列データから時系列の予測モデルを構築し、 傾向を分析したり予測と実測値との乖離を分析する (c) IBM Corporation 2025
  8. 世の中には難解な文書が多く存在します 【請求項1】 アトラクションへの入場を管理するための方法において: 客への前記アトラクション利用権付与を確立するための第1のバ リデーター; 前記客が前記アトラクションを利用できる割当時間を生成するた めのコントローラであって、前記割当時間が前記システムにより 行われるアルゴリズムにより決定される次の利用可能時間を含む コントローラ; 前記客が前記割当時間に前記アトラクションを利用することを許

    可するための第2のバリデーター; を含むことを特徴とするシステム。 ディズニー・ファストパス®についての特許 (特開200 1-101461より請求項1を引用) 神奈川県の住民基本台帳法施行条例 第5条: 知事が行う法第30条の15第2項(第2号に係る部分に限る。)及び 法第30条の44の6第2項(第2号に係る部分に限る。)の規定によ る都道府県知事保存本人確認情報及び都道府県知事保存附票本人確 認情報の知事以外の県の執行機関への提供は、規則で定めるところ により、知事の使用に係る電子計算機から電気通信回線を通じて知 事以外の県の執行機関の使用に係る電子計算機に送信する方法によ り行うものとする。 From “Extraction of Keywords of Novelties From Patent Claims” 2016 構造はどうなっているのか? 語の意味は? 文章の意味は? 具体例は? (c) IBM Corporation 2025
  9. 特許文書の特殊性 • 特許請求項は、権利範囲を規定するため、特殊な記述形式で記載されている • 例) 切り餅に関する特許(特許4111382の請求項1を引用) 【請求項1】 焼き網に載置して焼き上げて食する輪郭形状が方形の小片餅体である切餅の載置底面又は平坦上面ではなくこの小片餅体の上側表面部の立直側面である側周表面に、 この立直側面に沿う方向を周方向としてこの周方向に長さを有する一若しくは複数の切り込み部又は溝部を設け、この切り込み部又は溝部は、この立直側面に沿う方向 を周方向としてこの周方向に一周連続させて角環状とした若しくは前記立直側面である側周表面の対向二側面に形成した切り込み部又は溝部として、焼き上げるに際し

    て前記切り込み部又は溝部の上側が下側に対して持ち上がり、最中やサンドウイッチのように上下の焼板状部の間に膨化した中身がサンドされている状態に膨化変形す ることで膨化による外部への噴き出しを抑制するように構成したことを特徴とする餅。 特許文書は法的文書であり、また、専門性の高い技術文書であるため、二重に読解が困難です 特許訴訟 被告製品 (切り餅事件控訴審中間判決(平成23年(ネ)第10002号)) (c) IBM Corporation 2025
  10. 特許文書の特殊性 • 特許請求項は、権利範囲を規定するため、特殊な記述形式で記載されている • 例) 切り餅に関する特許(特許4111382の請求項1を引用) 【請求項1】 焼き網に載置して焼き上げて食する輪郭形状が方形の小片餅体である切餅の載置底面又は平坦上面ではなくこの小片餅体の上側表面部の立直側面である側周表面に、 この立直側面に沿う方向を周方向としてこの周方向に長さを有する一若しくは複数の切り込み部又は溝部を設け、この切り込み部又は溝部は、この立直側面に沿う方向 を周方向としてこの周方向に一周連続させて角環状とした若しくは前記立直側面である側周表面の対向二側面に形成した切り込み部又は溝部として、焼き上げるに際し

    て前記切り込み部又は溝部の上側が下側に対して持ち上がり、最中やサンドウイッチのように上下の焼板状部の間に膨化した中身がサンドされている状態に膨化変形す ることで膨化による外部への噴き出しを抑制するように構成したことを特徴とする餅。 特許文書は法的文書であり、また、専門性の高い技術文書であるため、二重に読解が困難です 特許訴訟 最終的に、この部分に 読点がついていないこ とが勝敗の決め手に なった 第3 当裁判所の判断 当裁判所は,被告製品(別紙物件目録1ないし5)は本件発明の技術的範囲に属し,かつ本件特許は特 許無効審判により無効にされるべきものではないと判断する。その理由は,以下のとおりである。 1 争点1(被告製品が本件発明の構成要件B及びDを充足するか否か)について 被告製品の構成,及び被告製品が本件発明の構成要件A,C及びEを充足することについては,当事者 間において争いがない。以下,被告製品が本件発明の構成要件B,Dを充足するか否かについて検討す る。 (1) 構成要件Bの充足性について ア 「載置底面又は平坦上面ではなく」の意義について 当裁判所は,構成要件Bにおける「載置底面又は平坦上面ではなく」との記載は,「側周表面」である ことを明確にするための記載であり,載置底面又は平坦上面に切り込み部又は溝部(以下「切り込み部 等」ということがある。)を設けることを除外するための記載ではないと判断する。この点,被告は, 「載置底面又は平坦上面ではなく」との記載部分は,「この小片餅体の上側表面部の立直側面である側 周表面に」との記載部分とは,切り離して意味を理解すべきであって,「載置底面又は平坦上面」には, 「一若しくは複数の切れ込み部又は溝部」を設けない,という意味に理解すべきであると主張する。 しかし,①「特許請求の範囲の記載」全体の構文も含めた,通常の文言の解釈,②本件明細書の発明の 詳細な説明の記載,及び③出願経過等を総合するならば,被告の上記主張は,採用することができない。 その理由は,以下のとおりである。 (ア) 特許請求の範囲の記載 本件発明の特許請求の範囲(請求項1)には,「載置底面又は平坦上面ではなくこの小片餅体の上側表 面部の立直側面である側周表面に,この立直側面に沿う方向を周方向としてこの周方向に長さを有する 一若しくは複数の切り込み部又は溝部を設10け,」(構成要件B)と記載されている。上記特許請求 の範囲の記載によれば,「載置底面又は平坦上面ではなく」との記載部分の直後に,「この小片餅体の 上側表面部の立直側面である側周表面に」との記載部分が,読点が付されることなく続いているので あって,そのような構文に照らすならば,「載置底面又は平坦上面ではなく」との記載部分は,その直 後の「この小片餅体の上側表面部の立直側面である」との記載部分とともに,「側周表面」を修飾して いるものと理解するのが自然である。 被告製品 (切り餅事件控訴審中間判決(平成23年(ネ)第10002号)) (c) IBM Corporation 2025
  11. 難読な特許文書も、構造を解析すること で可読性を向上できます A toy building block having a bottom wall,

    straight side walls each having an inner surface, said walls encompassing the inner face of said bottom wall, at least two identical primary protuberances extending from the outer face of said bottom wall, at least one secondary protuberance extending from said inner face of said bottom wall and presenting a surface within the region encompassed by the inner surfaces of said side walls, a geometric projection of the peripheries of said primary protuberances normal to the inner face of said bottom wall each being in tangential contact with said surfaces at three points, at least one of said points of contact being with the surface of said secondary protuberance, said tangential contact producing a clamping effect when a primary protuberance of another such block engages the said surfaces. from US patent US3005282A (c) IBM Corporation 2025
  12. 特許請求項の構造解析例(US3005282A) 16 straight side walls each having an inner surface,

    a bottom wall, said walls encompassing the inner face of said bottom wall, at least one secondary protuberance extending from said inner face of said bottom wall and presenting a surface within the region encompassed by the inner surfaces of said side walls, at least two identical primary protuberances extending from the outer face of said bottom wall, at least one of said points of contact being with the surface of said secondary protuberance, said tangential contact producing a clamping effect when a primary protuberance of another such block engages the said surfaces. 6. A toy building block according to claim 4 in which the secondary protuberances are cross-shaped. 5. A toy building block according to claim 4 in which the block has eight primary protuberances and three secondary protuberances. a geometric projection of the peripheries of said primary protuberances normal to the inner face of said bottom wall each being in tangential contact with said surfaces at three points, A toy building block having (c) IBM Corporation 2025
  13. 特許請求項の構造解析例(US3005282A) 17 straight side walls each having an inner surface,

    a bottom wall, said walls encompassing the inner face of said bottom wall, at least one secondary protuberance extending from said inner face of said bottom wall and presenting a surface within the region encompassed by the inner surfaces of said side walls, at least two identical primary protuberances extending from the outer face of said bottom wall, at least one of said points of contact being with the surface of said secondary protuberance, said tangential contact producing a clamping effect when a primary protuberance of another such block engages the said surfaces. 6. A toy building block according to claim 4 in which the secondary protuberances are cross-shaped. 5. A toy building block according to claim 4 in which the block has eight primary protuberances and three secondary protuberances. a geometric projection of the peripheries of said primary protuberances normal to the inner face of said bottom wall each being in tangential contact with said surfaces at three points, A toy building block having b 新規性・進歩性の あると推定される 箇所 特許文書のような可読性 の低いテキストを解析し、 構造を抽出することで、 ユーザーの目的に合った 情報が抽出できる技術を 開発しました (c) IBM Corporation 2025
  14. 多様な文書からの構造抽出 • 文書から表やkey-value ペアを抽出する • RAGなどの検索に利用することが目的 “Global Table Extractor (GTE):

    A Framework for Joint Table Identification and Cell Structure Recognition Using Visual Context” Zheng et al. 2020 (c) IBM Corporation 2025
  15. グラウンディング [ { "key" : { "text" : " Order

    Total:" , "bbox" : [ x1 , y1 , x2 , y2 ] } , "value" : { "text" : ”137S" , "bbox" : [ x1 , y1 , x2 , y2 ] } }, { "key" : { "text" : " Purchase Order" , "bbox" : [ x1 , y1 , x2 , y2 ] } , "value" : { "text" : ”12HOUGH1" , "bbox" : [ x1 , y1 , x2 , y2 ] } }, … ] モデルによる出力例 • 出力されたテキストが当たっているか • 出力された位置情報が当たっているか • 出力されたkey-value ペアが正しいか (c) IBM Corporation 2025
  16. 文書から構造を抽出するのは(思ってい るより)大変です “TableFormer: Table Structure Understanding with Transformers” Nassar et

    al. 2022 “Global Table Extractor (GTE): A Framework for Joint Table Identification and Cell Structure Recognition Using Visual Context” Zheng et al. 2020 (c) IBM Corporation 2025
  17. 表構造抽出の各種技術 分割とマージによる手法 セル抽出と分類による手法 Image-to-text による手法 c c c c c

    c c c (c) IBM Corporation 2025 “End-to-End Object Detection with Transformers” Carion et al. 2020
  18. 表構造抽出の後処理 各列内のセルデータが類似であることに着目した手法 ◼ 表の各列に含まれる複数のセルには共通の特 徴が存在すると仮定し、その特徴を持たない セル(異常セル)やその周辺にセル隣接関係 の誤りが多いことに着目 ◼ 異常セルの結合・分割によって逐次的に表を 修正していく

    1. 入力の表構造の各セルに対して異常 度スコアを算出 • セルの各特徴量(列・行スパン、セル内 テキストの表層上の特徴量)の外れ値か ら算出 2. 表の各列 ⅈ のセル内テキストの正当性 スコアを予測するモデル 𝑀𝑖 を構築 • 異常度スコアの低いセル内テキストを正 例、セル結合やセル内テキストの部分文 字列で得られるテキストを負例とする 3. 異常度スコアの高いセルに対して、 セルの分割・隣接セルとの結合から 得られる正当性スコアを比較し、最 も高いスコアを持つ構造を選択 4. 3を繰り返し、修正された表構造を出 力する 整数 “164 234.9” は 列1,2内の他の セルと形状、 およびテキス ト表記が異な るため異常セ ルとして検出 される 列1の正当性予 測モデルM_1と 列2の正当性予 測モデルM_2か ら、可能なセ ル区切りパ ターンP, P’の 正当性スコア を算出 列1が“164“, 列 2が”234.9” と セルが分割さ れるパターン が選出される 小数第一位 までの数 (小数-小数) “テキスト情報を用いた表構造の修正” 鈴木 et al. et al.2023 テキストの位置が判明している場合に予測 セルとのマッチングを行う方法 “TableFormer: Table Structure Understanding with Transformers” Nassar et al. 2022 (c) IBM Corporation 2025