Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

科学技術情報分析の面白さ

hayataka
December 29, 2021

 科学技術情報分析の面白さ

下記のイベントで講演した資料です。私はDay 1に「科学技術情報分析の面白さ」というテーマで発表しました。

データ可視化ショーケースイベント Data Visualization meetup 2021
https://peatix.com/event/3120368

「データ可視化研究の可視化」を始め、テキストマイニングやネットワーク分析を用いた事例を紹介しつつ、特許や論文・学術文献といった科学技術情報の面白さや動向をお話しました。データ可視化・分析に係る方々の参考になれば幸いです。

Day 1
https://www.youtube.com/watch?v=VxaZR55H9dE

Day 2
https://www.youtube.com/watch?v=ZFxLzngdN_c

hayataka

December 29, 2021
Tweet

More Decks by hayataka

Other Decks in Research

Transcript

  1. アジェンダ  1. ⾃⼰紹介 2. 科学技術情報とは 3. 分析事例 ・ データ可視化の可視化

    ・ 共著ネットワーク分析による研究者探索 ・ ⾃動⾞業界の特許リスク把握 4. なぜ、科学技術情報分析が⾯⽩いのか? 5. 今後、取り組んでみたいこと 6. 実務での学び:So What?問題
  2.  ⾃⼰紹介 林 尚芳 | Takayoshi HAYASHI @VALUENEX株式会社 先進情報学研究所 早稲⽥⼤学⼤学院

    先進理⼯学研究科 修⼠課程修了後、NTT研究所、リクルート を経て、VALUENEXに⼊社。現在、クライアントの研究開発活動を前進させるためのデ ータ分析プロジェクトに従事。主に、⺠間企業の研究企画・イノベーション推進・経営企 画・知財部⾨、公的機関の技術調査部⾨といったクライアントと取り組む。科学計量 学、データマイニング、データとデザイン、科学技術商業化に関⼼がある。 ミッション:世界に氾濫する情報から「知」を創造する。 事業:データ分析・可視化SaaS、受託データ分析・リサーチ R&Dインテリジェンスによって、科学技術と社会実装・事業化の橋渡しを⽀援したい。 Twitter:@hayataka88
  3. 科学技術情報は、⼈類の叡智が蓄積された情報源の1つである  https://scholar.google.com/schhp ニュートンがフックに宛てた書簡(1676年) If I have seen further it

    is by standing on the shoulders of Giants. 私が彼⽅を⾒渡せたのだとしたら、それは巨⼈の肩の上に乗っていたからです。 学者
  4.  研究者はもちろんのこと、国・⼤学・企業の状況把握や戦略⽴案に活⽤されている 各社の事例が掲載 旭化成 AGC ⾙印 塩野義製薬 昭和電⼯ セイコーエプソン ダイセル

    帝⼈ パナソニック 富⼠通 富⼠フイルム ブリヂストン 等 https://www.jpo.go.jp/support/general/chizai- jobobunseki-report.html https://ura.sec.tsukuba.ac.jp/ura/ja/value/planning/
  5.  データ可視化に関する論⽂を収集 • 2001年以降の雑誌 or 会議録で、下記どちらかを含み、⼀定の⻑さで英語のアブストラクトを持つ論⽂を収集 → 約3.4万件 Title, Abstract:data

    visualization OR information visualization OR visual analysis OR visual analytics Field of Study:Data visualization OR Information visualization OR Visual analytics OR Interactive visual analysis • Lensは特許・論⽂の情報を横断的に検索・分析できるサービス。今回の検索データやダッシュボードはLens上で公開している (https://link.lens.org/ggKBnwQfXRc) 件数推移 国別件数推移
  6.  データ可視化に関する論⽂を俯瞰する 論⽂のアブストラクト情報を⽤いて、論⽂同⼠の類似性を算出。類似性が⾼いものを近く、低いものを遠くに配置して、⼆次元可視化した(俯瞰図)。 バイオ・医療 バイオ・医療 分析・可視化⼿法 シミュレーション レンダリング等 インタラクション モバイル・IoT・環境

    テキスト・データマ イニングと応⽤ 動き分析 その他応⽤ (教育等) ※ 俯瞰図はVALUENEX Radarで作成した。 Lensには基本的な集計チャートはあるが、現 時点ではこういった可視化機能はない。 (VALUENEX Radarについては、下記リン クを参照いただけますと幸いです。 https://www.valuenex.com/jp/valuenex -radar)
  7.  エマージング領域の把握 俯瞰図をメッシュ状に切り、各メッシュ内の件数推移から、最近増加し始めたところを検出した。 RNA-seqデータ解析・探索 創薬 T-SNE・UMAP カラーマップ データジャーナリズム・フェイクニュース 政治 市場価格予測

    ⾷事・⾷品 CRM COVID19 因果関係 犯罪調査 ⼤気汚染 モニタリング BIM情報の利⽤ IoT 0 2 4 6 8 10 12 2001 2003 2005 2007 2009 2011 2013 2015 2017 2019 2021 BI・ダッシュボード 機械学習 T-SNE・UMAPの推移
  8.  エマージング領域の把握:COVID19 - 事例 DatAC: A visual analytics platform to

    explore climate and air quality indicators associated with the COVID-19 pandemic in Spain Centre for Genomics and Oncological Research, 2020 スペインにおける気象・⼤気の時空間データとCOVID-19感染の関係性などを可視化分析するシステムを開発し、Webで公開している。 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7399783/
  9.  エマージング領域の把握:因果関係 - 事例 Illusion of Causality in Visualized Data

    / Northwestern University, 2019 適切な視覚化デザインによって、相関関係を因果関係と認識してしまうようなエラーを低減させることができる。下記の例では、2つに集約した棒グラフが、最 も因果関係と認識された。ただし、実験結果の根本的な解明までは⾄っていないので、具体的なガイドラインを作ることは今後の課題としている。 https://vimeo.com/370881473
  10.  エマージング領域の把握:BIM情報の利⽤ - 事例 Research on Construction of Spatio-Temporal Data

    Visualization Platform for GIS and Bim Fusion Heilongjiang University of Science and Technology, 2020 GISとBIMを融合させた時空間データ視覚化プラットフォームを提案。デジタルツインシティ、スマートシティでの利⽤を想定。天津経済技術開発区で利⽤。 https://www.researchgate.net/publication/33910911 0_RESEARCH_ON_CONSTRUCTION_OF_SPATIO- TEMPORAL_DATA_VISUALIZATION_PLATFORM_FOR_ GIS_AND_BIM_FUSION Macro Midium Micro
  11.  エマージング領域の把握:カラーマップ - 事例 Deep Colormap Extraction from Visualizations /

    HKUST, 2021 深層学習によって、データ可視化からカラーマップを⾃動的に抽出する⽅法を提案。カラーマップの転移や再マッピングといったユースケースが考えられる。 https://arxiv.org/pdf/2103.00741.pdf
  12.  エマージング領域の把握:機械学習 - 事例 VisEvol: Visual Analytics to Support Hyperparameter

    Search through Evolutionary Optimization / Linnaeus Univ., 2020 進化計算による機械学習モデルのハイパーパラメータ探索を⽀援する可視化分析を提案。 https://arxiv.org/pdf/2012.01205.pdf
  13.  エマージング領域の把握:t-SNE・UMAP - 事例 Visualization Framework for High-Dimensional Spatio-Temporal Hydrological

    Gridded Datasets using Machine-Learning Techniques CSIRO, 2021 ⼤規模で⾼次元の時空間データセットを2次元に視覚化する⼿法を、精度、解像度、計算効率の観点から⽐較(PCA、GTM、t-SNE、UMPA)。オーストラリア の⽔資源モデルデータに適⽤したところ、グローバル構造を迅速に可視化するならPCA、ローカルなトレンドを正確に把握するならt-SNEやUMAPが良いことが分かった。 https://www.researchgate.net/publication/339491137_Visualization_Framework_for_High-Dimensional_Spatio-Temporal_Hydrological_Gridded_Datasets_Using_Machine-Learning_Techniques
  14.  エマージング領域の事例を眺めると、改めてデータ可視化の学際性を感じる • 情勢に合った問題解決のための可視化分析(例. COVID19関連) • 可視化⽅法による⼈間のデータ解釈の違い(例. データの⾒せ⽅による相関・因果関係の認知) • IoTシステム・デジタルツインへの可視化応⽤(例.

    BMI情報活⽤) • データ可視化のための機械学習 (例. カラーマップ⾃動抽出、次元圧縮⼿法) • 機械学習のためのデータ可視化(例. 機械学習モデルのパラメータ探索⽀援) etc… Keim教授が⽰したVAの学際性[1] Challenges in Visual Data Analysis (2006) https://bib.dbvis.de/uploadedFiles/87.pdf
  15.  共著ネットワーク分析で得られる指標・構造を活⽤する        ネットワーク構造上での重要性指標

    ①次数中⼼性 最も繋がりが多い研究者 ②媒介中⼼性 グループ間を繋ぐ研究者 ③近接中⼼性 皆と平均的に近い研究者 等 論⽂の共著ネットワークを作成すると、各ノード(研究者)の重要性指 標を計算することができる。この指標を「中⼼性」と⾔い、どの観点で 重要と⾒做すかによって、様々な指標が存在する。 ネットワーク構造上でのコミュニティ検知 各ノードが何らかのコミュニティに属すると仮定し、どのようにコミュニティ 分割されるかを推定する。論⽂共著ネットワークであれば、研究グル ープの推定に利⽤できる。
  16.  可視化しても知⾒を獲得しにくい場合もあるので、指標化と解釈を⼯夫する ヘアボール現象(数万⼈のネットワーク可視化) 研究者フェーズ推定(機械学習分野)      

          !  # "  $#    !           jbOmrOkueZ#WSVMiqOsue .,-2* $&ZlOnt+a ST/%N'%N pjt*437+ZN659) 9><@CDBD?J)8>HA>I)K/0)5CCDH;GDEF) :C=>E)/0LY*.,-1+N'%N  _sOhOdrgY!\`W" ([XPQM Q ]U VRVP`N ZQS^Xc oOfueN 指標化 解釈
  17.  特許は「技術情報」だけでなく、「権利情報」でもある [1] 週刊ダイヤモンド、「トヨタ・ホンダもついに標的に、「特許トロール」の恐怖(2017)」:https://diamond.jp/articles/-/129691 [2] VALUENEX・林、「Intellectual Venturesの特許ポートフォリオ分析および⾃動⾞メーカーが注意すべき技術領域の把握(2017)」: https://static1.squarespace.com/static/5de81181ac2eb4212e1bb044/t/5e74fdcd2743d20f44443302/1584725461103/170614_VALUENEXreport_Intellectual-Ventures.pdf 事業会社A 事業会社B

    弊社の特許aを 侵害している! いや、御社も弊社の 特許bを侵害している! NPE 事業会社B 弊社の特許aを 侵害している! 相⼿に事業が無いので、 カウンターパンチできない。。 事業会社同⼠の訴訟 NPE(不実施主体)からの訴訟 2017年、NPEの⼀社であるIntellectual Ventures(IV社)が、電動モーターの特許で、トヨタを訴訟した(他にもホンダ、デンソー等も含む)。 当時、アップル、グーグルなどのIT企業が訴訟されることが多かったが、⾃動⾞業界もついに訴訟されたと話題になっていた[1]。 今後、⾃動⾞業界が注意すべき技術領域は何か?と考え、レポート[2]を執筆・公開した。
  18.  2021年10⽉、IV社がトヨタやホンダを通信関連特許で訴訟 [1] ⽇経新聞、「つながる⾞で特許紛争 ⽶社、トヨタ・ホンダを提訴(2021.12)」:https://www.nikkei.com/article/DGXZQOUC1747E0X11C21A1000000/ • ⾞載通信に関する10件以上の特許侵害で、トヨタ、ホンダ、GMを訴訟 [1]。2017年の分析レポートで⽰していた特許が含まれていた。 • 動向を鑑みて考えれば、予想された動きではあるが、データ分析・可視化を活⽤することで、具体的にリスクを発⾒することができる。

    訴訟に使われたIV社の⽶国特許 6832283 Method for addressing network components 7382771 Mobile wireless hotspot system 7684318 Shared-communications channel utilization for applications having different class of service requirements 7484008 Apparatus for vehicle internetworks (トヨタへの訴訟のみ) 7891004 Method for vehicle internetworks(ホンダへの訴訟のみ) 8811356 Communications in a wireless network 8953641 Methods and apparatus for multi-carrier communications with variable channel bandwidth 9232158 Large dynamic range cameras 9291475 Device, system and method for controlling speed of a vehicle using a positional information device 9602608 System and method for notifying a user of people, places or things having attributes matching a user's stated preference 9681466 Scheduling transmissions on channels in a wireless network 10292138 Determining buffer occupancy and selecting data for transmission on a radio bearer
  19.  今後、取り組んでみたいこと 科学的知識発⾒ バイオインフォマティクス、マテリアルインフォマティクス、 ABCモデル[1] 技術と事業の橋渡し、⼤学・研究機関を元気にする 技術を起点とした事業開発、科学技術商業化、⼤学発テックベンチャー等 データとデザイン Interactive Visual

    Analytics、情報デザイン [1] ⽇⽴製作所・⼩池、「テキストマイニングによる潜在的知識の発⾒⽀援(2007)」: https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&page_id=13&block_id=8&item_id=65870&item_no=1 1986年、Swansonはレイノー病に⿂油の摂取が有効であると論 ⽂情報から予測。その後、実際の実験によって証明。 1. (A)⿂油が(B)⾎液粘性を下げる働きがある。 2. (C)レイノー病は、(B)⾎液粘性が⾼いこと等が挙げられる。 上記の知識を⽂献調査から発⾒し、組み合わせて予想。これを 抽象化して、ABCモデルと呼ばれる。 ABCモデル (A)⿂油 → (B)⾎液粘性 → (C)レイノー病
  20.  So What?とならないために意識していること 指標化 評価する 造形 形を与える データ 解釈 可能性

    発⾒・思考 1. ⽬的と合っていない 2. ソリューションから⼊りすぎる 3.相⼿が思考・アクションしやすいように提⽰できていない プロトタイピング、ドキュメンテーション、⽬的・⼿段の振り⼦ 解釈可能性を提⽰できるように⼯夫 感じる 理解する