Upgrade to Pro — share decks privately, control downloads, hide ads and more …

科学技術情報分析の面白さ

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for hayataka hayataka
December 29, 2021

 科学技術情報分析の面白さ

下記のイベントで講演した資料です。私はDay 1に「科学技術情報分析の面白さ」というテーマで発表しました。

データ可視化ショーケースイベント Data Visualization meetup 2021
https://peatix.com/event/3120368

「データ可視化研究の可視化」を始め、テキストマイニングやネットワーク分析を用いた事例を紹介しつつ、特許や論文・学術文献といった科学技術情報の面白さや動向をお話しました。データ可視化・分析に係る方々の参考になれば幸いです。

Day 1
https://www.youtube.com/watch?v=VxaZR55H9dE

Day 2
https://www.youtube.com/watch?v=ZFxLzngdN_c

Avatar for hayataka

hayataka

December 29, 2021
Tweet

More Decks by hayataka

Other Decks in Research

Transcript

  1. アジェンダ  1. ⾃⼰紹介 2. 科学技術情報とは 3. 分析事例 ・ データ可視化の可視化

    ・ 共著ネットワーク分析による研究者探索 ・ ⾃動⾞業界の特許リスク把握 4. なぜ、科学技術情報分析が⾯⽩いのか? 5. 今後、取り組んでみたいこと 6. 実務での学び:So What?問題
  2.  ⾃⼰紹介 林 尚芳 | Takayoshi HAYASHI @VALUENEX株式会社 先進情報学研究所 早稲⽥⼤学⼤学院

    先進理⼯学研究科 修⼠課程修了後、NTT研究所、リクルート を経て、VALUENEXに⼊社。現在、クライアントの研究開発活動を前進させるためのデ ータ分析プロジェクトに従事。主に、⺠間企業の研究企画・イノベーション推進・経営企 画・知財部⾨、公的機関の技術調査部⾨といったクライアントと取り組む。科学計量 学、データマイニング、データとデザイン、科学技術商業化に関⼼がある。 ミッション:世界に氾濫する情報から「知」を創造する。 事業:データ分析・可視化SaaS、受託データ分析・リサーチ R&Dインテリジェンスによって、科学技術と社会実装・事業化の橋渡しを⽀援したい。 Twitter:@hayataka88
  3. 科学技術情報は、⼈類の叡智が蓄積された情報源の1つである  https://scholar.google.com/schhp ニュートンがフックに宛てた書簡(1676年) If I have seen further it

    is by standing on the shoulders of Giants. 私が彼⽅を⾒渡せたのだとしたら、それは巨⼈の肩の上に乗っていたからです。 学者
  4.  研究者はもちろんのこと、国・⼤学・企業の状況把握や戦略⽴案に活⽤されている 各社の事例が掲載 旭化成 AGC ⾙印 塩野義製薬 昭和電⼯ セイコーエプソン ダイセル

    帝⼈ パナソニック 富⼠通 富⼠フイルム ブリヂストン 等 https://www.jpo.go.jp/support/general/chizai- jobobunseki-report.html https://ura.sec.tsukuba.ac.jp/ura/ja/value/planning/
  5.  データ可視化に関する論⽂を収集 • 2001年以降の雑誌 or 会議録で、下記どちらかを含み、⼀定の⻑さで英語のアブストラクトを持つ論⽂を収集 → 約3.4万件 Title, Abstract:data

    visualization OR information visualization OR visual analysis OR visual analytics Field of Study:Data visualization OR Information visualization OR Visual analytics OR Interactive visual analysis • Lensは特許・論⽂の情報を横断的に検索・分析できるサービス。今回の検索データやダッシュボードはLens上で公開している (https://link.lens.org/ggKBnwQfXRc) 件数推移 国別件数推移
  6.  データ可視化に関する論⽂を俯瞰する 論⽂のアブストラクト情報を⽤いて、論⽂同⼠の類似性を算出。類似性が⾼いものを近く、低いものを遠くに配置して、⼆次元可視化した(俯瞰図)。 バイオ・医療 バイオ・医療 分析・可視化⼿法 シミュレーション レンダリング等 インタラクション モバイル・IoT・環境

    テキスト・データマ イニングと応⽤ 動き分析 その他応⽤ (教育等) ※ 俯瞰図はVALUENEX Radarで作成した。 Lensには基本的な集計チャートはあるが、現 時点ではこういった可視化機能はない。 (VALUENEX Radarについては、下記リン クを参照いただけますと幸いです。 https://www.valuenex.com/jp/valuenex -radar)
  7.  エマージング領域の把握 俯瞰図をメッシュ状に切り、各メッシュ内の件数推移から、最近増加し始めたところを検出した。 RNA-seqデータ解析・探索 創薬 T-SNE・UMAP カラーマップ データジャーナリズム・フェイクニュース 政治 市場価格予測

    ⾷事・⾷品 CRM COVID19 因果関係 犯罪調査 ⼤気汚染 モニタリング BIM情報の利⽤ IoT 0 2 4 6 8 10 12 2001 2003 2005 2007 2009 2011 2013 2015 2017 2019 2021 BI・ダッシュボード 機械学習 T-SNE・UMAPの推移
  8.  エマージング領域の把握:COVID19 - 事例 DatAC: A visual analytics platform to

    explore climate and air quality indicators associated with the COVID-19 pandemic in Spain Centre for Genomics and Oncological Research, 2020 スペインにおける気象・⼤気の時空間データとCOVID-19感染の関係性などを可視化分析するシステムを開発し、Webで公開している。 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7399783/
  9.  エマージング領域の把握:因果関係 - 事例 Illusion of Causality in Visualized Data

    / Northwestern University, 2019 適切な視覚化デザインによって、相関関係を因果関係と認識してしまうようなエラーを低減させることができる。下記の例では、2つに集約した棒グラフが、最 も因果関係と認識された。ただし、実験結果の根本的な解明までは⾄っていないので、具体的なガイドラインを作ることは今後の課題としている。 https://vimeo.com/370881473
  10.  エマージング領域の把握:BIM情報の利⽤ - 事例 Research on Construction of Spatio-Temporal Data

    Visualization Platform for GIS and Bim Fusion Heilongjiang University of Science and Technology, 2020 GISとBIMを融合させた時空間データ視覚化プラットフォームを提案。デジタルツインシティ、スマートシティでの利⽤を想定。天津経済技術開発区で利⽤。 https://www.researchgate.net/publication/33910911 0_RESEARCH_ON_CONSTRUCTION_OF_SPATIO- TEMPORAL_DATA_VISUALIZATION_PLATFORM_FOR_ GIS_AND_BIM_FUSION Macro Midium Micro
  11.  エマージング領域の把握:カラーマップ - 事例 Deep Colormap Extraction from Visualizations /

    HKUST, 2021 深層学習によって、データ可視化からカラーマップを⾃動的に抽出する⽅法を提案。カラーマップの転移や再マッピングといったユースケースが考えられる。 https://arxiv.org/pdf/2103.00741.pdf
  12.  エマージング領域の把握:機械学習 - 事例 VisEvol: Visual Analytics to Support Hyperparameter

    Search through Evolutionary Optimization / Linnaeus Univ., 2020 進化計算による機械学習モデルのハイパーパラメータ探索を⽀援する可視化分析を提案。 https://arxiv.org/pdf/2012.01205.pdf
  13.  エマージング領域の把握:t-SNE・UMAP - 事例 Visualization Framework for High-Dimensional Spatio-Temporal Hydrological

    Gridded Datasets using Machine-Learning Techniques CSIRO, 2021 ⼤規模で⾼次元の時空間データセットを2次元に視覚化する⼿法を、精度、解像度、計算効率の観点から⽐較(PCA、GTM、t-SNE、UMPA)。オーストラリア の⽔資源モデルデータに適⽤したところ、グローバル構造を迅速に可視化するならPCA、ローカルなトレンドを正確に把握するならt-SNEやUMAPが良いことが分かった。 https://www.researchgate.net/publication/339491137_Visualization_Framework_for_High-Dimensional_Spatio-Temporal_Hydrological_Gridded_Datasets_Using_Machine-Learning_Techniques
  14.  エマージング領域の事例を眺めると、改めてデータ可視化の学際性を感じる • 情勢に合った問題解決のための可視化分析(例. COVID19関連) • 可視化⽅法による⼈間のデータ解釈の違い(例. データの⾒せ⽅による相関・因果関係の認知) • IoTシステム・デジタルツインへの可視化応⽤(例.

    BMI情報活⽤) • データ可視化のための機械学習 (例. カラーマップ⾃動抽出、次元圧縮⼿法) • 機械学習のためのデータ可視化(例. 機械学習モデルのパラメータ探索⽀援) etc… Keim教授が⽰したVAの学際性[1] Challenges in Visual Data Analysis (2006) https://bib.dbvis.de/uploadedFiles/87.pdf
  15.  共著ネットワーク分析で得られる指標・構造を活⽤する        ネットワーク構造上での重要性指標

    ①次数中⼼性 最も繋がりが多い研究者 ②媒介中⼼性 グループ間を繋ぐ研究者 ③近接中⼼性 皆と平均的に近い研究者 等 論⽂の共著ネットワークを作成すると、各ノード(研究者)の重要性指 標を計算することができる。この指標を「中⼼性」と⾔い、どの観点で 重要と⾒做すかによって、様々な指標が存在する。 ネットワーク構造上でのコミュニティ検知 各ノードが何らかのコミュニティに属すると仮定し、どのようにコミュニティ 分割されるかを推定する。論⽂共著ネットワークであれば、研究グル ープの推定に利⽤できる。
  16.  可視化しても知⾒を獲得しにくい場合もあるので、指標化と解釈を⼯夫する ヘアボール現象(数万⼈のネットワーク可視化) 研究者フェーズ推定(機械学習分野)      

          !  # "  $#    !           jbOmrOkueZ#WSVMiqOsue .,-2* $&ZlOnt+a ST/%N'%N pjt*437+ZN659) 9><@CDBD?J)8>HA>I)K/0)5CCDH;GDEF) :C=>E)/0LY*.,-1+N'%N  _sOhOdrgY!\`W" ([XPQM Q ]U VRVP`N ZQS^Xc oOfueN 指標化 解釈
  17.  特許は「技術情報」だけでなく、「権利情報」でもある [1] 週刊ダイヤモンド、「トヨタ・ホンダもついに標的に、「特許トロール」の恐怖(2017)」:https://diamond.jp/articles/-/129691 [2] VALUENEX・林、「Intellectual Venturesの特許ポートフォリオ分析および⾃動⾞メーカーが注意すべき技術領域の把握(2017)」: https://static1.squarespace.com/static/5de81181ac2eb4212e1bb044/t/5e74fdcd2743d20f44443302/1584725461103/170614_VALUENEXreport_Intellectual-Ventures.pdf 事業会社A 事業会社B

    弊社の特許aを 侵害している! いや、御社も弊社の 特許bを侵害している! NPE 事業会社B 弊社の特許aを 侵害している! 相⼿に事業が無いので、 カウンターパンチできない。。 事業会社同⼠の訴訟 NPE(不実施主体)からの訴訟 2017年、NPEの⼀社であるIntellectual Ventures(IV社)が、電動モーターの特許で、トヨタを訴訟した(他にもホンダ、デンソー等も含む)。 当時、アップル、グーグルなどのIT企業が訴訟されることが多かったが、⾃動⾞業界もついに訴訟されたと話題になっていた[1]。 今後、⾃動⾞業界が注意すべき技術領域は何か?と考え、レポート[2]を執筆・公開した。
  18.  2021年10⽉、IV社がトヨタやホンダを通信関連特許で訴訟 [1] ⽇経新聞、「つながる⾞で特許紛争 ⽶社、トヨタ・ホンダを提訴(2021.12)」:https://www.nikkei.com/article/DGXZQOUC1747E0X11C21A1000000/ • ⾞載通信に関する10件以上の特許侵害で、トヨタ、ホンダ、GMを訴訟 [1]。2017年の分析レポートで⽰していた特許が含まれていた。 • 動向を鑑みて考えれば、予想された動きではあるが、データ分析・可視化を活⽤することで、具体的にリスクを発⾒することができる。

    訴訟に使われたIV社の⽶国特許 6832283 Method for addressing network components 7382771 Mobile wireless hotspot system 7684318 Shared-communications channel utilization for applications having different class of service requirements 7484008 Apparatus for vehicle internetworks (トヨタへの訴訟のみ) 7891004 Method for vehicle internetworks(ホンダへの訴訟のみ) 8811356 Communications in a wireless network 8953641 Methods and apparatus for multi-carrier communications with variable channel bandwidth 9232158 Large dynamic range cameras 9291475 Device, system and method for controlling speed of a vehicle using a positional information device 9602608 System and method for notifying a user of people, places or things having attributes matching a user's stated preference 9681466 Scheduling transmissions on channels in a wireless network 10292138 Determining buffer occupancy and selecting data for transmission on a radio bearer
  19.  今後、取り組んでみたいこと 科学的知識発⾒ バイオインフォマティクス、マテリアルインフォマティクス、 ABCモデル[1] 技術と事業の橋渡し、⼤学・研究機関を元気にする 技術を起点とした事業開発、科学技術商業化、⼤学発テックベンチャー等 データとデザイン Interactive Visual

    Analytics、情報デザイン [1] ⽇⽴製作所・⼩池、「テキストマイニングによる潜在的知識の発⾒⽀援(2007)」: https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&page_id=13&block_id=8&item_id=65870&item_no=1 1986年、Swansonはレイノー病に⿂油の摂取が有効であると論 ⽂情報から予測。その後、実際の実験によって証明。 1. (A)⿂油が(B)⾎液粘性を下げる働きがある。 2. (C)レイノー病は、(B)⾎液粘性が⾼いこと等が挙げられる。 上記の知識を⽂献調査から発⾒し、組み合わせて予想。これを 抽象化して、ABCモデルと呼ばれる。 ABCモデル (A)⿂油 → (B)⾎液粘性 → (C)レイノー病
  20.  So What?とならないために意識していること 指標化 評価する 造形 形を与える データ 解釈 可能性

    発⾒・思考 1. ⽬的と合っていない 2. ソリューションから⼊りすぎる 3.相⼿が思考・アクションしやすいように提⽰できていない プロトタイピング、ドキュメンテーション、⽬的・⼿段の振り⼦ 解釈可能性を提⽰できるように⼯夫 感じる 理解する