Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI Enginerring Decoded #1 生成AIは科学研究をいかに変え得るか

AI Enginerring Decoded #1 生成AIは科学研究をいかに変え得るか

AI Engineering Decodedの登壇資料です
https://fuku-inc.connpass.com/event/325765/

Ryota Yamada

July 28, 2024
Tweet

More Decks by Ryota Yamada

Other Decks in Programming

Transcript

  1. 山田 涼太 @roy29fuku roy29fuku 生命科学実験の効率化を入り口に 科学 × AIの領域で活動 休学届け提出 2016年3月

    2017年4月 2019年3月 2018年3月 東京大学 工学部 システム創成学科 へ転学部 東京大学 工学部 システム創成学科 卒業 fuku株式会社 創業 自己紹介 東京大学 農学部 獣医学専修 2010年4月 趣味 ミステリーADV ダンガンロンパ、逆転裁判、極限脱出、レイジングループ 最近面白かったやつ https://store.steampowered.com/app/2676840/_/?l=japanese
  2. Before Generative AI 抽出 & Named Entity Recognitio! & Relation

    Extraction 対応付け & Semantic WeC & Linked Data Krallinger, M., et al. (2015). https://medium.com/@alessandropaticchio/named-entity-recognition-from-scratch-e76b9b3affad
  3. Before Generative AI 抽出 論文などの専門文書から などの名称と関係性を抽出 ・遺伝子名 ・疾患名 ・薬剤名 ・タンパク質名

    抽出した情報を に対応付け ・NCBI Gene ID ・MONDO ID ・ChEMBL ID ・UniProt ID t Named Entity Recognitioo t Relation Extraction 対応付け t Semantic We t Linked Data ▶️
  4. È 論文からの情報抽出 STEP 01 専門文書を用意する 論文、特許、社内文書、 医薬品インタビューフォーム etc... STEP 02

    LLMが解析する ドメイン知識を活かした プロンプト STEP 03 「構造化データ」 が出力される 高度な分析の材料となる 表データやグラフデータ ¿ 【筑波大学】論文から細胞の形態や機能に関する記述の抽ž ¿ 【DBCLS】医薬品インタビューフォームの表データの抽ž ¿ 【理研BRC】論文から化合物、タンパク質、遺伝子などの生命科学関連の単語の抽ž ¿ 【非公開】論文のTableデータの抽出
  5. È 論文からの情報抽出 出典:Cellular senescence: the good, the bad and the

    unknown - PMC 出典:Senescence and the SASP: many therapeutic avenues - PMC 出典:Senescence and aging: Causes, consequences, and therapeutic avenues - PMC
  6. Ç 論文からの情報抽出 対象論文の取得 アノテーション LLMによる情報抽出 PubMed 外部システム Downloader Formatter Extractor

    Evaluator PMC OA Subset Annotation system fuku開発 検索 検索結果 (CSV) アノテーション PMCID 全文 (XML) 全文 Title/Abstract Title/Abstract アノテーション結果 (TSV) Title/Abstract 抽出結果 比較結果 検索結果 (CSV)
  7.  データベースを対象としたRAG https://github.com/dbcls/pfo/blob/main/schema/PedigreeFinderSchemaCrossing.png 実‚ t 【農研機構】自然言語でライフサイエンスDBへの問い合わh t 【京都大学】創薬AIの学習データの自動生成 As-i™ t

    ライフサイエンス領域では様々なDBが存 t 使いこなすにはドメインと技術の両方の知識が必要 To-bŸ t LLMにDBのSchemaを理解することで操作させることが可 t ユーザーは自然言語で問い合わせをし、LLMがクエリを発行
  8.  Agentic workflow SearchQueryBuilder Agent SemanticScholarAPIRetriever Genearator ライフサイエンス業界における ラボラトリーオートメーションの 事例を教えて

    “laboratory automation" "life sciences" examples [ { 'paperId': '4ba8b2086b77e1982b8bb7f5a434c7604d2730a6', 'url': 'https://www.semanticscholar.org/paper/...', 'title': 'Metrology for data in life sciences, ...' 'abstract': 'Data metrology, i.e., the evaluation of...' }, ... ] ### 論文リス ト 1. **タイト ル**: Metrology for data in life sciences, healthcare and pharmaceutical manufacturing: Case studies from the National Physical Laborator y - **UR L**: [リン ク] (https://www.semanticscholar.org/ paper/4ba8b2086b77e1982b8bb7f5a434c7604d2730a6 ) - **著者**: Paul Duncan, N. Smith, M. Romanchikov a - **発表年**: 202 3 - **概要**: この論文では、ライフサイエンス とヘルス ケアプロ ジェクトにお いて デー タメト ロロジーを 使用して デー タ品質を 向 上させた事例を 紹介して います。 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧