Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第6回ケモインフォマティクス若手の会-初学者のための勉強会資料

yamasakih
November 08, 2017

 第6回ケモインフォマティクス若手の会-初学者のための勉強会資料

yamasakih

November 08, 2017
Tweet

More Decks by yamasakih

Other Decks in Science

Transcript

  1. ケモメトリックス解析の流れ ①  化学構造データの表現・保存 ②  化学構造データの利⽤ 2 データベース 構造検索 統計解析 化学構造

    線形表記など CC(=O)Oc1ccccc1C(=O)O (Graphics is uploaded originally by TAX IMAGES, Derek Gavey, and reynermedia) 化学構造を表現しデータベースに保存するまで
  2. ケモメトリックス解析の流れ ①  化学構造データの表現・保存 ②  化学構造データの利⽤ 3 データベース 構造検索 統計解析 化学構造

    線形表記など CC(=O)Oc1ccccc1C(=O)O (Graphics is uploaded originally by TAX IMAGES, Derek Gavey, and reynermedia) 保存されたデータを特定の条件で検索し取り出した後 統計解析を⾏う(この資料ではここの解説はなし)。
  3. 化学構造の表現・保存 6 (Graphics is uploaded by TAX IMAGES originally) データベース

    化学構造 CC(=O)Oc1ccccc1C(=O)O 化学構造を表現・保存するときに望ましくないこと Ø  同じ化学構造を別の化学構造と認識してしまう。 Ø  別の化学構造を同じ化学構造と認識してしまう。
  4. 線形表記法 (linear notation) 化学構造を1⾏の⽂字列で表したもの。 Ø  Wiswesser Line Notation (WLN) [1]

    Ø  Simplified Molecular Input Line Entry Specification (SMILES) Ø  International Chemical Identifier (InChI) [2] Ø  Web3 Unique Representation of Carbohydrate Structures (WURCS) [3] [1] J. Chem. Inf. Comput. Sci. 1982, 22, 88-93 [2] J. Cheminformatics. 2012, 4, 22 [3] J. Chem. Inf. Model. 2014, 54, 1558-1566 9
  5. 線形表記法 (linear notation) 10 化学構造を1⾏の⽂字列で表したもの。 Ø  Wiswesser Line Notation (WLN)

    [1] Ø  Simplified Molecular Input Line Entry Specification (SMILES) Ø  International Chemical Identifier (InChI) [2] Ø  Web3 Unique Representation of Carbohydrate Structures (WURCS) [3] [1] J. Chem. Inf. Comput. Sci. 1982, 22, 88-93 [2] J. Cheminformatics. 2012, 4, 22 [3] J. Chem. Inf. Model. 2014, 54, 1558-1566
  6. 線形表記法 (linear notation) 13 化学構造を1⾏の⽂字列で表したもの。 Ø  Wiswesser Line Notation (WLN)

    [1] Ø  Simplified Molecular Input Line Entry Specification (SMILES) Ø  International Chemical Identifier (InChI) [2] Ø  Web3 Unique Representation of Carbohydrate Structures (WURCS) [3] [1] J. Chem. Inf. Comput. Sci. 1982, 22, 88-93 [2] J. Cheminformatics. 2012, 4, 22 [3] J. Chem. Inf. Model. 2014, 54, 1558-1566
  7. 近年の線形表記法 (linear notation) 14 Ø  International Chemical Identifier (InChI) [2]

    InChIはIUPAC, NISTが制定した線形表記法である。 ⽴体異性体などを考慮している。 Ø  Web3 Unique Representation of Carbohydrate Structures (WURCS) [3] 糖鎖の線形表記法である。 [2] J. Cheminformatics. 2012, 4, 22 [3] J. Chem. Inf. Model. 2014, 54, 1558-1566
  8. Structure data file (SDF) 22 ü  タグ< >をにて化学構造以外の 情報を追加することができる。 ü 

    $$$$と$を4個書くことで1個の 化合構造に関する記載が終わっ たことを意味する。
  9. 表現・保存⽅法 Ø  線形表記法 (linear notation) Ø  結合表    (connection table)

    Ø  CML (Chemical Markup Language) 様々な表記があり、今回説明しなかって例以外にも ソフトウェア上でデータを扱いやすくするために、 そのソフトウェアのために開発された形式などもある。 このことからもファイルの間の変換が必要になってくる。 26
  10. データベースの種類 Ø  Relational Database ü  Oracle ü  MySQL ü  PostgreSQL

    ü  sqlite3 Ø  noSQL ü  redis Ø  RDF ü  SPARQL 31
  11. データベースカートリッジを導⼊することにより、 化学構造を保存し、部分構造検索や類似構造検索といった、 化学構造データベースに必須な構造検索も可能になる。 Ø  CambridgeSoft[6] Ø  BIOVIA Isentris[7] Ø  Pgchem[8]

    (無料) Ø  RDKit database cartridge[9] (無料) Ø  Bingo[10] (無料) [6] http://www.cambridgesoft.com/ [7] http://www.ctcls.co.jp/products/accelrys/accelrys_isentris.html [8] http://www.pgchem.sk [9] http://www.rdkit.org/docs/Cartridge.html [10] http://lifescience.opensource.epam.com/bingo/index.html 化学構造データベースの構築 32
  12. Ø  JSME[11] JavaScript分⼦エディター Ø  CH5M3D[12] JavaScript3D分⼦図 Ø  Molecule database framework[13]

    分⼦構造データベースのフレームワークである。 BingoCartridgeを⽤いて化学構造を扱っている。 [11] J. Cheminformatics. 2013, 5, 24 [12] J. Cheminformatics. 2013, 5, 46 [13] J. Cheminformatics. 2013, 5, 48 データベース作成⽀援ソフトウェア 33 JSME分⼦エディター([11]より抜粋) CH5M3Dによる3D描画([12]より抜粋)
  13. 化学構造の⼆次元での表現 40 データベース 構造検索 統計解析 (Graphics is uploaded originally by

    TAX IMAGES, Derek Gavey, and reynermedia) ②  化学構造データの利⽤
  14. 特許における構造検索 製薬メーカーでは類似の化学構造を以下のようなMarkush 表記と呼ばれる表現を⽤いて特許を取ることが多い[15]。 [15] An Introduction to Chemoinformatics, Chapter 1

    49 <各官能基の条件> R1=メチルあるいはエチル R2=アミノ基 R3=アルキルまたは ヘテロ環を含む酸素 m=1-3 ([11]を参考に作成)
  15. 類似構造検索 化学構造間の類似性が⾼い*かどうかをどうやって調べる? *似ていることを類似性が⾼いと表現する。 50 0 1 1 1 1 1

    1 0 1 0 Fingerprint O N N= Fingerprintを⽤いることで化学構造間の類似性を調べることが できるのではないか?
  16. 類似性の指標 Why is Tanimoto index an appropriate choice for fingerprint-based

    similarity calculations? J. Cheminformatics. 2015, 7, 20 から抜粋 52 0 1 1 1 1 1 1 0 1 0 Fingerprint
  17. ケモインフォマティクスツール 59 ツール名 利⽤するのに⽤いるプログラム⾔語の⼀例 Daylight Toolkit[20] C OEChem TK[21] C++,

    Python, Java OpenBabel[22] C++, Python, Java, Perl, Ruby CDK[23] Java RDKit[24] Python, C++ ツール名 プログラム⾔語 利⽤可能なツール RCDK[25] R CDK Rubabel[26] Ruby OpenBabel Cinfony[27] Python OpenBabel, CDK, RDKit ODDT[28] Python OpenBabel, CDK, RDKit Knime[29] CDK, RDKit ラッパーツール、統合ツール ケモインフォマティクスツール
  18. ケモインフォマティクスツール 60 [20] http://www.daylight.com/products/toolkit.html [21] http://www.eyesopen.com/ja/oechem-tk [22] J. Cheminformatics. 2011,

    3, 33 [23] J. Chem. inf. Comput. Sci. 2003, 43, 493-500 [24] http://www.rdkit.org/ [25] https://cran.r-project.org/web/packages/rcdk/rcdk.pdf [26] J. Cheminformatics. 2013, 5, 35 [27] Chemistry Central Journal. 2008, 2, 24 [28] J. Cheminformatics. 2015, 7, 26 [29] https://www.knime.org/