Articles

PubChem複合データベース内の一貫性の自動評価

2017年にアーカイブされたPubChem構造ファイルの二つのセットをダウンロードしました。(i)94,201,188エントリからなる”現在の完全な”データセットと、SDF12形式で格納された対応する二次元(2D)構造からなる”Compound_3D”データセットと、91,699,620エントリからなる”Compound_3D”データセットをダウンロードしました。対応する三次元(3D)構造はSdf形式で保存されています。 “Compound_3D”ファイルでは使用できないメタデータが含まれているため、”Current-Full”データセットが必要でした。 PubChemの2.5万件以上のエントリには3D構造ファイルがありませんでした。 興味深いことに、152原子を超えるすべての化合物は3D構造を有していなかった(図。 1).

図1:pubchemの原子数とエントリの質量を表示するヒストグラム。
figure1

ヒストグラムのx軸(a)および(b)は化合物中の原子数を表し、y軸は対応する原子数を有する化合物の数を示す。 (a)152原子未満の化合物の質量のヒストグラム:”電流フル”エントリ(2D構造)のものは青で示され、”Compound_3D”エントリのものは緑で示されています。 152原子のカットオフは、”Compound_3D”データセット内の化合物中の原子の最大数に基づいて選択されました。 (b)>152原子を持つ化合物のカウント。 PubChemには、これらの化合物の3D構造情報は含まれていません。 (c)PubChem”Current-Full”エントリのSDFファイルに報告されている化合物の質量のヒストグラム。 データベース内の化合物の大部分は1,000Da未満の質量を有していたが、11,550の化合物は2,000Daよりも高い質量を有していた((c)に示されていない)–例えば、PubChem CID23393956は59,745.256Daの正確な質量を報告した。

原子のキラリティの正確さを調べるために、AlatisソフトウェアでCompound_3Dデータセットを処理しました。 このステップにより、9100万以上の化合物とその構成原子の一意の識別子が生成されました(Data Citation1)。 各エントリの出力は、次のように構成されています: (i)すべての原子のALATISベースの識別子(ラベル)を含むSDF、PDB、およびXYZ形式の構造ファイル、(ii)入力原子ラベルを一意の原子ラベルにリンクするマップ、(iii)標準InChI文字列を一意の化合物識別子として含むファイル(“inchi”と呼ばれる)。inchi’),(iv)二つのテキストファイル,という名前の’警告.txt’と’エラー。特定の化合物のALATIS分析に関連する警告またはエラーが含まれているtxt’、および(v)’meta_dataという名前のコンマ区切り値(CSV)ファイル。そのエントリに関連付けられたメタデータを含むcsv’。 メタデータファイルには、PUBCHEM compound identifier(CID)に加えて、PUBCHEMによって報告された分子式、重量、および正確な質量、ALATISによって生成された対応する標準InChI文字列が含まれ ユニークな原子識別子で注釈された入力3D構造とALATIS出力構造の比較を含む結果のサイドバイサイド比較を容易にするために、我々はすべてのデータへ 私たちは、3D構造のディスプレイを作成するためにソフトウェアJmolを使用しました。 一意の化合物および原子識別子は、PubChemエントリに関連する情報とともに、ALATISのウェブサイトを通じてアクセスすることができます。 ユーザーは、このウェブサイト上の検索エンジンにPubChem CIDまたは複合名を照会して、対応するALATIS出力を取得することができます。PUBCHEMの各エントリに保存されているデータの一貫性を分析するために、ALATIS-curatedデータを使用しました。

シノニムとメタデータは3D構造ファイルとは別にアーカイブされ、メタデータは”Current-Full”データセットにアーカイブされたSDFファイルの一部として保存されます。 同義語は、ALATIS webサーバー上でユーザーフレンドリーな検索エンジンを作成する際に使用されました。 メタデータは、その後の整合性分析のために必要でした。 私たちは、私たちの研究の2つの主要な成果の下に強調しています。

アーカイブされた3D構造と式の不一致

PubChemにアーカイブされた化合物の化学式は、通常、ヒル条約13に従い、化合物9のコア親構造を表します。 しかし、PubChemアーカイブには1,239,752の電荷化学式が含まれており、電荷は化学式の最後に記号で示されています。 化合物のコア親構造は、水素原子の加算または減算を介して、任意の電荷を課す前に化合物の組成を示します。 の実施例によって示されるように、図1 1の実施例に示される。 図2に示すように、化合物のコア親構造をその荷電化学式から決定することは必ずしも可能ではない。 これは、陽子の加算または減算から生じるのではなく、電荷が化合物の共有結合構造に固有である可能性があるためである。 したがって、データベースの大規模な計算処理とキュレーションは、化合物の原子組成を同定する際に一貫性のないまたはあいまいな結果につながる可 この問題は、標準のInChI文字列を利用することで対処できます。 標準的なInChIストリングの式層は化合物のコア親の組成を提供し、InChIストリングの正味電荷(”/q”)層とプロトン化(”/p”)層は化合物の電荷を表す。 式からの電荷のこの分離は、化合物の構造ファイルまたは化学式内の原子の正確な数の抽出を容易にするだけでなく、化合物に関連付けられている電荷の種類を示す。 標準のInChI文字列から抽出されたhill形式の対応するALATIS式とともに、荷電化学式を持つPubChem Cidの完全なリストを作成しました。 これらのデータは、ALATISのウェブサイトで入手できます。

図2:帯電した化学式を持つPubChemエントリの例。figcaption>

figure2

(a)PubChem CID91929631. PubChemのこのエントリのアーカイブされた化学式はC15H17N4O3S+です。 この式は、正に荷電した化合物中の17個の水素原子を示す。 但し、この混合物の中心の親構造は16個の水素原子だけ含んでいます;付加的な水素は荷電の形態の混合物のプロトン化に起因します。 この化合物”C15H16N4O3S”のALATIS式は、16個の水素原子を有する正しい原子組成を示し、追加の水素は、対応するInChI文字列(層”/p”)”InChI=1S/C15H16N4O3S/c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18H,10H2,(H3,16,17)(H,19,20)/p+1″. (b)PubChem CID91124997. PubChemのこの混合物のための化学式は(C15H16N+)です。 この場合、正電荷は第四級窒素から生じ、化合物の正しい組成は16個の水素原子を含み、これはPubChemの式と一致する。 この化合物のALATIS式は16個の水素原子(C15H16N)を示し、電荷は対応する標準InChI文字列「InChI=1S/C15H16N/c1」の層(「/q」)で表されます。-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12H,10H2,1-2H3/q+1/t12-/m0/s1″。

アーカイブされた3D構造とInChI文字列の不一致

堆積したPubChem InChI文字列をALATISによって生成された文字列と比較しました(ALATISはInChIプログラムv.1.04を利用しています)。 標準のInChI文字列は、異なるデータベースからのエントリを相互参照するために使用できる一意の複合識別子を表します5。 これらの文字列は、化合物の式、重原子間の共有結合性、重原子に関連する水素原子の数、キラリティを表す層、および同位体標識された原子および化合物電荷に関連する他の層9を含む情報のいくつかの層からなる。 我々は、PubChemに堆積した3D構造ファイルを処理するためにALATISを使用し、対応する堆積したInChI文字列がALATISによって報告されたものと一致しなかったフラッ 表1は、これらのフラグ付きPubChemエントリのさまざまなカテゴリを示しています。 この表では、”原子接続性”カテゴリは、(a)重原子間の共有結合性(InChI文字列の”/c”層で報告される)または(b)重原子に割り当てられた水素原子の数(InChI文字列の”/h”層)の不一致のためにフラグが付けられたエントリの数を報告する。 “電荷”カテゴリは、異なる(de)プロトン化(InChIの”/p”層)または固有の共有結合電荷(”/q”層)を表すフラグ付きエントリの数を報告します。 “立体化学”カテゴリは、化合物のsp2二重結合立体化学を報告するInChI文字列の(a)”/b”層、またはキラル中心の向きを報告する(b)InChI”/t”層の不一致のためにフラグが付けられているエントリの数を示している。 化合物は複数のカテゴリでフラグが付けられ、報告される可能性があることに注意してください。 全体的に、私たちの分析では、32,036,565エントリ(3D構造を持つPubChemエントリの約33%)が、アーカイブされたInChI文字列とALATISによって対応する3D構造から生成された 立体化学の不適切な表現が不一致の最も一般的な理由であり、その後に電荷および原子の結合性が続いた(表1)。 これらのフラグが設定されたエントリの完全なリストは、当社のウェブサイト上で報告されています。

表1のカテゴリとフラグ付きPubChemエントリの数。

フラグ付きの不一致の三つのカテゴリからの例を以下に示します。

(a)原子結合性の不整合上記のように、標準InChI文字列の層「/c」および「/h」は、それぞれ重原子の結合性および重原子に関連する水素原子の数を表 Pubchemエントリは図に示されています。 図3は、3D構造ファイルと堆積されたInChI文字列が重原子間の別個の共有結合を表す場合を示すものである。 3D構造の正しい同定は、化合物の機能調査に不可欠であり、このカテゴリの不一致は誤った結論につながる可能性があります。

図3:重い原子接続層の不一致。
figure3

ALATISはPubChemで3D構造の標準InChI文字列を生成し、これらのInChI文字列をデータベースに堆積したInChI文字列と比較することにより、接続層が一致しない化合物を同定した。 この図は、PubChem CID12300268のこのような不一致の例を示しています。 (a)エントリのための堆積した3D構造の表現。 (b)寄託されたInChI文字列からの表現。 共有結合は二つの構造の間で異なることに注意してください。 アーカイブされた3D構造体の標準InChI文字列:InChI=1S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18H、9-16H2、および堆積したインチキ文字列:インチキ=1S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18時9分-16時2分 太字フォントのInChI層は、二つのInChI文字列の重い原子の接続性の間の不一致を示しています。

(b)電荷分布の不一致

上記のように、化合物の(de)プロトン化または固有の共有結合電荷による別個の電荷は、InChI文字列の”/p”および”/q”層 このカテゴリのフラグ付きPubChemエントリは、アーカイブされた3D構造とInChI文字列が異なる電荷状態を表すものです。 図4に、このカテゴリの例を示します。

図4:担当の不一致。
figure4

(a)PubChem CID2179800のためにアーカイブされた3D構造ファイルの表現。 (b)その化合物のために保存されたInchi文字列の構造表現:「Inchi=1S/C1 5H9N3O5/c1 9」-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19H/p-1″。 ALATISによって報告された(a)構造体ファイル内の構造体の標準InChI文字列は、”InChI=1S/C15H8N3O5/c19″です-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H/q-1″。

(c)立体化学の不整合

(c.1)二重結合sp2立体化学の不整合

二重結合に関する化合物の構造の配向は、配位がcisまたはtransであるかどうかにかかわらず、標準的なInChI文字列に正確に捕捉される。 これらの向きは、3D構造でのみ識別することができ、InChI文字列の”/b”層で示されています。 図5に示すPubChemコンパウンドは、アーカイブされた3D構造の構成とそれに関連するInChI文字列との間の不一致の例を示しています。 この例では、PubChemエントリのInChI文字列(CID1551886)は、その”/b”層に疑問符が含まれており、化合物の構成があいまいであることを示しています。 しかし、アーカイブされた3D構造は、化合物のtrans配置を表しています。

図5:cisおよびtrans構成の不一致。
図5

C8とN18の間の二重結合について定義された立体化学を示すPubChemエントリCID1551886のためにアーカイブされた3D構造の表現。 ただし、このエントリ”InChI=1″のInChI文字列はアーカイブされていますS/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23H/p-2/b15-7-,18-8?”は、C8とN18の間の二重結合の周りのあいまいな配向を示す。 その結果、ALATISによって構造体から生成されたInChI文字列は、アーカイブされたInChI文字列と一致しませんでした。

(c.2)キラル中心の立体化学の不一致

小分子の立体化学(キラリティ)は、その機能を決定する上で重要な 91万件以上のPubChemエントリのうち、3D構造を持つALATISを用いた計算では、エントリの55%以上(50,508,180エントリ)が少なくとも一つのキラル中心を含んでいることが示された。 これらのエントリの約60%(30,236,352エントリ)は、PubChemで堆積したInChI文字列の立体化学層と構造からALATISによって生成されたものとの間の不一致のために、我々の分析 これらのエントリの完全なリストは、ALATISのウェブサイトからアクセスできます。 図6は、これらのフラグ付きエントリの一例を示しています。

図6:複合キラリティの不一致。PubChem CID130156427からの例。 (a)化合物の3D構造を蒸着した。 (b)堆積したインチ文字列から生成される構造。 (B)の波状結合はあいまいな結合キラリティを示す。 これは、この化合物”InChI=1″のアーカイブされたInChI文字列が原因ですS/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21H,13-15H2,1-4H3,(H,26,29)(H,27,30)”は、必要な立体化学層(“/t”)を欠いている。 このInChI層は、ALATISによって報告された標準InChI文字列に記載されています: “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”