Articles

Automatické vyhodnocení konzistence v rámci PubChem Compound database

Jsme stáhli dvě sady archivovány PubChem struktura souborů na dvacátého prosince 2017: (i) „Současný-Full“ dataset skládající se z 94,201,188 položky s jejich odpovídající dvou-dimenzionální (2D) struktur uložených v SDF12 formátu, a (ii) „Compound_3D“ dataset skládající se z 91,699,620 položky s jejich odpovídající tří-dimenzionální (3D) struktury uložené v SDF formátu. Dataset „Current-Full“ byl potřebný, protože obsahuje metadata, která nejsou k dispozici v souborech“ Compound_3D“. Více než 2, 5 milionu záznamů v PubChem nemělo soubor struktury 3D. Je zajímavé, že všechny sloučeniny s více než 152 atomy neměly 3D struktury (obr. 1).

Obrázek 1: Histogramy zobrazující počet atomů a masy položky v PubChem.
1

x-osy z histogramů (a) a (b) představuje počet atomů ve sloučenině, a osa y udává počet sloučenin s odpovídajícím počtem atomů. (a) Histogram hmot pro sloučeniny s méně než 152 atomy: ty pro položky“ Current-Full “ (2D struktury) jsou zobrazeny modře a ty pro položky „Compound_3D“ jsou zobrazeny zeleně. Mezní hodnota 152 atomů byla zvolena na základě maximálního počtu atomů ve sloučeninách v datovém souboru“ Compound_3D“. b) se počítá pro sloučeniny s >152 atomy. PubChem neobsahuje žádné informace o struktuře 3D pro tyto sloučeniny. (c) Histogram hmotností sloučenin, jak je uvedeno v souborech SDF položek PubChem „Current-Full“. Většina sloučenin v databázi měl hmotností menší než 1000 Da; nicméně, 11, 550 sloučeniny měl hmotnost vyšší než 2000 Da (není zobrazen v (c)) – například PubChem CID 23393956 uvádí přesnou hmotnost 59,745.256 Da.

V aby se sonda správnost atom chiralita, jsme zpracovali Compound_3D dataset s ALATIS software. Tento krok vygeneroval jedinečné identifikátory pro více než 91 milionů sloučenin a jejich atomů (citace dat 1). Výstup pro každou položku sestával z: (i) struktura souborů v SDF, PDB, XYZ formáty obsahující ALATIS-na základě identifikátorů (štítky) pro všechny atomy, (ii) na mapě spojující vstupní atom štítky unikátní atom štítky, (iii) soubor obsahující standardní InChI řetězec jako unikátní směsi identifikátor (tzv. ‚inchi.inchi‘), (iv) dva textové soubory s názvem ‚ varování.txt ‚ a ‚ chyba.txt‘, které obsahují varování nebo chyby týkající se ALATIS analýzu určité látky, a (v) hodnot oddělených čárkou (CSV) soubor, s názvem ‚meta_data.csv‘, obsahující metadata spojená s touto položkou. Soubor metadat obsahuje kromě identifikátoru sloučeniny PubChem (Cid), molekulárního vzorce, hmotnosti a přesné hmotnosti, jak uvádí PubChem, odpovídající standardní řetězec InChI generovaný ALATISEM. Abychom usnadnili srovnání výsledků vedle sebe, včetně porovnání vstupních 3D struktur a výstupních struktur ALATIS anotovaných jedinečnými identifikátory atomu, vytvořili jsme pro každou sloučeninu webovou stránku, která obsahuje odkazy ke stažení všech dat. Použili jsme software Jmol k vytvoření zobrazení 3D struktur. Jedinečné identifikátory sloučenin a atomů, spolu s informacemi spojenými s položkami PubChem, jsou přístupné prostřednictvím webových stránek ALATIS . Uživatelé mohou dotaz vyhledávače na této webové stránce s PubChem CID nebo složený název načíst odpovídající výstup ALATIS.

použili jsme alatis-kurátorská data k analýze konzistence dat uložených pro každou položku v PubChem. Všimněte si, že synonyma a metadata jsou archivovány odděleně od 3D struktury souborů: synonyma jsou umístěny v a, že metadata jsou uložena jako součást SDF soubory archivovány v „Současný-Full“ dataset . Synonyma byla použita při vytváření uživatelsky přívětivého vyhledávače na webovém serveru ALATIS. Metadata byla potřebná pro následnou analýzu konzistence. Zdůrazňujeme níže dva hlavní výsledky naší studie.

Nesoulad mezi archivované 3D struktur a vzorců

chemický vzorec sloučeniny archivovány v PubChem obvykle následuje Kopec convention13 a představuje jádro rodič struktura compound9. Archiv PubChem však obsahuje 1 239 752 nabitých chemických vzorců, kde jsou náboje označeny symbolem na konci chemického vzorce. Základní Mateřská struktura sloučeniny označuje složení sloučeniny před uložením jakýchkoli nábojů přidáním nebo odečtením atomů vodíku. Jak je znázorněno na příkladech na obr. 2, není vždy možné určit základní mateřskou strukturu sloučeniny z jejího nabitého chemického vzorce. Je to proto, že spíše než výsledkem přidání nebo odčítání protonů by náboj mohl být vlastní kovalentní struktuře sloučeniny. Tak rozsáhlé výpočetní zpracování a curation z databáze by mohlo vést k nekonzistentní nebo nejednoznačné výsledky při identifikaci atomu složení sloučeniny. Tento problém lze řešit pomocí standardních řetězců InChI. Vzorec vrstvu standardní InChI řetězce poskytuje složení jádra mateřské sloučeniny, a náboj („/q“) a protonace („/p“) vrstev InChI řetězce představují sloučeniny poplatky. Toto oddělení nábojů od vzorců usnadňuje extrakci přesného počtu atomů v souboru struktury sloučeniny nebo chemickém vzorci, stejně jako označení typů nábojů spojených se sloučeninou. Vytvořili jsme kompletní seznam PubChem Cid s nabitými chemickými vzorci, spolu s jejich odpovídajícími ALATISOVÝMI vzorci ve formátu Hill, jak jsou extrahovány ze standardních řetězců InChI. Tyto údaje jsou k dispozici na webových stránkách ALATIS.

Obrázek 2: příklady položek PubChem s nabitými chemickými vzorci.
obrázek 2

(a) PubChem CID 91929631. Archivovaný chemický vzorec pro tuto položku v PubChem je C15H17N4O3S+. Tento vzorec udává 17 atomů vodíku v kladně nabité sloučenině. Základní Mateřská struktura této sloučeniny však obsahuje pouze 16 atomů vodíku; další vodík je výsledkem protonace sloučeniny v její nabité formě. Na ALATIS vzorec pro tuto sloučeninu „C15H16N4O3S“ ukazuje, jaká atom složení s 16 atomy vodíku, a další vodík je uvedeno v odpovídající InChI řetězec (vrstva „/p“) „InChI = 1 S/C15H16N4O3S/c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H,10H2,(H3,16,17)(H,19,20)/p + 1“ . b) PubChem CID 91124997. Chemický vzorec pro tuto sloučeninu v PubChem je (C15H16N+). V tomto případě vzniká kladný náboj z kvartérního dusíku a správné složení sloučeniny obsahuje 16 atomů vodíku, které odpovídají vzorci v PubChem. Na ALATIS vzorec pro tato sloučenina ukazuje 16 atomů vodíku (C15H16N), a poplatek je zastoupena vrstva („/q“) v odpovídající standardní InChI řetězec „InChI = 1 S/C15H16N/c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H,10H2,1-2H3/q + 1/t12-/m0/s1“ .

Nesoulad mezi archivované 3D struktur a InChI řetězce

ve srovnání vložené PubChem InChI struny pro ty generované ALATIS (ALATIS od InChI program v. 1.04 ). Standardní řetězce InChI představují jedinečné složené identifikátory, které lze použít pro křížové odkazy záznamů z různých databází5. Tyto řetězce se skládají z několika vrstev informací, včetně sloučenina vzorce, kovalentní připojení mezi těžkých atomů počet atomů vodíku spojena s těžkými atomy, vrstva reprezentovat chiralita, a dalšími vrstvami spojené s isotopically označené atomy a sloučeniny charges9. Použili jsme ALATIS zpracovat 3D strukturu souborů uložených v PubChem, a označeny položky, pro které odpovídající uloženy InChI řetězce nepodařilo, aby odpovídaly ty, které uvedly ALATIS. Tabulka 1 ukazuje různé kategorie těchto označených položek PubChem. V této tabulce, ‚Atom připojení kategorii zprávy, počet záznamů označený, protože nesrovnalostí v (a) kovalentní připojení mezi těžkými atomy (hlášené v „/c“ vrstva InChI řetězce) nebo (b) počet účelově vázaných atomů vodíku do těžkých atomů („/h“ vrstva InChI řetězce). Na „Obvinění“ kategorie zprávy počet označených položek, které představují různé (de)protonace („/p“ vrstva InChI) nebo vnitřní kovalentní poplatky („/q“ vrstva). ‚Stereochemie‘ kategorie uveden počet položek, které byly označeny kvůli nesrovnalosti v jejich (a), „/b“ vrstva InChI řetězce, které zprávy sp2 dvojné vazby, stereochemie sloučenin, nebo (b) InChI „/t“ vrstvu, která přenáší orientace chirálních center. Všimneme si, že sloučenina může být označena a hlášena ve více kategoriích. Celkově naše analýzy označeny 32,036,565 položky (o 33% PubChem položky s 3D struktury) jako rozdíl mezi jeho archivované InChI řetězec a že vygenerované z odpovídající 3D struktury ALATIS. Nesprávná reprezentace stereochemie byla nejčastějším důvodem nesrovnalosti, následovaná nábojem a konektivitou atomu (Tabulka 1). Kompletní seznamy těchto označených položek jsou uvedeny na našich webových stránkách .

Tabulka 1 kategorie a počty označených položek PubChem.

níže uvádíme příklady ze tří kategorií označených nesrovnalosti.

(a) Nesoulad v atomu připojení

Jak bylo uvedeno výše, vrstvy „/c“ a „/h“ ve standardní InChI řetězec představují propojení těžkých atomů a počet spojených atomů vodíku na těžké atomy, respektive. Položka PubChem znázorněná na obr. 3 ilustruje případ, kdy soubor 3D struktury a uložené řetězce InChI představují odlišné kovalentní vazby mezi těžkými atomy. Správná identifikace 3D struktury je nezbytná pro funkční zkoumání sloučenin a tato kategorie nekonzistence by mohla vést k chybným závěrům.

obrázek 3: nekonzistence ve vrstvě připojení těžkého atomu.
obrázek 3

ALATIS generované standardní InChI struny pro 3D struktur v PubChem, a porovnáním těchto InChI řetězce se ukládají InChI řetězce v databázi, jsme identifikovali sloučenin, jejichž připojení vrstev neodpovídá. Tento obrázek ukazuje příklad takového rozporu pro PubChem CID 12300268. (a) reprezentace uložené 3D struktury pro vstup. (b) reprezentace z uloženého řetězce InChI. Všimneme si, že kovalentní vazby se mezi těmito dvěma strukturami liší. Standardní InChI řetězec archivované 3D struktury: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H,9-16H2, a uloženy InChI řetězec: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 H,9-16H2. Vrstvy InChI s tučným písmem naznačují nesrovnalosti mezi konektivitou těžkých atomů ve dvou řetězcích InChI.

(b) Nesoulad v rozložení náboje

Jak bylo uvedeno výše, různé poplatky, vzhledem k (de)protonace nebo vnitřní kovalentní poplatky sloučenin jsou zastoupeny v „/p“ a „/q“ vrstev InChI řetězce. Označené položky PubChem v této kategorii jsou ty, ve kterých archivovaná 3D struktura a řetězce InChI představují různé stavy náboje. Obrázek 4 ukazuje příklad z této kategorie.

obrázek 4: nesoulad ve vedení.
figure4

(a) Reprezentace 3D struktura souboru archivovány pro PubChem CID 2179800. (b) Strukturální reprezentaci InChI řetězec uložen za to, že sloučenina: „InChI = 1 S/C15H9N3O5/c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H/p-1“. Standardní InChI řetězec pro strukturu v (a) struktura souboru uvádí ALATIS je „InChI = 1 S/C15H8N3O5/c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/1h-8H/q-1“.

(c) Rozpor v uvedení stereochemie

(c.1) Rozpor v dvojné vazby sp2 stereochemie

orientace struktura sloučeniny o dvojnou vazbu, zda je konfigurace cis nebo trans, je zachycen přesně ve standardní InChI řetězce. Tyto orientace, které lze identifikovat pouze ve 3D strukturách, jsou uvedeny ve vrstvě“ / b “ řetězců InChI. Sloučenina PubChem znázorněná na obrázku 5 zobrazuje příklad rozporu mezi konfigurací archivované 3D struktury a jejím přidruženým řetězcem InChI. V tomto příkladu obsahuje řetězec InChI položky PubChem (CID 1551886) otazník ve své vrstvě „/ b“, což znamená, že konfigurace sloučeniny je nejednoznačná. Archivovaná 3D struktura však představuje trans konfiguraci sloučeniny.

Obrázek 5: Nekonzistence v cis – a trans – konfigurace.
figure5

Reprezentace 3D struktura archivovány pro PubChem vstupu CID 1551886, který ukazuje definovanými stereochemie o dvojné vazby mezi C8 a N18. Nicméně, InChI řetězec archivovány pro tuto položku „InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H/p-2/b15-7-,18-8?“označuje nejednoznačnou orientaci kolem dvojné vazby mezi C8 a N18. Jako výsledek, řetězec InChI generovaný ze struktury ALATISEM neodpovídal archivovanému řetězci InChI.

(c.2) Rozpor v uvedení stereochemie chirálních center

stereochemie (chiralita) malých molekul hraje důležitou roli v určení jejich funkce. Mezi více než 91 milionů PubChem položky s 3D konstrukcí, naše výpočty pomocí ALATIS uvedla, že více než 55% položek (50,508,180 položky) obsahoval alespoň jedno chirální centrum. Asi 60% z těchto položek (30,236,352 položky) byly označeny během naší analýzy, vzhledem k nesrovnalostem mezi stereochemie vrstvy uloženy InChI řetězce v PubChem a ty generované ALATIS od struktury. Kompletní seznam těchto položek je přístupný z webových stránek ALATIS. Obrázek 6 ukazuje jeden příklad z těchto označených položek.

obrázek 6: nekonzistence složené chirality.
figure6

Příklad z PubChem CID 130156427. (a) uložená 3D struktura sloučeniny. (b) struktura vytvořená z uloženého řetězce InChI. Vlnitá vazba v písmenu b) označuje dvojznačnou chiralitu vazby. Je to proto, že archivované InChI řetězec pro tuto sloučeninu „InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)“ postrádá potřebné stereochemie vrstva („/t“). Tuto vrstvu InChI lze nalézt ve standardním řetězci InChI, který uvádí ALATIS: „InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.“