Automatické vyhodnocení konzistence v rámci PubChem Compound database
Jsme stáhli dvě sady archivovány PubChem struktura souborů na dvacátého prosince 2017: (i) „Současný-Full“ dataset skládající se z 94,201,188 položky s jejich odpovídající dvou-dimenzionální (2D) struktur uložených v SDF12 formátu, a (ii) „Compound_3D“ dataset skládající se z 91,699,620 položky s jejich odpovídající tří-dimenzionální (3D) struktury uložené v SDF formátu. Dataset „Current-Full“ byl potřebný, protože obsahuje metadata, která nejsou k dispozici v souborech“ Compound_3D“. Více než 2, 5 milionu záznamů v PubChem nemělo soubor struktury 3D. Je zajímavé, že všechny sloučeniny s více než 152 atomy neměly 3D struktury (obr. 1).
V aby se sonda správnost atom chiralita, jsme zpracovali Compound_3D dataset s ALATIS software. Tento krok vygeneroval jedinečné identifikátory pro více než 91 milionů sloučenin a jejich atomů (citace dat 1). Výstup pro každou položku sestával z: (i) struktura souborů v SDF, PDB, XYZ formáty obsahující ALATIS-na základě identifikátorů (štítky) pro všechny atomy, (ii) na mapě spojující vstupní atom štítky unikátní atom štítky, (iii) soubor obsahující standardní InChI řetězec jako unikátní směsi identifikátor (tzv. ‚inchi.inchi‘), (iv) dva textové soubory s názvem ‚ varování.txt ‚ a ‚ chyba.txt‘, které obsahují varování nebo chyby týkající se ALATIS analýzu určité látky, a (v) hodnot oddělených čárkou (CSV) soubor, s názvem ‚meta_data.csv‘, obsahující metadata spojená s touto položkou. Soubor metadat obsahuje kromě identifikátoru sloučeniny PubChem (Cid), molekulárního vzorce, hmotnosti a přesné hmotnosti, jak uvádí PubChem, odpovídající standardní řetězec InChI generovaný ALATISEM. Abychom usnadnili srovnání výsledků vedle sebe, včetně porovnání vstupních 3D struktur a výstupních struktur ALATIS anotovaných jedinečnými identifikátory atomu, vytvořili jsme pro každou sloučeninu webovou stránku, která obsahuje odkazy ke stažení všech dat. Použili jsme software Jmol k vytvoření zobrazení 3D struktur. Jedinečné identifikátory sloučenin a atomů, spolu s informacemi spojenými s položkami PubChem, jsou přístupné prostřednictvím webových stránek ALATIS . Uživatelé mohou dotaz vyhledávače na této webové stránce s PubChem CID nebo složený název načíst odpovídající výstup ALATIS.
použili jsme alatis-kurátorská data k analýze konzistence dat uložených pro každou položku v PubChem. Všimněte si, že synonyma a metadata jsou archivovány odděleně od 3D struktury souborů: synonyma jsou umístěny v a, že metadata jsou uložena jako součást SDF soubory archivovány v „Současný-Full“ dataset . Synonyma byla použita při vytváření uživatelsky přívětivého vyhledávače na webovém serveru ALATIS. Metadata byla potřebná pro následnou analýzu konzistence. Zdůrazňujeme níže dva hlavní výsledky naší studie.
Nesoulad mezi archivované 3D struktur a vzorců
chemický vzorec sloučeniny archivovány v PubChem obvykle následuje Kopec convention13 a představuje jádro rodič struktura compound9. Archiv PubChem však obsahuje 1 239 752 nabitých chemických vzorců, kde jsou náboje označeny symbolem na konci chemického vzorce. Základní Mateřská struktura sloučeniny označuje složení sloučeniny před uložením jakýchkoli nábojů přidáním nebo odečtením atomů vodíku. Jak je znázorněno na příkladech na obr. 2, není vždy možné určit základní mateřskou strukturu sloučeniny z jejího nabitého chemického vzorce. Je to proto, že spíše než výsledkem přidání nebo odčítání protonů by náboj mohl být vlastní kovalentní struktuře sloučeniny. Tak rozsáhlé výpočetní zpracování a curation z databáze by mohlo vést k nekonzistentní nebo nejednoznačné výsledky při identifikaci atomu složení sloučeniny. Tento problém lze řešit pomocí standardních řetězců InChI. Vzorec vrstvu standardní InChI řetězce poskytuje složení jádra mateřské sloučeniny, a náboj („/q“) a protonace („/p“) vrstev InChI řetězce představují sloučeniny poplatky. Toto oddělení nábojů od vzorců usnadňuje extrakci přesného počtu atomů v souboru struktury sloučeniny nebo chemickém vzorci, stejně jako označení typů nábojů spojených se sloučeninou. Vytvořili jsme kompletní seznam PubChem Cid s nabitými chemickými vzorci, spolu s jejich odpovídajícími ALATISOVÝMI vzorci ve formátu Hill, jak jsou extrahovány ze standardních řetězců InChI. Tyto údaje jsou k dispozici na webových stránkách ALATIS.
Nesoulad mezi archivované 3D struktur a InChI řetězce
ve srovnání vložené PubChem InChI struny pro ty generované ALATIS (ALATIS od InChI program v. 1.04 ). Standardní řetězce InChI představují jedinečné složené identifikátory, které lze použít pro křížové odkazy záznamů z různých databází5. Tyto řetězce se skládají z několika vrstev informací, včetně sloučenina vzorce, kovalentní připojení mezi těžkých atomů počet atomů vodíku spojena s těžkými atomy, vrstva reprezentovat chiralita, a dalšími vrstvami spojené s isotopically označené atomy a sloučeniny charges9. Použili jsme ALATIS zpracovat 3D strukturu souborů uložených v PubChem, a označeny položky, pro které odpovídající uloženy InChI řetězce nepodařilo, aby odpovídaly ty, které uvedly ALATIS. Tabulka 1 ukazuje různé kategorie těchto označených položek PubChem. V této tabulce, ‚Atom připojení kategorii zprávy, počet záznamů označený, protože nesrovnalostí v (a) kovalentní připojení mezi těžkými atomy (hlášené v „/c“ vrstva InChI řetězce) nebo (b) počet účelově vázaných atomů vodíku do těžkých atomů („/h“ vrstva InChI řetězce). Na „Obvinění“ kategorie zprávy počet označených položek, které představují různé (de)protonace („/p“ vrstva InChI) nebo vnitřní kovalentní poplatky („/q“ vrstva). ‚Stereochemie‘ kategorie uveden počet položek, které byly označeny kvůli nesrovnalosti v jejich (a), „/b“ vrstva InChI řetězce, které zprávy sp2 dvojné vazby, stereochemie sloučenin, nebo (b) InChI „/t“ vrstvu, která přenáší orientace chirálních center. Všimneme si, že sloučenina může být označena a hlášena ve více kategoriích. Celkově naše analýzy označeny 32,036,565 položky (o 33% PubChem položky s 3D struktury) jako rozdíl mezi jeho archivované InChI řetězec a že vygenerované z odpovídající 3D struktury ALATIS. Nesprávná reprezentace stereochemie byla nejčastějším důvodem nesrovnalosti, následovaná nábojem a konektivitou atomu (Tabulka 1). Kompletní seznamy těchto označených položek jsou uvedeny na našich webových stránkách .
níže uvádíme příklady ze tří kategorií označených nesrovnalosti.
(a) Nesoulad v atomu připojení
Jak bylo uvedeno výše, vrstvy „/c“ a „/h“ ve standardní InChI řetězec představují propojení těžkých atomů a počet spojených atomů vodíku na těžké atomy, respektive. Položka PubChem znázorněná na obr. 3 ilustruje případ, kdy soubor 3D struktury a uložené řetězce InChI představují odlišné kovalentní vazby mezi těžkými atomy. Správná identifikace 3D struktury je nezbytná pro funkční zkoumání sloučenin a tato kategorie nekonzistence by mohla vést k chybným závěrům.
(b) Nesoulad v rozložení náboje
Jak bylo uvedeno výše, různé poplatky, vzhledem k (de)protonace nebo vnitřní kovalentní poplatky sloučenin jsou zastoupeny v „/p“ a „/q“ vrstev InChI řetězce. Označené položky PubChem v této kategorii jsou ty, ve kterých archivovaná 3D struktura a řetězce InChI představují různé stavy náboje. Obrázek 4 ukazuje příklad z této kategorie.
(c) Rozpor v uvedení stereochemie
(c.1) Rozpor v dvojné vazby sp2 stereochemie
orientace struktura sloučeniny o dvojnou vazbu, zda je konfigurace cis nebo trans, je zachycen přesně ve standardní InChI řetězce. Tyto orientace, které lze identifikovat pouze ve 3D strukturách, jsou uvedeny ve vrstvě“ / b “ řetězců InChI. Sloučenina PubChem znázorněná na obrázku 5 zobrazuje příklad rozporu mezi konfigurací archivované 3D struktury a jejím přidruženým řetězcem InChI. V tomto příkladu obsahuje řetězec InChI položky PubChem (CID 1551886) otazník ve své vrstvě „/ b“, což znamená, že konfigurace sloučeniny je nejednoznačná. Archivovaná 3D struktura však představuje trans konfiguraci sloučeniny.
(c.2) Rozpor v uvedení stereochemie chirálních center
stereochemie (chiralita) malých molekul hraje důležitou roli v určení jejich funkce. Mezi více než 91 milionů PubChem položky s 3D konstrukcí, naše výpočty pomocí ALATIS uvedla, že více než 55% položek (50,508,180 položky) obsahoval alespoň jedno chirální centrum. Asi 60% z těchto položek (30,236,352 položky) byly označeny během naší analýzy, vzhledem k nesrovnalostem mezi stereochemie vrstvy uloženy InChI řetězce v PubChem a ty generované ALATIS od struktury. Kompletní seznam těchto položek je přístupný z webových stránek ALATIS. Obrázek 6 ukazuje jeden příklad z těchto označených položek.