Articles

automatiserad utvärdering av konsistens inom PubChem Compound database

vi laddade ner två uppsättningar arkiverade PubChem-strukturfiler den tjugonde December 2017: (i) ”Current-Full” dataset bestående av 94 201 188 poster med motsvarande tvådimensionella (2D) strukturer lagrade i SDF12-format och (ii) ”Compound_3D” dataset bestående av 91 699 620 poster med motsvarande tredimensionella (3D) strukturer lagrade i SDF-format. ”Current-Full” dataset behövdes eftersom det innehåller metadata som inte är tillgängliga i ”Compound_3D” filer. Mer än 2,5 miljoner poster i PubChem hade inte en 3D-strukturfil. Intressant nog hade alla föreningar med mer än 152 atomer inte 3D-strukturer (Fig. 1).

Figur 1: histogram som visar antalet atomer och massor av poster i PubChem.
figure1

x-axeln för histogram (A) och (b) representerar antalet atomer i en förening, och y-axeln anger antalet föreningar med motsvarande antal atomer. (a) Histogram av massor för föreningar med färre än 152 atomer: de för ”Current-Full” – poster (2D-strukturer) visas i blått och de för ”Compound_3D” – posterna visas i grönt. 152-atomen cutoff valdes baserat på det maximala antalet atomer i föreningar i ”Compound_3D” dataset. (B) räknar för föreningar med >152 atomer. PubChem innehåller ingen 3D-strukturinformation för dessa föreningar. (C) Histogram av massor av föreningar som rapporterats i SDF-filerna i PubChem ”Current-Full” – poster. De flesta föreningarna i databasen hade massor mindre än 1000 Da; emellertid hade 11 550 föreningar massa högre än 2000 Da (visas inte i (c)) – till exempel rapporterade PubChem CID 23393956 den exakta massan av 59 745,256 Da.

för att undersöka korrektheten av atomkiralitet behandlade vi Compound_3D-datasetet med ALATIS-programvara. Detta steg genererade unika identifierare för mer än 91 miljoner föreningar och deras beståndsdelar (Datacitation 1). Resultatet för varje post bestod av: (i) strukturera filer i SDF -, PDB-och XYZ-format som innehåller ALATIS-baserade identifierare (etiketter) för alla atomer, (ii) en karta som länkar inmatningsatometiketterna till de unika atometiketterna, (iii) en fil som innehåller en standard InChI-sträng som den unika föreningsidentifieraren (kallad ’inchi.InChI’), (iv)två textfiler med namnet ’ varningar.txt ’ och ’ fel.TXT’, som innehåller varningar eller fel relaterade till ALATIS analys av en viss förening, och (v) en kommaseparerade värden (CSV) fil, med namnet ’meta_data.csv’, som innehåller metadata som är associerade med den posten. Metadatafilen innehåller, förutom PubChem compound identifier (CID), molekylformel, vikt och exakt massa som rapporterats av PubChem, motsvarande standard InChI-sträng som genereras av ALATIS. För att underlätta jämförelse sida vid sida av resultat, inklusive jämförelse av ingångs 3D-strukturer och ALATIS-utgångsstrukturer annoterade med unika atomidentifierare, har vi genererat en webbsida för varje förening, som inkluderar nedladdningslänkar till alla data. Vi använde programvaran Jmol för att skapa skärmar av 3D-strukturerna. De unika förenings-och atomidentifierarna, tillsammans med information som är associerad med PubChem-poster, kan nås via ALATIS webbplats . Användare kan fråga sökmotorn på denna webbplats med ett PubChem CID eller ett sammansatt namn för att hämta motsvarande ALATIS-utgång.

vi använde ALATIS-curated data för att analysera konsistensen av de data som lagras för varje post i PubChem. Observera att synonymer och metadata arkiveras separat från 3d-strukturfilerna: synonymer finns på och att metadata lagras som en del av SDF-filer som arkiveras i ”Current-Full” dataset . Synonymerna användes för att skapa en användarvänlig sökmotor på ALATIS webbserver. Metadata behövdes för den efterföljande konsekvensanalysen. Vi lyfter fram de två stora resultaten av vår studie.

inkonsekvens mellan de arkiverade 3D-strukturerna och formlerna

den kemiska formeln för en förening som arkiveras i PubChem följer normalt Hill-konventionen13 och representerar föreningens kärnförälderstruktur9. PubChem-arkivet innehåller emellertid 1 239 752 laddade kemiska formler, där laddningar betecknas med en symbol i slutet av den kemiska formeln. Kärnans moderstruktur för en förening indikerar sammansättningen av föreningen innan några laddningar införs genom tillsats eller subtraktion av väteatomer. Som illustreras av exemplen i Fig. 2, Det är inte alltid möjligt att bestämma kärnförälderstrukturen för en förening från dess laddade kemiska formel. Detta beror på att laddningen snarare än till följd av tillsats eller subtraktion av protoner kan vara inneboende för föreningens kovalenta struktur. Således kan storskalig beräkningsbehandling och kurering av databasen leda till inkonsekventa eller tvetydiga resultat vid identifiering av föreningarnas atomkompositioner. Detta problem kan åtgärdas genom att använda standard InChI strängar. Formelskiktet av standard InChI-strängar tillhandahåller sammansättningen av kärnföräldern till en förening, och nettoladdningen (”/q”) och protonation (”/p”) lager av InChI-strängar representerar föreningsavgifter. Denna separation av laddningar från formler underlättar extraktion av det exakta antalet atomer i en förenings strukturfil eller kemisk formel, samt indikerar de typer av laddningar som är associerade med föreningen. Vi har tagit fram en komplett lista över PubChem Cid med laddade kemiska formler, tillsammans med deras motsvarande ALATIS formler i Hill format som extraheras från standard InChI strängar. Dessa uppgifter finns tillgängliga på ALATIS webbplats.

Figur 2: Exempel på PubChem-poster med laddade kemiska formler.
figure2

(a) PubChem CID 91929631. Den arkiverade kemiska formeln för denna post i PubChem är C15H17N4O3S+. Denna formel indikerar 17 väteatomer i den positivt laddade föreningen. Emellertid innehåller kärnförälderstrukturen för denna förening endast 16 väteatomer; det ytterligare väte är resultatet av protonation av föreningen i dess laddade form. ALATIS-formeln för denna förening ”C15H16N4O3S” visar den korrekta atomkompositionen med 16 väteatomer, och det ytterligare väte indikeras i motsvarande InChI-sträng (skikt ”/p”) ”InChI = 1 S / C15H16N4O3S / c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H, 10h2, (H3,16,17)(H,19, 20)/p + 1” . B) PubChem CID 91124997. Den kemiska formeln för denna förening i PubChem är (C15H16N+). I detta fall uppstår den positiva laddningen från det kvartära kvävet, och den korrekta sammansättningen av föreningen innehåller 16 väteatomer, som matchar formeln i PubChem. ALATIS-formeln för denna förening visar 16 väteatomer (C15H16N), och laddningen representeras av skikt (”/q”) i motsvarande standard InChI-sträng ”InChI = 1 S/C15H16N / c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H, 10h2, 1-2h3/q + 1/t12-/m0/s1” .

inkonsekvens mellan de arkiverade 3D-strukturerna och InChI-strängarna

vi jämförde de deponerade PubChem InChI-strängarna med de som genererades av ALATIS (ALATIS använder InChI-program V.1.04). Standard InChI strängar representerar unika sammansatta identifierare som kan användas för korsreferenser poster från olika databaser5. Dessa strängar består av flera lager av information, inklusive sammansatta formler, kovalent anslutning mellan tunga atomer, antalet väteatomer associerade med tunga Atomer, ett skikt för att representera kiralitet, och andra skikt associerade med isotopiskt märkta atomer och sammansatta laddningar9. Vi använde ALATIS för att bearbeta 3D-strukturfilerna som deponeras i PubChem och flaggade poster för vilka motsvarande deponerade InChI-strängar misslyckades med att matcha de som rapporterats av ALATIS. Tabell 1 visar olika kategorier av dessa flaggade PubChem-poster. I denna tabell rapporterar kategorin ” Atomanslutning ”antalet poster flaggade på grund av avvikelser i (a) kovalent anslutning mellan tunga atomer (rapporterade i” /c ” – lager av InChI-strängar) eller (b) antalet tilldelade väteatomer till de tunga atomerna (”/h ” – lager av InChI-strängar). Kategorin ”laddning” rapporterar antalet flaggade poster som representerar olika (de)protonation (”/p” – lager av InChI) eller inneboende kovalenta laddningar (”/q” – lager). Kategorin ”stereokemi” visar antalet poster som har flaggats på grund av avvikelser i deras (a) ”/b” – lager av InChI-strängar som rapporterar sp2-dubbelbindningsstereokemi av föreningarna, eller (b) InChI ”/t” – lager som rapporterar orienteringar av kirala centra. Vi noterar att en förening kan flaggas och rapporteras i flera kategorier. Sammantaget flaggade våra analyser 32 036 565 poster (cirka 33% av PubChem-posterna med 3D-strukturer) som en skillnad mellan dess arkiverade InChI-sträng och den som genererades från motsvarande 3D-struktur av ALATIS. Felaktig representation av stereokemi var den vanligaste orsaken till avvikelse, följt av laddning och atomanslutning (Tabell 1). Fullständiga listor över dessa flaggade poster rapporteras på vår hemsida .

Tabell 1 kategorier och antal flaggade PubChem-poster.

vi ger nedan exempel från de tre kategorierna av flaggade inkonsekvenser.

(A) inkonsekvens i atomanslutning

som nämnts ovan representerar skikten ”/c” och ”/ h” i standard InChI-strängen anslutningen av tunga atomer respektive antalet associerade väteatomer till de tunga atomerna. PubChem-posten som visas i Fig. 3 illustrerar ett fall där 3D-strukturfilen och de deponerade InChI-strängarna representerar distinkta kovalenta bindningar mellan tunga atomer. Korrekt identifiering av 3D-struktur är avgörande för funktionella undersökningar av föreningar, och denna kategori av inkonsekvens kan leda till felaktiga slutsatser.

Figur 3: inkonsekvens i det tunga atomanslutningsskiktet.
figure3

ALATIS genererade standard InChI-strängar för 3D-strukturer i PubChem, och genom att jämföra dessa InChI-strängar med de deponerade InChI-strängarna i databasen identifierade vi föreningar vars anslutningslager inte matchade. Denna figur visar ett exempel på en sådan skillnad för PubChem CID 12300268. (a) Representation av den deponerade 3D-strukturen för posten. (b) Representation från den deponerade InChI-strängen. Vi noterar att de kovalenta bindningarna skiljer sig mellan de två strukturerna. Standard InChI-strängen i den arkiverade 3D-strukturen: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H,9-16H2 och den deponerade InChI-strängen: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 timmar, 9-16H2. Bold-font InChI-skikten indikerar skillnaderna mellan anslutningen av tunga atomer i de två InChI-strängarna.

(b) inkonsekvens i laddningsfördelning

som nämnts ovan representeras distinkta laddningar på grund av (de)protonation eller inneboende kovalenta laddningar av föreningar i” /p ”och” /q ” – skikten av InChI-strängar. De flaggade PubChem-posterna i denna kategori är sådana där den arkiverade 3D-strukturen och InChI-strängarna representerar olika laddningstillstånd. Figur 4 visar ett exempel från denna kategori.

Figur 4: inkonsekvens i laddning.
figure4

(a) Representation av 3D-strukturfilen arkiverad för PubChem CID 2179800. (B) strukturell representation av InChI-strängen lagrad för den föreningen: ”InChI = 1 S / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H / p-1”. Standard InChI-strängen för strukturen i (A) strukturfil rapporterad av ALATIS är ”InChI = 1 S / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H / q-1”.

(c) inkonsekvens i stereokemi

(c.1) inkonsekvens i dubbelbindning sp2 stereokemi

orienteringen av strukturen hos en förening om en dubbelbindning, oavsett om konfigurationen är cis eller trans, fångas exakt i standard InChI-strängar. Dessa orienteringar, som endast kan identifieras i 3D-strukturer, anges i ”/b” – skiktet av InChI-strängar. PubChem-föreningen som visas i Figur 5 visar ett exempel på en skillnad mellan konfigurationen av den arkiverade 3D-strukturen och dess associerade InChI-sträng. I det här exemplet innehåller InChI-strängen av PubChem-posten (CID 1551886) ett frågetecken i sitt ”/b” – lager, vilket indikerar att konfigurationen av föreningen är tvetydig. Den arkiverade 3D-strukturen representerar emellertid trans-konfigurationen av föreningen.

Figur 5: inkonsekvens i cis – och trans – konfiguration.
figure5

Representation av 3D-strukturen arkiverad för PubChem-posten CID 1551886, som visar en definierad stereokemi om dubbelbindningen mellan C8 och N18. InChI-strängen arkiverad för denna post ” InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H / p-2 / b15-7 -, 18-8?”betecknar en tvetydig orientering kring dubbelbindningen mellan C8 och N18. Som ett resultat misslyckades InChI-strängen som genererades från strukturen av ALATIS att matcha den arkiverade InChI-strängen.

(c.2) inkonsekvens i stereokemi hos kirala centra

stereokemi (kiralitet) hos små molekyler spelar en viktig roll för att bestämma deras funktion. Bland de mer än 91 miljoner PubChem-poster med 3D-strukturer indikerade våra beräkningar med ALATIS att mer än 55% av posterna (50 508 180 poster) innehöll minst ett chiralt centrum. Cirka 60% av dessa poster (30 236 352 poster) flaggades under vår analys på grund av inkonsekvenser mellan stereokemiskiktet i de deponerade InChI-strängarna i PubChem och de som genererades av ALATIS från strukturerna. Den fullständiga listan över dessa poster är tillgänglig från ALATIS webbplats. Figur 6 visar ett exempel från dessa flaggade poster.

Figur 6: inkonsekvens i sammansatt chiralitet.
figure6

exempel från PubChem CID 130156427. (a) deponerad 3D-struktur av föreningen. (b) struktur som genereras från den deponerade InChI strängen. Den vågiga bindningen i (b) indikerar en tvetydig bindningschiralitet. Detta beror på att den arkiverade InChI-strängen för denna förening ”InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15h2, 1-4h3, (H,26,29)(H,27, 30)” saknar det nödvändiga stereokemiskiktet (”/t”). Detta InChI-Lager Finns i standard InChI-strängen rapporterad av ALATIS: ”InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”