automatiserad utvärdering av konsistens inom PubChem Compound database
vi laddade ner två uppsättningar arkiverade PubChem-strukturfiler den tjugonde December 2017: (i) ”Current-Full” dataset bestående av 94 201 188 poster med motsvarande tvådimensionella (2D) strukturer lagrade i SDF12-format och (ii) ”Compound_3D” dataset bestående av 91 699 620 poster med motsvarande tredimensionella (3D) strukturer lagrade i SDF-format. ”Current-Full” dataset behövdes eftersom det innehåller metadata som inte är tillgängliga i ”Compound_3D” filer. Mer än 2,5 miljoner poster i PubChem hade inte en 3D-strukturfil. Intressant nog hade alla föreningar med mer än 152 atomer inte 3D-strukturer (Fig. 1).
för att undersöka korrektheten av atomkiralitet behandlade vi Compound_3D-datasetet med ALATIS-programvara. Detta steg genererade unika identifierare för mer än 91 miljoner föreningar och deras beståndsdelar (Datacitation 1). Resultatet för varje post bestod av: (i) strukturera filer i SDF -, PDB-och XYZ-format som innehåller ALATIS-baserade identifierare (etiketter) för alla atomer, (ii) en karta som länkar inmatningsatometiketterna till de unika atometiketterna, (iii) en fil som innehåller en standard InChI-sträng som den unika föreningsidentifieraren (kallad ’inchi.InChI’), (iv)två textfiler med namnet ’ varningar.txt ’ och ’ fel.TXT’, som innehåller varningar eller fel relaterade till ALATIS analys av en viss förening, och (v) en kommaseparerade värden (CSV) fil, med namnet ’meta_data.csv’, som innehåller metadata som är associerade med den posten. Metadatafilen innehåller, förutom PubChem compound identifier (CID), molekylformel, vikt och exakt massa som rapporterats av PubChem, motsvarande standard InChI-sträng som genereras av ALATIS. För att underlätta jämförelse sida vid sida av resultat, inklusive jämförelse av ingångs 3D-strukturer och ALATIS-utgångsstrukturer annoterade med unika atomidentifierare, har vi genererat en webbsida för varje förening, som inkluderar nedladdningslänkar till alla data. Vi använde programvaran Jmol för att skapa skärmar av 3D-strukturerna. De unika förenings-och atomidentifierarna, tillsammans med information som är associerad med PubChem-poster, kan nås via ALATIS webbplats . Användare kan fråga sökmotorn på denna webbplats med ett PubChem CID eller ett sammansatt namn för att hämta motsvarande ALATIS-utgång.
vi använde ALATIS-curated data för att analysera konsistensen av de data som lagras för varje post i PubChem. Observera att synonymer och metadata arkiveras separat från 3d-strukturfilerna: synonymer finns på och att metadata lagras som en del av SDF-filer som arkiveras i ”Current-Full” dataset . Synonymerna användes för att skapa en användarvänlig sökmotor på ALATIS webbserver. Metadata behövdes för den efterföljande konsekvensanalysen. Vi lyfter fram de två stora resultaten av vår studie.
- inkonsekvens mellan de arkiverade 3D-strukturerna och formlerna
- inkonsekvens mellan de arkiverade 3D-strukturerna och InChI-strängarna
- (A) inkonsekvens i atomanslutning
- (b) inkonsekvens i laddningsfördelning
- (c) inkonsekvens i stereokemi
- (c.1) inkonsekvens i dubbelbindning sp2 stereokemi
- (c.2) inkonsekvens i stereokemi hos kirala centra
inkonsekvens mellan de arkiverade 3D-strukturerna och formlerna
den kemiska formeln för en förening som arkiveras i PubChem följer normalt Hill-konventionen13 och representerar föreningens kärnförälderstruktur9. PubChem-arkivet innehåller emellertid 1 239 752 laddade kemiska formler, där laddningar betecknas med en symbol i slutet av den kemiska formeln. Kärnans moderstruktur för en förening indikerar sammansättningen av föreningen innan några laddningar införs genom tillsats eller subtraktion av väteatomer. Som illustreras av exemplen i Fig. 2, Det är inte alltid möjligt att bestämma kärnförälderstrukturen för en förening från dess laddade kemiska formel. Detta beror på att laddningen snarare än till följd av tillsats eller subtraktion av protoner kan vara inneboende för föreningens kovalenta struktur. Således kan storskalig beräkningsbehandling och kurering av databasen leda till inkonsekventa eller tvetydiga resultat vid identifiering av föreningarnas atomkompositioner. Detta problem kan åtgärdas genom att använda standard InChI strängar. Formelskiktet av standard InChI-strängar tillhandahåller sammansättningen av kärnföräldern till en förening, och nettoladdningen (”/q”) och protonation (”/p”) lager av InChI-strängar representerar föreningsavgifter. Denna separation av laddningar från formler underlättar extraktion av det exakta antalet atomer i en förenings strukturfil eller kemisk formel, samt indikerar de typer av laddningar som är associerade med föreningen. Vi har tagit fram en komplett lista över PubChem Cid med laddade kemiska formler, tillsammans med deras motsvarande ALATIS formler i Hill format som extraheras från standard InChI strängar. Dessa uppgifter finns tillgängliga på ALATIS webbplats.
inkonsekvens mellan de arkiverade 3D-strukturerna och InChI-strängarna
vi jämförde de deponerade PubChem InChI-strängarna med de som genererades av ALATIS (ALATIS använder InChI-program V.1.04). Standard InChI strängar representerar unika sammansatta identifierare som kan användas för korsreferenser poster från olika databaser5. Dessa strängar består av flera lager av information, inklusive sammansatta formler, kovalent anslutning mellan tunga atomer, antalet väteatomer associerade med tunga Atomer, ett skikt för att representera kiralitet, och andra skikt associerade med isotopiskt märkta atomer och sammansatta laddningar9. Vi använde ALATIS för att bearbeta 3D-strukturfilerna som deponeras i PubChem och flaggade poster för vilka motsvarande deponerade InChI-strängar misslyckades med att matcha de som rapporterats av ALATIS. Tabell 1 visar olika kategorier av dessa flaggade PubChem-poster. I denna tabell rapporterar kategorin ” Atomanslutning ”antalet poster flaggade på grund av avvikelser i (a) kovalent anslutning mellan tunga atomer (rapporterade i” /c ” – lager av InChI-strängar) eller (b) antalet tilldelade väteatomer till de tunga atomerna (”/h ” – lager av InChI-strängar). Kategorin ”laddning” rapporterar antalet flaggade poster som representerar olika (de)protonation (”/p” – lager av InChI) eller inneboende kovalenta laddningar (”/q” – lager). Kategorin ”stereokemi” visar antalet poster som har flaggats på grund av avvikelser i deras (a) ”/b” – lager av InChI-strängar som rapporterar sp2-dubbelbindningsstereokemi av föreningarna, eller (b) InChI ”/t” – lager som rapporterar orienteringar av kirala centra. Vi noterar att en förening kan flaggas och rapporteras i flera kategorier. Sammantaget flaggade våra analyser 32 036 565 poster (cirka 33% av PubChem-posterna med 3D-strukturer) som en skillnad mellan dess arkiverade InChI-sträng och den som genererades från motsvarande 3D-struktur av ALATIS. Felaktig representation av stereokemi var den vanligaste orsaken till avvikelse, följt av laddning och atomanslutning (Tabell 1). Fullständiga listor över dessa flaggade poster rapporteras på vår hemsida .
vi ger nedan exempel från de tre kategorierna av flaggade inkonsekvenser.
(A) inkonsekvens i atomanslutning
som nämnts ovan representerar skikten ”/c” och ”/ h” i standard InChI-strängen anslutningen av tunga atomer respektive antalet associerade väteatomer till de tunga atomerna. PubChem-posten som visas i Fig. 3 illustrerar ett fall där 3D-strukturfilen och de deponerade InChI-strängarna representerar distinkta kovalenta bindningar mellan tunga atomer. Korrekt identifiering av 3D-struktur är avgörande för funktionella undersökningar av föreningar, och denna kategori av inkonsekvens kan leda till felaktiga slutsatser.
(b) inkonsekvens i laddningsfördelning
som nämnts ovan representeras distinkta laddningar på grund av (de)protonation eller inneboende kovalenta laddningar av föreningar i” /p ”och” /q ” – skikten av InChI-strängar. De flaggade PubChem-posterna i denna kategori är sådana där den arkiverade 3D-strukturen och InChI-strängarna representerar olika laddningstillstånd. Figur 4 visar ett exempel från denna kategori.
(c) inkonsekvens i stereokemi
(c.1) inkonsekvens i dubbelbindning sp2 stereokemi
orienteringen av strukturen hos en förening om en dubbelbindning, oavsett om konfigurationen är cis eller trans, fångas exakt i standard InChI-strängar. Dessa orienteringar, som endast kan identifieras i 3D-strukturer, anges i ”/b” – skiktet av InChI-strängar. PubChem-föreningen som visas i Figur 5 visar ett exempel på en skillnad mellan konfigurationen av den arkiverade 3D-strukturen och dess associerade InChI-sträng. I det här exemplet innehåller InChI-strängen av PubChem-posten (CID 1551886) ett frågetecken i sitt ”/b” – lager, vilket indikerar att konfigurationen av föreningen är tvetydig. Den arkiverade 3D-strukturen representerar emellertid trans-konfigurationen av föreningen.
(c.2) inkonsekvens i stereokemi hos kirala centra
stereokemi (kiralitet) hos små molekyler spelar en viktig roll för att bestämma deras funktion. Bland de mer än 91 miljoner PubChem-poster med 3D-strukturer indikerade våra beräkningar med ALATIS att mer än 55% av posterna (50 508 180 poster) innehöll minst ett chiralt centrum. Cirka 60% av dessa poster (30 236 352 poster) flaggades under vår analys på grund av inkonsekvenser mellan stereokemiskiktet i de deponerade InChI-strängarna i PubChem och de som genererades av ALATIS från strukturerna. Den fullständiga listan över dessa poster är tillgänglig från ALATIS webbplats. Figur 6 visar ett exempel från dessa flaggade poster.