automatiseret evaluering af konsistens i PubChem Compound database
Vi hentede to sæt arkiverede PubChem structure-filer den tyvende December 2017: (i) det “nuværende fulde” datasæt bestående af 94.201.188 poster med deres tilsvarende todimensionale (2D) strukturer gemt i SDF12-format, og (ii) datasættet “Compound_3D” bestående af 91.699.620 poster med deres tilsvarende tredimensionelle (3D) strukturer gemt i SDF-format. Datasættet ” Current-Full “var nødvendigt, fordi det indeholder metadata, der ikke er tilgængelige i” Compound_3D ” – filerne. Mere end 2,5 millioner poster i PubChem havde ikke en 3D-strukturfil. Interessant nok havde alle forbindelser med mere end 152 atomer ikke 3D-strukturer (Fig. 1).
for at undersøge rigtigheden af atomkiralitet behandlede vi Compound_3D datasættet med ALATIS-programmet. Dette trin genererede unikke identifikatorer for mere end 91 millioner forbindelser og deres bestanddele (data Citation 1). Udgangen for hver post bestod af: (i) strukturfiler i SDF -, PDB-og FB-formater, der indeholder ALATIS-baserede identifikatorer (etiketter) for alle atomer, (ii) et kort, der forbinder inputatometiketterne med de unikke atometiketter, (iii) en fil, der indeholder en standard InChI-streng som den unikke sammensatte identifikator (kaldet ‘inchi.inchi’), (iv) to tekstfiler med navnet ‘advarsler.tekst ‘ og ‘ fejl.der indeholder advarsler eller fejl relateret til ALATIS-analysen af en bestemt forbindelse, og (v) en kommasepareret værdifil (CSV) med navnet ‘meta_data.csv’, der indeholder de metadata, der er knyttet til denne post. Metadatafilen indeholder, ud over PubChem compound identifier (CID), molekylformel, vægt og nøjagtig masse som rapporteret af PubChem, den tilsvarende standard InChI-streng som genereret af ALATIS. For at lette side-by-side sammenligning af resultater, herunder sammenligning af input 3D strukturer og ALATIS output strukturer kommenteret med unikke atom identifikatorer, har vi genereret en hjemmeside for hver forbindelse, som omfatter Hent links til alle data. Vi brugte programmet Jmol til at oprette skærme af 3D-strukturer. De unikke forbindelse og atom identifikatorer, sammen med oplysninger i forbindelse med PubChem poster, kan tilgås via ALATIS hjemmeside . Brugere kan forespørge søgemaskinen på denne hjemmeside med en PubChem CID eller et sammensat navn for at hente den tilsvarende ALATIS output.
Vi brugte de ALATIS-kuraterede data til at analysere konsistensen af de data, der er gemt for hver post i PubChem. Bemærk, at synonymerne og metadataene arkiveres separat fra 3D-strukturfilerne: synonymer er placeret på, og at metadataene gemmes som en del af SDF-filer arkiveret i “Current-Full” datasæt . Synonymerne blev brugt til at oprette en brugervenlig søgemaskine på ALATIS-serveren. Metadataene var nødvendige for den efterfølgende konsistensanalyse. Vi fremhæver nedenfor de to vigtigste resultater af vores undersøgelse.
- uoverensstemmelse mellem de arkiverede 3D-strukturer og formler
- uoverensstemmelse mellem de arkiverede 3D-strukturer og InChI-strenge
- (A) inkonsekvens i atomforbindelse
- (b) inkonsekvens i ladningsfordeling
- (c) inkonsekvens i stereokemi
- (c.1) inkonsekvens i dobbeltbinding sp2 stereokemi
- (c.2) inkonsekvens i stereokemi af chiral Centre
uoverensstemmelse mellem de arkiverede 3D-strukturer og formler
den kemiske formel for en forbindelse arkiveret i PubChem følger normalt Hill convention13 og repræsenterer kernens overordnede struktur9. PubChem-arkivet indeholder dog 1.239.752 ladede kemiske formler, hvor ladninger betegnes med et symbol i slutningen af den kemiske formel. Kerneforældrestrukturen for en forbindelse angiver sammensætningen af forbindelsen, inden der pålægges nogen ladninger gennem tilsætning eller subtraktion af hydrogenatomer. Som illustreret af eksemplerne i Fig. 2, er det ikke altid muligt at bestemme kerneforældrestrukturen for en forbindelse ud fra dens ladede kemiske formel. Dette skyldes, at ladningen snarere end at være resultatet af tilsætning eller subtraktion af protoner kunne være iboende for forbindelsens kovalente struktur. Således kan storskala beregningsbehandling og kuration af databasen føre til inkonsekvente eller tvetydige resultater til identifikation af atomsammensætningerne af forbindelserne. Dette problem kan løses ved at bruge standard InChI-strenge. Formellaget af standard InChI-strenge tilvejebringer sammensætningen af kerneforælderen til en forbindelse, og netladningen (“/k”) og protonationen (“/p”) lag af InChI-strenge repræsenterer forbindelsesladninger. Denne adskillelse af ladninger fra formler Letter ekstraktion af det nøjagtige antal atomer i en forbindelses strukturfil eller kemiske formel samt angivelse af de typer ladninger, der er forbundet med forbindelsen. Vi har produceret en komplet liste over PubChem Cid ‘ er med ladede kemiske formler sammen med deres tilsvarende ALATIS-formler i Hill-format som ekstraheret fra standard InChI-strenge. Disse data er tilgængelige på ALATIS hjemmeside.
uoverensstemmelse mellem de arkiverede 3D-strukturer og InChI-strenge
Vi sammenlignede de deponerede PubChem InChI-strenge med dem, der blev genereret af ALATIS (ALATIS bruger InChI-programmet v. 1.04 ). Standard InChI-strenge repræsenterer unikke sammensatte identifikatorer, der kan bruges til krydshenvisninger fra forskellige databaser5. Disse strenge består af flere lag information, herunder sammensatte formler, kovalent forbindelse mellem tunge atomer, antallet af hydrogenatomer forbundet med tunge atomer, et lag til at repræsentere chiralitet og andre lag forbundet med isotopisk mærkede atomer og sammensatte ladninger9. Vi brugte ALATIS til at behandle de 3d-strukturfiler, der blev deponeret i PubChem, og markerede poster, for hvilke de tilsvarende deponerede InChI-strenge ikke matchede dem, der blev rapporteret af ALATIS. Tabel 1 viser forskellige kategorier af disse markerede PubChem-poster. I denne tabel rapporterer kategorien ‘Atomforbindelse’ antallet af poster markeret på grund af uoverensstemmelser i (a) kovalent forbindelse mellem tunge atomer (rapporteret i “/c” lag af InChI-strenge) eller (b) antallet af tildelte hydrogenatomer til de tunge atomer (“/h” lag af InChI-strenge). Kategorien “afgift” rapporterer antallet af markerede poster, der repræsenterer forskellige (de)protonation (“/p” lag af InChI) eller iboende kovalente ladninger (“/k” lag). Kategorien ‘stereokemi’ viser antallet af poster, der er markeret på grund af uoverensstemmelser i deres (A) “/b” lag af InChI-strenge, der rapporterer SP2-dobbeltbindingsstereokemi af forbindelserne, eller (b) InChI “/t” – lag, der rapporterer orienteringer af chirale centre. Vi bemærker, at en forbindelse kunne markeres og rapporteres i flere kategorier. Samlet set markerede vores analyser 32.036.565 poster (ca.33% af PubChem-posterne med 3D-strukturer) som en uoverensstemmelse mellem dens arkiverede InChI-streng og den, der blev genereret fra den tilsvarende 3D-struktur af ALATIS. Forkert repræsentation af stereokemi var den mest almindelige årsag til uoverensstemmelse efterfulgt af opladning og atomforbindelse (tabel 1). Komplette lister over disse markerede poster rapporteres på vores hjemmeside .
Vi giver nedenstående eksempler fra de tre kategorier af markerede uoverensstemmelser.
(A) inkonsekvens i atomforbindelse
som nævnt ovenfor repræsenterer lagene “/c” og “/ h” i standard InChI-strengen forbindelsen mellem tunge atomer og antallet af associerede hydrogenatomer til henholdsvis de tunge atomer. PubChem-posten vist i Fig. 3 illustrerer et tilfælde, hvor 3D-strukturfilen og de deponerede InChI-strenge repræsenterer forskellige kovalente bindinger mellem tunge atomer. Korrekt identifikation af 3D-struktur er afgørende i funktionelle undersøgelser af forbindelser, og denne kategori af inkonsekvens kan føre til fejlagtige konklusioner.
(b) inkonsekvens i ladningsfordeling
som nævnt ovenfor er forskellige ladninger på grund af (de)protonation eller iboende kovalente ladninger af forbindelser repræsenteret i “/p” og “/K” lagene af InChI-strenge. De markerede PubChem-poster i denne kategori er dem, hvor den arkiverede 3D-struktur og InChI-strenge repræsenterer forskellige opladningstilstande. Figur 4 viser et eksempel fra denne kategori.
(c) inkonsekvens i stereokemi
(c.1) inkonsekvens i dobbeltbinding sp2 stereokemi
orienteringen af strukturen af en forbindelse om en dobbeltbinding, uanset om konfigurationen er cis eller trans, fanges nøjagtigt i standard InChI-strenge. Disse orienteringer, som kun kan identificeres i 3D-strukturer, er angivet i “/b” – laget af InChI-strenge. PubChem-forbindelsen vist i figur 5 viser et eksempel på en uoverensstemmelse mellem konfigurationen af den arkiverede 3D-struktur og dens tilknyttede InChI-streng. I dette eksempel indeholder InChI-strengen af PubChem-post (CID 1551886) et spørgsmålstegn i dets “/b” – lag, hvilket indikerer, at konfigurationen af forbindelsen er tvetydig. Den arkiverede 3D-struktur repræsenterer imidlertid trans-konfigurationen af forbindelsen.
(c.2) inkonsekvens i stereokemi af chiral Centre
stereokemi (chiralitet) af små molekyler spiller en afgørende rolle i bestemmelsen af deres funktion. Blandt de mere end 91 millioner PubChem-poster med 3D-strukturer viste vores beregninger ved hjælp af ALATIS, at mere end 55% af posterne (50.508.180 poster) indeholdt mindst et chiral center. Cirka 60% af disse poster (30.236.352 poster) blev markeret under vores Analyse på grund af uoverensstemmelser mellem stereokemi-laget af de deponerede InChI-strenge i PubChem og dem, der blev genereret af ALATIS fra strukturerne. Den komplette liste over disse poster er tilgængelig fra ALATIS hjemmeside. Figur 6 viser et eksempel fra disse markerede poster.