Articles

automatiseret evaluering af konsistens i PubChem Compound database

Vi hentede to sæt arkiverede PubChem structure-filer den tyvende December 2017: (i) det “nuværende fulde” datasæt bestående af 94.201.188 poster med deres tilsvarende todimensionale (2D) strukturer gemt i SDF12-format, og (ii) datasættet “Compound_3D” bestående af 91.699.620 poster med deres tilsvarende tredimensionelle (3D) strukturer gemt i SDF-format. Datasættet ” Current-Full “var nødvendigt, fordi det indeholder metadata, der ikke er tilgængelige i” Compound_3D ” – filerne. Mere end 2,5 millioner poster i PubChem havde ikke en 3D-strukturfil. Interessant nok havde alle forbindelser med mere end 152 atomer ikke 3D-strukturer (Fig. 1).

Figur 1: histogrammer, der viser antallet af atomer og masser af poster i PubChem.
figur1

histogrammernes h-akse (A) og (b) repræsenterer antallet af atomer i en forbindelse, og y-aksen angiver antallet af forbindelser med det tilsvarende antal atomer. (a) Histogram af masser for forbindelser med færre end 152 atomer: dem for “nuværende fulde” poster (2D-strukturer) er vist i blåt, og dem for “Compound_3D” – posterne er vist i grønt. 152-atom cutoff blev valgt ud fra det maksimale antal atomer i forbindelser i datasættet “Compound_3D”. (B) tæller for forbindelser med >152 atomer. PubChem indeholder ingen 3D struktur oplysninger for disse forbindelser. (C) Histogram af masser af forbindelser som rapporteret i SDF-filer af PubChem “Current-Full” poster. De fleste af forbindelserne i databasen havde masser mindre end 1.000 Da; imidlertid havde 11.550 forbindelser masse højere end 2.000 Da (ikke vist i (c)) – for eksempel rapporterede PubChem CID 23393956 den nøjagtige masse på 59.745, 256 da.

for at undersøge rigtigheden af atomkiralitet behandlede vi Compound_3D datasættet med ALATIS-programmet. Dette trin genererede unikke identifikatorer for mere end 91 millioner forbindelser og deres bestanddele (data Citation 1). Udgangen for hver post bestod af: (i) strukturfiler i SDF -, PDB-og FB-formater, der indeholder ALATIS-baserede identifikatorer (etiketter) for alle atomer, (ii) et kort, der forbinder inputatometiketterne med de unikke atometiketter, (iii) en fil, der indeholder en standard InChI-streng som den unikke sammensatte identifikator (kaldet ‘inchi.inchi’), (iv) to tekstfiler med navnet ‘advarsler.tekst ‘ og ‘ fejl.der indeholder advarsler eller fejl relateret til ALATIS-analysen af en bestemt forbindelse, og (v) en kommasepareret værdifil (CSV) med navnet ‘meta_data.csv’, der indeholder de metadata, der er knyttet til denne post. Metadatafilen indeholder, ud over PubChem compound identifier (CID), molekylformel, vægt og nøjagtig masse som rapporteret af PubChem, den tilsvarende standard InChI-streng som genereret af ALATIS. For at lette side-by-side sammenligning af resultater, herunder sammenligning af input 3D strukturer og ALATIS output strukturer kommenteret med unikke atom identifikatorer, har vi genereret en hjemmeside for hver forbindelse, som omfatter Hent links til alle data. Vi brugte programmet Jmol til at oprette skærme af 3D-strukturer. De unikke forbindelse og atom identifikatorer, sammen med oplysninger i forbindelse med PubChem poster, kan tilgås via ALATIS hjemmeside . Brugere kan forespørge søgemaskinen på denne hjemmeside med en PubChem CID eller et sammensat navn for at hente den tilsvarende ALATIS output.

Vi brugte de ALATIS-kuraterede data til at analysere konsistensen af de data, der er gemt for hver post i PubChem. Bemærk, at synonymerne og metadataene arkiveres separat fra 3D-strukturfilerne: synonymer er placeret på, og at metadataene gemmes som en del af SDF-filer arkiveret i “Current-Full” datasæt . Synonymerne blev brugt til at oprette en brugervenlig søgemaskine på ALATIS-serveren. Metadataene var nødvendige for den efterfølgende konsistensanalyse. Vi fremhæver nedenfor de to vigtigste resultater af vores undersøgelse.

uoverensstemmelse mellem de arkiverede 3D-strukturer og formler

den kemiske formel for en forbindelse arkiveret i PubChem følger normalt Hill convention13 og repræsenterer kernens overordnede struktur9. PubChem-arkivet indeholder dog 1.239.752 ladede kemiske formler, hvor ladninger betegnes med et symbol i slutningen af den kemiske formel. Kerneforældrestrukturen for en forbindelse angiver sammensætningen af forbindelsen, inden der pålægges nogen ladninger gennem tilsætning eller subtraktion af hydrogenatomer. Som illustreret af eksemplerne i Fig. 2, er det ikke altid muligt at bestemme kerneforældrestrukturen for en forbindelse ud fra dens ladede kemiske formel. Dette skyldes, at ladningen snarere end at være resultatet af tilsætning eller subtraktion af protoner kunne være iboende for forbindelsens kovalente struktur. Således kan storskala beregningsbehandling og kuration af databasen føre til inkonsekvente eller tvetydige resultater til identifikation af atomsammensætningerne af forbindelserne. Dette problem kan løses ved at bruge standard InChI-strenge. Formellaget af standard InChI-strenge tilvejebringer sammensætningen af kerneforælderen til en forbindelse, og netladningen (“/k”) og protonationen (“/p”) lag af InChI-strenge repræsenterer forbindelsesladninger. Denne adskillelse af ladninger fra formler Letter ekstraktion af det nøjagtige antal atomer i en forbindelses strukturfil eller kemiske formel samt angivelse af de typer ladninger, der er forbundet med forbindelsen. Vi har produceret en komplet liste over PubChem Cid ‘ er med ladede kemiske formler sammen med deres tilsvarende ALATIS-formler i Hill-format som ekstraheret fra standard InChI-strenge. Disse data er tilgængelige på ALATIS hjemmeside.

figur 2: Eksempler på PubChem-poster med ladede kemiske formler.
figur2

(a) PubChem CID 91929631. Den arkiverede kemiske formel for denne post i PubChem er C15H17N4O3S+. Denne formel angiver 17 hydrogenatomer i den positivt ladede forbindelse. Imidlertid indeholder kerneforælderstrukturen af denne forbindelse kun 16 hydrogenatomer; det yderligere hydrogen skyldes protonation af forbindelsen i dens ladede form. ALATIS-formlen for denne forbindelse “C15H16N4O3S” viser den korrekte atomsammensætning med 16 hydrogenatomer, og det yderligere hydrogen er angivet i den tilsvarende InChI-streng (lag “/p”) “InChI = 1 S / C15H16N4O3S / c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H,10h2, (H3,16,17) (H, 19, 20)/p + 1” . B) PubChem CID 91124997. Den kemiske formel for denne forbindelse i PubChem er (C15H16N+). I dette tilfælde opstår den positive ladning fra det kvaternære nitrogen, og den korrekte sammensætning af forbindelsen indeholder 16 hydrogenatomer, som svarer til formlen i PubChem. ALATIS-formlen for denne forbindelse viser 16 hydrogenatomer (C15H16N), og ladningen er repræsenteret af lag (“/k”) i den tilsvarende standard InChI-streng “InChI = 1 S / C15H16N / c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H, 10h2, 1-2H3/K + 1/t12-/m0/s1” .

uoverensstemmelse mellem de arkiverede 3D-strukturer og InChI-strenge

Vi sammenlignede de deponerede PubChem InChI-strenge med dem, der blev genereret af ALATIS (ALATIS bruger InChI-programmet v. 1.04 ). Standard InChI-strenge repræsenterer unikke sammensatte identifikatorer, der kan bruges til krydshenvisninger fra forskellige databaser5. Disse strenge består af flere lag information, herunder sammensatte formler, kovalent forbindelse mellem tunge atomer, antallet af hydrogenatomer forbundet med tunge atomer, et lag til at repræsentere chiralitet og andre lag forbundet med isotopisk mærkede atomer og sammensatte ladninger9. Vi brugte ALATIS til at behandle de 3d-strukturfiler, der blev deponeret i PubChem, og markerede poster, for hvilke de tilsvarende deponerede InChI-strenge ikke matchede dem, der blev rapporteret af ALATIS. Tabel 1 viser forskellige kategorier af disse markerede PubChem-poster. I denne tabel rapporterer kategorien ‘Atomforbindelse’ antallet af poster markeret på grund af uoverensstemmelser i (a) kovalent forbindelse mellem tunge atomer (rapporteret i “/c” lag af InChI-strenge) eller (b) antallet af tildelte hydrogenatomer til de tunge atomer (“/h” lag af InChI-strenge). Kategorien “afgift” rapporterer antallet af markerede poster, der repræsenterer forskellige (de)protonation (“/p” lag af InChI) eller iboende kovalente ladninger (“/k” lag). Kategorien ‘stereokemi’ viser antallet af poster, der er markeret på grund af uoverensstemmelser i deres (A) “/b” lag af InChI-strenge, der rapporterer SP2-dobbeltbindingsstereokemi af forbindelserne, eller (b) InChI “/t” – lag, der rapporterer orienteringer af chirale centre. Vi bemærker, at en forbindelse kunne markeres og rapporteres i flere kategorier. Samlet set markerede vores analyser 32.036.565 poster (ca.33% af PubChem-posterne med 3D-strukturer) som en uoverensstemmelse mellem dens arkiverede InChI-streng og den, der blev genereret fra den tilsvarende 3D-struktur af ALATIS. Forkert repræsentation af stereokemi var den mest almindelige årsag til uoverensstemmelse efterfulgt af opladning og atomforbindelse (tabel 1). Komplette lister over disse markerede poster rapporteres på vores hjemmeside .

tabel 1 kategorier og antal markerede PubChem-poster.

Vi giver nedenstående eksempler fra de tre kategorier af markerede uoverensstemmelser.

(A) inkonsekvens i atomforbindelse

som nævnt ovenfor repræsenterer lagene “/c” og “/ h” i standard InChI-strengen forbindelsen mellem tunge atomer og antallet af associerede hydrogenatomer til henholdsvis de tunge atomer. PubChem-posten vist i Fig. 3 illustrerer et tilfælde, hvor 3D-strukturfilen og de deponerede InChI-strenge repræsenterer forskellige kovalente bindinger mellem tunge atomer. Korrekt identifikation af 3D-struktur er afgørende i funktionelle undersøgelser af forbindelser, og denne kategori af inkonsekvens kan føre til fejlagtige konklusioner.

figur 3: inkonsekvens i det tunge atomforbindelseslag.
figur3

ALATIS genererede standard InChI-strenge til 3D-strukturer i PubChem, og ved at sammenligne disse InChI-strenge med de deponerede InChI-strenge i databasen identificerede vi forbindelser, hvis forbindelseslag ikke matchede. Dette tal viser et eksempel på en sådan uoverensstemmelse for PubChem CID 12300268. a) repræsentation af den deponerede 3D-struktur for indgangen. (B) repræsentation fra den deponerede InChI-streng. Vi bemærker, at de kovalente bindinger er forskellige mellem de to strukturer. Standard InChI-strengen i den arkiverede 3D-struktur: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H, 9-16H2, og den deponerede InChI-streng: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 timer, 9-16h2. InChI-lagene med fed skrift angiver uoverensstemmelserne mellem forbindelsen mellem tunge atomer i de to InChI-strenge.

(b) inkonsekvens i ladningsfordeling

som nævnt ovenfor er forskellige ladninger på grund af (de)protonation eller iboende kovalente ladninger af forbindelser repræsenteret i “/p” og “/K” lagene af InChI-strenge. De markerede PubChem-poster i denne kategori er dem, hvor den arkiverede 3D-struktur og InChI-strenge repræsenterer forskellige opladningstilstande. Figur 4 viser et eksempel fra denne kategori.

figur 4: inkonsekvens i afgift.
figure4

(a) repræsentation af 3D-strukturfilen arkiveret til PubChem CID 2179800. (B) strukturel repræsentation af InChI-strengen, der er lagret for den pågældende forbindelse:” InChI = 1 S / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H / p-1″. Standard InChI-strengen for strukturen i (A) strukturfil rapporteret af ALATIS er “InChI = 1 S / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H / K-1”.

(c) inkonsekvens i stereokemi

(c.1) inkonsekvens i dobbeltbinding sp2 stereokemi

orienteringen af strukturen af en forbindelse om en dobbeltbinding, uanset om konfigurationen er cis eller trans, fanges nøjagtigt i standard InChI-strenge. Disse orienteringer, som kun kan identificeres i 3D-strukturer, er angivet i “/b” – laget af InChI-strenge. PubChem-forbindelsen vist i figur 5 viser et eksempel på en uoverensstemmelse mellem konfigurationen af den arkiverede 3D-struktur og dens tilknyttede InChI-streng. I dette eksempel indeholder InChI-strengen af PubChem-post (CID 1551886) et spørgsmålstegn i dets “/b” – lag, hvilket indikerer, at konfigurationen af forbindelsen er tvetydig. Den arkiverede 3D-struktur repræsenterer imidlertid trans-konfigurationen af forbindelsen.

figur 5: inkonsekvens i cis – og trans – konfiguration.
figur5

repræsentation af 3D-strukturen arkiveret til PubChem-posten CID 1551886, som viser en defineret stereokemi om dobbeltbindingen mellem C8 og N18. InChI-strengen arkiveret til denne post ” InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H / p-2 / b15-7-,18-8?”betegner en tvetydig orientering omkring dobbeltbindingen mellem C8 og N18. Som et resultat kunne InChI-strengen genereret fra strukturen af ALATIS ikke matche den arkiverede InChI-streng.

(c.2) inkonsekvens i stereokemi af chiral Centre

stereokemi (chiralitet) af små molekyler spiller en afgørende rolle i bestemmelsen af deres funktion. Blandt de mere end 91 millioner PubChem-poster med 3D-strukturer viste vores beregninger ved hjælp af ALATIS, at mere end 55% af posterne (50.508.180 poster) indeholdt mindst et chiral center. Cirka 60% af disse poster (30.236.352 poster) blev markeret under vores Analyse på grund af uoverensstemmelser mellem stereokemi-laget af de deponerede InChI-strenge i PubChem og dem, der blev genereret af ALATIS fra strukturerne. Den komplette liste over disse poster er tilgængelig fra ALATIS hjemmeside. Figur 6 viser et eksempel fra disse markerede poster.

figur 6: inkonsekvens i sammensat chiralitet.
figur6

eksempel fra PubChem CID 130156427. (- en) deponeret 3D struktur af forbindelsen. (B) Struktur genereret fra den deponerede InChI-streng. Den bølgede binding i (b) indikerer en tvetydig bindingschiralitet. Dette skyldes, at den arkiverede InChI-streng for denne forbindelse ” InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15h2,1-4H3, (H,26, 29) (H, 27, 30)” mangler det nødvendige stereokemilag (“/t”). Dette InChI-lag kan findes i standard InChI-strengen rapporteret af ALATIS: “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”