Articles

Automatisert evaluering av konsistens i PubChem Compound database

vi lastet ned to sett med arkiverte PubChem structure files den tyvende desember 2017: (i) «Current-Full» datasettet bestående av 94,201,188 oppføringer med tilhørende todimensjonale (2D) strukturer lagret I SDF12-format, og (ii) «Compound_3D» datasettet som består av 91 699 620 oppføringer med Tilhørende tredimensjonale (3d) strukturer lagret i Sdf-Format. Datasettet «Current-Full» var nødvendig fordi det inneholder metadata som ikke er tilgjengelige i» Compound_3D » – filene. Mer enn 2,5 millioner oppføringer I PubChem hadde ikke EN 3d-strukturfil. Interessant nok hadde alle forbindelser med mer enn 152 atomer IKKE 3d-strukturer(Fig. 1).

Figur 1: Histogrammer som viser antall atomer og masser av oppføringer I PubChem.
figure1

x-aksen av histogrammer (a) og (b) representerer antall atomer i en forbindelse, og y-aksen indikerer antall forbindelser med tilsvarende antall atomer. (A) Histogram av massene for forbindelser med færre enn 152 atomer: de for «Current-Full» oppføringer (2D strukturer) er vist i blått, og de for «Compound_3D» oppføringer er vist i grønt. 152-atom cutoff ble valgt basert på maksimalt antall atomer i forbindelser i» Compound_3D » datasettet. (B) Teller for forbindelser med > 152 atomer. PubChem inneholder INGEN 3d-strukturinformasjon for disse forbindelsene. (C) Histogram av masser av forbindelser som rapportert I SDF filer Av PubChem «Current-Full» oppføringer. De fleste forbindelsene i databasen hadde masser mindre enn 1,000 Da; imidlertid hadde 11 550 forbindelser masse høyere enn 2,000 Da (ikke vist i (c)) – For Eksempel Rapporterte PubChem CID 23393956 den nøyaktige massen av 59,745. 256 Da.

for å undersøke korrektheten av atomkiralitet behandlet Vi Compound_3D datasettet med alatis-programvare. Dette trinnet genererte unike identifikatorer for mer enn 91 millioner forbindelser og deres bestanddeler (Data Citation 1). Utgangen for hver oppføring besto av: (i) strukturfiler i sdf -, PDB-og XYZ-formater som inneholder ALATIS-baserte identifikatorer (etiketter) for alle atomer, (ii) et kart som knytter inngangsatometikettene til de unike atometikettene, (iii) en fil som inneholder en standard inchi-streng som den unike sammensatte identifikatoren (kalt ‘inchi.inchi’), (iv) to tekstfiler, kalt ‘ advarsler .txt ‘ og ‘ feil.txt’, som inneholder advarsler eller feil relatert TIL alatis analyse av en bestemt forbindelse, og (v) en kommaseparert verdier (CSV) fil, kalt ‘ meta_data.csv’, som inneholder metadataene som er knyttet til den oppføringen. Metadatafilen inneholder, i Tillegg Til PubChem compound identifier (CID), molekylformel, vekt og eksakt masse som rapportert Av PubChem, den tilsvarende standard inchi-strengen som generert AV ALATIS. For å lette side-by-side sammenligning av resultater, inkludert sammenligning AV input 3D strukturer OG ALATIS output strukturer annotert med unike atom identifikatorer, har vi generert en nettside for hver forbindelse, som inkluderer nedlastingskoblinger til alle dataene. Vi brukte programvaren Jmol til å lage skjermer AV 3D-strukturer. De unike sammensatte og atom identifikatorer, sammen med informasjon knyttet Til PubChem oppføringer, kan nås via ALATIS hjemmeside . Brukere kan spørre søkemotoren på dette nettstedet Med En PubChem CID eller et sammensatt navn for å hente tilsvarende alatis utgang.

Vi brukte ALATIS-kuraterte data for å analysere konsistensen av dataene som er lagret for Hver oppføring I PubChem. Merk at synonymer og metadata arkiveres separat FRA 3d-strukturfilene: synonymer er plassert på og at metadataene lagres som en del AV SDF-filer arkivert i» Current-Full » datasett . Synonymer ble brukt i å skape en brukervennlig søkemotor PÅ alatis webserver. Metadataene var nødvendig for den påfølgende konsistensanalysen. Vi fremhever under de to store resultatene av studien vår.

Inkonsekvens mellom de arkiverte 3d strukturer og formler

den kjemiske formelen for en forbindelse arkivert I PubChem følger normalt Hill convention13 og representerer kjernen overordnede strukturen av forbindelsen9. PubChem-arkivet inneholder imidlertid 1.239.752 ladede kjemiske formler, hvor kostnader er betegnet med et symbol på slutten av kjemisk formel. Kjernen overordnede strukturen av en forbindelse indikerer sammensetningen av forbindelsen før pålegge noen kostnader, gjennom tillegg eller subtraksjon av hydrogenatomer. Som illustrert av eksemplene I Fig. 2, det er ikke alltid mulig å bestemme kjernens overordnede struktur av en forbindelse fra sin ladede kjemiske formel. Dette skyldes at i stedet for å skyldes tilsetning eller subtraksjon av protoner, kan ladningen være iboende for den kovalente strukturen av forbindelsen. Dermed kan storskala beregningsbehandling og kurering av databasen føre til inkonsekvente eller tvetydige resultater ved å identifisere atomsammensetningene av forbindelsene. Dette problemet kan løses ved å benytte standard inchi strenger. Formelen laget av standard InChI strenger gir sammensetningen av kjernen forelder av en forbindelse, og netto kostnad («/q») og protonasjon («/p») lag Av InChI strenger representerer forbindelser kostnader. Denne separasjonen av ladninger fra formler letter utvinning av det nøyaktige antall atomer i en forbindelses strukturfil eller kjemisk formel, samt å indikere hvilke typer ladninger som er forbundet med forbindelsen. Vi har produsert en komplett liste Over PubChem CIDs med ladede kjemiske formler, sammen med deres tilsvarende ALATIS formler I Hill format som hentet fra standard InChI strenger. Disse dataene er tilgjengelige PÅ alatis nettside.

Figur 2: Eksempler På PubChem-oppføringer med ladede kjemiske formler.
figure2

(A) PubChem CID 91929631. Den arkiverte kjemiske formelen for Denne oppføringen I PubChem ER C15H17N4O3S+. Denne formelen indikerer 17 hydrogenatomer i den positivt ladede forbindelsen. Kjernestrukturen til denne forbindelsen inneholder imidlertid bare 16 hydrogenatomer; det ekstra hydrogenet skyldes protonering av forbindelsen i sin ladede form. Alatis-formelen for denne forbindelsen «C15H16N4O3S» viser riktig atomsammensetning med 16 hydrogenatomer, og det ekstra hydrogenet er angitt i den tilsvarende InChI-strengen (lag «/ p») «InChI = 1 S / C15H16N4O3S/ c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H,10H2,(H3,16,17) (H, 19, 20) / p + 1». (b) PubChem CID 91124997. Den kjemiske formelen for Denne forbindelsen I PubChem er (C15H16N+). I dette tilfellet oppstår den positive ladningen fra det kvaternære nitrogenet, og den riktige sammensetningen av forbindelsen inneholder 16 hydrogenatomer, som samsvarer med formelen I PubChem. Alatis-formelen for denne forbindelsen viser 16 hydrogenatomer (C15H16N), og ladningen er representert ved lag («/q») i den tilsvarende standard inchi-strengen «InChI = 1 S / C15H16N / c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H,10H2,1-2H3 / q + 1 / t12 – / m0 / s1» .

Inkonsekvens mellom de arkiverte 3d strukturer og inchi strenger

vi sammenlignet deponert PubChem InChI strenger til de som genereres AV ALATIS (ALATIS benytter InChI program v. 1.04 ). Standard inchi-strenger representerer unike sammensatte identifikatorer som kan brukes til kryssreferanser fra forskjellige databaser5. Disse strengene består av flere lag med informasjon, inkludert sammensatte formler, kovalent tilkobling mellom tunge atomer, antall hydrogenatomer forbundet med tunge atomer, et lag som representerer kiralitet og andre lag forbundet med isotopisk merkede atomer og sammensatte ladninger9. VI brukte ALATIS å behandle 3d struktur filer deponert I PubChem, og flagget oppføringer som de tilsvarende avsatt InChI strenger ikke klarte å matche de som er rapportert AV ALATIS. Tabell 1 viser ulike kategorier av Disse flaggede PubChem-oppføringene. I denne tabellen rapporterer Kategorien «Atom-tilkobling» antall oppføringer flagget på grunn av avvik i (a) kovalent tilkobling mellom tunge atomer (rapportert i «/c» – lag Av InChI-strenger) eller (b) antall tildelte hydrogenatomer til de tunge atomene («/h» – lag Av InChI-strenger). «Charge» – kategorien rapporterer antall flaggede oppføringer som representerer forskjellige (de)protonasjon («/p» – lag Av InChI) eller iboende kovalente ladninger («/q » – lag). Kategorien «Stereokjemi» viser antall oppføringer som har blitt flagget på grunn av avvik i deres (a)» /b » lag Av InChI strenger som rapporterer sp2 dobbeltbindings stereokjemi av forbindelsene, eller (b) InChI «/t» lag som rapporterer orienteringer av kirale sentre. Vi merker oss at en forbindelse kan bli flagget og rapportert i flere kategorier. Samlet sett flagget våre analyser 32.036.565 oppføringer (ca.33% Av PubChem-oppføringene MED 3D-strukturer) som å ha en avvik mellom den arkiverte InChI-strengen og den som genereres fra den tilsvarende 3D-strukturen AV ALATIS. Feil representasjon av stereokjemi var den vanligste årsaken til avvik, etterfulgt av ladning og atom-tilkobling (Tabell 1). Komplette lister over disse flaggede oppføringene er rapportert på vår nettside .

Tabell 1 Kategorier Og antall flaggede PubChem-oppføringer.

vi gir nedenfor eksempler fra de tre kategoriene av flaggede inkonsekvenser.

(a) Inkonsekvens i atom tilkobling

som nevnt ovenfor, lagene «/c» og «/ h» i standard inchi streng representerer tilkobling av tunge atomer og antall tilknyttede hydrogenatomer til de tunge atomer, henholdsvis. Den PubChem oppføring vist I Fig. 3 illustrerer et tilfelle DER 3d-strukturfilen og de avsatte inchi-strengene representerer forskjellige kovalente bindinger mellom tunge atomer. Korrekt identifisering AV 3d-struktur er viktig i funksjonelle undersøkelser av forbindelser, og denne kategorien av inkonsekvens kan føre til feilaktige konklusjoner.

Figur 3: Inkonsekvens i det tunge atom-tilkoblingslaget.
figure3

ALATIS genererte standard inchi-strenger FOR 3D-strukturer I PubChem, og ved å sammenligne Disse inchi-strengene med De avsatte InChI-strengene i databasen, identifiserte vi forbindelser hvis tilkoblingslag ikke stemte overens. Denne figuren viser et eksempel på Et slikt avvik For PubChem CID 12300268. (A) Representasjon AV den avsatte 3D-strukturen for oppforingen. (b) Representasjon fra den deponerte InChI-strengen. Vi merker at de kovalente bindingene er forskjellige mellom de to strukturene. Standard inchi-strengen av den arkiverte 3d-strukturen: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H, 9-16H2, og den avsatte inchi-strengen: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 TIMER, 9-16H2. De fet skrift InChI lag indikerer avvik mellom tilkobling av tunge atomer i De to inchi strenger.

(b) Inkonsekvens i ladefordeling

som nevnt ovenfor er distinkte ladninger på grunn av (de)protonasjon eller iboende kovalente ladninger av forbindelser representert i «/p» og «/ q» – lagene Av inchi-strenger. De flaggede PubChem-oppføringene i denne kategorien er de der den arkiverte 3d-strukturen og inchi-strengene representerer forskjellige ladetilstander. Figur 4 viser et eksempel fra denne kategorien.

Figur 4: Inkonsekvens i kostnad.
figure4

(a) Representasjon AV 3d-strukturfilen arkivert For PubChem CID 2179800. (b) Strukturell representasjon Av inchi-strengen lagret for den sammensatte: «InChI = 1 S / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H / p-1». Standard inchi-strengen for strukturen i (a) strukturfil rapportert AV ALATIS er «InChI = 1 S / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H / q-1».

(c) Inkonsekvens i stereokjemi

(c.1) Inkonsekvens i dobbeltbinding sp2 stereokjemi

orienteringen av strukturen til en forbindelse om en dobbeltbinding, om konfigurasjonen er cis eller trans, fanges nøyaktig i standard inchi-strenger. Disse orienteringene, som kun kan identifiseres I 3D-strukturer, er angitt i» / b » – laget Av InChI-strenger. PubChem-forbindelsen vist i Figur 5 viser et eksempel på en avvik mellom konfigurasjonen AV den arkiverte 3d-strukturen og dens tilknyttede InChI-streng. I dette eksemplet inneholder Inchi-strengen Av PubChem-oppføringen (CID 1551886) et spørsmålstegn i» / b » – laget, som indikerer at konfigurasjonen av forbindelsen er tvetydig. Den arkiverte 3d-strukturen representerer imidlertid trans-konfigurasjonen av forbindelsen.

Figur 5: Inkonsekvens i cis-og trans – konfigurasjon.
figure5

Representasjon AV 3d-strukturen arkivert FOR PubChem-oppføringen CID 1551886, som viser en definert stereokjemi om dobbeltbindingen Mellom C8 Og N18. Imidlertid arkiverte inchi-strengen for denne oppføringen «InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H / p-2 / b15-7 -, 18-8?»betegner en tvetydig orientering rundt dobbeltbindingen Mellom C8 Og N18. Som et resultat, InChI strengen generert fra strukturen AV ALATIS klarte ikke å matche arkivert InChI strengen.

(c.2) Inkonsekvens i stereokjemi av kirale sentre

stereokjemi (kiralitet) av små molekyler spiller en viktig rolle i å bestemme deres funksjon. Blant de mer enn 91 millioner PubChem-oppføringene MED 3D-strukturer indikerte våre beregninger VED HJELP AV ALATIS at mer enn 55% av oppføringene (50 508 180 oppføringer) inneholdt minst ett kiralt senter. Omtrent 60% av disse oppføringene (30.236.352 oppføringer) ble flagget under vår analyse, på grunn av inchi-strengene i PubChem og de som BLE generert AV alatis fra strukturene. Den komplette listen over disse oppføringene er tilgjengelig FRA ALATIS nettside. Figur 6 viser et eksempel fra disse flaggede oppføringene.

Figur 6: Inkonsekvens i sammensatt kiralitet.
figure6

Eksempel Fra PubChem CID 130156427. (a) Deponert 3D-struktur av forbindelsen. (b) Struktur generert fra den deponerte InChI-strengen. Den bølgete bindingen i (b) indikerer en tvetydig bindingskiralitet. Dette skyldes at den arkiverte inchi-strengen for denne forbindelsen » InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H, 13-15H2, 1-4H3, (H, 26, 29) (H,27,30)» mangler nødvendig stereokjemi lag («/t»). Dette inchi-laget finnes i standard inchi-strengen rapportert AV ALATIS: «InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.»