Automatisert evaluering av konsistens i PubChem Compound database
vi lastet ned to sett med arkiverte PubChem structure files den tyvende desember 2017: (i) «Current-Full» datasettet bestående av 94,201,188 oppføringer med tilhørende todimensjonale (2D) strukturer lagret I SDF12-format, og (ii) «Compound_3D» datasettet som består av 91 699 620 oppføringer med Tilhørende tredimensjonale (3d) strukturer lagret i Sdf-Format. Datasettet «Current-Full» var nødvendig fordi det inneholder metadata som ikke er tilgjengelige i» Compound_3D » – filene. Mer enn 2,5 millioner oppføringer I PubChem hadde ikke EN 3d-strukturfil. Interessant nok hadde alle forbindelser med mer enn 152 atomer IKKE 3d-strukturer(Fig. 1).
for å undersøke korrektheten av atomkiralitet behandlet Vi Compound_3D datasettet med alatis-programvare. Dette trinnet genererte unike identifikatorer for mer enn 91 millioner forbindelser og deres bestanddeler (Data Citation 1). Utgangen for hver oppføring besto av: (i) strukturfiler i sdf -, PDB-og XYZ-formater som inneholder ALATIS-baserte identifikatorer (etiketter) for alle atomer, (ii) et kart som knytter inngangsatometikettene til de unike atometikettene, (iii) en fil som inneholder en standard inchi-streng som den unike sammensatte identifikatoren (kalt ‘inchi.inchi’), (iv) to tekstfiler, kalt ‘ advarsler .txt ‘ og ‘ feil.txt’, som inneholder advarsler eller feil relatert TIL alatis analyse av en bestemt forbindelse, og (v) en kommaseparert verdier (CSV) fil, kalt ‘ meta_data.csv’, som inneholder metadataene som er knyttet til den oppføringen. Metadatafilen inneholder, i Tillegg Til PubChem compound identifier (CID), molekylformel, vekt og eksakt masse som rapportert Av PubChem, den tilsvarende standard inchi-strengen som generert AV ALATIS. For å lette side-by-side sammenligning av resultater, inkludert sammenligning AV input 3D strukturer OG ALATIS output strukturer annotert med unike atom identifikatorer, har vi generert en nettside for hver forbindelse, som inkluderer nedlastingskoblinger til alle dataene. Vi brukte programvaren Jmol til å lage skjermer AV 3D-strukturer. De unike sammensatte og atom identifikatorer, sammen med informasjon knyttet Til PubChem oppføringer, kan nås via ALATIS hjemmeside . Brukere kan spørre søkemotoren på dette nettstedet Med En PubChem CID eller et sammensatt navn for å hente tilsvarende alatis utgang.
Vi brukte ALATIS-kuraterte data for å analysere konsistensen av dataene som er lagret for Hver oppføring I PubChem. Merk at synonymer og metadata arkiveres separat FRA 3d-strukturfilene: synonymer er plassert på og at metadataene lagres som en del AV SDF-filer arkivert i» Current-Full » datasett . Synonymer ble brukt i å skape en brukervennlig søkemotor PÅ alatis webserver. Metadataene var nødvendig for den påfølgende konsistensanalysen. Vi fremhever under de to store resultatene av studien vår.
- Inkonsekvens mellom de arkiverte 3d strukturer og formler
- Inkonsekvens mellom de arkiverte 3d strukturer og inchi strenger
- (a) Inkonsekvens i atom tilkobling
- (b) Inkonsekvens i ladefordeling
- (c) Inkonsekvens i stereokjemi
- (c.1) Inkonsekvens i dobbeltbinding sp2 stereokjemi
- (c.2) Inkonsekvens i stereokjemi av kirale sentre
Inkonsekvens mellom de arkiverte 3d strukturer og formler
den kjemiske formelen for en forbindelse arkivert I PubChem følger normalt Hill convention13 og representerer kjernen overordnede strukturen av forbindelsen9. PubChem-arkivet inneholder imidlertid 1.239.752 ladede kjemiske formler, hvor kostnader er betegnet med et symbol på slutten av kjemisk formel. Kjernen overordnede strukturen av en forbindelse indikerer sammensetningen av forbindelsen før pålegge noen kostnader, gjennom tillegg eller subtraksjon av hydrogenatomer. Som illustrert av eksemplene I Fig. 2, det er ikke alltid mulig å bestemme kjernens overordnede struktur av en forbindelse fra sin ladede kjemiske formel. Dette skyldes at i stedet for å skyldes tilsetning eller subtraksjon av protoner, kan ladningen være iboende for den kovalente strukturen av forbindelsen. Dermed kan storskala beregningsbehandling og kurering av databasen føre til inkonsekvente eller tvetydige resultater ved å identifisere atomsammensetningene av forbindelsene. Dette problemet kan løses ved å benytte standard inchi strenger. Formelen laget av standard InChI strenger gir sammensetningen av kjernen forelder av en forbindelse, og netto kostnad («/q») og protonasjon («/p») lag Av InChI strenger representerer forbindelser kostnader. Denne separasjonen av ladninger fra formler letter utvinning av det nøyaktige antall atomer i en forbindelses strukturfil eller kjemisk formel, samt å indikere hvilke typer ladninger som er forbundet med forbindelsen. Vi har produsert en komplett liste Over PubChem CIDs med ladede kjemiske formler, sammen med deres tilsvarende ALATIS formler I Hill format som hentet fra standard InChI strenger. Disse dataene er tilgjengelige PÅ alatis nettside.
Inkonsekvens mellom de arkiverte 3d strukturer og inchi strenger
vi sammenlignet deponert PubChem InChI strenger til de som genereres AV ALATIS (ALATIS benytter InChI program v. 1.04 ). Standard inchi-strenger representerer unike sammensatte identifikatorer som kan brukes til kryssreferanser fra forskjellige databaser5. Disse strengene består av flere lag med informasjon, inkludert sammensatte formler, kovalent tilkobling mellom tunge atomer, antall hydrogenatomer forbundet med tunge atomer, et lag som representerer kiralitet og andre lag forbundet med isotopisk merkede atomer og sammensatte ladninger9. VI brukte ALATIS å behandle 3d struktur filer deponert I PubChem, og flagget oppføringer som de tilsvarende avsatt InChI strenger ikke klarte å matche de som er rapportert AV ALATIS. Tabell 1 viser ulike kategorier av Disse flaggede PubChem-oppføringene. I denne tabellen rapporterer Kategorien «Atom-tilkobling» antall oppføringer flagget på grunn av avvik i (a) kovalent tilkobling mellom tunge atomer (rapportert i «/c» – lag Av InChI-strenger) eller (b) antall tildelte hydrogenatomer til de tunge atomene («/h» – lag Av InChI-strenger). «Charge» – kategorien rapporterer antall flaggede oppføringer som representerer forskjellige (de)protonasjon («/p» – lag Av InChI) eller iboende kovalente ladninger («/q » – lag). Kategorien «Stereokjemi» viser antall oppføringer som har blitt flagget på grunn av avvik i deres (a)» /b » lag Av InChI strenger som rapporterer sp2 dobbeltbindings stereokjemi av forbindelsene, eller (b) InChI «/t» lag som rapporterer orienteringer av kirale sentre. Vi merker oss at en forbindelse kan bli flagget og rapportert i flere kategorier. Samlet sett flagget våre analyser 32.036.565 oppføringer (ca.33% Av PubChem-oppføringene MED 3D-strukturer) som å ha en avvik mellom den arkiverte InChI-strengen og den som genereres fra den tilsvarende 3D-strukturen AV ALATIS. Feil representasjon av stereokjemi var den vanligste årsaken til avvik, etterfulgt av ladning og atom-tilkobling (Tabell 1). Komplette lister over disse flaggede oppføringene er rapportert på vår nettside .
vi gir nedenfor eksempler fra de tre kategoriene av flaggede inkonsekvenser.
(a) Inkonsekvens i atom tilkobling
som nevnt ovenfor, lagene «/c» og «/ h» i standard inchi streng representerer tilkobling av tunge atomer og antall tilknyttede hydrogenatomer til de tunge atomer, henholdsvis. Den PubChem oppføring vist I Fig. 3 illustrerer et tilfelle DER 3d-strukturfilen og de avsatte inchi-strengene representerer forskjellige kovalente bindinger mellom tunge atomer. Korrekt identifisering AV 3d-struktur er viktig i funksjonelle undersøkelser av forbindelser, og denne kategorien av inkonsekvens kan føre til feilaktige konklusjoner.
(b) Inkonsekvens i ladefordeling
som nevnt ovenfor er distinkte ladninger på grunn av (de)protonasjon eller iboende kovalente ladninger av forbindelser representert i «/p» og «/ q» – lagene Av inchi-strenger. De flaggede PubChem-oppføringene i denne kategorien er de der den arkiverte 3d-strukturen og inchi-strengene representerer forskjellige ladetilstander. Figur 4 viser et eksempel fra denne kategorien.
(c) Inkonsekvens i stereokjemi
(c.1) Inkonsekvens i dobbeltbinding sp2 stereokjemi
orienteringen av strukturen til en forbindelse om en dobbeltbinding, om konfigurasjonen er cis eller trans, fanges nøyaktig i standard inchi-strenger. Disse orienteringene, som kun kan identifiseres I 3D-strukturer, er angitt i» / b » – laget Av InChI-strenger. PubChem-forbindelsen vist i Figur 5 viser et eksempel på en avvik mellom konfigurasjonen AV den arkiverte 3d-strukturen og dens tilknyttede InChI-streng. I dette eksemplet inneholder Inchi-strengen Av PubChem-oppføringen (CID 1551886) et spørsmålstegn i» / b » – laget, som indikerer at konfigurasjonen av forbindelsen er tvetydig. Den arkiverte 3d-strukturen representerer imidlertid trans-konfigurasjonen av forbindelsen.
(c.2) Inkonsekvens i stereokjemi av kirale sentre
stereokjemi (kiralitet) av små molekyler spiller en viktig rolle i å bestemme deres funksjon. Blant de mer enn 91 millioner PubChem-oppføringene MED 3D-strukturer indikerte våre beregninger VED HJELP AV ALATIS at mer enn 55% av oppføringene (50 508 180 oppføringer) inneholdt minst ett kiralt senter. Omtrent 60% av disse oppføringene (30.236.352 oppføringer) ble flagget under vår analyse, på grunn av inchi-strengene i PubChem og de som BLE generert AV alatis fra strukturene. Den komplette listen over disse oppføringene er tilgjengelig FRA ALATIS nettside. Figur 6 viser et eksempel fra disse flaggede oppføringene.