Geautomatiseerde evaluatie van de samenhang binnen de PubChem Compound database
Wij gedownload twee sets van gearchiveerde PubChem structuur van de bestanden op de twintigste December 2017: (i) de “Current-Full” dataset bestaande uit 94,201,188 items met de bijbehorende twee-dimensionale (2D) structuren opgeslagen in SDF12 formaat, en (ii) de “Compound_3D” dataset bestaande uit 91,699,620 items met de bijbehorende drie-dimensionale (3D) structuren opgeslagen in SDF-formaat. De” Current-Full “dataset was nodig omdat deze metadata bevat die niet beschikbaar zijn in de” Compound_3D ” bestanden. Meer dan 2,5 miljoen inzendingen in de PubChem had geen 3D-structuurbestand. Interessant is dat alle verbindingen met meer dan 152 atomen geen 3D-structuren hadden (Fig. 1).
om de juistheid van atom chirality te onderzoeken, hebben we de Compound_3D-dataset verwerkt met ALATIS-software. Deze stap genereerde unieke identifiers voor meer dan 91 miljoen verbindingen en hun samenstellende atomen (Data Citation 1). De output voor elke entry bestond uit: (i) structuur van bestanden in SDF -, PDB-en XYZ-formaten die op ALATIS gebaseerde identifiers (labels) voor alle atomen bevatten, (ii) een map die de input atom-labels koppelt aan de unieke Atom-labels, (iii) een bestand dat een standaard InChI-string bevat als de unieke samengestelde identifier (“inchi” genoemd).inchi’), (iv) twee tekstbestanden, genaamd ‘waarschuwingen.txt ‘en’ fout.txt’, die waarschuwingen of fouten bevatten met betrekking tot de ALATIS-analyse van een bepaalde verbinding, en (v) een CSV-bestand (comma-separated values), genaamd ‘ meta_data.csv”, die de metagegevens bevat die aan die vermelding zijn gekoppeld. Het metagegevensbestand bevat, naast de PubChem compound identifier( CID), moleculaire formule, gewicht en exacte massa zoals gerapporteerd door PubChem, de overeenkomstige standaard InChI string zoals gegenereerd door ALATIS. Om side-by-side vergelijking van resultaten te vergemakkelijken, inclusief vergelijking van input 3D structuren en alatis output structuren geannoteerd met unieke Atom identifiers, hebben we een webpagina voor elke verbinding, die downloadlinks naar alle gegevens bevat gegenereerd. We gebruikten de software Jmol om displays van de 3D-structuren te maken. De unieke samenstelling en atoom identifiers, samen met informatie in verband met PubChem inzendingen, kan worden geraadpleegd via de ALATIS website . Gebruikers kunnen de zoekmachine op deze website opvragen met een PubChem CID of een samengestelde naam om de overeenkomstige alatis output op te halen.
we hebben de door ALATIS samengestelde gegevens gebruikt om de consistentie te analyseren van de gegevens die zijn opgeslagen voor elk item in PubChem. Merk op dat de Synoniemen en metadata apart van de 3D-structuurbestanden worden gearchiveerd: Synoniemen bevinden zich op en dat de metadata worden opgeslagen als onderdeel van SDF-bestanden die worden gearchiveerd in “Current-Full” dataset . De Synoniemen werden gebruikt bij het maken van een gebruiksvriendelijke zoekmachine op de alatis webserver. De metagegevens waren nodig voor de daaropvolgende consistentieanalyse. We benadrukken hieronder de twee belangrijkste resultaten van onze studie.
- inconsistentie tussen de gearchiveerde 3D-structuren en formules
- inconsistentie tussen de gearchiveerde 3D structuren en InChI strings
- (a) inconsistentie in atoomconnectiviteit
- (b) inconsistentie bij ladingsverdeling
- (c) inconsistentie in stereochemie
- (c.1) inconsistentie in dubbele binding sp2 stereochemie
- (c.2) inconsistentie in stereochemie van chirale centra
inconsistentie tussen de gearchiveerde 3D-structuren en formules
de chemische formule van een in PubChem gearchiveerde verbinding volgt normaal gesproken de Hill-conventie 13 en vertegenwoordigt de basisstructuur van de samenstelling9. Het PubChem-archief bevat echter 1.239.752 geladen chemische formules, waarbij ladingen worden aangeduid met een symbool aan het einde van de chemische formule. De basisstructuur van een verbinding geeft de samenstelling van de verbinding aan alvorens enige lading op te leggen, door de toevoeging of aftrekking van waterstofatomen. Zoals geïllustreerd door de voorbeelden in Fig. 2, is het niet altijd mogelijk om de kern ouderstructuur van een verbinding uit de geladen chemische formule te bepalen. Dit is omdat, eerder dan als gevolg van de toevoeging of aftrekking van protonen, de last intrinsiek aan de covalente structuur van de samenstelling zou kunnen zijn. Aldus, grootschalige computationele verwerking en curatie van de database zou kunnen leiden tot inconsistente of dubbelzinnige resultaten in het identificeren van de atoom samenstellingen van de samenstellingen. Dit probleem kan worden aangepakt door gebruik te maken van standaard InChI strings. De formulelaag van standaard InChI strings geeft de samenstelling van de kern ouder van een verbinding, en de netto lading (“/q”) en protonatie (“/p”) lagen van InChI strings vertegenwoordigen samenstellingen ladingen. Deze scheiding van ladingen van formules vergemakkelijkt extractie van het precieze aantal atomen in het structuurbestand van een verbinding of chemische formule, evenals het aangeven van de soorten ladingen geassocieerd met de verbinding. We hebben een volledige lijst van PubChem Cid ‘ s met geladen chemische formules geproduceerd, samen met hun overeenkomstige alatis formules in Hill formaat zoals geëxtraheerd uit standaard InChI strings. Deze gegevens zijn beschikbaar op de website van ALATIS.
inconsistentie tussen de gearchiveerde 3D structuren en InChI strings
we hebben de gedeponeerde PubChem InChI strings vergeleken met die gegenereerd door ALATIS (ALATIS gebruikt InChI programma v. 1.04 ). Standaard InChI-strings vertegenwoordigen unieke samengestelde identifiers die kunnen worden gebruikt voor kruisverwijzingen uit verschillende databases5. Deze strings bestaan uit verschillende lagen informatie, waaronder samengestelde formules, covalente connectiviteit tussen zware atomen, het aantal waterstofatomen geassocieerd met zware atomen, een laag om chiraliteit te vertegenwoordigen, en andere lagen geassocieerd met isotopisch gelabelde atomen en samengestelde charges9. We hebben ALATIS gebruikt om de 3D-structuurbestanden te verwerken die in PubChem zijn gedeponeerd, en gemarkeerde items waarvoor de overeenkomstige gedeponeerde InChI-strings niet overeenkwamen met die welke door ALATIS zijn gerapporteerd. Tabel 1 toont verschillende categorieën van deze gemarkeerde PubChem items. In deze tabel vermeldt de categorie ” Atom connectiviteit “het aantal vermeldingen dat is gemarkeerd vanwege verschillen in (a) covalente connectiviteit tussen zware atomen (gerapporteerd in” /c ” – laag van InChI-snaren) of (b) het aantal waterstofatomen dat aan de zware atomen is toegewezen (“/h ” – laag van InChI-snaren). De categorie ” lading “vermeldt het aantal gemarkeerde items die verschillende (de)protonatie (“/p ” – laag van InChI) of intrinsieke covalente ladingen (“/q ” – laag) vertegenwoordigen. De ‘stereochemie’ categorie toont het aantal items die zijn gemarkeerd vanwege verschillen in hun (A)” /b “laag van InChI strings die SP2 dubbele binding stereochemie van de verbindingen rapporteert, of (b) InChI” / t ” laag die oriëntaties van chirale centra rapporteert. We merken op dat een verbinding kan worden gemarkeerd en gerapporteerd in meerdere categorieën. In het algemeen, onze analyses gemarkeerd 32.036.565 inzendingen (ongeveer 33% van de PubChem inzendingen met 3D-structuren) als een discrepantie tussen de gearchiveerde InChI string en die gegenereerd uit de overeenkomstige 3D-structuur door ALATIS. Onjuiste voorstelling van stereochemie was de meest voorkomende reden voor discrepantie, gevolgd door lading en atom connectiviteit (Tabel 1). Volledige lijsten van deze gemarkeerde vermeldingen worden gerapporteerd op onze website .
hieronder geven we voorbeelden van de drie categorieën van gemarkeerde inconsistenties.
(a) inconsistentie in atoomconnectiviteit
zoals hierboven vermeld, vertegenwoordigen de lagen “/c” en “/h” in de standaard InChI-string respectievelijk de connectiviteit van zware atomen en het aantal geassocieerde waterstofatomen met zware atomen. De vermelding PubChem in Fig. 3 illustreert een geval waarin het 3D-structuurbestand en de gedeponeerde InChI-snaren verschillende covalente bindingen tussen zware atomen vertegenwoordigen. De correcte identificatie van 3D structuur is essentieel in functioneel onderzoek van samenstellingen, en deze categorie van inconsistentie zou tot foutieve conclusies kunnen leiden.
(b) inconsistentie bij ladingsverdeling
zoals hierboven vermeld, worden afzonderlijke ladingen als gevolg van (de)protonatie of intrinsieke covalente ladingen van verbindingen weergegeven in de” /p “- en” /q ” – lagen van InChI-strings. De gemarkeerde PubChem items in deze categorie zijn degenen waarin de gearchiveerde 3D structuur en InChI strings vertegenwoordigen verschillende ladingstoestanden. Figuur 4 toont een voorbeeld uit deze categorie.
(c) inconsistentie in stereochemie
(c.1) inconsistentie in dubbele binding sp2 stereochemie
de oriëntatie van de structuur van een verbinding over een dubbele binding, ongeacht of de configuratie cis of trans is, wordt nauwkeurig vastgelegd in standaard InChI-strings. Deze oriëntaties, die alleen in 3D-structuren kunnen worden geïdentificeerd, worden aangegeven in de “/b” – laag van InChI-strings. De PubChem-compound in Figuur 5 toont een voorbeeld van een discrepantie tussen de configuratie van de gearchiveerde 3D-structuur en de bijbehorende InChI-string. In dit voorbeeld bevat de InChI string van PubChem entry (CID 1551886) een vraagteken in zijn “/b” laag, wat aangeeft dat de configuratie van de verbinding dubbelzinnig is. Nochtans, vertegenwoordigt de gearchiveerde 3D structuur de trans configuratie van de samenstelling.
(c.2) inconsistentie in stereochemie van chirale centra
de stereochemie (chiraliteit) van kleine moleculen speelt een vitale rol bij het bepalen van hun functie. Van de meer dan 91 miljoen PubChem-inzendingen met 3D-structuren, gaven onze berekeningen met behulp van ALATIS aan dat meer dan 55% van de inzendingen (50.508.180 inzendingen) ten minste één chiraal centrum bevatte. Ongeveer 60% van deze inzendingen (30.236.352 inzendingen) werden gemarkeerd tijdens onze Analyse, als gevolg van inconsistenties tussen de stereochemie laag van de gedeponeerde InChI snaren in PubChem en die gegenereerd door ALATIS uit de structuren. De volledige lijst van deze vermeldingen is toegankelijk via de website van ALATIS. Figuur 6 toont een voorbeeld van deze gemarkeerde items.