Articles

Geautomatiseerde evaluatie van de samenhang binnen de PubChem Compound database

Wij gedownload twee sets van gearchiveerde PubChem structuur van de bestanden op de twintigste December 2017: (i) de “Current-Full” dataset bestaande uit 94,201,188 items met de bijbehorende twee-dimensionale (2D) structuren opgeslagen in SDF12 formaat, en (ii) de “Compound_3D” dataset bestaande uit 91,699,620 items met de bijbehorende drie-dimensionale (3D) structuren opgeslagen in SDF-formaat. De” Current-Full “dataset was nodig omdat deze metadata bevat die niet beschikbaar zijn in de” Compound_3D ” bestanden. Meer dan 2,5 miljoen inzendingen in de PubChem had geen 3D-structuurbestand. Interessant is dat alle verbindingen met meer dan 152 atomen geen 3D-structuren hadden (Fig. 1).

figuur 1: histogrammen die het aantal atomen en massa ‘ s van items in PubChem weergeven.
figure1

de x-as van histogrammen (a) en (b) geeft het aantal atomen in een verbinding weer, en de y-as geeft het aantal verbindingen met het overeenkomstige aantal atomen aan. a) Histogram van massa ’s voor verbindingen met minder dan 152 atomen: de massa’ s voor “Current-Full” – waarden (2D-structuren) zijn blauw weergegeven en de massa ‘ s voor “Compound_3D” zijn groen weergegeven. De 152-atoom cutoff werd gekozen op basis van het maximum aantal atomen in verbindingen in de “Compound_3D” dataset. B) tellingen voor verbindingen met >152 atomen. PubChem bevat geen 3D structuur informatie voor deze verbindingen. C) Histogram van massa ‘ s van verbindingen zoals gerapporteerd in de SDF-bestanden van PubChem “Current-Full” – vermeldingen. De meeste van de verbindingen in de database hadden massa ‘ s minder dan 1.000 Da; echter, 11, 550 verbindingen hadden massa hoger dan 2.000 Da (niet getoond in (c)) – bijvoorbeeld, PubChem CID 23393956 rapporteerde de exacte massa van 59.745.256 Da.

om de juistheid van atom chirality te onderzoeken, hebben we de Compound_3D-dataset verwerkt met ALATIS-software. Deze stap genereerde unieke identifiers voor meer dan 91 miljoen verbindingen en hun samenstellende atomen (Data Citation 1). De output voor elke entry bestond uit: (i) structuur van bestanden in SDF -, PDB-en XYZ-formaten die op ALATIS gebaseerde identifiers (labels) voor alle atomen bevatten, (ii) een map die de input atom-labels koppelt aan de unieke Atom-labels, (iii) een bestand dat een standaard InChI-string bevat als de unieke samengestelde identifier (“inchi” genoemd).inchi’), (iv) twee tekstbestanden, genaamd ‘waarschuwingen.txt ‘en’ fout.txt’, die waarschuwingen of fouten bevatten met betrekking tot de ALATIS-analyse van een bepaalde verbinding, en (v) een CSV-bestand (comma-separated values), genaamd ‘ meta_data.csv”, die de metagegevens bevat die aan die vermelding zijn gekoppeld. Het metagegevensbestand bevat, naast de PubChem compound identifier( CID), moleculaire formule, gewicht en exacte massa zoals gerapporteerd door PubChem, de overeenkomstige standaard InChI string zoals gegenereerd door ALATIS. Om side-by-side vergelijking van resultaten te vergemakkelijken, inclusief vergelijking van input 3D structuren en alatis output structuren geannoteerd met unieke Atom identifiers, hebben we een webpagina voor elke verbinding, die downloadlinks naar alle gegevens bevat gegenereerd. We gebruikten de software Jmol om displays van de 3D-structuren te maken. De unieke samenstelling en atoom identifiers, samen met informatie in verband met PubChem inzendingen, kan worden geraadpleegd via de ALATIS website . Gebruikers kunnen de zoekmachine op deze website opvragen met een PubChem CID of een samengestelde naam om de overeenkomstige alatis output op te halen.

we hebben de door ALATIS samengestelde gegevens gebruikt om de consistentie te analyseren van de gegevens die zijn opgeslagen voor elk item in PubChem. Merk op dat de Synoniemen en metadata apart van de 3D-structuurbestanden worden gearchiveerd: Synoniemen bevinden zich op en dat de metadata worden opgeslagen als onderdeel van SDF-bestanden die worden gearchiveerd in “Current-Full” dataset . De Synoniemen werden gebruikt bij het maken van een gebruiksvriendelijke zoekmachine op de alatis webserver. De metagegevens waren nodig voor de daaropvolgende consistentieanalyse. We benadrukken hieronder de twee belangrijkste resultaten van onze studie.

inconsistentie tussen de gearchiveerde 3D-structuren en formules

de chemische formule van een in PubChem gearchiveerde verbinding volgt normaal gesproken de Hill-conventie 13 en vertegenwoordigt de basisstructuur van de samenstelling9. Het PubChem-archief bevat echter 1.239.752 geladen chemische formules, waarbij ladingen worden aangeduid met een symbool aan het einde van de chemische formule. De basisstructuur van een verbinding geeft de samenstelling van de verbinding aan alvorens enige lading op te leggen, door de toevoeging of aftrekking van waterstofatomen. Zoals geïllustreerd door de voorbeelden in Fig. 2, is het niet altijd mogelijk om de kern ouderstructuur van een verbinding uit de geladen chemische formule te bepalen. Dit is omdat, eerder dan als gevolg van de toevoeging of aftrekking van protonen, de last intrinsiek aan de covalente structuur van de samenstelling zou kunnen zijn. Aldus, grootschalige computationele verwerking en curatie van de database zou kunnen leiden tot inconsistente of dubbelzinnige resultaten in het identificeren van de atoom samenstellingen van de samenstellingen. Dit probleem kan worden aangepakt door gebruik te maken van standaard InChI strings. De formulelaag van standaard InChI strings geeft de samenstelling van de kern ouder van een verbinding, en de netto lading (“/q”) en protonatie (“/p”) lagen van InChI strings vertegenwoordigen samenstellingen ladingen. Deze scheiding van ladingen van formules vergemakkelijkt extractie van het precieze aantal atomen in het structuurbestand van een verbinding of chemische formule, evenals het aangeven van de soorten ladingen geassocieerd met de verbinding. We hebben een volledige lijst van PubChem Cid ‘ s met geladen chemische formules geproduceerd, samen met hun overeenkomstige alatis formules in Hill formaat zoals geëxtraheerd uit standaard InChI strings. Deze gegevens zijn beschikbaar op de website van ALATIS.

Figuur 2: voorbeelden van PubChem-vermeldingen met geladen chemische formules.
figure2

(a) PubChem CID 91929631. De gearchiveerde chemische formule voor dit item in PubChem is C15H17N4O3S+. Deze formule geeft 17 waterstofatomen aan in de positief geladen verbinding. De basisstructuur van deze verbinding bevat echter slechts 16 waterstofatomen; de extra waterstof vloeit voort uit de protonatie van de verbinding in zijn geladen vorm. De ALATIS-formule voor deze verbinding “C15H16N4O3S” toont de juiste atoomsamenstelling met 16 waterstofatomen, en de extra waterstof wordt aangegeven in de overeenkomstige InChI-string (laag “/p”) “InChI = 1 s / C15H16N4O3S / c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H, 10H2, (H3,16,17) (H,19, 20) / p + 1”. B) PubChem CID 91124997. De chemische formule voor deze verbinding in PubChem is (C15H16N+). In dit geval komt de positieve lading voort uit de quaternaire stikstof, en de juiste samenstelling van de verbinding bevat 16 waterstofatomen, die overeenkomt met de formule in PubChem. De ALATIS formule voor deze verbinding toont de 16 waterstofatomen (C15H16N), en de lading wordt vertegenwoordigd door laag (“/q”) in de overeenkomstige standaard InChI string “InChI = 1 S / C15H16N / c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H, 10H2, 1-2H3 / q + 1 / t12 – / m0 / s1”.

inconsistentie tussen de gearchiveerde 3D structuren en InChI strings

we hebben de gedeponeerde PubChem InChI strings vergeleken met die gegenereerd door ALATIS (ALATIS gebruikt InChI programma v. 1.04 ). Standaard InChI-strings vertegenwoordigen unieke samengestelde identifiers die kunnen worden gebruikt voor kruisverwijzingen uit verschillende databases5. Deze strings bestaan uit verschillende lagen informatie, waaronder samengestelde formules, covalente connectiviteit tussen zware atomen, het aantal waterstofatomen geassocieerd met zware atomen, een laag om chiraliteit te vertegenwoordigen, en andere lagen geassocieerd met isotopisch gelabelde atomen en samengestelde charges9. We hebben ALATIS gebruikt om de 3D-structuurbestanden te verwerken die in PubChem zijn gedeponeerd, en gemarkeerde items waarvoor de overeenkomstige gedeponeerde InChI-strings niet overeenkwamen met die welke door ALATIS zijn gerapporteerd. Tabel 1 toont verschillende categorieën van deze gemarkeerde PubChem items. In deze tabel vermeldt de categorie ” Atom connectiviteit “het aantal vermeldingen dat is gemarkeerd vanwege verschillen in (a) covalente connectiviteit tussen zware atomen (gerapporteerd in” /c ” – laag van InChI-snaren) of (b) het aantal waterstofatomen dat aan de zware atomen is toegewezen (“/h ” – laag van InChI-snaren). De categorie ” lading “vermeldt het aantal gemarkeerde items die verschillende (de)protonatie (“/p ” – laag van InChI) of intrinsieke covalente ladingen (“/q ” – laag) vertegenwoordigen. De ‘stereochemie’ categorie toont het aantal items die zijn gemarkeerd vanwege verschillen in hun (A)” /b “laag van InChI strings die SP2 dubbele binding stereochemie van de verbindingen rapporteert, of (b) InChI” / t ” laag die oriëntaties van chirale centra rapporteert. We merken op dat een verbinding kan worden gemarkeerd en gerapporteerd in meerdere categorieën. In het algemeen, onze analyses gemarkeerd 32.036.565 inzendingen (ongeveer 33% van de PubChem inzendingen met 3D-structuren) als een discrepantie tussen de gearchiveerde InChI string en die gegenereerd uit de overeenkomstige 3D-structuur door ALATIS. Onjuiste voorstelling van stereochemie was de meest voorkomende reden voor discrepantie, gevolgd door lading en atom connectiviteit (Tabel 1). Volledige lijsten van deze gemarkeerde vermeldingen worden gerapporteerd op onze website .

Table 1 Categories and numbers of flagged PubChem entries.

hieronder geven we voorbeelden van de drie categorieën van gemarkeerde inconsistenties.

(a) inconsistentie in atoomconnectiviteit

zoals hierboven vermeld, vertegenwoordigen de lagen “/c” en “/h” in de standaard InChI-string respectievelijk de connectiviteit van zware atomen en het aantal geassocieerde waterstofatomen met zware atomen. De vermelding PubChem in Fig. 3 illustreert een geval waarin het 3D-structuurbestand en de gedeponeerde InChI-snaren verschillende covalente bindingen tussen zware atomen vertegenwoordigen. De correcte identificatie van 3D structuur is essentieel in functioneel onderzoek van samenstellingen, en deze categorie van inconsistentie zou tot foutieve conclusies kunnen leiden.

Figuur 3: inconsistentie in de verbindingslaag met zware atomen.
figure3

ALATIS genereerde standaard InChI-strings voor 3D-structuren in PubChem, en door deze InChI-strings te vergelijken met de gedeponeerde InChI-strings in de database, identificeerden we verbindingen waarvan de verbindingslagen niet overeenkwamen. Deze figuur toont een voorbeeld van een dergelijke discrepantie voor PubChem CID 12300268. (a) weergave van de gedeponeerde 3D-structuur voor de ingang. (B) weergave van de gedeponeerde InChI string. We merken op dat de covalente bindingen verschillen tussen de twee structuren. De standaard InChI string van de gearchiveerde 3D-structuur: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 UUR,9-16H2, en het gestort InChI string: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 UUR,9-16H2. De vetgedrukte InChI-lagen geven de discrepanties aan tussen de connectiviteit van zware atomen in de twee InChI-strings.

(b) inconsistentie bij ladingsverdeling

zoals hierboven vermeld, worden afzonderlijke ladingen als gevolg van (de)protonatie of intrinsieke covalente ladingen van verbindingen weergegeven in de” /p “- en” /q ” – lagen van InChI-strings. De gemarkeerde PubChem items in deze categorie zijn degenen waarin de gearchiveerde 3D structuur en InChI strings vertegenwoordigen verschillende ladingstoestanden. Figuur 4 toont een voorbeeld uit deze categorie.

Figuur 4: inconsistentie in charge.
figure4

(a) Representation of the 3D structure file archived for PubChem CID 2179800. B) structurele weergave van de voor die verbinding opgeslagen InChI-string: “InChI = 1 S / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H / p-1”. De standaard InChI string voor de structuur in (a) structuur bestand gerapporteerd door ALATIS is “InChI = 1 S / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H / q-1”.

(c) inconsistentie in stereochemie

(c.1) inconsistentie in dubbele binding sp2 stereochemie

de oriëntatie van de structuur van een verbinding over een dubbele binding, ongeacht of de configuratie cis of trans is, wordt nauwkeurig vastgelegd in standaard InChI-strings. Deze oriëntaties, die alleen in 3D-structuren kunnen worden geïdentificeerd, worden aangegeven in de “/b” – laag van InChI-strings. De PubChem-compound in Figuur 5 toont een voorbeeld van een discrepantie tussen de configuratie van de gearchiveerde 3D-structuur en de bijbehorende InChI-string. In dit voorbeeld bevat de InChI string van PubChem entry (CID 1551886) een vraagteken in zijn “/b” laag, wat aangeeft dat de configuratie van de verbinding dubbelzinnig is. Nochtans, vertegenwoordigt de gearchiveerde 3D structuur de trans configuratie van de samenstelling.

Figuur 5: inconsistentie in cis – en trans – configuratie.
figure5

representatie van de 3D-structuur gearchiveerd voor het PubChem-item CID 1551886, dat een gedefinieerde stereochemie toont over de dubbele binding tussen C8 en N18. Echter, de InChI string gearchiveerd voor dit item ” InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H / p-2 / b15-7 -, 18-8?”duidt op een dubbelzinnige oriëntatie rond de dubbele binding tussen C8 en N18. Als gevolg daarvan, de InChI string gegenereerd uit de structuur door ALATIS niet overeenkomen met de gearchiveerde InChI string.

(c.2) inconsistentie in stereochemie van chirale centra

de stereochemie (chiraliteit) van kleine moleculen speelt een vitale rol bij het bepalen van hun functie. Van de meer dan 91 miljoen PubChem-inzendingen met 3D-structuren, gaven onze berekeningen met behulp van ALATIS aan dat meer dan 55% van de inzendingen (50.508.180 inzendingen) ten minste één chiraal centrum bevatte. Ongeveer 60% van deze inzendingen (30.236.352 inzendingen) werden gemarkeerd tijdens onze Analyse, als gevolg van inconsistenties tussen de stereochemie laag van de gedeponeerde InChI snaren in PubChem en die gegenereerd door ALATIS uit de structuren. De volledige lijst van deze vermeldingen is toegankelijk via de website van ALATIS. Figuur 6 toont een voorbeeld van deze gemarkeerde items.

Figuur 6: inconsistentie in samengestelde chiraliteit.
figure6

voorbeeld van PubChem CID 130156427. (a) gedeponeerde 3D-structuur van de verbinding. (b) structuur gegenereerd uit de gedeponeerde InChI string. De golvende binding in (b) duidt op een dubbelzinnige binding chiraliteit. Dit komt omdat de gearchiveerde InChI string voor deze compound ” InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H, 13-15H2, 1-4H3, (h, 26, 29) (h,27, 30)” mist de noodzakelijke stereochemie laag (“/t”). Deze InChI laag kan worden gevonden in de standaard InChI string gerapporteerd door ALATIS: “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”