Articles

yhdenmukaisuuden automaattinen arviointi PubChem-Yhdistelmätietokannassa

latasimme kahdentenakymmenentenä päivänä joulukuuta 2017 kaksi arkistoitua PubChem-rakennetiedostoa: (I) ”Current-Full” – tietokokonaisuus, joka koostuu 94,201,188 tiedosta, joiden vastaavat kaksiulotteiset (2D) rakenteet on tallennettu SDF12-muotoon, ja (ii) ”Compound_3D” – tietokokonaisuus, joka koostuu 91,699,620 merkintää vastaavine kolmiulotteisine (3D) rakenteineen, jotka on tallennettu SDF-muotoon. ”Current-Full” – aineistoa tarvittiin, koska se sisältää metatietoja, joita ei ole saatavilla” Compound_3D ” – tiedostoissa. Yli 2,5 miljoonaa merkintää Pubchemissa ei ollut 3D-rakennetiedostoa. Mielenkiintoista on, että kaikilla yhdisteillä, joissa on yli 152 atomia, ei ollut 3D-rakenteita (Kuva. 1).

Kuva 1: histogrammit, jotka näyttävät pubchemin merkintöjen atomien ja massojen määrän.
kuvio1

histogrammien (A) ja (b) X-akseli kuvaa atomien määrää yhdisteessä ja y-akseli ilmoittaa yhdisteiden lukumäärän, jossa on vastaava määrä atomeja. (a) massojen Histogrammi yhdisteille, joissa on vähemmän kuin 152 atomia: ”Current-Full” – merkinnät (2D-rakenteet) esitetään sinisellä ja ”Compound_3D” – merkinnät vihreällä. 152 atomin raja valittiin ”Compound_3D” – aineiston yhdisteiden atomien enimmäismäärän perusteella. B) lasketaan yhdisteille, joiden >152 atomia. PubChem ei sisällä 3D-rakennetta koskevia tietoja näistä yhdisteistä. (C) yhdistemassojen Histogrammi sellaisena kuin se on ilmoitettu PubChem ”Current-Full” – tietueiden SDF-tiedostoissa. Suurin osa tietokannan yhdisteistä oli massaltaan alle 1000 Da; kuitenkin 11, 550 yhdisteiden massa oli suurempi kuin 2000 Da (ei esitetty (C)) – esimerkiksi PubChem CID 23393956 raportoitu tarkka massa 59745.256 Da.

tutkiaksemme atomin siraalisuuden oikeellisuutta käsittelimme Compound_3D-aineiston ALATIS-ohjelmistolla. Tämä vaihe tuotti yksilöiviä tunnisteita yli 91 miljoonalle yhdisteelle ja niiden atomeille (Dataviittaus 1). Tuotos kunkin merkintä koostui: (i) SDF -, PDB-ja XYZ-muotoiset rakennetiedostot, jotka sisältävät ALATIS-pohjaisia tunnisteita (nimikkeitä) kaikille atomeille, (ii) kartta, joka yhdistää syöteatomin nimikkeet yksilöllisiin atomitunnisteisiin, (iii) tiedosto, joka sisältää standardin InChI-merkkijonon yksilöllisenä yhdistetunnisteena (nimeltään ” inchi.inchi’), iv) kaksi tekstitiedostoa, joiden nimi on ” varoitukset.TXT ’ja’ virhe.txt”, jotka sisältävät tietyn yhdisteen ALATIS-analyysiin liittyviä varoituksia tai virheitä ja (V) pilkulla erotetun CSV-tiedoston, jonka nimi on ” meta_data.csv”, joka sisältää kyseiseen tietueeseen liittyvät metatiedot. Metatiedosto sisältää PubChem-yhdistetunnisteen (Cid) lisäksi Pubchemin ilmoittaman molekyylikaavan, painon ja tarkan massan, vastaavan standardin InChI-merkkijonon ALATISIN tuottamana. Helpottaaksemme side-by-side tulosten vertailua, mukaan lukien input 3D-rakenteiden ja ALATIS-tuotosrakenteiden vertailu, johon on merkitty yksilölliset atom-tunnisteet, olemme luoneet jokaiselle yhdisteelle web-sivun, joka sisältää latauslinkit kaikkiin tietoihin. Käytimme jmol-ohjelmistoa 3D-rakenteiden näyttöjen luomiseen. Yksilölliset yhdiste-ja atomitunnisteet sekä PubChem-merkintöihin liittyvät tiedot ovat saatavilla ALATIS-sivuston kautta . Käyttäjät voivat kysellä hakukoneen tällä sivustolla PubChem CID tai yhdiste nimi hakea vastaavan ALATIS lähtö.

käytimme ALATIS-kuratoitua dataa analysoidaksemme Pubchemin jokaisen merkinnän osalta tallennettujen tietojen johdonmukaisuutta. Huomaa, että synonyymit ja metatiedot arkistoidaan erillään 3D-rakennetiedostoista: synonyymit sijaitsevat osoitteessa ja metatiedot tallennetaan osana SDF-tiedostoja, jotka arkistoidaan ”Current-Full” – aineistoon . Synonyymejä käytettiin käyttäjäystävällisen hakukoneen luomisessa ALATIS-palvelimelle. Metatietoja tarvittiin myöhempää johdonmukaisuuden analysointia varten. Korostamme alla tutkimuksemme kahta päätulosta.

arkistoitujen 3D-rakenteiden ja kaavojen välinen epäjohdonmukaisuus

Pubchemiin arkistoidun yhdisteen kemiallinen kaava noudattaa yleensä Hill-käytäntöä 13 ja edustaa yhdisteen perusrakennetta9. Pubchemin arkisto sisältää kuitenkin 1 239 752 varattua kemiallista kaavaa, joissa varauksia merkitään kemiallisen kaavan lopussa olevalla symbolilla. Yhdisteen ydinjäämärakenne ilmaisee yhdisteen koostumuksen ennen varausten asettamista vetyatomien yhteen-tai vähennyslaskun avulla. Kuten esimerkit Fig. 2, ei ole aina mahdollista määrittää yhdisteen kantarakennetta sen varatusta kemiallisesta kaavasta. Tämä johtuu siitä, että sen sijaan, että varaus olisi syntynyt protonien yhteen-tai vähennyslaskusta, se voisi olla yhdisteen kovalenttiselle rakenteelle luontainen. Laajamittainen laskennallinen käsittely ja tietokannan kuratointi saattoikin johtaa epäjohdonmukaisiin tai monitulkintaisiin tuloksiin yhdisteiden atomikoostumusten tunnistamisessa. Tämä ongelma voidaan ratkaista käyttämällä standard InChI Jouset. InChI-merkkijonojen standardikerros antaa yhdisteen ydinpoikkeaman koostumuksen, ja InChI-merkkijonojen nettovarauskerrokset (”/q”) ja protonikerrokset (”/p”) edustavat yhdisteiden varauksia. Tämä varausten erottaminen kaavoista helpottaa yhdisteen rakennetiedoston tai kemiallisen kaavan atomien tarkan lukumäärän erottamista sekä osoittaa yhdisteeseen liittyvien varausten tyypit. Olemme tuottaneet täydellisen listan PubChem CIDs ladattu kemiallisia kaavoja, sekä vastaavat ALATIS kaavoja Hill muodossa uutetaan standardin InChI Jouset. Tiedot löytyvät ALATIS-verkkosivuilta.

kuva 2: Esimerkkejä PubChem-merkinnöistä, joissa on varattuja kemiallisia kaavoja.
figure2

(a) PubChem CID 91929631. Tämän PubChem-merkinnän arkistoitu kemiallinen kaava on c15h17n4o3s+. Tämän kaavan mukaan positiivisesti varautuneessa yhdisteessä on 17 vetyatomia. Tämän yhdisteen lähtöainerakenteessa on kuitenkin vain 16 vetyatomia; ylimääräinen vety syntyy yhdisteen protonoitumisesta sen varautuneessa muodossa. Tämän yhdisteen ALATIS-kaava ”C15H16N4O3S” osoittaa oikean atomikoostumuksen 16 vetyatomilla, ja ylimääräinen vety merkitään vastaavalla InChI-merkkijonolla (kerros ”/ p”) ”InChI = 1 s / C15H16N4O3S / c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H, 10H2, (H3,16,17) (H,19,20)/p + 1” . b) PubChem CID 91124997. Yhdisteen kemiallinen kaava Pubchemissa on (C15H16N+). Tällöin positiivinen varaus syntyy kvaternäärisestä typestä, ja yhdisteen oikea koostumus sisältää 16 vetyatomia, mikä vastaa Pubchemin kaavaa. Tämän yhdisteen ALATIS-kaava esittää 16 vetyatomia (C15H16N), ja varausta edustaa kerros (”/q”) vastaavassa standardissa InChI-merkkijono ”InChI = 1 s / C15H16N / c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H, 10H2, 1-2h3/q + 1/t12 – /m0 / s1” .

arkistoitujen 3D-rakenteiden ja InChI-merkkijonojen välistä epäjohdonmukaisuutta

vertasimme talletettuja PubChem InChI-merkkijonoja ALATISIN luomiin (ALATIS käyttää InChI-ohjelmaa v. 1.04 ). Standard InChI strings edustavat ainutlaatuisia yhdistetunnisteita, joita voidaan käyttää ristiviittauksissa5. Nämä merkkijonot koostuvat useista informaatiokerroksista, kuten yhdistekaavoista, raskaiden atomien kovalenttisesta yhteydestä, raskaisiin atomeihin liittyvien vetyatomien määrästä, siraalisuutta edustavasta kerroksesta ja muista isotooppisesti merkittyihin atomeihin ja yhdisteen charge9: ään liittyvistä kerroksista. Käytimme ALATIS käsitellä 3D rakenne tiedostot talletetaan PubChem, ja merkitty merkinnät, jotka vastaavat talletettu InChI merkkijonot eivät vastaa raportoinut ALATIS. Taulukossa 1 esitetään näiden merkittyjen PubChem-merkintöjen eri luokat. Tässä taulukossa Luokka ” atomiyhteydet ”ilmoittaa niiden merkintöjen määrän, jotka on merkitty A) raskaiden atomien kovalenttisen yhteyden (ilmoitettu InChI-merkkijonojen” /c ”- kerroksena) tai b) raskaille atomeille osoitettujen vetyatomien määrän (InChI-merkkijonojen” /h ” – kerros) eroavaisuuksien vuoksi. ’Varausluokka’ ilmoittaa niiden merkittyjen merkintöjen määrän, jotka edustavat eri (de)protonaatiota (inchin”/p” – kerros) tai luontaisia kovalenttisia varauksia (”/q” – kerros). ’Stereokemia’ – luokka näyttää niiden merkintöjen määrän, jotka on merkitty niiden (a) ”/b” – kerroksen InChI-merkkijonoista, joka ilmoittaa yhdisteiden SP2-kaksoissidos stereokemian, tai (b) InChI ”/t” – kerroksesta, joka ilmoittaa kiraalisten keskusten suuntaukset. Huomaamme, että yhdiste voidaan merkitä ja ilmoittaa useissa luokissa. Kaiken kaikkiaan analyysimme merkittiin 32,036,565 merkinnät (noin 33% PubChem merkinnät 3D rakenteita), joilla on ristiriita sen arkistoitu InChI merkkijono ja että syntyy vastaava 3D rakenne ALATIS. Stereokemian virheellinen esitys oli yleisin syy poikkeamaan, jota seurasivat varaus ja atomiyhteys (Taulukko 1). Täydelliset luettelot näistä merkityistä merkinnöistä raportoidaan verkkosivuillamme .

Taulukko 1 merkittyjen PubChem-merkintöjen luokat ja numerot.

alla on esimerkkejä kolmesta merkityn epäjohdonmukaisuuden kategoriasta.

(A) Atomiyhteyksien epäjohdonmukaisuus

kuten edellä todettiin, InChI-standardijonon kerrokset ”/c” ja ”/ h” kuvaavat vastaavasti raskaiden atomien yhteyttä ja niihin liittyvien vetyatomien määrää raskaisiin atomeihin. PubChem merkintä kuvassa. 3 kuvaa tapausta, jossa 3D-rakennetiedosto ja talletetut InChI-Jouset edustavat erillisiä kovalenttisia sidoksia raskaiden atomien välillä. 3D-rakenteen oikea tunnistaminen on olennaista yhdisteiden funktionaalisissa tutkimuksissa, ja tämä epäjohdonmukaisuusluokka voi johtaa virheellisiin johtopäätöksiin.

kuva 3: heavy atom connectivity layer.
figure3

ALATIS tuotti standardinmukaiset InChI-kielet Pubchemin 3D-rakenteille, ja vertaamalla näitä InChI-merkkijonoja tietokannan talletettuihin InChI-kieliin tunnistimme yhdisteitä, joiden liitettävyyskerrokset eivät täsmänneet. Tämä luku on esimerkki tällaisesta poikkeamasta PubChem CID 12300268: n osalta. (a) Representation of the deposited 3D structure for the entry. (b) Representation from the deposited InChI string. Huomaamme, että kovalenttiset sidokset ovat erilaisia näiden kahden rakenteen välillä. Arkistoidun 3D-rakenteen standardi InChI-merkkijono: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H, 9-16H2 ja talletettu InChI-merkkijono: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 tuntia,9-16H2. Bold-font InChI kerrokset osoittavat eroja yhteyden raskaiden atomien kahden InChI Jouset.

(b) varausjakauman epäjohdonmukaisuus

kuten edellä mainittiin, InChI-merkkijonojen ”/p” – ja ”/ q” – kerroksissa esiintyy erillisiä varauksia, jotka johtuvat (de)protonaatiosta tai yhdisteiden sisäisistä kovalenttisista varauksista. Tämän kategorian Liputetut PubChem-merkinnät ovat sellaisia, joissa arkistoitu 3D-rakenne ja InChI-merkkijonot edustavat eri lataustiloja. Kuvassa 4 on esimerkki tästä luokasta.

Kuva 4: inconsistency in charge.
figure4

(a) esitys PubChem CID 2179800: lle arkistoidusta 3D-rakennetiedostosta. b) tälle yhdisteelle varastoidun InChI-merkkijonon Rakenneesitys: ”InChI = 1 s / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H / p-1”. Alatisin ilmoittaman a-rakennetiedoston rakenteen standardi InChI-merkkijono on ”InChI = 1 s / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H / q-1”.

(C) epäjohdonmukaisuus stereokemiassa

(C.1) epäjohdonmukaisuus kaksoissidoksessa sp2 stereokemiassa

yhdisteen rakenteen suuntautuminen kaksoissidoksen ympärillä, olipa konfiguraatio cis tai trans, on kuvattu tarkasti tavallisissa InChI-merkkijonoissa. Nämä suuntaukset, jotka voidaan tunnistaa vain 3D-rakenteissa, on merkitty InChI-merkkijonojen” / b ” – kerroksella. Kuvassa 5 esitetty PubChem-yhdiste näyttää esimerkin ristiriidasta arkistoidun 3D-rakenteen kokoonpanon ja siihen liittyvän InChI-merkkijonon välillä. Tässä esimerkissä PubChem-merkinnän InChI-merkkijono (CID 1551886) sisältää kysymysmerkin ”/b” – kerroksessaan, mikä osoittaa yhdisteen konfiguraation olevan epäselvä. Arkistoitu 3D-rakenne edustaa kuitenkin yhdisteen Trans-konfiguraatiota.

kuva 5: cis – ja trans – konfiguraation epäjohdonmukaisuus.
figure5

esitys PubChem-merkinnälle arkistoidusta 3D-rakenteesta CID 1551886, joka osoittaa määritetyn stereokemian C8: n ja N18: n välisestä kaksoissidoksesta. Kuitenkin InChI-merkkijono arkistoidaan tälle merkinnälle ”InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H / p-2 / b15-7 -, 18-8?”tarkoittaa monitulkintaista suuntautumista C8: n ja N18: n välisen kaksoissidoksen ympärille. Tämän seurauksena ALATISIN rakenteesta syntynyt InChI-merkkijono ei vastannut arkistoitua InChI-merkkijonoa.

(c.2) epäjohdonmukaisuus kiraalisten keskusten stereokemiassa

pienten molekyylien stereokemialla (kiraalisuudella) on tärkeä rooli niiden toiminnan määrittämisessä. Niistä yli 91 miljoonaa PubChem merkinnät 3D rakenteita, meidän laskelmat käyttäen ALATIS osoitti, että yli 55% merkinnät (50,508,180 merkinnät) sisälsi vähintään yksi kiraalinen keskus. Noin 60% näistä merkinnöistä (30,236,352 merkinnät) oli merkitty aikana analyysimme, koska epäjohdonmukaisuuksia stereokemiallinen kerros talletetaan InChI Jouset PubChem ja syntyy ALATIS rakenteista. Täydellinen luettelo näistä merkinnöistä on saatavilla ALATIS verkkosivuilla. Kuvassa 6 on yksi esimerkki näistä merkityistä merkinnöistä.

kuva 6: yhdistelmähiraalisuuden epäjohdonmukaisuus.
figure6

Example from PubChem CID 130156427. (a) Deposited 3D rakenne yhdisteen. (B) rakenne syntyy talletetaan InChI merkkijono. Aaltomainen sidos B: ssä osoittaa monitulkintaista sidoskiraalisuutta. Tämä johtuu siitä, että tämän yhdisteen arkistoitu InChI-merkkijono ”InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H, 13-15h2, 1-4H3, (H,26,29)(H,27, 30)” puuttuu tarvittava stereokemiallinen kerros (”/t”). Tämä InChI kerros löytyy standardin InChI merkkijono raportoi ALATIS: ”InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”