Articles

a PubChem Compound database-en belüli konzisztencia automatizált értékelése

2017.December huszadikán két archivált PubChem structure állományt töltöttünk le: (i) A 94 201 188 bejegyzésből álló “jelenlegi teljes” adatkészletet, a hozzájuk tartozó kétdimenziós (2D) struktúrákkal SDF12 formátumban tárolva, és (ii) a “Compound_3D” adatkészletet, amely SDF12 formátumban 91 699 620 bejegyzés a megfelelő háromdimenziós (3D) struktúrákkal SDF formátumban tárolva. Az “aktuális-teljes” adatkészletre azért volt szükség, mert olyan metaadatokat tartalmaz, amelyek nem állnak rendelkezésre a “Compound_3D” fájlokban. A PubChem több mint 2,5 millió bejegyzésének nem volt 3D-s struktúrafájlja. Érdekes, hogy minden 152 atomnál több vegyületnek nem volt 3D szerkezete (ábra. 1).

1.ábra: hisztogramok, amelyek a PubChem bejegyzéseinek atomszámát és tömegét mutatják.
1.ábra

az (a) és (b) hisztogramok x tengelye a vegyületben lévő atomok számát, az y tengely pedig a megfelelő atomszámú vegyületek számát jelzi. (a) A 152 atomnál kevesebb vegyület tömegének Hisztogramja: az “aktuális-teljes” bejegyzések (2D struktúrák) kék színnel, a “Compound_3D” bejegyzések pedig zöld színnel jelennek meg. A 152 atomos határértéket a “Compound_3D” adatkészletben lévő vegyületek maximális atomszáma alapján választottuk meg. (b) számít a vegyületek >152 atomok. A PubChem nem tartalmaz 3D szerkezeti információkat ezekre a vegyületekre vonatkozóan. c) a vegyületek tömegének Hisztogramja a PubChem “Current-Full” bejegyzéseinek SDF fájljaiban leírtak szerint. Az adatbázisban szereplő vegyületek többségének tömege kevesebb, mint 1000 Da volt; azonban 11 550 vegyület tömege meghaladta a 2000 Da – t (a c) pontban nem szerepel) – például a PubChem CID 23393956 59 745,256 Da pontos tömegét jelentette.

az atom kiralitás helyességének vizsgálata érdekében a Compound_3D adatkészletet az ALATIS szoftverrel dolgoztuk fel. Ez a lépés egyedi azonosítókat hozott létre több mint 91 millió vegyületre és alkotó atomjaikra (Data Citation 1). Az egyes bejegyzések kimenete a következőkből állt: (I) strukturált fájlok SDF, PDB és XYZ formátumban, amelyek ALATIS-alapú azonosítókat (címkéket) tartalmaznak az összes atom számára, (ii) egy térkép, amely összeköti a bemeneti atom címkéket az egyedi atomcímkékkel, (iii) egy szabványos InChI karakterláncot tartalmazó fájl egyedi összetett azonosítóként (inchi néven).inchi’), (iv) két szöveges fájl, nevük ‘ figyelmeztetések.txt ‘ és ‘ hiba.txt’, amely figyelmeztetéseket vagy hibákat tartalmaz egy adott vegyület ALATIS elemzésével kapcsolatban, valamint (v) egy vesszővel elválasztott érték (CSV) fájlt, amelynek neve ‘meta_data.csv’, amely tartalmazza az adott bejegyzéshez társított metaadatokat. A metaadatfájl a PubChem compound identifier (CID) mellett tartalmazza a PubChem által jelentett molekuláris képletet, súlyt és pontos tömeget, az alatis által generált megfelelő standard InChI karakterláncot. Az eredmények egymás melletti összehasonlításának megkönnyítése érdekében, beleértve a bemeneti 3D struktúrák és az alatis kimeneti struktúrák összehasonlítását egyedi atomazonosítókkal, minden egyes vegyülethez létrehoztunk egy weboldalt, amely az összes adat letöltési linkjét tartalmazza. A Jmol szoftvert használtuk a 3D struktúrák megjelenítéséhez. Az egyedi vegyület-és atomazonosítók, valamint a PubChem bejegyzésekhez kapcsolódó információk az ALATIS weboldalán keresztül érhetők el . A felhasználók lekérdezhetik a keresőmotort ezen a weboldalon PubChem CID-vel vagy összetett névvel a megfelelő ALATIS kimenet lekéréséhez.

az ALATIS által kurált adatokat használtuk a PubChem egyes bejegyzéseihez tárolt adatok konzisztenciájának elemzésére. Vegye figyelembe, hogy a szinonimák és metaadatok archiválása külön történik a 3D-s struktúrafájloktól: a szinonimák a következő helyen találhatók, és hogy a metaadatokat az “aktuális-teljes” adatkészletben archivált SDF fájlok részeként tárolják . A szinonimákat felhasználóbarát keresőmotor létrehozásához használták az ALATIS webszerveren. A metaadatokra a későbbi konzisztencia elemzéshez volt szükség. Az alábbiakban kiemeljük tanulmányunk két fő eredményét.

ellentmondás az archivált 3D struktúrák és képletek között

a Pubchemben archivált vegyület kémiai képlete általában a Hill konvencion13-t követi, és a vegyület mag-szülőszerkezetét9 képviseli. A PubChem archívum azonban 1 239 752 töltött kémiai képletet tartalmaz, ahol a töltéseket a kémiai képlet végén egy szimbólum jelöli. A vegyület mag szülőszerkezete jelzi a vegyület összetételét, mielőtt bármilyen töltést kivetne, hidrogénatomok hozzáadásával vagy kivonásával. Amint azt az ábrán látható példák szemléltetik. A 2.ábrán nem mindig lehet meghatározni egy vegyület mag szülőszerkezetét a töltött kémiai képletéből. Ennek oka az, hogy ahelyett, hogy protonok összeadásából vagy kivonásából származna, a töltés belső lehet a vegyület kovalens szerkezetéhez. Így az adatbázis nagyszabású számítási feldolgozása és kurálása következetlen vagy kétértelmű eredményekhez vezethet a vegyületek atomösszetételeinek azonosításában. Ezt a problémát a szokásos InChI húrok felhasználásával lehet megoldani. A standard InChI húrok képletrétege adja meg a vegyület mag szülőjének összetételét, az InChI húrok nettó töltésrétegei (“/q”) és protonációs (“/p”) rétegei pedig a vegyületek töltését jelentik. A töltéseknek a képletektől való elválasztása megkönnyíti az atomok pontos számának kinyerését a vegyület szerkezeti fájljában vagy kémiai képletében, valamint jelzi a vegyülethez kapcsolódó töltések típusát. Elkészítettük a PubChem Cid-K teljes listáját töltött kémiai képletekkel, a megfelelő ALATIS-képletekkel Hill formátumban, a szokásos InChI húrokból kivonva. Ezek az adatok az ALATIS weboldalán érhetők el.

2.ábra: példák PubChem bejegyzésekre töltött kémiai képletekkel.
figure2

(a) PubChem CID 91929631. A PubChem bejegyzésének archivált kémiai képlete C15H17N4O3S+. Ez a képlet 17 hidrogénatomot jelez a pozitív töltésű vegyületben. Ennek a vegyületnek a mag szülőszerkezete azonban csak 16 hidrogénatomot tartalmaz; a további hidrogén a vegyület töltött formában történő protonálásából származik. Ennek a vegyületnek a “C15H16N4O3S” ALATIS képlete a helyes atomösszetételt mutatja 16 hidrogénatommal, a további hidrogént pedig a megfelelő InChI-húr (réteg “/p”) “InChI = 1 S/C15H16N4O3S/c16 jelzi-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 óra,10 óra 2,(H3,16,17)(H,19,20)/p + 1” . B) PubChem CID 91124997. Ennek a vegyületnek a kémiai képlete a Pubchemben (C15H16N+). Ebben az esetben a pozitív töltés a kvaterner nitrogénből származik, és a vegyület helyes összetétele 16 hidrogénatomot tartalmaz, amely megfelel a PubChem képletének. Ennek a vegyületnek az ALATIS képlete a 16 hidrogénatomot (C15H16N) mutatja, a töltést pedig réteg (“/q”) képviseli a megfelelő standard InChI karakterláncban “InChI = 1 S / C15H16N/c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H,10h2,1-2h3/q + 1/t12-/m0/s1” .

következetlenség az archivált 3D struktúrák és az InChI karakterláncok között

összehasonlítottuk a letétbe helyezett PubChem InChI karakterláncokat az ALATIS által generált karakterláncokkal (az ALATIS az InChI program v.1.04-et használja). A szabványos InChI karakterláncok egyedi összetett azonosítókat képviselnek, amelyek felhasználhatók a különböző adatbázisok bejegyzéseinek kereszthivatkozásához5. Ezek a húrok több információrétegből állnak, beleértve az összetett képleteket, a nehéz atomok közötti kovalens kapcsolatot, a nehéz atomokhoz kapcsolódó hidrogénatomok számát, A kiralitást képviselő réteget, valamint az izotóppal jelölt atomokhoz és összetett töltésekhez kapcsolódó egyéb rétegeket9. Az ALATIS-t használtuk a Pubchemben elhelyezett 3D-s struktúrafájlok feldolgozásához, és megjelöltük azokat a bejegyzéseket, amelyeknél a megfelelő letétbe helyezett InChI karakterláncok nem egyeztek meg az ALATIS által jelentettekkel. Táblázat 1 a megjelölt PubChem bejegyzések különböző kategóriáit mutatja. Ebben a táblázatban az “Atomkapcsolat” Kategória az (a) kovalens kapcsolat a nehéz atomok között (az InChI húrok “/c” rétegében) vagy (b) a nehéz atomokhoz rendelt hidrogénatomok száma (az InChI húrok “/h ” rétege). A “töltés” kategória a megjelölt bejegyzések számát jelenti, amelyek különböző (de)protonációt (InChI”/p” rétege) vagy belső kovalens töltéseket (“/q” réteg) képviselnek. A “sztereokémia” kategória azon bejegyzések számát mutatja, amelyeket megjelöltek az InChI húrok (a) “/b” rétegének eltérései miatt, amelyek a vegyületek sp2 kettős kötésű sztereokémiáját jelentik, vagy (b) InChI “/t” réteg, amely a királis központok orientációit jelenti. Megjegyezzük, hogy egy vegyületet több kategóriában lehet megjelölni és jelenteni. Összességében elemzéseink 32 036 565 bejegyzést jelöltek meg (a PubChem bejegyzések körülbelül 33% – a 3D struktúrákkal), amelyek eltérést mutatnak az archivált InChI karakterlánc és az ALATIS megfelelő 3D struktúrájából generált karakterlánc között. Az eltérés leggyakoribb oka a sztereokémia helytelen ábrázolása volt, ezt követte a töltés és az atomkapcsolat (1.táblázat). A megjelölt bejegyzések teljes listáját a weboldalunkon közöljük .

1.táblázat kategóriák és megjelölt PubChem bejegyzések száma.

az alábbiakban példákat mutatunk be a megjelölt következetlenségek három kategóriájából.

(a) következetlenség az atomkapcsolatban

amint fentebb megjegyeztük, a standard InChI-húrban a “/c” és a “/h” rétegek a nehéz atomok kapcsolatát, illetve a kapcsolódó hidrogénatomok számát jelentik a nehéz atomokhoz. A PubChem bejegyzés ábrán látható. A 3. ábra egy olyan esetet mutat be, amelyben a 3D struktúrafájl és a lerakódott InChI húrok különböző kovalens kötéseket képviselnek a nehéz atomok között. A 3D struktúra helyes azonosítása elengedhetetlen a vegyületek funkcionális vizsgálatához, és ez a következetlenségi kategória téves következtetésekhez vezethet.

3.ábra: következetlenség a nehéz atom csatlakozási rétegében.
figure3

az ALATIS szabványos InChI karakterláncokat hozott létre a PubChem 3D struktúráihoz, és ezeket az InChI karakterláncokat az adatbázisban elhelyezett InChI karakterláncokkal összehasonlítva azonosítottuk azokat a vegyületeket, amelyek kapcsolati rétegei nem egyeztek. Ez az ábra egy példát mutat a PubChem CID 12300268 ilyen eltérésére. (a) ábrázolása a letétbe helyezett 3D struktúra a bejegyzés. b) A letétbe helyezett InChI-húr ábrázolása. Megjegyezzük, hogy a kovalens kötések különböznek a két szerkezet között. Az archivált 3D struktúra standard InChI karakterlánca: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H,9-16H2, és a letétbe helyezett InChI húr: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 óra,9-16H2. A félkövér betűs InChI rétegek jelzik az eltéréseket a nehéz atomok összekapcsolhatósága között a két InChI húrban.

(b) a töltéseloszlás következetlensége

mint fentebb említettük, a vegyületek (de)protonációjából vagy belső kovalens töltéseiből származó különálló töltések az InChI húrok “/p” és “/q” rétegeiben vannak ábrázolva. Az ebben a kategóriában megjelölt PubChem bejegyzések azok, amelyekben az archivált 3D struktúra és az InChI karakterláncok különböző töltési állapotokat képviselnek. A 4.ábra egy példát mutat be ebből a kategóriából.

4.ábra: inkonzisztencia a felelősségben.
figure4

(a) a PubChem CID 2179800 számára archivált 3D struktúrafájl ábrázolása. b) az adott vegyülethez tárolt InChI-húr szerkezeti ábrázolása: “InChI = 1 S / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 óra / p-1”. Az ALATIS által jelentett (a) struktúrafájl struktúrájának szabványos InChI karakterlánca “InChI = 1 S / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H / q-1”.

(c) következetlenség a sztereokémiában

(c.1) következetlenség a kettős kötésben sp2 sztereokémia

a vegyület szerkezetének orientációját a kettős kötésről, függetlenül attól, hogy a konfiguráció cisz vagy transz, pontosan a standard InChI húrokban rögzítik. Ezeket az orientációkat, amelyeket csak 3D struktúrákban lehet azonosítani, az InChI húrok “/b” rétegében jelöljük. Az 5. ábrán látható PubChem vegyület az archivált 3D struktúra konfigurációja és a hozzá tartozó InChI karakterlánc közötti eltérésre mutat példát. Ebben a példában a PubChem bejegyzés InChI karakterlánca (CID 1551886) kérdőjelet tartalmaz a “/b” rétegében, ami azt jelzi, hogy a vegyület konfigurációja kétértelmű. Az archivált 3D struktúra azonban a vegyület transz konfigurációját képviseli.

5.ábra: következetlenség a cisz – és transz – konfigurációban.
figure5

a PubChem Cid 1551886 bejegyzéséhez archivált 3D struktúra ábrázolása, amely egy meghatározott sztereokémiát mutat a C8 és N18 közötti kettős kötésről. Az InChI karakterlánc azonban archiválva van ehhez a bejegyzéshez ” InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H / p-2 / b15-7 -, 18-8?”a C8 és N18 közötti kettős kötés körüli kétértelmű orientációt jelöl. Ennek eredményeként az ALATIS által a struktúrából generált InChI karakterlánc nem felelt meg az archivált InChI karakterláncnak.

(c.2) következetlenség a királis központok sztereokémiájában

a kis molekulák sztereokémiája (kiralitása) létfontosságú szerepet játszik funkciójuk meghatározásában. A több mint 91 millió PubChem 3D struktúrájú bejegyzés közül az ALATIS-t használó számításaink azt mutatták, hogy a bejegyzések több mint 55% – a (50 508 180 bejegyzés) legalább egy királis központot tartalmazott. Ezeknek a bejegyzéseknek körülbelül 60% – át (30 236 352 bejegyzés) jelölték meg elemzésünk során, a Pubchemben lerakódott InChI húrok sztereokémiai rétege és az alatis által a struktúrákból generált következetlenségek miatt. Ezen bejegyzések teljes listája elérhető az ALATIS honlapján. A 6. ábra egy példát mutat be ezekből a megjelölt bejegyzésekből.

6.ábra: az összetett kiralitás következetlensége.
figure6

példa a PubChem CID 130156427-ből. (a) letétbe 3D szerkezete a vegyület. (b) A letétbe helyezett InChI karakterláncból generált szerkezet. A hullámos kötés a (b) – ben kétértelmű kötési kiralitást jelez. Ennek oka az, hogy az archivált InChI karakterlánc ehhez a vegyülethez “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15h2,1-4H3,(H,26,29)(H,27,30)” hiányzik a szükséges sztereokémiai réteg (“/t”). Ez az InChI réteg megtalálható az ALATIS által jelentett standard InChI karakterláncban: “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”