a PubChem Compound database-en belüli konzisztencia automatizált értékelése
2017.December huszadikán két archivált PubChem structure állományt töltöttünk le: (i) A 94 201 188 bejegyzésből álló “jelenlegi teljes” adatkészletet, a hozzájuk tartozó kétdimenziós (2D) struktúrákkal SDF12 formátumban tárolva, és (ii) a “Compound_3D” adatkészletet, amely SDF12 formátumban 91 699 620 bejegyzés a megfelelő háromdimenziós (3D) struktúrákkal SDF formátumban tárolva. Az “aktuális-teljes” adatkészletre azért volt szükség, mert olyan metaadatokat tartalmaz, amelyek nem állnak rendelkezésre a “Compound_3D” fájlokban. A PubChem több mint 2,5 millió bejegyzésének nem volt 3D-s struktúrafájlja. Érdekes, hogy minden 152 atomnál több vegyületnek nem volt 3D szerkezete (ábra. 1).
az atom kiralitás helyességének vizsgálata érdekében a Compound_3D adatkészletet az ALATIS szoftverrel dolgoztuk fel. Ez a lépés egyedi azonosítókat hozott létre több mint 91 millió vegyületre és alkotó atomjaikra (Data Citation 1). Az egyes bejegyzések kimenete a következőkből állt: (I) strukturált fájlok SDF, PDB és XYZ formátumban, amelyek ALATIS-alapú azonosítókat (címkéket) tartalmaznak az összes atom számára, (ii) egy térkép, amely összeköti a bemeneti atom címkéket az egyedi atomcímkékkel, (iii) egy szabványos InChI karakterláncot tartalmazó fájl egyedi összetett azonosítóként (inchi néven).inchi’), (iv) két szöveges fájl, nevük ‘ figyelmeztetések.txt ‘ és ‘ hiba.txt’, amely figyelmeztetéseket vagy hibákat tartalmaz egy adott vegyület ALATIS elemzésével kapcsolatban, valamint (v) egy vesszővel elválasztott érték (CSV) fájlt, amelynek neve ‘meta_data.csv’, amely tartalmazza az adott bejegyzéshez társított metaadatokat. A metaadatfájl a PubChem compound identifier (CID) mellett tartalmazza a PubChem által jelentett molekuláris képletet, súlyt és pontos tömeget, az alatis által generált megfelelő standard InChI karakterláncot. Az eredmények egymás melletti összehasonlításának megkönnyítése érdekében, beleértve a bemeneti 3D struktúrák és az alatis kimeneti struktúrák összehasonlítását egyedi atomazonosítókkal, minden egyes vegyülethez létrehoztunk egy weboldalt, amely az összes adat letöltési linkjét tartalmazza. A Jmol szoftvert használtuk a 3D struktúrák megjelenítéséhez. Az egyedi vegyület-és atomazonosítók, valamint a PubChem bejegyzésekhez kapcsolódó információk az ALATIS weboldalán keresztül érhetők el . A felhasználók lekérdezhetik a keresőmotort ezen a weboldalon PubChem CID-vel vagy összetett névvel a megfelelő ALATIS kimenet lekéréséhez.
az ALATIS által kurált adatokat használtuk a PubChem egyes bejegyzéseihez tárolt adatok konzisztenciájának elemzésére. Vegye figyelembe, hogy a szinonimák és metaadatok archiválása külön történik a 3D-s struktúrafájloktól: a szinonimák a következő helyen találhatók, és hogy a metaadatokat az “aktuális-teljes” adatkészletben archivált SDF fájlok részeként tárolják . A szinonimákat felhasználóbarát keresőmotor létrehozásához használták az ALATIS webszerveren. A metaadatokra a későbbi konzisztencia elemzéshez volt szükség. Az alábbiakban kiemeljük tanulmányunk két fő eredményét.
- ellentmondás az archivált 3D struktúrák és képletek között
- következetlenség az archivált 3D struktúrák és az InChI karakterláncok között
- (a) következetlenség az atomkapcsolatban
- (b) a töltéseloszlás következetlensége
- (c) következetlenség a sztereokémiában
- (c.1) következetlenség a kettős kötésben sp2 sztereokémia
- (c.2) következetlenség a királis központok sztereokémiájában
ellentmondás az archivált 3D struktúrák és képletek között
a Pubchemben archivált vegyület kémiai képlete általában a Hill konvencion13-t követi, és a vegyület mag-szülőszerkezetét9 képviseli. A PubChem archívum azonban 1 239 752 töltött kémiai képletet tartalmaz, ahol a töltéseket a kémiai képlet végén egy szimbólum jelöli. A vegyület mag szülőszerkezete jelzi a vegyület összetételét, mielőtt bármilyen töltést kivetne, hidrogénatomok hozzáadásával vagy kivonásával. Amint azt az ábrán látható példák szemléltetik. A 2.ábrán nem mindig lehet meghatározni egy vegyület mag szülőszerkezetét a töltött kémiai képletéből. Ennek oka az, hogy ahelyett, hogy protonok összeadásából vagy kivonásából származna, a töltés belső lehet a vegyület kovalens szerkezetéhez. Így az adatbázis nagyszabású számítási feldolgozása és kurálása következetlen vagy kétértelmű eredményekhez vezethet a vegyületek atomösszetételeinek azonosításában. Ezt a problémát a szokásos InChI húrok felhasználásával lehet megoldani. A standard InChI húrok képletrétege adja meg a vegyület mag szülőjének összetételét, az InChI húrok nettó töltésrétegei (“/q”) és protonációs (“/p”) rétegei pedig a vegyületek töltését jelentik. A töltéseknek a képletektől való elválasztása megkönnyíti az atomok pontos számának kinyerését a vegyület szerkezeti fájljában vagy kémiai képletében, valamint jelzi a vegyülethez kapcsolódó töltések típusát. Elkészítettük a PubChem Cid-K teljes listáját töltött kémiai képletekkel, a megfelelő ALATIS-képletekkel Hill formátumban, a szokásos InChI húrokból kivonva. Ezek az adatok az ALATIS weboldalán érhetők el.
következetlenség az archivált 3D struktúrák és az InChI karakterláncok között
összehasonlítottuk a letétbe helyezett PubChem InChI karakterláncokat az ALATIS által generált karakterláncokkal (az ALATIS az InChI program v.1.04-et használja). A szabványos InChI karakterláncok egyedi összetett azonosítókat képviselnek, amelyek felhasználhatók a különböző adatbázisok bejegyzéseinek kereszthivatkozásához5. Ezek a húrok több információrétegből állnak, beleértve az összetett képleteket, a nehéz atomok közötti kovalens kapcsolatot, a nehéz atomokhoz kapcsolódó hidrogénatomok számát, A kiralitást képviselő réteget, valamint az izotóppal jelölt atomokhoz és összetett töltésekhez kapcsolódó egyéb rétegeket9. Az ALATIS-t használtuk a Pubchemben elhelyezett 3D-s struktúrafájlok feldolgozásához, és megjelöltük azokat a bejegyzéseket, amelyeknél a megfelelő letétbe helyezett InChI karakterláncok nem egyeztek meg az ALATIS által jelentettekkel. Táblázat 1 a megjelölt PubChem bejegyzések különböző kategóriáit mutatja. Ebben a táblázatban az “Atomkapcsolat” Kategória az (a) kovalens kapcsolat a nehéz atomok között (az InChI húrok “/c” rétegében) vagy (b) a nehéz atomokhoz rendelt hidrogénatomok száma (az InChI húrok “/h ” rétege). A “töltés” kategória a megjelölt bejegyzések számát jelenti, amelyek különböző (de)protonációt (InChI”/p” rétege) vagy belső kovalens töltéseket (“/q” réteg) képviselnek. A “sztereokémia” kategória azon bejegyzések számát mutatja, amelyeket megjelöltek az InChI húrok (a) “/b” rétegének eltérései miatt, amelyek a vegyületek sp2 kettős kötésű sztereokémiáját jelentik, vagy (b) InChI “/t” réteg, amely a királis központok orientációit jelenti. Megjegyezzük, hogy egy vegyületet több kategóriában lehet megjelölni és jelenteni. Összességében elemzéseink 32 036 565 bejegyzést jelöltek meg (a PubChem bejegyzések körülbelül 33% – a 3D struktúrákkal), amelyek eltérést mutatnak az archivált InChI karakterlánc és az ALATIS megfelelő 3D struktúrájából generált karakterlánc között. Az eltérés leggyakoribb oka a sztereokémia helytelen ábrázolása volt, ezt követte a töltés és az atomkapcsolat (1.táblázat). A megjelölt bejegyzések teljes listáját a weboldalunkon közöljük .
az alábbiakban példákat mutatunk be a megjelölt következetlenségek három kategóriájából.
(a) következetlenség az atomkapcsolatban
amint fentebb megjegyeztük, a standard InChI-húrban a “/c” és a “/h” rétegek a nehéz atomok kapcsolatát, illetve a kapcsolódó hidrogénatomok számát jelentik a nehéz atomokhoz. A PubChem bejegyzés ábrán látható. A 3. ábra egy olyan esetet mutat be, amelyben a 3D struktúrafájl és a lerakódott InChI húrok különböző kovalens kötéseket képviselnek a nehéz atomok között. A 3D struktúra helyes azonosítása elengedhetetlen a vegyületek funkcionális vizsgálatához, és ez a következetlenségi kategória téves következtetésekhez vezethet.
(b) a töltéseloszlás következetlensége
mint fentebb említettük, a vegyületek (de)protonációjából vagy belső kovalens töltéseiből származó különálló töltések az InChI húrok “/p” és “/q” rétegeiben vannak ábrázolva. Az ebben a kategóriában megjelölt PubChem bejegyzések azok, amelyekben az archivált 3D struktúra és az InChI karakterláncok különböző töltési állapotokat képviselnek. A 4.ábra egy példát mutat be ebből a kategóriából.
(c) következetlenség a sztereokémiában
(c.1) következetlenség a kettős kötésben sp2 sztereokémia
a vegyület szerkezetének orientációját a kettős kötésről, függetlenül attól, hogy a konfiguráció cisz vagy transz, pontosan a standard InChI húrokban rögzítik. Ezeket az orientációkat, amelyeket csak 3D struktúrákban lehet azonosítani, az InChI húrok “/b” rétegében jelöljük. Az 5. ábrán látható PubChem vegyület az archivált 3D struktúra konfigurációja és a hozzá tartozó InChI karakterlánc közötti eltérésre mutat példát. Ebben a példában a PubChem bejegyzés InChI karakterlánca (CID 1551886) kérdőjelet tartalmaz a “/b” rétegében, ami azt jelzi, hogy a vegyület konfigurációja kétértelmű. Az archivált 3D struktúra azonban a vegyület transz konfigurációját képviseli.
(c.2) következetlenség a királis központok sztereokémiájában
a kis molekulák sztereokémiája (kiralitása) létfontosságú szerepet játszik funkciójuk meghatározásában. A több mint 91 millió PubChem 3D struktúrájú bejegyzés közül az ALATIS-t használó számításaink azt mutatták, hogy a bejegyzések több mint 55% – a (50 508 180 bejegyzés) legalább egy királis központot tartalmazott. Ezeknek a bejegyzéseknek körülbelül 60% – át (30 236 352 bejegyzés) jelölték meg elemzésünk során, a Pubchemben lerakódott InChI húrok sztereokémiai rétege és az alatis által a struktúrákból generált következetlenségek miatt. Ezen bejegyzések teljes listája elérhető az ALATIS honlapján. A 6. ábra egy példát mutat be ezekből a megjelölt bejegyzésekből.