Articles

evaluarea automată a consistenței în baza de date compusă PubChem

am descărcat două seturi de fișiere de structură PubChem arhivate în data de douăzeci decembrie 2017: (i) setul de date „curent complet” format din 94.201.188 intrări cu structurile lor bidimensionale (2D) corespunzătoare stocate în format SDF12 și (ii) setul 91,699,620 intrări cu structurile lor tridimensionale (3D) corespunzătoare stocate în format SDF. Setul de date” Current-Full „a fost necesar deoarece conține metadate care nu sunt disponibile în fișierele” Compound_3D”. Peste 2,5 milioane de intrări în PubChem nu aveau un fișier de structură 3D. Interesant este că toți compușii cu mai mult de 152 de atomi nu aveau structuri 3D (Fig. 1).

Figura 1: histograme care afișează numărul de atomi și mase de intrări în PubChem.
figure1

axa x a histogramelor (a) și (b) reprezintă numărul de atomi dintr-un compus, iar axa y indică numărul de compuși cu numărul corespunzător de atomi. (a) histograma maselor pentru compuși cu mai puțin de 152 de atomi: cele pentru intrările „curent-plin” (structuri 2D) sunt afișate în albastru, iar cele pentru intrările „Compound_3D” sunt afișate în verde. Cutoff-ul de 152 de atomi a fost ales pe baza numărului maxim de atomi din compuși din setul de date „Compound_3D”. (b) contează pentru compușii cu >152 atomi. PubChem nu conține informații despre structura 3D pentru acești compuși. (c) histograma maselor de compuși raportate în fișierele SDF ale intrărilor PubChem „curent-plin”. Majoritatea compușilor din Baza de date au avut mase mai mici de 1.000 Da; cu toate acestea, 11.550 de compuși au avut o masă mai mare de 2.000 Da (Nu este prezentat în (c)) – de exemplu, PubChem CID 23393956 a raportat masa exactă de 59.745, 256 Da.

pentru a testa corectitudinea chiralității atomului, am procesat setul de date Compound_3D cu software-ul ALATIS. Acest pas a generat identificatori unici pentru mai mult de 91 de milioane de compuși și atomii lor constituenți (citarea datelor 1). Rezultatul pentru fiecare intrare a constat din: (i) fișiere de structură în formate SDF, PDB și XYZ care conțin identificatori (etichete) pe bază de ALATIS pentru toți atomii, (ii) o hartă care leagă etichetele atomului de intrare de etichetele atomice unice, (iii) un fișier care conține un șir InChI standard ca identificator unic compus (numit ‘inchi.inchi’), (iv) două fișiere text, denumite ‘avertismente.txt ‘ și ‘ eroare.txt’, care conțin avertismente sau erori legate de analiza ALATIS a unui anumit compus, și (v) un fișier valori separate prin virgulă (CSV), numit ‘meta_data.csv’, care conține metadatele asociate cu acea intrare. Fișierul de metadate conține, pe lângă identificatorul compus PubChem (CID), formula moleculară, greutatea și masa exactă raportate de PubChem, șirul InChI standard corespunzător generat de ALATIS. Pentru a facilita compararea side-by-side a rezultatelor, inclusiv compararea structurilor de intrare 3D și structuri de ieșire ALATIS adnotate cu identificatori atomici unici, am generat o pagină web pentru fiecare compus, care include link-uri de descărcare către toate datele. Am folosit software-ul Jmol pentru a crea afișaje ale structurilor 3D. Identificatorii unici de compuși și atomi, împreună cu informațiile asociate cu intrările PubChem, pot fi accesate prin intermediul site-ului web ALATIS . Utilizatorii pot interoga motorul de căutare de pe acest site cu un Cid PubChem sau un nume compus pentru a prelua ieșirea ALATIS corespunzătoare.

am folosit datele ALATIS-curatoriate pentru a analiza coerența datelor stocate pentru fiecare intrare în PubChem. Rețineți că sinonimele și metadatele sunt arhivate separat de fișierele de structură 3D: sinonimele sunt localizate la și că metadatele sunt stocate ca parte a fișierelor SDF arhivate în setul de date „curent-complet”. Sinonimele au fost utilizate în crearea unui motor de căutare ușor de utilizat pe serverul web ALATIS. Metadatele au fost necesare pentru analiza ulterioară a consecvenței. Subliniem mai jos cele două rezultate majore ale studiului nostru.

inconsecvența dintre structurile și formulele 3D arhivate

formula chimică a unui compus arhivat în PubChem urmează în mod normal Convenția Hill13 și reprezintă structura principală a compusului9. Cu toate acestea, Arhiva PubChem include 1.239.752 formule chimice încărcate, unde taxele sunt notate cu un simbol la sfârșitul formulei chimice. Structura părinte de bază a unui compus indică compoziția compusului înainte de a impune orice sarcini, prin adunarea sau scăderea atomilor de hidrogen. Așa cum este ilustrat de exemplele din Fig. 2, nu este întotdeauna posibil să se determine structura părinte de bază a unui compus din formula sa chimică încărcată. Acest lucru se datorează faptului că, mai degrabă decât rezultă din adunarea sau scăderea protonilor, sarcina ar putea fi intrinsecă structurii covalente a compusului. Astfel, prelucrarea computațională pe scară largă și Curarea bazei de date ar putea duce la rezultate inconsistente sau ambigue în identificarea compozițiilor atomice ale compușilor. Această problemă poate fi abordată prin utilizarea șirurilor InChI standard. Stratul de formulă al șirurilor InChI standard asigură compoziția părintelui de bază al unui compus, iar straturile de încărcare netă („/q”) și protonare („/p”) ale șirurilor InChI reprezintă sarcini ale compușilor. Această separare a sarcinilor de formule facilitează extragerea numărului precis de atomi din fișierul de structură al unui compus sau din formula chimică, precum și indicarea tipurilor de sarcini asociate compusului. Am produs o listă completă a Cid-urilor PubChem cu formule chimice încărcate, împreună cu formulele lor alatis corespunzătoare în format Hill, extrase din șiruri InChI standard. Aceste date sunt disponibile pe site-ul ALATIS.

Figura 2: Exemple de intrări PubChem cu formule chimice încărcate.
figure2

(a) PubChem CID 91929631. Formula chimică arhivată pentru această intrare în PubChem este C15H17N4O3S+. Această formulă indică 17 atomi de hidrogen în compusul încărcat pozitiv. Cu toate acestea, structura principală a acestui compus conține doar 16 atomi de hidrogen; hidrogenul suplimentar rezultă din protonarea compusului în forma sa încărcată. Formula ALATIS pentru acest compus „C15H16N4O3S” arată compoziția atomică corectă cu 16 atomi de hidrogen, iar hidrogenul suplimentar este indicat în șirul InChI corespunzător (stratul „/ p”) „InChI = 1 s / C15H16N4O3S / c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H, 10h2, (H3,16,17)(H,19, 20)/p + 1” . (B) PubChem CID 91124997. Formula chimică pentru acest compus în PubChem este (C15H16N+). În acest caz, sarcina pozitivă provine din azotul cuaternar, iar compoziția corectă a compusului conține 16 atomi de hidrogen, care se potrivește cu formula din PubChem. Formula ALATIS pentru acest compus arată cei 16 atomi de hidrogen (C15H16N), iar sarcina este reprezentată de strat („/q”) în șirul InChI standard corespunzător „InChI = 1 s / C15H16N/c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H, 10H2, 1-2H3/q + 1/t12 – /m0 / s1” .

inconsecvență între structurile 3D arhivate și șirurile InChI

am comparat șirurile PubChem InChI depuse cu cele generate de ALATIS (ALATIS utilizează programul InChI v.1.04). Șirurile InChI Standard reprezintă identificatori compuși unici care pot fi utilizați pentru referențierea încrucișată a intrărilor din diferite baze de date5. Aceste șiruri constau din mai multe straturi de informații, inclusiv formule compuse, conectivitate covalentă între atomii grei, numărul de atomi de hidrogen asociați cu atomii grei, un strat care să reprezinte chiralitatea și alte straturi asociate cu atomi marcați izotopic și încărcări compuse9. Am folosit ALATIS pentru a procesa fișierele de structură 3D depuse în PubChem și am marcat intrările pentru care șirurile InChI depuse corespunzător nu au reușit să se potrivească cu cele raportate de ALATIS. Tabelul 1 prezintă diferite categorii ale acestor intrări PubChem marcate. În acest tabel, categoria ” conectivitate atomică „raportează numărul de intrări marcate din cauza discrepanțelor în (a) conectivitate covalentă între atomii grei (raportat în stratul” /c „al șirurilor InChI) sau (b) Numărul de atomi de hidrogen atribuiți atomilor grei (stratul” /h ” al șirurilor InChI). Categoria ” Încărcare „raportează numărul de intrări marcate care reprezintă diferite (de)protonare (stratul” /p „al InChI) sau sarcini covalente intrinseci (stratul” /q”). Categoria ” stereochimie „arată numărul de intrări care au fost marcate din cauza discrepanțelor în stratul lor (a)” /b „de șiruri InChI care raportează stereochimia cu dublă legătură sp2 a compușilor sau stratul (b) InChI” /t ” care raportează orientările centrelor chirale. Observăm că un compus ar putea fi marcat și raportat în mai multe categorii. În general, analizele noastre au semnalat 32.036.565 de intrări (aproximativ 33% din intrările PubChem cu structuri 3D) ca având o discrepanță între șirul InChI arhivat și cel generat din structura 3D corespunzătoare de ALATIS. Reprezentarea necorespunzătoare a stereochimiei a fost cel mai frecvent motiv pentru discrepanță, urmat de încărcare și conectivitate atomică (Tabelul 1). Listele Complete ale acestor intrări marcate sunt raportate pe site-ul nostru .

Tabelul 1 categorii și numere de intrări PubChem marcate.

oferim mai jos exemple din cele trei categorii de inconsecvențe semnalate.

(a) inconsecvența conectivității atomului

după cum s-a menționat mai sus, straturile „/c” și „/ h” din șirul InChI standard reprezintă conectivitatea atomilor grei și, respectiv, numărul de atomi de hidrogen asociați cu atomii grei. Intrarea PubChem prezentată în Fig. 3 ilustrează un caz în care fișierul de structură 3D și șirurile InChI depuse reprezintă legături covalente distincte între atomii grei. Identificarea corectă a structurii 3D este esențială în investigațiile funcționale ale compușilor, iar această categorie de inconsecvență ar putea duce la concluzii eronate.

Figura 3: inconsecvență în stratul de conectivitate a atomilor grei.
figure3

ALATIS a generat șiruri InChI standard pentru structurile 3D din PubChem, iar prin compararea acestor șiruri InChI cu șirurile InChI depuse în baza de date, am identificat compuși ale căror straturi de conectivitate nu se potriveau. Această figură prezintă un exemplu de astfel de discrepanță pentru PubChem Cid 12300268. (a) reprezentarea structurii 3D depuse pentru intrare. (b) reprezentarea din șirul InChI depus. Observăm că legăturile covalente sunt diferite între cele două structuri. Șirul InChI standard al structurii 3D arhivate: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H,9-16H2 și șirul InChI depus: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 ore, 9-16 ore 2. Straturile inchi cu caractere aldine indică discrepanțele dintre conectivitatea atomilor grei din cele două șiruri InChI.

(b) inconsecvență în distribuția sarcinii

după cum s-a menționat mai sus, sarcinile distincte datorate (de)protonării sau sarcinilor covalente intrinseci ale compușilor sunt reprezentate în straturile „/p” și „/ q” ale șirurilor InChI. Intrările PubChem marcate în această categorie sunt cele în care structura 3D arhivată și șirurile InChI reprezintă diferite stări de încărcare. Figura 4 prezintă un exemplu din această categorie.

Figura 4: inconsecvență în sarcină.
figure4

(a) reprezentarea fișierului de structură 3D arhivat pentru PubChem CID 2179800. (b) reprezentarea structurală a șirului InChI stocat pentru acel compus: „InChI = 1 s / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H/p-1”. Șirul InChI standard pentru structura din fișierul de structură (a) raportat de ALATIS este „InChI = 1 s / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8h / q-1”.

(c) inconsecvență în stereochimie

(c.1) inconsecvență în stereochimie sp2 cu dublă legătură

orientarea structurii unui compus despre o legătură dublă, indiferent dacă configurația este cis sau trans, este captată exact în șiruri InChI standard. Aceste orientări, care pot fi identificate numai în structurile 3D, sunt indicate în stratul „/b” Al șirurilor InChI. Compusul PubChem prezentat în Figura 5 afișează un exemplu de discrepanță între configurația structurii 3D arhivate și șirul InChI asociat. În acest exemplu, șirul InChI de intrare PubChem (CID 1551886) conține un semn de întrebare în stratul său „/b”, ceea ce indică faptul că configurația compusului este ambiguă. Cu toate acestea, structura 3D arhivată reprezintă configurația trans a compusului.

Figura 5: inconsecvență în cis – și trans – configurare.
figure5

reprezentarea structurii 3D arhivate pentru intrarea PubChem CID 1551886, care arată o stereochimie definită despre dubla legătură dintre C8 și N18. Cu toate acestea, șirul InChI arhivat pentru această intrare „InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H / p-2 / b15-7 -, 18-8?”denotă o orientare ambiguă în jurul dublei legături dintre C8 și N18. Drept urmare, șirul InChI generat din structură de ALATIS nu a reușit să se potrivească cu șirul InChI arhivat.

(c.2) inconsecvență în stereochimia centrelor chirale

stereochimia (chiralitatea) moleculelor mici joacă un rol vital în determinarea funcției lor. Dintre cele peste 91 de milioane de intrări PubChem cu structuri 3D, calculele noastre folosind ALATIS au indicat că mai mult de 55% Din intrări (50.508.180 de intrări) conțineau cel puțin un centru chiral. Aproximativ 60% din aceste intrări (30.236.352 intrări) au fost semnalate în timpul analizei noastre, din cauza inconsecvențelor dintre stratul stereochimic al șirurilor InChI depuse în PubChem și cele generate de ALATIS din structuri. Lista completă a acestor intrări este accesibilă de pe site-ul web ALATIS. Figura 6 prezintă un exemplu din aceste intrări marcate.

Figura 6: inconsecvență în chiralitatea compusului.
figure6

exemplu din PubChem CID 130156427. (a) structura 3D depusă a compusului. (b) structura generată din șirul InChI depus. Legătura ondulată din (b) indică o Chiralitate ambiguă a legăturii. Acest lucru se datorează faptului că șirul InChI arhivat pentru acest compus ” InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H, 13-15h2,1-4H3,(H,26,29)(H,27,30)” nu are stratul stereochimic necesar („/t”). Acest strat InChI poate fi găsit în șirul standard InChI raportat de ALATIS: „InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”