evaluarea automată a consistenței în baza de date compusă PubChem
am descărcat două seturi de fișiere de structură PubChem arhivate în data de douăzeci decembrie 2017: (i) setul de date „curent complet” format din 94.201.188 intrări cu structurile lor bidimensionale (2D) corespunzătoare stocate în format SDF12 și (ii) setul 91,699,620 intrări cu structurile lor tridimensionale (3D) corespunzătoare stocate în format SDF. Setul de date” Current-Full „a fost necesar deoarece conține metadate care nu sunt disponibile în fișierele” Compound_3D”. Peste 2,5 milioane de intrări în PubChem nu aveau un fișier de structură 3D. Interesant este că toți compușii cu mai mult de 152 de atomi nu aveau structuri 3D (Fig. 1).
pentru a testa corectitudinea chiralității atomului, am procesat setul de date Compound_3D cu software-ul ALATIS. Acest pas a generat identificatori unici pentru mai mult de 91 de milioane de compuși și atomii lor constituenți (citarea datelor 1). Rezultatul pentru fiecare intrare a constat din: (i) fișiere de structură în formate SDF, PDB și XYZ care conțin identificatori (etichete) pe bază de ALATIS pentru toți atomii, (ii) o hartă care leagă etichetele atomului de intrare de etichetele atomice unice, (iii) un fișier care conține un șir InChI standard ca identificator unic compus (numit ‘inchi.inchi’), (iv) două fișiere text, denumite ‘avertismente.txt ‘ și ‘ eroare.txt’, care conțin avertismente sau erori legate de analiza ALATIS a unui anumit compus, și (v) un fișier valori separate prin virgulă (CSV), numit ‘meta_data.csv’, care conține metadatele asociate cu acea intrare. Fișierul de metadate conține, pe lângă identificatorul compus PubChem (CID), formula moleculară, greutatea și masa exactă raportate de PubChem, șirul InChI standard corespunzător generat de ALATIS. Pentru a facilita compararea side-by-side a rezultatelor, inclusiv compararea structurilor de intrare 3D și structuri de ieșire ALATIS adnotate cu identificatori atomici unici, am generat o pagină web pentru fiecare compus, care include link-uri de descărcare către toate datele. Am folosit software-ul Jmol pentru a crea afișaje ale structurilor 3D. Identificatorii unici de compuși și atomi, împreună cu informațiile asociate cu intrările PubChem, pot fi accesate prin intermediul site-ului web ALATIS . Utilizatorii pot interoga motorul de căutare de pe acest site cu un Cid PubChem sau un nume compus pentru a prelua ieșirea ALATIS corespunzătoare.
am folosit datele ALATIS-curatoriate pentru a analiza coerența datelor stocate pentru fiecare intrare în PubChem. Rețineți că sinonimele și metadatele sunt arhivate separat de fișierele de structură 3D: sinonimele sunt localizate la și că metadatele sunt stocate ca parte a fișierelor SDF arhivate în setul de date „curent-complet”. Sinonimele au fost utilizate în crearea unui motor de căutare ușor de utilizat pe serverul web ALATIS. Metadatele au fost necesare pentru analiza ulterioară a consecvenței. Subliniem mai jos cele două rezultate majore ale studiului nostru.
- inconsecvența dintre structurile și formulele 3D arhivate
- inconsecvență între structurile 3D arhivate și șirurile InChI
- (a) inconsecvența conectivității atomului
- (b) inconsecvență în distribuția sarcinii
- (c) inconsecvență în stereochimie
- (c.1) inconsecvență în stereochimie sp2 cu dublă legătură
- (c.2) inconsecvență în stereochimia centrelor chirale
inconsecvența dintre structurile și formulele 3D arhivate
formula chimică a unui compus arhivat în PubChem urmează în mod normal Convenția Hill13 și reprezintă structura principală a compusului9. Cu toate acestea, Arhiva PubChem include 1.239.752 formule chimice încărcate, unde taxele sunt notate cu un simbol la sfârșitul formulei chimice. Structura părinte de bază a unui compus indică compoziția compusului înainte de a impune orice sarcini, prin adunarea sau scăderea atomilor de hidrogen. Așa cum este ilustrat de exemplele din Fig. 2, nu este întotdeauna posibil să se determine structura părinte de bază a unui compus din formula sa chimică încărcată. Acest lucru se datorează faptului că, mai degrabă decât rezultă din adunarea sau scăderea protonilor, sarcina ar putea fi intrinsecă structurii covalente a compusului. Astfel, prelucrarea computațională pe scară largă și Curarea bazei de date ar putea duce la rezultate inconsistente sau ambigue în identificarea compozițiilor atomice ale compușilor. Această problemă poate fi abordată prin utilizarea șirurilor InChI standard. Stratul de formulă al șirurilor InChI standard asigură compoziția părintelui de bază al unui compus, iar straturile de încărcare netă („/q”) și protonare („/p”) ale șirurilor InChI reprezintă sarcini ale compușilor. Această separare a sarcinilor de formule facilitează extragerea numărului precis de atomi din fișierul de structură al unui compus sau din formula chimică, precum și indicarea tipurilor de sarcini asociate compusului. Am produs o listă completă a Cid-urilor PubChem cu formule chimice încărcate, împreună cu formulele lor alatis corespunzătoare în format Hill, extrase din șiruri InChI standard. Aceste date sunt disponibile pe site-ul ALATIS.
inconsecvență între structurile 3D arhivate și șirurile InChI
am comparat șirurile PubChem InChI depuse cu cele generate de ALATIS (ALATIS utilizează programul InChI v.1.04). Șirurile InChI Standard reprezintă identificatori compuși unici care pot fi utilizați pentru referențierea încrucișată a intrărilor din diferite baze de date5. Aceste șiruri constau din mai multe straturi de informații, inclusiv formule compuse, conectivitate covalentă între atomii grei, numărul de atomi de hidrogen asociați cu atomii grei, un strat care să reprezinte chiralitatea și alte straturi asociate cu atomi marcați izotopic și încărcări compuse9. Am folosit ALATIS pentru a procesa fișierele de structură 3D depuse în PubChem și am marcat intrările pentru care șirurile InChI depuse corespunzător nu au reușit să se potrivească cu cele raportate de ALATIS. Tabelul 1 prezintă diferite categorii ale acestor intrări PubChem marcate. În acest tabel, categoria ” conectivitate atomică „raportează numărul de intrări marcate din cauza discrepanțelor în (a) conectivitate covalentă între atomii grei (raportat în stratul” /c „al șirurilor InChI) sau (b) Numărul de atomi de hidrogen atribuiți atomilor grei (stratul” /h ” al șirurilor InChI). Categoria ” Încărcare „raportează numărul de intrări marcate care reprezintă diferite (de)protonare (stratul” /p „al InChI) sau sarcini covalente intrinseci (stratul” /q”). Categoria ” stereochimie „arată numărul de intrări care au fost marcate din cauza discrepanțelor în stratul lor (a)” /b „de șiruri InChI care raportează stereochimia cu dublă legătură sp2 a compușilor sau stratul (b) InChI” /t ” care raportează orientările centrelor chirale. Observăm că un compus ar putea fi marcat și raportat în mai multe categorii. În general, analizele noastre au semnalat 32.036.565 de intrări (aproximativ 33% din intrările PubChem cu structuri 3D) ca având o discrepanță între șirul InChI arhivat și cel generat din structura 3D corespunzătoare de ALATIS. Reprezentarea necorespunzătoare a stereochimiei a fost cel mai frecvent motiv pentru discrepanță, urmat de încărcare și conectivitate atomică (Tabelul 1). Listele Complete ale acestor intrări marcate sunt raportate pe site-ul nostru .
oferim mai jos exemple din cele trei categorii de inconsecvențe semnalate.
(a) inconsecvența conectivității atomului
după cum s-a menționat mai sus, straturile „/c” și „/ h” din șirul InChI standard reprezintă conectivitatea atomilor grei și, respectiv, numărul de atomi de hidrogen asociați cu atomii grei. Intrarea PubChem prezentată în Fig. 3 ilustrează un caz în care fișierul de structură 3D și șirurile InChI depuse reprezintă legături covalente distincte între atomii grei. Identificarea corectă a structurii 3D este esențială în investigațiile funcționale ale compușilor, iar această categorie de inconsecvență ar putea duce la concluzii eronate.
(b) inconsecvență în distribuția sarcinii
după cum s-a menționat mai sus, sarcinile distincte datorate (de)protonării sau sarcinilor covalente intrinseci ale compușilor sunt reprezentate în straturile „/p” și „/ q” ale șirurilor InChI. Intrările PubChem marcate în această categorie sunt cele în care structura 3D arhivată și șirurile InChI reprezintă diferite stări de încărcare. Figura 4 prezintă un exemplu din această categorie.
(c) inconsecvență în stereochimie
(c.1) inconsecvență în stereochimie sp2 cu dublă legătură
orientarea structurii unui compus despre o legătură dublă, indiferent dacă configurația este cis sau trans, este captată exact în șiruri InChI standard. Aceste orientări, care pot fi identificate numai în structurile 3D, sunt indicate în stratul „/b” Al șirurilor InChI. Compusul PubChem prezentat în Figura 5 afișează un exemplu de discrepanță între configurația structurii 3D arhivate și șirul InChI asociat. În acest exemplu, șirul InChI de intrare PubChem (CID 1551886) conține un semn de întrebare în stratul său „/b”, ceea ce indică faptul că configurația compusului este ambiguă. Cu toate acestea, structura 3D arhivată reprezintă configurația trans a compusului.
(c.2) inconsecvență în stereochimia centrelor chirale
stereochimia (chiralitatea) moleculelor mici joacă un rol vital în determinarea funcției lor. Dintre cele peste 91 de milioane de intrări PubChem cu structuri 3D, calculele noastre folosind ALATIS au indicat că mai mult de 55% Din intrări (50.508.180 de intrări) conțineau cel puțin un centru chiral. Aproximativ 60% din aceste intrări (30.236.352 intrări) au fost semnalate în timpul analizei noastre, din cauza inconsecvențelor dintre stratul stereochimic al șirurilor InChI depuse în PubChem și cele generate de ALATIS din structuri. Lista completă a acestor intrări este accesibilă de pe site-ul web ALATIS. Figura 6 prezintă un exemplu din aceste intrări marcate.