Figura 1: Istogrammi che mostrano il numero di atomi e masse di voci in PubChem.
L’asse x degli istogrammi (a) e (b) rappresenta il numero di atomi in un composto e l’asse y indica il numero di composti con il corrispondente numero di atomi. (a) Istogramma delle masse per composti con meno di 152 atomi: quelli per le voci “Current-Full” (strutture 2D) sono mostrati in blu e quelli per le voci “Compound_3D” sono mostrati in verde. Il cutoff di 152 atomi è stato scelto in base al numero massimo di atomi nei composti nel set di dati “Compound_3D”. (b) Conta per composti con>152 atomi. PubChem non contiene informazioni sulla struttura 3D per questi composti. c) Istogramma delle masse di composti come riportato nei file SDF delle voci “Current-Full” di PubChem. La maggior parte dei composti nel database aveva masse inferiori a 1.000 Da; tuttavia, 11.550 composti avevano massa superiore a 2.000 Da (non mostrato in (c)) – ad esempio, PubChem CID 23393956 ha riportato la massa esatta di 59.745, 256 Da.
Per sondare la correttezza della chiralità dell’atomo, abbiamo elaborato il set di dati Compound_3D con il software ALATIS. Questo passaggio ha generato identificatori univoci per oltre 91 milioni di composti e i loro atomi costituenti (Data Citation 1). L’output per ogni voce consisteva in: (i) file di struttura in formati SDF, PDB e XYZ contenenti identificatori basati su ALATIS (etichette) per tutti gli atomi, (ii) una mappa che collega le etichette degli atomi di input alle etichette degli atomi univoci, (iii) un file contenente una stringa InChI standard come identificatore composto univoco (chiamato ‘inchi.inchi’), (iv) due file di testo, denominati ‘avvertimenti.txt ‘ e ‘ errore.txt’, che contengono avvisi o errori relativi all’analisi ALATIS di un particolare composto, e (v) un file CSV (comma-separated values), denominato ‘meta_data.csv’, contenente i metadati associati a tale voce. Il file di metadati contiene, oltre al PubChem Compound Identifier (CID), formula molecolare, peso e massa esatta come riportato da PubChem, la stringa InChI standard corrispondente generata da ALATIS. Per facilitare il confronto side-by-side dei risultati, compreso il confronto delle strutture di input 3D e delle strutture di output ALATIS annotate con identificatori di atomi univoci, abbiamo generato una pagina Web per ogni composto, che include i link di download a tutti i dati. Abbiamo utilizzato il software Jmol per creare display delle strutture 3D. Gli identificatori unici di composti e atomi, insieme alle informazioni associate alle voci PubChem, sono accessibili tramite il sito Web di ALATIS . Gli utenti possono interrogare il motore di ricerca su questo sito Web con un CID PubChem o un nome composto per recuperare l’output ALATIS corrispondente.
Abbiamo utilizzato i dati curati da ALATIS per analizzare la coerenza dei dati memorizzati per ogni voce in PubChem. Si noti che i sinonimi e i metadati vengono archiviati separatamente dai file di struttura 3D: i sinonimi si trovano e che i metadati vengono archiviati come parte dei file SDF archiviati nel set di dati” Current-Full”. I sinonimi sono stati utilizzati per creare un motore di ricerca user-friendly sul server web ALATIS. I metadati erano necessari per la successiva analisi di coerenza. Evidenziamo di seguito i due principali risultati del nostro studio.
Incoerenza tra le strutture e le formule 3D archiviate
La formula chimica di un composto archiviato in PubChem segue normalmente la convenzione di hill13 e rappresenta la struttura principale del compound9. Tuttavia, l’archivio PubChem include 1.239.752 formule chimiche cariche, in cui le cariche sono indicate da un simbolo alla fine della formula chimica. La struttura principale di un composto indica la composizione del composto prima di imporre qualsiasi carica, attraverso l’aggiunta o la sottrazione di atomi di idrogeno. Come illustrato dagli esempi in Fig. 2, non è sempre possibile determinare la struttura principale genitore di un composto dalla sua formula chimica carica. Questo perché, piuttosto che derivare dall’aggiunta o dalla sottrazione di protoni, la carica potrebbe essere intrinseca alla struttura covalente del composto. Pertanto, l’elaborazione computazionale su larga scala e la cura del database potrebbero portare a risultati incoerenti o ambigui nell’identificazione delle composizioni atomiche dei composti. Questo problema può essere risolto utilizzando stringhe InChI standard. Lo strato formula delle stringhe InChI standard fornisce la composizione del genitore principale di un composto, e gli strati di carica netta (“/q”) e protonazione (“/p”) delle stringhe InChI rappresentano cariche di composti. Questa separazione delle cariche dalle formule facilita l’estrazione del numero preciso di atomi nel file di struttura di un composto o nella formula chimica, oltre a indicare i tipi di cariche associate al composto. Abbiamo prodotto un elenco completo di CID PubChem con formule chimiche cariche, insieme alle loro corrispondenti formule ALATIS in formato Hill estratte da stringhe InChI standard. Questi dati sono disponibili sul sito web di ALATIS.
Figura 2: Esempi di voci PubChem con formule chimiche cariche.
(a) PubChem CID 91929631. La formula chimica archiviata per questa voce in PubChem è C15H17N4O3S+. Questa formula indica 17 atomi di idrogeno nel composto caricato positivamente. Tuttavia, la struttura principale di questo composto contiene solo 16 atomi di idrogeno; l’idrogeno aggiuntivo deriva dalla protonazione del composto nella sua forma carica. Il ALATIS formula per questo composto “C15H16N4O3S” mostra il corretto atom composizione con 16 atomi di idrogeno, e l’ulteriore idrogeno è indicato nella corrispondente InChI string (layer “/p”) “InChI = 1 S/C15H16N4O3S/c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H,10H2,(H3,16,17)(H,19,20)/p + 1” . b) PubChem CID 91124997. La formula chimica per questo composto in PubChem è (C15H16N+). In questo caso, la carica positiva deriva dall’azoto quaternario e la corretta composizione del composto contiene 16 atomi di idrogeno, che corrisponde alla formula in PubChem. La formula ALATIS per questo composto mostra i 16 atomi di idrogeno (C15H16N) e la carica è rappresentata dallo strato (“/q”) nella corrispondente stringa InChI standard “InChI = 1 S / C15H16N / c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H, 10H2, 1-2H3/q + 1 / t12 – /m0 / s1” .
Incoerenza tra le strutture 3D archiviate e le stringhe InChI
Abbiamo confrontato le stringhe PubChem INCHI depositate con quelle generate da ALATIS (ALATIS utilizza il programma INCHI v. 1.04 ). Le stringhe InChI standard rappresentano identificatori composti univoci che possono essere utilizzati per riferimenti incrociati di voci provenienti da database diversi5. Queste stringhe sono costituiti da diversi strati di informazioni, tra cui formule composte, connettività covalente tra atomi pesanti, il numero di atomi di idrogeno associati con atomi pesanti, uno strato per rappresentare chiralità, e altri strati associati con atomi isotopicamente etichettati e cariche composite9. Abbiamo usato ALATIS per elaborare i file di struttura 3D depositati in PubChem e contrassegnato le voci per le quali le stringhe InChI depositate corrispondenti non corrispondevano a quelle riportate da ALATIS. La tabella 1 mostra diverse categorie di queste voci PubChem contrassegnate. In questa tabella, la categoria’ Atom connectivity ‘ riporta il numero di voci contrassegnate a causa di discrepanze in (a) connettività covalente tra atomi pesanti (riportato nello strato “/c” di stringhe InChI) o (b) il numero di atomi di idrogeno assegnati agli atomi pesanti (strato”/h” di stringhe InChI). La categoria ” Carica “riporta il numero di voci contrassegnate che rappresentano diverse (de)protonazione (strato” /p “di InChI) o cariche covalenti intrinseche (strato” /q”). La categoria ‘Stereochimica’ mostra il numero di voci che sono state contrassegnate a causa di discrepanze nel loro strato (a) “/b” di stringhe InChI che riporta la stereochimica a doppio legame sp2 dei composti, o strato (b) InChI “/t” che riporta gli orientamenti dei centri chirali. Notiamo che un composto potrebbe essere contrassegnato e segnalato in più categorie. Nel complesso, le nostre analisi hanno segnalato 32.036.565 voci (circa il 33% delle voci PubChem con strutture 3D) come aventi una discrepanza tra la stringa InChI archiviata e quella generata dalla corrispondente struttura 3D di ALATIS. La rappresentazione impropria della stereochimica era la ragione più comune per la discrepanza, seguita dalla carica e dalla connettività atom (Tabella 1). Gli elenchi completi di queste voci contrassegnate sono riportati sul nostro sito web .
Tabella 1 Categorie e numeri di voci PubChem contrassegnate.
Forniamo di seguito esempi delle tre categorie di incongruenze segnalate.
(a) Incoerenza nella connettività degli atomi
Come notato sopra, gli strati “/c” e ” / h” nella stringa InChI standard rappresentano rispettivamente la connettività degli atomi pesanti e il numero di atomi di idrogeno associati agli atomi pesanti. La voce PubChem mostrato in Fig. 3 illustra un caso in cui il file di struttura 3D e le stringhe InChI depositate rappresentano legami covalenti distinti tra atomi pesanti. La corretta identificazione della struttura 3D è essenziale nelle indagini funzionali dei composti e questa categoria di incoerenza potrebbe portare a conclusioni errate.
Figura 3: Incoerenza nel livello di connettività atom pesante.
figure3
ALATIS ha generato stringhe InChI standard per strutture 3D in PubChem, e confrontando queste stringhe InChI con le stringhe INCHI depositate nel database, abbiamo identificato composti i cui livelli di connettività non corrispondevano. Questa figura mostra un esempio di tale discrepanza per PubChem CID 12300268. (a) Rappresentazione della struttura 3D depositata per l’ingresso. (b) Rappresentazione dalla stringa InChI depositata. Notiamo che i legami covalenti sono diversi tra le due strutture. Standard InChI stringa archiviata struttura 3D: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-H 18,9-16H2, e depositato InChI stringa: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-H 18,9-16H2. I livelli InChI in grassetto indicano le discrepanze tra la connettività degli atomi pesanti nelle due stringhe InChI.
(b) Incoerenza nella distribuzione delle cariche
Come menzionato sopra, cariche distinte dovute alla (de)protonazione o cariche covalenti intrinseche dei composti sono rappresentate negli strati “/ p” e ” / q” delle stringhe InChI. Le voci PubChem contrassegnate in questa categoria sono quelle in cui la struttura 3D archiviata e le stringhe InChI rappresentano stati di carica diversi. Figura 4 mostra un esempio da questa categoria.
Figura 4: Incoerenza in carica.
(a) Rappresentazione del file di struttura 3D archiviato per PubChem CID 2179800. (b) Rappresentazione strutturale della stringa InChI memorizzata per quel composto: “InChI = 1 S / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H/p-1″. La stringa InChI standard per la struttura in (a) file di struttura riportato da ALATIS è ” InChI = 1 S / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H/q-1″.
(c) Incoerenza nella stereochimica
(c.1) Incoerenza nella stereochimica sp2 a doppio legame
L’orientamento della struttura di un composto su un doppio legame, sia che la configurazione sia cis o trans, viene catturato precisamente nelle stringhe InChI standard. Questi orientamenti, che possono essere identificati solo nelle strutture 3D, sono indicati nel livello “/ b ” delle stringhe InChI. Il composto PubChem mostrato in Figura 5 mostra un esempio di discrepanza tra la configurazione della struttura 3D archiviata e la stringa InChI associata. In questo esempio, la stringa InChI della voce PubChem (CID 1551886) contiene un punto interrogativo nel suo livello “/b”, che indica che la configurazione del composto è ambigua. Tuttavia, la struttura 3D archiviata rappresenta la configurazione trans del composto.
Figura 5: Incoerenza nella configurazione cis e trans.
Rappresentazione della struttura 3D archiviata per la voce PubChem CID 1551886, che mostra una stereochimica definita sul doppio legame tra C8 e N18. Tuttavia, la stringa InChI archiviata per questa voce “InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H / p-2 / b15-7 -, 18-8?”denota un orientamento ambiguo attorno al doppio legame tra C8 e N18. Di conseguenza, la stringa InChI generata dalla struttura di ALATIS non è riuscita a corrispondere alla stringa InChI archiviata.
(c.2) Incoerenza nella stereochimica dei centri chirali
La stereochimica (chiralità) delle piccole molecole gioca un ruolo vitale nel determinare la loro funzione. Tra gli oltre 91 milioni di voci PubChem con strutture 3D, i nostri calcoli utilizzando ALATIS hanno indicato che oltre il 55% delle voci (50.508.180 voci) conteneva almeno un centro chirale. Circa il 60% di queste voci (30.236.352 voci) sono state segnalate durante la nostra analisi, a causa di incongruenze tra lo strato stereochimico delle stringhe InChI depositate in PubChem e quelle generate da ALATIS dalle strutture. L’elenco completo di queste voci è accessibile dal sito web di ALATIS. La figura 6 mostra un esempio di queste voci contrassegnate.
Figura 6: Incoerenza nella chiralità composta.
Esempio da PubChem CID 130156427. (a) Struttura 3D depositata del composto. (b) Struttura generata dalla stringa InChI depositata. Il legame ondulato in (b) indica una chiralità del legame ambiguo. Questo è perché il archiviati InChI stringa per questo composto “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 ore,13-15H2,1-4H3,(H,26,29)(H,27,30)” manca il necessario stereochimica layer (“/t”). Questo livello InChI può essere trovato nella stringa InChI standard riportata da ALATIS: “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”