Articles

Evaluación automatizada de la consistencia dentro de la base de datos de Compuestos PubChem

Descargamos dos conjuntos de archivos de estructura PubChem archivados el 20 de diciembre de 2017: (i) el conjunto de datos «Current-Full» que consta de 94.201.188 entradas con sus correspondientes estructuras bidimensionales (2D) almacenadas en formato SDF12, y (ii) el conjunto de datos «Compound_3D 91.699.620 entradas con sus correspondientes estructuras tridimensionales (3D) almacenadas en formato SDF. Se necesitaba el conjunto de datos» Current-Full «porque contiene metadatos que no están disponibles en los archivos» Compound_3D». Más de 2,5 millones de entradas en el PubChem no tenían un archivo de estructura 3D. Curiosamente, todos los compuestos con más de 152 átomos no tenían estructuras 3D (Fig. 1).

Figura 1: Histogramas que muestran el número de átomos y masas de entradas en PubChem.
figura 1.

El eje x de los histogramas (a) y (b) representa el número de átomos en un compuesto, y el eje y indica el número de compuestos con el correspondiente número de átomos. (a) Histograma de masas para compuestos con menos de 152 átomos: los de entradas «Llenas de corriente» (estructuras 2D) se muestran en azul, y los de las entradas «Compound_3D» se muestran en verde. El corte de 152 átomos se eligió en base al número máximo de átomos en compuestos en el conjunto de datos «Compound_3D». b) Recuentos de compuestos con > 152 átomos. PubChem no contiene información de estructura 3D para estos compuestos. c) Histograma de masas de compuestos consignadas en los archivos SDF de las entradas PubChem «Con corriente completa». La mayoría de los compuestos en la base de datos tenían masas inferiores a 1.000 Da; sin embargo, 11.550 compuestos tenían una masa superior a 2.000 Da (no se muestra en (c)) – por ejemplo, PubChem CID 23393956 reportó la masa exacta de 59.745, 256 Da.

Para probar la corrección de la quiralidad del átomo, procesamos el conjunto de datos Compound_3D con el software ALATIS. Este paso generó identificadores únicos para más de 91 millones de compuestos y sus átomos constituyentes (Cita de datos 1). El resultado de cada entrada consistió en: (i) archivos de estructura en formatos SDF, PDB y XYZ que contienen identificadores (etiquetas) basados en ALATIS para todos los átomos, (ii) un mapa que vincula las etiquetas de los átomos de entrada a las etiquetas de los átomos únicos, (iii) un archivo que contiene una cadena InChI estándar como identificador compuesto único (llamado ‘inchi.inchi’), (iv) dos archivos de texto, llamados ‘advertencias.txt ‘ y ‘ error.txt’, que contiene advertencias o errores relacionados con el análisis de ALATIS de un compuesto en particular, y (v) un archivo de valores separados por comas (CSV), llamado ‘meta_data.csv’, que contiene los metadatos asociados a esa entrada. El archivo de metadatos contiene, además del identificador compuesto PubChem (CID), la fórmula molecular, el peso y la masa exacta según lo informado por PubChem, la cadena InChI estándar correspondiente generada por ALATIS. Para facilitar la comparación de resultados en paralelo, incluida la comparación de estructuras 3D de entrada y estructuras de salida de ALATIS anotadas con identificadores de átomos únicos, hemos generado una página web para cada compuesto, que incluye enlaces de descarga a todos los datos. Utilizamos el software Jmol para crear pantallas de las estructuras 3D. Los identificadores únicos de compuestos y átomos, junto con la información asociada con las entradas de PubChem, se pueden acceder a través del sitio web de ALATIS . Los usuarios pueden consultar el motor de búsqueda en este sitio web con un PubChem CID o un nombre compuesto para recuperar la salida ALATIS correspondiente.

Utilizamos los datos curados por ALATIS para analizar la consistencia de los datos almacenados para cada entrada en PubChem. Tenga en cuenta que los sinónimos y metadatos se archivan por separado de los archivos de estructura 3D: los sinónimos se encuentran en y que los metadatos se almacenan como parte de archivos SDF archivados en el conjunto de datos «Actual lleno». Los sinónimos se utilizaron para crear un motor de búsqueda fácil de usar en el servidor web de ALATIS. Los metadatos eran necesarios para el posterior análisis de coherencia. A continuación, destacamos los dos resultados principales de nuestro estudio.

Inconsistencia entre las estructuras 3D archivadas y las fórmulas

La fórmula química de un compuesto archivado en PubChem normalmente sigue la convención Hill13 y representa la estructura principal del compound9. Sin embargo, el archivo de PubChem incluye 1.239.752 fórmulas químicas cargadas, donde las cargas se indican con un símbolo al final de la fórmula química. La estructura madre del núcleo de un compuesto indica la composición del compuesto antes de imponer cargas, mediante la adición o sustracción de átomos de hidrógeno. Como se ilustra en los ejemplos de la Fig. 2, no siempre es posible determinar la estructura principal de un compuesto a partir de su fórmula química cargada. Esto se debe a que, en lugar de resultar de la adición o sustracción de protones, la carga podría ser intrínseca a la estructura covalente del compuesto. Por lo tanto, el procesamiento computacional a gran escala y la conservación de la base de datos podrían conducir a resultados inconsistentes o ambiguos en la identificación de las composiciones de átomos de los compuestos. Este problema se puede resolver utilizando cadenas InChI estándar. La capa de fórmula de cadenas de InChI estándar proporciona la composición del núcleo padre de un compuesto, y las capas de carga neta («/q») y protonación («/p») de cadenas de InChI representan cargas de compuestos. Esta separación de cargas de fórmulas facilita la extracción del número preciso de átomos en el archivo de estructura o fórmula química de un compuesto, así como la indicación de los tipos de cargas asociadas con el compuesto. Hemos producido una lista completa de PubChem CIDs con fórmulas químicas cargadas, junto con sus correspondientes fórmulas de ALATIS en formato Hill extraídas de cuerdas InChI estándar. Estos datos están disponibles en el sitio web de ALATIS.

Figura 2: Ejemplos de entradas de PubChem con fórmulas químicas cargadas.
figura 2

(a) PubChem CID 91929631. La fórmula química archivada para esta entrada en PubChem es C15H17N4O3S+. Esta fórmula indica 17 átomos de hidrógeno en el compuesto cargado positivamente. Sin embargo, la estructura principal de este compuesto contiene solo 16 átomos de hidrógeno; el hidrógeno adicional resulta de la protonación del compuesto en su forma cargada. La fórmula de ALATIS para este compuesto «C15H16N4O3S» muestra la composición correcta del átomo con 16 átomos de hidrógeno, y el hidrógeno adicional se indica en la cadena de InChI correspondiente (capa «/ p») «InChI = 1 S / C15H16N4O3S / c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H,10H2, (H3,16,17)(H, 19, 20)/p + 1» . b) PubChem CID 91124997. La fórmula química de este compuesto en PubChem es (C15H16N+). En este caso, la carga positiva surge del nitrógeno cuaternario, y la composición correcta del compuesto contiene 16 átomos de hidrógeno, que coincide con la fórmula de PubChem. La fórmula de ALATIS para este compuesto muestra los 16 átomos de hidrógeno (C15H16N), y la carga está representada por la capa («/q») en la cadena de InChI estándar correspondiente «InChI = 1 S / C15H16N / c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H, 10H2, 1-2H3/q + 1/t12-/m0/s1» .

Inconsistencia entre las estructuras 3D archivadas y las cadenas InChI

Comparamos las cadenas PubChem InChI depositadas con las generadas por ALATIS (ALATIS utiliza el programa InChI v. 1.04). Las cadenas InChI estándar representan identificadores compuestos únicos que se pueden usar para hacer referencias cruzadas de entradas de diferentes datas5. Estas cadenas consisten en varias capas de información, incluyendo fórmulas compuestas, conectividad covalente entre átomos pesados, el número de átomos de hidrógeno asociados con átomos pesados, una capa para representar quiralidad y otras capas asociadas con átomos etiquetados isotópicamente y cargas compuestas 9. Utilizamos ALATIS para procesar los archivos de estructura 3D depositados en PubChem, y las entradas marcadas para las que las cadenas InChI depositadas correspondientes no coincidían con las reportadas por ALATIS. La tabla 1 muestra diferentes categorías de estas entradas PubChem marcadas. En esta tabla, la categoría ‘Conectividad de átomos’ informa el número de entradas marcadas debido a discrepancias en (a) la conectividad covalente entre átomos pesados (reportada en la capa «/c» de cadenas InChI) o (b) el número de átomos de hidrógeno asignados a los átomos pesados (capa»/h» de cadenas InChI). La categoría’ Carga ‘informa el número de entradas marcadas que representan diferentes (de)protonación (capa»/p» de InChI) o cargas covalentes intrínsecas (capa»/q»). La categoría’ Estereoquímica ‘ muestra el número de entradas que han sido marcadas debido a discrepancias en su capa (a) «/b» de cadenas InChI que reporta estereoquímica de doble enlace sp2 de los compuestos, o capa (b) InChI «/t» que reporta orientaciones de centros quirales. Observamos que un compuesto podría ser marcado y reportado en múltiples categorías. En general, nuestros análisis marcaron 32.036.565 entradas (aproximadamente el 33% de las entradas de PubChem con estructuras 3D) como que tenían una discrepancia entre su cadena InChI archivada y la generada a partir de la estructura 3D correspondiente por ALATIS. La representación inadecuada de la estereoquímica fue la razón más común de discrepancia, seguida de la carga y la conectividad de átomos (Tabla 1). Las listas completas de estas entradas marcadas se informan en nuestro sitio web .

Categorías de la tabla 1 y números de entradas de PubChem marcadas.

A continuación proporcionamos ejemplos de las tres categorías de inconsistencias marcadas.

(a) Inconsistencia en la conectividad de átomos

Como se señaló anteriormente, las capas «/c» y «/h» en la cadena InChI estándar representan la conectividad de átomos pesados y el número de átomos de hidrógeno asociados a los átomos pesados, respectivamente. La entrada de PubChem que se muestra en la Fig. 3 ilustra un caso en el que el archivo de estructura 3D y las cadenas InChI depositadas representan enlaces covalentes distintos entre átomos pesados. La identificación correcta de la estructura 3D es esencial en las investigaciones funcionales de compuestos, y esta categoría de inconsistencia podría llevar a conclusiones erróneas.

Figura 3: Inconsistencia en la capa de conectividad de átomo pesado.
figura 3

ALATIS generado estándar InChI cadenas de estructuras 3D en PubChem, y comparando estos InChI cadenas con el depositados InChI cadenas en la base de datos, hemos identificado los compuestos cuya conectividad capas no coincidan. Esta figura muestra un ejemplo de tal discrepancia para PubChem CID 12300268. (a) Representación de la estructura 3D depositada para la entrada. (b) Representación de la cadena InChI depositada. Observamos que los enlaces covalentes son diferentes entre las dos estructuras. La cadena InChI estándar de la estructura 3D archivada: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H,9-16H2, y la cuerda InChI depositada: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 H, 9-16H2. Las capas de InChI en negrita indican las discrepancias entre la conectividad de átomos pesados en las dos cadenas de InChI.

(b) Inconsistencia en la distribución de carga

Como se mencionó anteriormente, las cargas distintas debidas a (de)protonación o cargas covalentes intrínsecas de los compuestos están representadas en las capas «/p» y «/q» de cadenas InChI. Las entradas PubChem marcadas en esta categoría son aquellas en las que la estructura 3D archivada y las cadenas InChI representan diferentes estados de carga. La Figura 4 muestra un ejemplo de esta categoría.

Figura 4: Inconsistencia a cargo.
figure4

(a) Representación del archivo de estructura 3D archivado para PubChem CID 2179800. (b) Representación estructural de la cadena InChI almacenada para ese compuesto: «InChI = 1 S / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H / p-1». La cadena InChI estándar para la estructura en (a) archivo de estructura reportado por ALATIS es «InChI = 1 S / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H / q-1».

(c) Inconsistencia en estereoquímica

(c. 1) Inconsistencia en estereoquímica sp2 de doble enlace

La orientación de la estructura de un compuesto sobre un doble enlace, ya sea que la configuración sea cis o trans, se captura con precisión en cadenas InChI estándar. Estas orientaciones, que solo se pueden identificar en estructuras 3D, se indican en la capa» /b » de cadenas InChI. El compuesto PubChem mostrado en la Figura 5 muestra un ejemplo de discrepancia entre la configuración de la estructura 3D archivada y su cadena InChI asociada. En este ejemplo, la cadena InChI de la entrada PubChem (CID 1551886) contiene un signo de interrogación en su capa «/b», que indica que la configuración del compuesto es ambigua. Sin embargo, la estructura 3D archivada representa la configuración trans del compuesto.

Figura 5: Inconsistencia en la configuración cis y trans.
figura 5

Representación de la estructura 3D archivada para la entrada PubChem CID 1551886, que muestra una estereoquímica definida sobre el doble enlace entre C8 y N18. Sin embargo, la cadena InChI archivada para esta entrada «InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H / p-2 / b15-7-,18-8?»denota una orientación ambigua alrededor del doble enlace entre C8 y N18. Como resultado, la cadena InChI generada a partir de la estructura por ALATIS no pudo coincidir con la cadena INCHI archivada.

(c. 2) Inconsistencia en estereoquímica de centros quirales

La estereoquímica (quiralidad) de moléculas pequeñas juega un papel vital en la determinación de su función. Entre los más de 91 millones de entradas PubChem con estructuras 3D, nuestros cálculos utilizando ALATIS indicaron que más del 55% de las entradas (50.508.180 entradas) contenían al menos un centro quiral. Alrededor del 60% de estas entradas (30.236.352 entradas) fueron marcadas durante nuestro análisis, debido a inconsistencias entre la capa estereoquímica de las cuerdas InChI depositadas en PubChem y las generadas por ALATIS a partir de las estructuras. La lista completa de estas entradas se puede consultar en el sitio web de ALATIS. La Figura 6 muestra un ejemplo de estas entradas marcadas.

Figura 6: Inconsistencia en el compuesto quiral.
figura 6

Ejemplo de PubChem CID 130156427. a) Estructura 3D depositada del compuesto. (b) Estructura generada a partir de la cadena InChI depositada. El enlace ondulado en (b) indica una quiralidad de enlace ambigua. Esto se debe a que la cadena InChI archivada para este compuesto » InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2, 1-4H3, (H,26,29)(H,27, 30)» carece de la capa estereoquímica necesaria («/t»). Esta capa de InChI se puede encontrar en la cadena de InChI estándar reportada por ALATIS: «InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.»