Evaluación automatizada de la consistencia dentro de la base de datos de Compuestos PubChem
Descargamos dos conjuntos de archivos de estructura PubChem archivados el 20 de diciembre de 2017: (i) el conjunto de datos «Current-Full» que consta de 94.201.188 entradas con sus correspondientes estructuras bidimensionales (2D) almacenadas en formato SDF12, y (ii) el conjunto de datos «Compound_3D 91.699.620 entradas con sus correspondientes estructuras tridimensionales (3D) almacenadas en formato SDF. Se necesitaba el conjunto de datos» Current-Full «porque contiene metadatos que no están disponibles en los archivos» Compound_3D». Más de 2,5 millones de entradas en el PubChem no tenían un archivo de estructura 3D. Curiosamente, todos los compuestos con más de 152 átomos no tenían estructuras 3D (Fig. 1).
Para probar la corrección de la quiralidad del átomo, procesamos el conjunto de datos Compound_3D con el software ALATIS. Este paso generó identificadores únicos para más de 91 millones de compuestos y sus átomos constituyentes (Cita de datos 1). El resultado de cada entrada consistió en: (i) archivos de estructura en formatos SDF, PDB y XYZ que contienen identificadores (etiquetas) basados en ALATIS para todos los átomos, (ii) un mapa que vincula las etiquetas de los átomos de entrada a las etiquetas de los átomos únicos, (iii) un archivo que contiene una cadena InChI estándar como identificador compuesto único (llamado ‘inchi.inchi’), (iv) dos archivos de texto, llamados ‘advertencias.txt ‘ y ‘ error.txt’, que contiene advertencias o errores relacionados con el análisis de ALATIS de un compuesto en particular, y (v) un archivo de valores separados por comas (CSV), llamado ‘meta_data.csv’, que contiene los metadatos asociados a esa entrada. El archivo de metadatos contiene, además del identificador compuesto PubChem (CID), la fórmula molecular, el peso y la masa exacta según lo informado por PubChem, la cadena InChI estándar correspondiente generada por ALATIS. Para facilitar la comparación de resultados en paralelo, incluida la comparación de estructuras 3D de entrada y estructuras de salida de ALATIS anotadas con identificadores de átomos únicos, hemos generado una página web para cada compuesto, que incluye enlaces de descarga a todos los datos. Utilizamos el software Jmol para crear pantallas de las estructuras 3D. Los identificadores únicos de compuestos y átomos, junto con la información asociada con las entradas de PubChem, se pueden acceder a través del sitio web de ALATIS . Los usuarios pueden consultar el motor de búsqueda en este sitio web con un PubChem CID o un nombre compuesto para recuperar la salida ALATIS correspondiente.
Utilizamos los datos curados por ALATIS para analizar la consistencia de los datos almacenados para cada entrada en PubChem. Tenga en cuenta que los sinónimos y metadatos se archivan por separado de los archivos de estructura 3D: los sinónimos se encuentran en y que los metadatos se almacenan como parte de archivos SDF archivados en el conjunto de datos «Actual lleno». Los sinónimos se utilizaron para crear un motor de búsqueda fácil de usar en el servidor web de ALATIS. Los metadatos eran necesarios para el posterior análisis de coherencia. A continuación, destacamos los dos resultados principales de nuestro estudio.
- Inconsistencia entre las estructuras 3D archivadas y las fórmulas
- Inconsistencia entre las estructuras 3D archivadas y las cadenas InChI
- (a) Inconsistencia en la conectividad de átomos
- (b) Inconsistencia en la distribución de carga
- (c) Inconsistencia en estereoquímica
- (c. 1) Inconsistencia en estereoquímica sp2 de doble enlace
- (c. 2) Inconsistencia en estereoquímica de centros quirales
Inconsistencia entre las estructuras 3D archivadas y las fórmulas
La fórmula química de un compuesto archivado en PubChem normalmente sigue la convención Hill13 y representa la estructura principal del compound9. Sin embargo, el archivo de PubChem incluye 1.239.752 fórmulas químicas cargadas, donde las cargas se indican con un símbolo al final de la fórmula química. La estructura madre del núcleo de un compuesto indica la composición del compuesto antes de imponer cargas, mediante la adición o sustracción de átomos de hidrógeno. Como se ilustra en los ejemplos de la Fig. 2, no siempre es posible determinar la estructura principal de un compuesto a partir de su fórmula química cargada. Esto se debe a que, en lugar de resultar de la adición o sustracción de protones, la carga podría ser intrínseca a la estructura covalente del compuesto. Por lo tanto, el procesamiento computacional a gran escala y la conservación de la base de datos podrían conducir a resultados inconsistentes o ambiguos en la identificación de las composiciones de átomos de los compuestos. Este problema se puede resolver utilizando cadenas InChI estándar. La capa de fórmula de cadenas de InChI estándar proporciona la composición del núcleo padre de un compuesto, y las capas de carga neta («/q») y protonación («/p») de cadenas de InChI representan cargas de compuestos. Esta separación de cargas de fórmulas facilita la extracción del número preciso de átomos en el archivo de estructura o fórmula química de un compuesto, así como la indicación de los tipos de cargas asociadas con el compuesto. Hemos producido una lista completa de PubChem CIDs con fórmulas químicas cargadas, junto con sus correspondientes fórmulas de ALATIS en formato Hill extraídas de cuerdas InChI estándar. Estos datos están disponibles en el sitio web de ALATIS.
Inconsistencia entre las estructuras 3D archivadas y las cadenas InChI
Comparamos las cadenas PubChem InChI depositadas con las generadas por ALATIS (ALATIS utiliza el programa InChI v. 1.04). Las cadenas InChI estándar representan identificadores compuestos únicos que se pueden usar para hacer referencias cruzadas de entradas de diferentes datas5. Estas cadenas consisten en varias capas de información, incluyendo fórmulas compuestas, conectividad covalente entre átomos pesados, el número de átomos de hidrógeno asociados con átomos pesados, una capa para representar quiralidad y otras capas asociadas con átomos etiquetados isotópicamente y cargas compuestas 9. Utilizamos ALATIS para procesar los archivos de estructura 3D depositados en PubChem, y las entradas marcadas para las que las cadenas InChI depositadas correspondientes no coincidían con las reportadas por ALATIS. La tabla 1 muestra diferentes categorías de estas entradas PubChem marcadas. En esta tabla, la categoría ‘Conectividad de átomos’ informa el número de entradas marcadas debido a discrepancias en (a) la conectividad covalente entre átomos pesados (reportada en la capa «/c» de cadenas InChI) o (b) el número de átomos de hidrógeno asignados a los átomos pesados (capa»/h» de cadenas InChI). La categoría’ Carga ‘informa el número de entradas marcadas que representan diferentes (de)protonación (capa»/p» de InChI) o cargas covalentes intrínsecas (capa»/q»). La categoría’ Estereoquímica ‘ muestra el número de entradas que han sido marcadas debido a discrepancias en su capa (a) «/b» de cadenas InChI que reporta estereoquímica de doble enlace sp2 de los compuestos, o capa (b) InChI «/t» que reporta orientaciones de centros quirales. Observamos que un compuesto podría ser marcado y reportado en múltiples categorías. En general, nuestros análisis marcaron 32.036.565 entradas (aproximadamente el 33% de las entradas de PubChem con estructuras 3D) como que tenían una discrepancia entre su cadena InChI archivada y la generada a partir de la estructura 3D correspondiente por ALATIS. La representación inadecuada de la estereoquímica fue la razón más común de discrepancia, seguida de la carga y la conectividad de átomos (Tabla 1). Las listas completas de estas entradas marcadas se informan en nuestro sitio web .
A continuación proporcionamos ejemplos de las tres categorías de inconsistencias marcadas.
(a) Inconsistencia en la conectividad de átomos
Como se señaló anteriormente, las capas «/c» y «/h» en la cadena InChI estándar representan la conectividad de átomos pesados y el número de átomos de hidrógeno asociados a los átomos pesados, respectivamente. La entrada de PubChem que se muestra en la Fig. 3 ilustra un caso en el que el archivo de estructura 3D y las cadenas InChI depositadas representan enlaces covalentes distintos entre átomos pesados. La identificación correcta de la estructura 3D es esencial en las investigaciones funcionales de compuestos, y esta categoría de inconsistencia podría llevar a conclusiones erróneas.
(b) Inconsistencia en la distribución de carga
Como se mencionó anteriormente, las cargas distintas debidas a (de)protonación o cargas covalentes intrínsecas de los compuestos están representadas en las capas «/p» y «/q» de cadenas InChI. Las entradas PubChem marcadas en esta categoría son aquellas en las que la estructura 3D archivada y las cadenas InChI representan diferentes estados de carga. La Figura 4 muestra un ejemplo de esta categoría.
(c) Inconsistencia en estereoquímica
(c. 1) Inconsistencia en estereoquímica sp2 de doble enlace
La orientación de la estructura de un compuesto sobre un doble enlace, ya sea que la configuración sea cis o trans, se captura con precisión en cadenas InChI estándar. Estas orientaciones, que solo se pueden identificar en estructuras 3D, se indican en la capa» /b » de cadenas InChI. El compuesto PubChem mostrado en la Figura 5 muestra un ejemplo de discrepancia entre la configuración de la estructura 3D archivada y su cadena InChI asociada. En este ejemplo, la cadena InChI de la entrada PubChem (CID 1551886) contiene un signo de interrogación en su capa «/b», que indica que la configuración del compuesto es ambigua. Sin embargo, la estructura 3D archivada representa la configuración trans del compuesto.
(c. 2) Inconsistencia en estereoquímica de centros quirales
La estereoquímica (quiralidad) de moléculas pequeñas juega un papel vital en la determinación de su función. Entre los más de 91 millones de entradas PubChem con estructuras 3D, nuestros cálculos utilizando ALATIS indicaron que más del 55% de las entradas (50.508.180 entradas) contenían al menos un centro quiral. Alrededor del 60% de estas entradas (30.236.352 entradas) fueron marcadas durante nuestro análisis, debido a inconsistencias entre la capa estereoquímica de las cuerdas InChI depositadas en PubChem y las generadas por ALATIS a partir de las estructuras. La lista completa de estas entradas se puede consultar en el sitio web de ALATIS. La Figura 6 muestra un ejemplo de estas entradas marcadas.