e avaliação automática de consistência no PubChem Composto de banco de dados
Nós o download dois conjuntos de arquivados PubChem arquivos de estrutura em vinte de dezembro de 2017: (i) a Corrente Total” conjunto de dados consiste de 94,201,188 entradas com o seu correspondente em duas dimensões (2D) estruturas armazenadas em SDF12 formato, e (ii) o “Compound_3D” conjunto de dados consiste de 91,699,620 entradas com suas correspondentes a três dimensões (3D) estruturas armazenadas em formato SDF. O conjunto de dados” actual-completo “foi necessário porque contém metadados que não estão disponíveis nos ficheiros” Compound_3D”. Mais de 2,5 milhões de entradas no PubChem não tinham um arquivo de estrutura 3D. Curiosamente, todos os compostos com mais de 152 átomos não tinham estruturas 3D (Fig. 1).
a fim de sondar a exatidão da quiralidade atômica, processamos o conjunto de dados Compound_3D com software ALATIS. Esta etapa gerou identificadores únicos para mais de 91 milhões de compostos e seus átomos constituintes (citação de Dados 1). A produção de cada entrada consistiu em:: (i) ficheiros de estrutura nos formatos SDF, PDB e XYZ que contêm identificadores baseados em ALATIS (etiquetas) para todos os átomos, (II) um mapa que liga as etiquetas do átomo de entrada às etiquetas do átomo único, (III) um ficheiro que contém uma cadeia de Ichi como o identificador único composto (chamado ” inchi.inchi’), (iv) dois ficheiros de texto, denominados ‘alertas.txt ‘ e ‘ erro.txt’, que contém avisos ou erros relacionados com a análise ALATIS de um composto particular, e (v) um arquivo de valores separados por vírgulas (CSV), chamado ‘meta_data.csv”, contendo os metadados associados a essa entrada. The metadata file contains, in addition to the PubChem compound identifier (CID), molecular formula, weight, and exact mass as reported by PubChem, the corresponding standard InChI string as generated by ALATIS. Para facilitar a comparação lado a lado dos Resultados, incluindo a comparação de estruturas 3D de entrada e estruturas de saída ALATIS anotadas com identificadores atômicos únicos, criamos uma página web para cada composto, que inclui links de download para todos os dados. Nós usamos o software Jmol para criar exibições das estruturas 3D. O composto único e identificadores atômicos, juntamente com informações associadas com entradas PubChem, podem ser acessados através do site ALATIS . Os usuários podem consultar o motor de busca neste site com um CID PubChem ou um nome composto para recuperar a saída ALATIS correspondente.
usámos os dados tratados com ALATIS para analisar a consistência dos dados armazenados para cada entrada no PubChem. Note que os sinônimos e metadados são arquivados separadamente dos arquivos de estrutura 3D: os sinônimos estão localizados em e que os metadados são armazenados como parte de arquivos SDF arquivados em dataset “atual-completo”. Os sinônimos foram usados na criação de um motor de busca amigável no servidor web ALATIS. Os metadados foram necessários para a subsequente análise de consistência. Destacamos abaixo os dois principais resultados do nosso estudo.
- inconsistência entre as estruturas e fórmulas 3D arquivadas
- Inconsistência entre o arquivados estruturas 3D e InChI seqüências de caracteres
- (a) inconsistência na conectividade atômica
- (b) Inconsistência na distribuição de carga
- (c) Inconsistência na estereoquímica
- (c.1) Inconsistência na dupla ligação sp2 estereoquímica
- (c.2) Inconsistência na estereoquímica dos centros quirais
inconsistência entre as estruturas e fórmulas 3D arquivadas
a fórmula química de um composto arquivado em PubChem normalmente segue a Convenção de Hill13 e representa a estrutura principal do compound9. No entanto, o arquivo PubChem inclui 1,239,752 fórmulas químicas carregadas, onde as cargas são denotadas por um símbolo no final da fórmula química. A estrutura principal do núcleo de um composto indica a composição do composto antes de impor quaisquer cargas, através da adição ou subtração de átomos de hidrogênio. Como ilustrado pelos exemplos na Fig. 2, nem sempre é possível determinar a estrutura principal de um composto a partir de sua fórmula química carregada. Isto é porque, ao invés de resultar da adição ou subtração de prótons, a carga poderia ser intrínseca à estrutura covalente do composto. Assim, processamento computacional em larga escala e Curação do banco de dados poderia levar a resultados inconsistentes ou ambíguos na identificação das composições atômicas dos compostos. Este problema pode ser resolvido utilizando strings InChI padrão. A camada de fórmula de strings InChI padrão fornece a composição do núcleo principal de um composto, e a carga líquida (“/q”) e protonação (“/p”) camadas de strings InChI representam cargas de compostos. Esta separação de cargas de fórmulas facilita a extração do número preciso de átomos no arquivo de estrutura de um composto ou fórmula química, bem como indicando os tipos de cargas associadas com o composto. Nós produzimos uma lista completa de Cys PubChem com fórmulas químicas carregadas, juntamente com suas fórmulas ALATIS correspondentes em formato de colina, como extraído das cordas InChI padrão. Estes dados estão disponíveis no site da ALATIS.
Inconsistência entre o arquivados estruturas 3D e InChI seqüências de caracteres
comparamos depositado PubChem InChI seqüências de caracteres para aqueles gerados por ALATIS (ALATIS utiliza InChI programa de v. 1.04 ). Strings InChI padrão representam identificadores compostos únicos que podem ser usados para entradas de referenciação cruzada de diferentes bases de dados 5. Essas cadeias são constituídas por várias camadas de informação, incluindo compostos de fórmulas, a ligação covalente ligação entre átomos pesados, o número de átomos de hidrogênio associados com átomos pesados, uma camada para representar a quiralidade, e outras camadas associadas com isotopicamente rotulado como átomos e compostos charges9. Nós usamos o ALATIS para processar os arquivos de estrutura 3D depositados no PubChem, e sinalizamos as entradas para as quais as correspondentes cadeias de Ichi depositadas não foram compatíveis com as relatadas pelo ALATIS. A tabela 1 mostra diferentes categorias destas entradas em púbico assinalado. Neste quadro, a categoria “conectividade Atómica” refere o número de entradas assinaladas devido a discrepâncias na (a) conectividade covalente entre átomos pesados (reportadas na camada “/c” de cadeias de Ichi) ou (B) O número de átomos de hidrogénio atribuídos aos átomos pesados (camada “/h ” de cadeias de Ichi). A categoria ” carga “refere o número de entradas assinaladas que representam protonação diferente (de) (camada” /p “de Ichi) ou cargas covalentes intrínsecas (camada” /q”). A categoria ” estereoquímica “mostra o número de entradas que foram assinaladas devido a discrepâncias em sua camada (A)” /b “de cordas de Ichi que relata estereoquímica de ligação dupla sp2 dos compostos, ou (b) camada de Ichi” /t ” que relata orientações de centros quirais. Notamos que um composto pode ser sinalizado e relatado em várias categorias. No geral, nossas análises marcaram 32,036,565 entradas (cerca de 33% das entradas PubChem com estruturas 3D) como tendo uma discrepância entre a sua cadeia de Ichi arquivada e a gerada a partir da estrutura 3D correspondente pela ALATIS. A representação imprópria da estereoquímica foi a razão mais comum para a discrepância, seguida pela carga, e conectividade atômica (tabela 1). As listas completas destas entradas assinaladas são reportadas no nosso site .
Nós fornecemos abaixo exemplos das três categorias de sinalizado inconsistências.
(a) inconsistência na conectividade atômica
conforme observado acima, as camadas “/C” E “/ h” na cadeia de InChI padrão representam a conectividade de átomos pesados e o número de átomos de hidrogênio associados aos átomos pesados, respectivamente. A entrada PubChem indicada na Fig. 3 ilustra um caso em que o arquivo de estrutura 3D e as cadeias de Ichi depositadas representam ligações covalentes distintas entre átomos pesados. A identificação correta da estrutura 3D é essencial nas investigações funcionais de compostos, e esta categoria de inconsistência pode levar a conclusões errôneas.