Articles

e avaliação automática de consistência no PubChem Composto de banco de dados

Nós o download dois conjuntos de arquivados PubChem arquivos de estrutura em vinte de dezembro de 2017: (i) a Corrente Total” conjunto de dados consiste de 94,201,188 entradas com o seu correspondente em duas dimensões (2D) estruturas armazenadas em SDF12 formato, e (ii) o “Compound_3D” conjunto de dados consiste de 91,699,620 entradas com suas correspondentes a três dimensões (3D) estruturas armazenadas em formato SDF. O conjunto de dados” actual-completo “foi necessário porque contém metadados que não estão disponíveis nos ficheiros” Compound_3D”. Mais de 2,5 milhões de entradas no PubChem não tinham um arquivo de estrutura 3D. Curiosamente, todos os compostos com mais de 152 átomos não tinham estruturas 3D (Fig. 1).

Figura 1: Histogramas exibindo o número de átomos e massas de entradas no PubChem.
figura 1

O eixo x de histogramas (a) e (b) representa o número de átomos em um composto, e o eixo y indica o número de compostos com o respectivo número de átomos. a) Histograma de massas para compostos com menos de 152 átomos: o histograma de entradas “completas de corrente” (estruturas 2D) é apresentado a azul e o do “Compound_3D” a verde. O corte de 152 átomos foi escolhido com base no número máximo de átomos em compostos no conjunto de dados “Compound_3D”. b) Contagem dos compostos com >152 átomos. PubChem não contém informações de estrutura 3D para estes compostos. c) histograma das massas de compostos, conforme indicado nos ficheiros SDF do PubChem “Current-Full” entries. A maioria dos compostos a base de dados tinha massas menos de 1.000 Da; no entanto, 11, 550 compostos tinha massa de mais de 2.000 Da (não mostrado em (c)), por exemplo, PubChem CID 23393956 relatou a exata massa de 59,745.256 Da.

a fim de sondar a exatidão da quiralidade atômica, processamos o conjunto de dados Compound_3D com software ALATIS. Esta etapa gerou identificadores únicos para mais de 91 milhões de compostos e seus átomos constituintes (citação de Dados 1). A produção de cada entrada consistiu em:: (i) ficheiros de estrutura nos formatos SDF, PDB e XYZ que contêm identificadores baseados em ALATIS (etiquetas) para todos os átomos, (II) um mapa que liga as etiquetas do átomo de entrada às etiquetas do átomo único, (III) um ficheiro que contém uma cadeia de Ichi como o identificador único composto (chamado ” inchi.inchi’), (iv) dois ficheiros de texto, denominados ‘alertas.txt ‘ e ‘ erro.txt’, que contém avisos ou erros relacionados com a análise ALATIS de um composto particular, e (v) um arquivo de valores separados por vírgulas (CSV), chamado ‘meta_data.csv”, contendo os metadados associados a essa entrada. The metadata file contains, in addition to the PubChem compound identifier (CID), molecular formula, weight, and exact mass as reported by PubChem, the corresponding standard InChI string as generated by ALATIS. Para facilitar a comparação lado a lado dos Resultados, incluindo a comparação de estruturas 3D de entrada e estruturas de saída ALATIS anotadas com identificadores atômicos únicos, criamos uma página web para cada composto, que inclui links de download para todos os dados. Nós usamos o software Jmol para criar exibições das estruturas 3D. O composto único e identificadores atômicos, juntamente com informações associadas com entradas PubChem, podem ser acessados através do site ALATIS . Os usuários podem consultar o motor de busca neste site com um CID PubChem ou um nome composto para recuperar a saída ALATIS correspondente.

usámos os dados tratados com ALATIS para analisar a consistência dos dados armazenados para cada entrada no PubChem. Note que os sinônimos e metadados são arquivados separadamente dos arquivos de estrutura 3D: os sinônimos estão localizados em e que os metadados são armazenados como parte de arquivos SDF arquivados em dataset “atual-completo”. Os sinônimos foram usados na criação de um motor de busca amigável no servidor web ALATIS. Os metadados foram necessários para a subsequente análise de consistência. Destacamos abaixo os dois principais resultados do nosso estudo.

inconsistência entre as estruturas e fórmulas 3D arquivadas

a fórmula química de um composto arquivado em PubChem normalmente segue a Convenção de Hill13 e representa a estrutura principal do compound9. No entanto, o arquivo PubChem inclui 1,239,752 fórmulas químicas carregadas, onde as cargas são denotadas por um símbolo no final da fórmula química. A estrutura principal do núcleo de um composto indica a composição do composto antes de impor quaisquer cargas, através da adição ou subtração de átomos de hidrogênio. Como ilustrado pelos exemplos na Fig. 2, nem sempre é possível determinar a estrutura principal de um composto a partir de sua fórmula química carregada. Isto é porque, ao invés de resultar da adição ou subtração de prótons, a carga poderia ser intrínseca à estrutura covalente do composto. Assim, processamento computacional em larga escala e Curação do banco de dados poderia levar a resultados inconsistentes ou ambíguos na identificação das composições atômicas dos compostos. Este problema pode ser resolvido utilizando strings InChI padrão. A camada de fórmula de strings InChI padrão fornece a composição do núcleo principal de um composto, e a carga líquida (“/q”) e protonação (“/p”) camadas de strings InChI representam cargas de compostos. Esta separação de cargas de fórmulas facilita a extração do número preciso de átomos no arquivo de estrutura de um composto ou fórmula química, bem como indicando os tipos de cargas associadas com o composto. Nós produzimos uma lista completa de Cys PubChem com fórmulas químicas carregadas, juntamente com suas fórmulas ALATIS correspondentes em formato de colina, como extraído das cordas InChI padrão. Estes dados estão disponíveis no site da ALATIS.

Figure 2: Examples of PubChem entries with charged chemical formulas.
a figura2

(a) PubChem CID 91929631. A fórmula química arquivada para esta entrada no PubChem é C15H17N4O3S+. Esta fórmula indica 17 átomos de hidrogênio no composto positivamente carregado. No entanto, a estrutura principal do núcleo deste composto contém apenas 16 átomos de hidrogênio; o hidrogênio adicional resulta da protonação do composto em sua forma carregada. O ALATIS fórmula para este composto “C15H16N4O3S” mostra o correcto átomo de composição com 16 átomos de hidrogênio, e o adicional de hidrogênio é indicado no correspondente InChI string (camada “/p”) “InChI = 1 S/C15H16N4O3S/c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H,10H2,(H3,16,17)(H,19,20)/p + 1” . b) PubChem CID 91124997. A fórmula química para este composto em PubChem é (C15H16N+). Neste caso, a carga positiva surge do nitrogênio quaternário, e a composição correta do composto contém 16 átomos de hidrogênio, que corresponde à fórmula em PubChem. O ALATIS fórmula para esse composto, mostra a 16 átomos de hidrogênio (C15H16N), e a taxa é representada pela camada (“/q”) no padrão correspondente InChI cadeia “InChI = 1 S/C15H16N/c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H,10H2,1-2H3/p + 1/t12-/m0/s1” .

Inconsistência entre o arquivados estruturas 3D e InChI seqüências de caracteres

comparamos depositado PubChem InChI seqüências de caracteres para aqueles gerados por ALATIS (ALATIS utiliza InChI programa de v. 1.04 ). Strings InChI padrão representam identificadores compostos únicos que podem ser usados para entradas de referenciação cruzada de diferentes bases de dados 5. Essas cadeias são constituídas por várias camadas de informação, incluindo compostos de fórmulas, a ligação covalente ligação entre átomos pesados, o número de átomos de hidrogênio associados com átomos pesados, uma camada para representar a quiralidade, e outras camadas associadas com isotopicamente rotulado como átomos e compostos charges9. Nós usamos o ALATIS para processar os arquivos de estrutura 3D depositados no PubChem, e sinalizamos as entradas para as quais as correspondentes cadeias de Ichi depositadas não foram compatíveis com as relatadas pelo ALATIS. A tabela 1 mostra diferentes categorias destas entradas em púbico assinalado. Neste quadro, a categoria “conectividade Atómica” refere o número de entradas assinaladas devido a discrepâncias na (a) conectividade covalente entre átomos pesados (reportadas na camada “/c” de cadeias de Ichi) ou (B) O número de átomos de hidrogénio atribuídos aos átomos pesados (camada “/h ” de cadeias de Ichi). A categoria ” carga “refere o número de entradas assinaladas que representam protonação diferente (de) (camada” /p “de Ichi) ou cargas covalentes intrínsecas (camada” /q”). A categoria ” estereoquímica “mostra o número de entradas que foram assinaladas devido a discrepâncias em sua camada (A)” /b “de cordas de Ichi que relata estereoquímica de ligação dupla sp2 dos compostos, ou (b) camada de Ichi” /t ” que relata orientações de centros quirais. Notamos que um composto pode ser sinalizado e relatado em várias categorias. No geral, nossas análises marcaram 32,036,565 entradas (cerca de 33% das entradas PubChem com estruturas 3D) como tendo uma discrepância entre a sua cadeia de Ichi arquivada e a gerada a partir da estrutura 3D correspondente pela ALATIS. A representação imprópria da estereoquímica foi a razão mais comum para a discrepância, seguida pela carga, e conectividade atômica (tabela 1). As listas completas destas entradas assinaladas são reportadas no nosso site .

Table 1 Categories and numbers of flagged PubChem entries.

Nós fornecemos abaixo exemplos das três categorias de sinalizado inconsistências.

(a) inconsistência na conectividade atômica

conforme observado acima, as camadas “/C” E “/ h” na cadeia de InChI padrão representam a conectividade de átomos pesados e o número de átomos de hidrogênio associados aos átomos pesados, respectivamente. A entrada PubChem indicada na Fig. 3 ilustra um caso em que o arquivo de estrutura 3D e as cadeias de Ichi depositadas representam ligações covalentes distintas entre átomos pesados. A identificação correta da estrutura 3D é essencial nas investigações funcionais de compostos, e esta categoria de inconsistência pode levar a conclusões errôneas.

Figura 3: inconsistência na camada de conectividade atômica pesada.
figure3

ALATIS gerou strings InChI padrão para estruturas 3D em PubChem, e comparando estas strings InChI com as strings InChI depositadas na base de dados, identificamos compostos cujas camadas de conectividade não correspondiam. Esta figura mostra um exemplo de tal discrepância Para O PubChem CID 12300268. a) representação da estrutura 3D depositada para a entrada. (b) representação da cadeia de Ichi depositada. Notamos que as ligações covalentes são diferentes entre as duas estruturas. O padrão InChI cadeia de arquivados estrutura 3D: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H,9-16H2, e depositado InChI de seqüência de caracteres: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 H,9-16H2. As camadas de InChI indicam as discrepâncias entre a conectividade de átomos pesados nas duas cadeias de InChI.

(b) Inconsistência na distribuição de carga

Como mencionado acima, distintos de cobrança de taxas por (de)protonation ou intrínseca ligação covalente acusações de compostos são representados no “/p” e “p” camadas de InChI cadeias de caracteres. As entradas do PubChem assinaladas nesta categoria são aquelas em que a estrutura 3D arquivada e as cadeias de InChI representam diferentes estados de carga. A figura 4 mostra um exemplo desta categoria.

Figura 4: inconsistência no comando.
figure4

(a) Representation of the 3D structure file archived for PubChem CID 2179800. (b) representação Estrutural do InChI string armazenada para que o composto: “InChI = 1 S/C15H9N3O5/c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H/p-1”. O padrão InChI de seqüência de caracteres para a estrutura em (a) estrutura de arquivo relatado por ALATIS é “InChI = 1 S/C15H8N3O5/c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8H/p-1”.

(c) Inconsistência na estereoquímica

(c.1) Inconsistência na dupla ligação sp2 estereoquímica

A orientação da estrutura de um composto sobre uma dupla ligação, se a configuração cis ou trans, é capturado, precisamente no padrão InChI cadeias de caracteres. Estas orientações, que só podem ser identificadas em estruturas 3D, são indicadas na camada” /b ” de cadeias de Ichi. O composto PubChem mostrado na Figura 5 mostra um exemplo de discrepância entre a configuração da estrutura 3D arquivada e sua cadeia de Ichi associada. In this example, the InChI string of PubChem entry (CID 1551886) contains a question mark in its “/b” layer, which indicates that the configuration of the compound is Ambíguo. No entanto, a estrutura 3D arquivada representa a configuração trans do composto.

Figura 5: inconsistência na configuração cis e trans.
a figura5

a Representação da estrutura 3D arquivados para o PubChem entrada CID 1551886, que mostra uma estereoquímica definida sobre a ligação dupla entre C8 e N18. No entanto, o InChI cadeia arquivados para esta entrada “InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H/p-2/b15-7-,18-8?”denota uma orientação ambígua em torno da dupla ligação entre C8 e N18. Como resultado, a cadeia de InChI gerada a partir da estrutura por ALATIS não conseguiu igualar a cadeia de InChI arquivada.

(c.2) Inconsistência na estereoquímica dos centros quirais

A estereoquímica (quiralidade) de pequenas moléculas que desempenha um papel vital na determinação de sua função. Entre os mais de 91 milhões de entradas PubChem com estruturas 3D, nossos cálculos usando ALATIS indicaram que mais de 55% das entradas (50,508,180 entradas) continham pelo menos um centro quiral. Cerca de 60% destas entradas (30,236,352 entradas) foram assinaladas durante a nossa análise, devido a inconsistências entre a camada estereoquímica das cordas de Ichi depositadas em Púbchem e as geradas por ALATIS a partir das estruturas. A lista completa destas entradas está disponível no site da ALATIS. A figura 6 mostra um exemplo destas entradas assinaladas.

Figura 6: inconsistência na quiralidade composta.
figure6

Exemplo de PubChem CID 130156427. (a) Deposited 3D structure of the compound. (b) estrutura gerada a partir da cadeia de Ichi depositada. A ligação ondulada em (b) indica uma quiralidade de bond ambígua. Isto é porque a arquivados InChI de seqüência de caracteres para este composto “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)” falta-lhe o necessário estereoquímica camada (“/t”). Esta camada de InChI pode ser encontrada na cadeia de InChI padrão relatada por ALATIS: “InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”