Articles

Évaluation automatisée de la cohérence au sein de la base de données de composés PubChem

Nous avons téléchargé deux ensembles de fichiers de structure PubChem archivés le vingtième décembre 2017 : (i) l’ensemble de données « Current-Full » composé de 94 201 188 entrées avec leurs structures bidimensionnelles (2D) correspondantes stockées au format SDF12, et (ii) l’ensemble de données « Compound_3D » composé de 91 699 620 entrées avec leurs structures tridimensionnelles (3D) correspondantes stockées au format SDF. L’ensemble de données « Current-Full » était nécessaire car il contient des métadonnées qui ne sont pas disponibles dans les fichiers « Compound_3D ». Plus de 2,5 millions d’entrées dans PubChem n’avaient pas de fichier de structure 3D. Fait intéressant, tous les composés de plus de 152 atomes n’avaient pas de structures 3D (Fig. 1).

Figure 1: Histogrammes affichant le nombre d’atomes et les masses d’entrées dans PubChem.
figure1

L’axe des abscisses des histogrammes (a) et (b) représente le nombre d’atomes dans un composé, et l’axe des ordonnées indique le nombre de composés avec le nombre d’atomes correspondant. (a) Histogramme des masses pour les composés de moins de 152 atomes: ceux pour les entrées « Current-Full » (structures 2D) sont indiqués en bleu, et ceux pour les entrées « Compound_3D » sont indiqués en vert. La coupure de 152 atomes a été choisie en fonction du nombre maximal d’atomes dans les composés de l’ensemble de données « Compound_3D « . (b) Compte pour les composés ayant > 152 atomes. PubChem ne contient aucune information de structure 3D pour ces composés. (c) Histogramme des masses de composés comme indiqué dans les fichiers SDF des entrées PubChem « Current-Full ». La plupart des composés de la base de données avaient des masses inférieures à 1 000 Da; cependant, 11 550 composés avaient une masse supérieure à 2 000 Da (non représenté en (c)) – par exemple, PubChem CID 23393956 a rapporté la masse exacte de 59 745,256 Da.

Afin de vérifier l’exactitude de la chiralité des atomes, nous avons traité l’ensemble de données Compound_3D avec le logiciel ALATIS. Cette étape a généré des identifiants uniques pour plus de 91 millions de composés et leurs atomes constitutifs (Référence de données 1). La sortie pour chaque entrée consistait en: (i) fichiers de structure aux formats SDF, PDB et XYZ contenant des identifiants (étiquettes) basés sur ALATIS pour tous les atomes, (ii) une carte reliant les étiquettes d’atomes d’entrée aux étiquettes d’atomes uniques, (iii) un fichier contenant une chaîne InChI standard comme identifiant composé unique (appelé ‘inchi.inchi’), (iv) deux fichiers texte, nommés ‘avertissements.erreur txt ‘ et ‘.txt’, qui contiennent des avertissements ou des erreurs liés à l’analyse ALATIS d’un composé particulier, et (v) un fichier de valeurs séparées par des virgules (CSV), nommé ‘meta_data.csv’, contenant les métadonnées associées à cette entrée. Le fichier de métadonnées contient, en plus de l’identifiant du composé PubChem (CID), de la formule moléculaire, du poids et de la masse exacte rapportés par PubChem, la chaîne InChI standard correspondante générée par ALATIS. Pour faciliter la comparaison côte à côte des résultats, y compris la comparaison des structures d’entrée 3D et des structures de sortie ALATIS annotées avec des identifiants d’atomes uniques, nous avons généré une page Web pour chaque composé, qui comprend des liens de téléchargement vers toutes les données. Nous avons utilisé le logiciel Jmol pour créer des affichages des structures 3D. Les identifiants uniques de composés et d’atomes, ainsi que les informations associées aux entrées PubChem, sont accessibles via le site Web d’ALATIS. Les utilisateurs peuvent interroger le moteur de recherche de ce site Web avec un CID PubChem ou un nom composé pour récupérer la sortie ALATIS correspondante.

Nous avons utilisé les données sélectionnées par ALATIS pour analyser la cohérence des données stockées pour chaque entrée dans PubChem. Notez que les synonymes et les métadonnées sont archivés séparément des fichiers de structure 3D: les synonymes se trouvent sur et que les métadonnées sont stockées dans les fichiers SDF archivés dans l’ensemble de données « Current-Full ». Les synonymes ont été utilisés pour créer un moteur de recherche convivial sur le serveur Web ALATIS. Les métadonnées étaient nécessaires pour l’analyse de cohérence ultérieure. Nous soulignons ci-dessous les deux principaux résultats de notre étude.

Incohérence entre les structures et formules 3D archivées

La formule chimique d’un composé archivé dans PubChem suit normalement la convention de hill13 et représente la structure mère centrale du composé9. Cependant, l’archive PubChem comprend 1 239 752 formules chimiques chargées, où les charges sont désignées par un symbole à la fin de la formule chimique. La structure de base d’un composé indique la composition du composé avant d’imposer des charges, par addition ou soustraction d’atomes d’hydrogène. Comme illustré par les exemples de la Fig. 2, il n’est pas toujours possible de déterminer la structure mère centrale d’un composé à partir de sa formule chimique chargée. En effet, plutôt que de résulter de l’addition ou de la soustraction de protons, la charge pourrait être intrinsèque à la structure covalente du composé. Ainsi, un traitement informatique à grande échelle et la conservation de la base de données pourraient conduire à des résultats incohérents ou ambigus dans l’identification des compositions atomiques des composés. Ce problème peut être résolu en utilisant des chaînes InChI standard. La couche de formule des chaînes d’InChI standard fournit la composition du parent principal d’un composé, et les couches de charge nette (« /q ») et de protonation (« /p ») des chaînes d’InChI représentent les charges des composés. Cette séparation des charges des formules facilite l’extraction du nombre précis d’atomes dans le fichier de structure ou la formule chimique d’un composé, ainsi que l’indication des types de charges associées au composé. Nous avons produit une liste complète des CID PubChem avec des formules chimiques chargées, ainsi que leurs formules ALATIS correspondantes au format Hill, telles qu’extraites des chaînes InChI standard. Ces données sont disponibles sur le site web d’ALATIS.

Figure 2: Exemples d’entrées de PubChem avec des formules chimiques chargées.
figure2

(a) PubChem CID 91929631. La formule chimique archivée pour cette entrée dans PubChem est C15H17N4O3S+. Cette formule indique 17 atomes d’hydrogène dans le composé chargé positivement. Cependant, la structure mère centrale de ce composé ne contient que 16 atomes d’hydrogène; l’hydrogène supplémentaire résulte de la protonation du composé sous sa forme chargée. La formule d’ALATIS pour ce composé « C15H16N4O3S » montre la composition d’atomes correcte avec 16 atomes d’hydrogène, et l’hydrogène supplémentaire est indiqué dans la chaîne InChI correspondante (couche « / p ») « InChI = 1 S / C15H16N4O3S / c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/ h1 – 9,18 H, 10H2, (H3, 16, 17) (H, 19, 20) / p+1 ». b) Numéro d’identification numérique PubChem 91124997. La formule chimique de ce composé dans PubChem est (C15H16N+). Dans ce cas, la charge positive provient de l’azote quaternaire et la composition correcte du composé contient 16 atomes d’hydrogène, ce qui correspond à la formule de PubChem. La formule d’ALATIS pour ce composé montre les 16 atomes d’hydrogène (C15H16N), et la charge est représentée par la couche (« /q ») dans la chaîne InChI standard correspondante « InChI = 1 S/C15H16N/c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/ h3-9,12 H, 10H2, 1-2H3 / q +1/ t12-/m0/s1 ».

Incohérence entre les structures 3D archivées et les chaînes InChI

Nous avons comparé les chaînes PubChem Inchi déposées à celles générées par ALATIS (ALATIS utilise le programme InChI v. 1.04). Les chaînes InChI standard représentent des identifiants composés uniques qui peuvent être utilisés pour des références croisées d’entrées de différentes bases de données5. Ces chaînes sont constituées de plusieurs couches d’informations, y compris les formules des composés, la connectivité covalente entre les atomes lourds, le nombre d’atomes d’hydrogène associés aux atomes lourds, une couche pour représenter la chiralité et d’autres couches associées à des atomes marqués isotopiquement et à des charges composées9. Nous avons utilisé ALATIS pour traiter les fichiers de structure 3D déposés dans PubChem, et les entrées marquées pour lesquelles les chaînes InChI déposées correspondantes ne correspondaient pas à celles signalées par ALATIS. Le tableau 1 présente différentes catégories de ces entrées PubChem signalées. Dans ce tableau, la catégorie « Connectivité des atomes » indique le nombre d’entrées signalées en raison de divergences dans (a) la connectivité covalente entre atomes lourds (rapportée dans la couche « /c » des chaînes InChI) ou (b) le nombre d’atomes d’hydrogène attribués aux atomes lourds (couche « /h » des chaînes InChI). La catégorie « Charge » indique le nombre d’entrées marquées qui représentent différentes charges de (dé)protonation (couche « /p » d’InChI) ou covalentes intrinsèques (couche « /q »). La catégorie « Stéréochimie » indique le nombre d’entrées qui ont été signalées en raison de divergences dans leur couche (a) « /b » de chaînes InChI qui rapporte la stéréochimie à double liaison sp2 des composés, ou (b) couche InChI « /t » qui rapporte les orientations des centres chiraux. Nous notons qu’un composé peut être signalé et signalé dans plusieurs catégories. Dans l’ensemble, nos analyses ont indiqué que 32 036 565 entrées (environ 33% des entrées PubChem avec des structures 3D) présentaient un écart entre sa chaîne InChI archivée et celle générée à partir de la structure 3D correspondante par ALATIS. La représentation incorrecte de la stéréochimie était la raison la plus courante de la divergence, suivie de la charge et de la connectivité des atomes (tableau 1). Les listes complètes de ces entrées signalées sont signalées sur notre site Web.

Tableau 1 Catégories et nombres d’entrées PubChem marquées.

Nous fournissons ci-dessous des exemples des trois catégories d’incohérences signalées.

(a)Incohérence dans la connectivité des atomes

Comme indiqué ci-dessus, les couches « /c » et « /h » de la chaîne InChI standard représentent respectivement la connectivité des atomes lourds et le nombre d’atomes d’hydrogène associés aux atomes lourds. L’entrée PubChem représentée à la Fig. 3 illustre un cas dans lequel le fichier de structure 3D et les chaînes InChI déposées représentent des liaisons covalentes distinctes entre des atomes lourds. L’identification correcte de la structure 3D est essentielle dans les études fonctionnelles des composés, et cette catégorie d’incohérence pourrait conduire à des conclusions erronées.

Figure 3: Incohérence dans la couche de connectivité des atomes lourds.
figure3

ALATIS a généré des chaînes InChI standard pour des structures 3D dans PubChem, et en comparant ces chaînes InChI avec les chaînes InChI déposées dans la base de données, nous avons identifié des composés dont les couches de connectivité ne correspondaient pas. Cette figure montre un exemple d’un tel écart pour PubChem CID 12300268. (a) Représentation de la structure 3D déposée pour l’entrée. (b) Représentation de la chaîne InChI déposée. On remarque que les liaisons covalentes sont différentes entre les deux structures. La chaîne InChI standard de la structure 3D archivée : InChI =1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17- 18 H, 9-16H2, et la chaîne InChI déposée : InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17- 18 heures, 9-16H2. Les couches InChI en caractères gras indiquent les différences entre la connectivité des atomes lourds dans les deux chaînes InChI.

(b)Incohérence dans la distribution des charges

Comme mentionné ci-dessus, des charges distinctes dues à la (dé)protonation ou à des charges covalentes intrinsèques de composés sont représentées dans les couches « /p » et « /q » des chaînes d’InChI. Les entrées PubChem marquées dans cette catégorie sont celles dans lesquelles la structure 3D archivée et les chaînes InChI représentent différents états de charge. La figure 4 montre un exemple de cette catégorie.

Figure 4: Incohérence en charge.
figure4

(a) Représentation du fichier de structure 3D archivé pour PubChem CID 2179800. (b) Représentation structurelle de la chaîne InChI stockée pour ce composé : « InChI = 1 S/C15H9N3O5/c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/ h1-8,19 H/p-1 ». La chaîne InChI standard pour la structure dans le fichier de structure (a) rapportée par ALATIS est « InChI=1 S/C15H8N3O5/c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/ h1-8H / q-1 ».

(c) Incohérence en stéréochimie

(c.1) Incohérence en stéréochimie à double liaison sp2

L’orientation de la structure d’un composé autour d’une double liaison, que la configuration soit cis ou trans, est capturée précisément dans des chaînes InChI standard. Ces orientations, qui ne peuvent être identifiées que dans des structures 3D, sont indiquées dans la couche « /b » des chaînes InChI. Le composé PubChem illustré à la figure 5 montre un exemple de divergence entre la configuration de la structure 3D archivée et sa chaîne InChI associée. Dans cet exemple, la chaîne InChI de l’entrée PubChem (CID 1551886) contient un point d’interrogation dans sa couche « /b », ce qui indique que la configuration du composé est ambiguë. Cependant, la structure 3D archivée représente la configuration trans du composé.

Figure 5: Incohérence dans la configuration cis et trans.
figure5

Représentation de la structure 3D archivée pour l’entrée PubChem CID 1551886, qui montre une stéréochimie définie sur la double liaison entre C8 et N18. Cependant, la chaîne InChI archivée pour cette entrée « InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22- 23 H/p-2/b15-7-, 18-8? » désigne une orientation ambiguë autour de la double liaison entre C8 et N18. En conséquence, la chaîne InChI générée à partir de la structure par ALATIS ne correspond pas à la chaîne InChI archivée.

(c.2) Incohérence dans la stéréochimie des centres chiraux

La stéréochimie (chiralité) des petites molécules joue un rôle essentiel dans la détermination de leur fonction. Parmi les plus de 91 millions d’entrées PubChem avec des structures 3D, nos calculs utilisant ALATIS ont indiqué que plus de 55% des entrées (50 508 180 entrées) contenaient au moins un centre chiral. Environ 60% de ces entrées (30 236 352 entrées) ont été signalées lors de notre analyse, en raison d’incohérences entre la couche stéréochimique des chaînes InChI déposées dans PubChem et celles générées par ALATIS à partir des structures. La liste complète de ces entrées est accessible depuis le site web d’ALATIS. La figure 6 montre un exemple de ces entrées marquées.

Figure 6: Incohérence dans la chiralité composée.
figure6

Exemple de PubChem CID 130156427. (a) Structure 3D déposée du composé. (b) Structure générée à partir de la chaîne InChI déposée. La liaison ondulée en (b) indique une chiralité de liaison ambiguë. En effet, la chaîne InChI archivée pour ce composé « InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20- 21 H, 13-15H2, 1-4H3, (H, 26, 29) (H, 27, 30)  » n’a pas la couche de stéréochimie nécessaire (« /t »). Cette couche InChI se trouve dans la chaîne InChI standard rapportée par ALATIS: « InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1. »