Évaluation automatisée de la cohérence au sein de la base de données de composés PubChem
Nous avons téléchargé deux ensembles de fichiers de structure PubChem archivés le vingtième décembre 2017 : (i) l’ensemble de données « Current-Full » composé de 94 201 188 entrées avec leurs structures bidimensionnelles (2D) correspondantes stockées au format SDF12, et (ii) l’ensemble de données « Compound_3D » composé de 91 699 620 entrées avec leurs structures tridimensionnelles (3D) correspondantes stockées au format SDF. L’ensemble de données « Current-Full » était nécessaire car il contient des métadonnées qui ne sont pas disponibles dans les fichiers « Compound_3D ». Plus de 2,5 millions d’entrées dans PubChem n’avaient pas de fichier de structure 3D. Fait intéressant, tous les composés de plus de 152 atomes n’avaient pas de structures 3D (Fig. 1).
Afin de vérifier l’exactitude de la chiralité des atomes, nous avons traité l’ensemble de données Compound_3D avec le logiciel ALATIS. Cette étape a généré des identifiants uniques pour plus de 91 millions de composés et leurs atomes constitutifs (Référence de données 1). La sortie pour chaque entrée consistait en: (i) fichiers de structure aux formats SDF, PDB et XYZ contenant des identifiants (étiquettes) basés sur ALATIS pour tous les atomes, (ii) une carte reliant les étiquettes d’atomes d’entrée aux étiquettes d’atomes uniques, (iii) un fichier contenant une chaîne InChI standard comme identifiant composé unique (appelé ‘inchi.inchi’), (iv) deux fichiers texte, nommés ‘avertissements.erreur txt ‘ et ‘.txt’, qui contiennent des avertissements ou des erreurs liés à l’analyse ALATIS d’un composé particulier, et (v) un fichier de valeurs séparées par des virgules (CSV), nommé ‘meta_data.csv’, contenant les métadonnées associées à cette entrée. Le fichier de métadonnées contient, en plus de l’identifiant du composé PubChem (CID), de la formule moléculaire, du poids et de la masse exacte rapportés par PubChem, la chaîne InChI standard correspondante générée par ALATIS. Pour faciliter la comparaison côte à côte des résultats, y compris la comparaison des structures d’entrée 3D et des structures de sortie ALATIS annotées avec des identifiants d’atomes uniques, nous avons généré une page Web pour chaque composé, qui comprend des liens de téléchargement vers toutes les données. Nous avons utilisé le logiciel Jmol pour créer des affichages des structures 3D. Les identifiants uniques de composés et d’atomes, ainsi que les informations associées aux entrées PubChem, sont accessibles via le site Web d’ALATIS. Les utilisateurs peuvent interroger le moteur de recherche de ce site Web avec un CID PubChem ou un nom composé pour récupérer la sortie ALATIS correspondante.
Nous avons utilisé les données sélectionnées par ALATIS pour analyser la cohérence des données stockées pour chaque entrée dans PubChem. Notez que les synonymes et les métadonnées sont archivés séparément des fichiers de structure 3D: les synonymes se trouvent sur et que les métadonnées sont stockées dans les fichiers SDF archivés dans l’ensemble de données « Current-Full ». Les synonymes ont été utilisés pour créer un moteur de recherche convivial sur le serveur Web ALATIS. Les métadonnées étaient nécessaires pour l’analyse de cohérence ultérieure. Nous soulignons ci-dessous les deux principaux résultats de notre étude.
- Incohérence entre les structures et formules 3D archivées
- Incohérence entre les structures 3D archivées et les chaînes InChI
- (a)Incohérence dans la connectivité des atomes
- (b)Incohérence dans la distribution des charges
- (c) Incohérence en stéréochimie
- (c.1) Incohérence en stéréochimie à double liaison sp2
- (c.2) Incohérence dans la stéréochimie des centres chiraux
Incohérence entre les structures et formules 3D archivées
La formule chimique d’un composé archivé dans PubChem suit normalement la convention de hill13 et représente la structure mère centrale du composé9. Cependant, l’archive PubChem comprend 1 239 752 formules chimiques chargées, où les charges sont désignées par un symbole à la fin de la formule chimique. La structure de base d’un composé indique la composition du composé avant d’imposer des charges, par addition ou soustraction d’atomes d’hydrogène. Comme illustré par les exemples de la Fig. 2, il n’est pas toujours possible de déterminer la structure mère centrale d’un composé à partir de sa formule chimique chargée. En effet, plutôt que de résulter de l’addition ou de la soustraction de protons, la charge pourrait être intrinsèque à la structure covalente du composé. Ainsi, un traitement informatique à grande échelle et la conservation de la base de données pourraient conduire à des résultats incohérents ou ambigus dans l’identification des compositions atomiques des composés. Ce problème peut être résolu en utilisant des chaînes InChI standard. La couche de formule des chaînes d’InChI standard fournit la composition du parent principal d’un composé, et les couches de charge nette (« /q ») et de protonation (« /p ») des chaînes d’InChI représentent les charges des composés. Cette séparation des charges des formules facilite l’extraction du nombre précis d’atomes dans le fichier de structure ou la formule chimique d’un composé, ainsi que l’indication des types de charges associées au composé. Nous avons produit une liste complète des CID PubChem avec des formules chimiques chargées, ainsi que leurs formules ALATIS correspondantes au format Hill, telles qu’extraites des chaînes InChI standard. Ces données sont disponibles sur le site web d’ALATIS.
Incohérence entre les structures 3D archivées et les chaînes InChI
Nous avons comparé les chaînes PubChem Inchi déposées à celles générées par ALATIS (ALATIS utilise le programme InChI v. 1.04). Les chaînes InChI standard représentent des identifiants composés uniques qui peuvent être utilisés pour des références croisées d’entrées de différentes bases de données5. Ces chaînes sont constituées de plusieurs couches d’informations, y compris les formules des composés, la connectivité covalente entre les atomes lourds, le nombre d’atomes d’hydrogène associés aux atomes lourds, une couche pour représenter la chiralité et d’autres couches associées à des atomes marqués isotopiquement et à des charges composées9. Nous avons utilisé ALATIS pour traiter les fichiers de structure 3D déposés dans PubChem, et les entrées marquées pour lesquelles les chaînes InChI déposées correspondantes ne correspondaient pas à celles signalées par ALATIS. Le tableau 1 présente différentes catégories de ces entrées PubChem signalées. Dans ce tableau, la catégorie « Connectivité des atomes » indique le nombre d’entrées signalées en raison de divergences dans (a) la connectivité covalente entre atomes lourds (rapportée dans la couche « /c » des chaînes InChI) ou (b) le nombre d’atomes d’hydrogène attribués aux atomes lourds (couche « /h » des chaînes InChI). La catégorie « Charge » indique le nombre d’entrées marquées qui représentent différentes charges de (dé)protonation (couche « /p » d’InChI) ou covalentes intrinsèques (couche « /q »). La catégorie « Stéréochimie » indique le nombre d’entrées qui ont été signalées en raison de divergences dans leur couche (a) « /b » de chaînes InChI qui rapporte la stéréochimie à double liaison sp2 des composés, ou (b) couche InChI « /t » qui rapporte les orientations des centres chiraux. Nous notons qu’un composé peut être signalé et signalé dans plusieurs catégories. Dans l’ensemble, nos analyses ont indiqué que 32 036 565 entrées (environ 33% des entrées PubChem avec des structures 3D) présentaient un écart entre sa chaîne InChI archivée et celle générée à partir de la structure 3D correspondante par ALATIS. La représentation incorrecte de la stéréochimie était la raison la plus courante de la divergence, suivie de la charge et de la connectivité des atomes (tableau 1). Les listes complètes de ces entrées signalées sont signalées sur notre site Web.
Nous fournissons ci-dessous des exemples des trois catégories d’incohérences signalées.
(a)Incohérence dans la connectivité des atomes
Comme indiqué ci-dessus, les couches « /c » et « /h » de la chaîne InChI standard représentent respectivement la connectivité des atomes lourds et le nombre d’atomes d’hydrogène associés aux atomes lourds. L’entrée PubChem représentée à la Fig. 3 illustre un cas dans lequel le fichier de structure 3D et les chaînes InChI déposées représentent des liaisons covalentes distinctes entre des atomes lourds. L’identification correcte de la structure 3D est essentielle dans les études fonctionnelles des composés, et cette catégorie d’incohérence pourrait conduire à des conclusions erronées.
(b)Incohérence dans la distribution des charges
Comme mentionné ci-dessus, des charges distinctes dues à la (dé)protonation ou à des charges covalentes intrinsèques de composés sont représentées dans les couches « /p » et « /q » des chaînes d’InChI. Les entrées PubChem marquées dans cette catégorie sont celles dans lesquelles la structure 3D archivée et les chaînes InChI représentent différents états de charge. La figure 4 montre un exemple de cette catégorie.
(c) Incohérence en stéréochimie
(c.1) Incohérence en stéréochimie à double liaison sp2
L’orientation de la structure d’un composé autour d’une double liaison, que la configuration soit cis ou trans, est capturée précisément dans des chaînes InChI standard. Ces orientations, qui ne peuvent être identifiées que dans des structures 3D, sont indiquées dans la couche « /b » des chaînes InChI. Le composé PubChem illustré à la figure 5 montre un exemple de divergence entre la configuration de la structure 3D archivée et sa chaîne InChI associée. Dans cet exemple, la chaîne InChI de l’entrée PubChem (CID 1551886) contient un point d’interrogation dans sa couche « /b », ce qui indique que la configuration du composé est ambiguë. Cependant, la structure 3D archivée représente la configuration trans du composé.
(c.2) Incohérence dans la stéréochimie des centres chiraux
La stéréochimie (chiralité) des petites molécules joue un rôle essentiel dans la détermination de leur fonction. Parmi les plus de 91 millions d’entrées PubChem avec des structures 3D, nos calculs utilisant ALATIS ont indiqué que plus de 55% des entrées (50 508 180 entrées) contenaient au moins un centre chiral. Environ 60% de ces entrées (30 236 352 entrées) ont été signalées lors de notre analyse, en raison d’incohérences entre la couche stéréochimique des chaînes InChI déposées dans PubChem et celles générées par ALATIS à partir des structures. La liste complète de ces entrées est accessible depuis le site web d’ALATIS. La figure 6 montre un exemple de ces entrées marquées.