Automatisierte Bewertung der Konsistenz in der PubChem Compound database
Am zwanzigsten Dezember 2017 haben wir zwei Sätze archivierter PubChem-Strukturdateien heruntergeladen: (i) den Datensatz „Current-Full“ bestehend aus 94.201.188 Einträgen mit ihren entsprechenden zweidimensionalen (2D) Strukturen, die im SDF12-Format gespeichert sind, und (ii) den Datensatz „Compound_3D“ bestehend aus 91.699.620 Einträgen mit ihren entsprechenden dreidimensionalen (3D) Strukturen im SDF-Format gespeichert. Der Datensatz „Current-Full“ wurde benötigt, da er Metadaten enthält, die in den Dateien „Compound_3D“ nicht verfügbar sind. Mehr als 2,5 Millionen Einträge in der PubChem hatten keine 3D-Strukturdatei. Interessanterweise hatten alle Verbindungen mit mehr als 152 Atomen keine 3D-Strukturen (Abb. 1).
Um die Korrektheit der Atomchiralität zu untersuchen, haben wir den Compound_3D-Datensatz mit der ALATIS-Software verarbeitet. Dieser Schritt erzeugte eindeutige Identifikatoren für mehr als 91 Millionen Verbindungen und ihre konstituierenden Atome (Data Citation 1). Die Ausgabe für jeden Eintrag bestand aus: (i) Strukturdateien in den Formaten SDF, PDB und XYZ, die ALATIS-basierte Bezeichner (Labels) für alle Atome enthalten, (ii) eine Karte, die die eingegebenen Atombeschriftungen mit den eindeutigen Atombeschriftungen verknüpft, (iii) eine Datei, die eine Standard-InChI-Zeichenfolge enthält als eindeutige zusammengesetzte Kennung (genannt ‚inchi.inchi‘), (iv) zwei Textdateien mit dem Namen ‚Warnungen.txt‘ und ‚Fehler.txt‘, die Warnungen oder Fehler im Zusammenhang mit der ALATIS-Analyse einer bestimmten Verbindung enthalten, und (v) eine CSV-Datei (comma-separated values) mit dem Namen ‚meta_data.csv‘, die die diesem Eintrag zugeordneten Metadaten enthält. Die Metadatendatei enthält neben dem PubChem Compound Identifier (CID), der Molekularformel, dem Gewicht und der genauen Masse, wie von PubChem gemeldet, die entsprechende Standard-InChI-Zeichenfolge, wie sie von ALATIS generiert wurde. Um den direkten Vergleich der Ergebnisse zu erleichtern, einschließlich des Vergleichs von 3D-Eingabestrukturen und ALATIS-Ausgabestrukturen, die mit eindeutigen Atomkennungen versehen sind, haben wir für jede Verbindung eine Webseite erstellt, die Download-Links zu allen Daten enthält. Wir haben die Software Jmol verwendet, um Darstellungen der 3D-Strukturen zu erstellen. Auf die eindeutigen Verbindungs- und Atomkennungen sowie auf Informationen zu PubChem-Einträgen kann über die ALATIS-Website zugegriffen werden . Benutzer können die Suchmaschine auf dieser Website mit einer PubChem-CID oder einem zusammengesetzten Namen abfragen, um die entsprechende ALATIS-Ausgabe abzurufen.
Wir haben die von ALATIS kuratierten Daten verwendet, um die Konsistenz der für jeden Eintrag in PubChem gespeicherten Daten zu analysieren. Beachten Sie, dass die Synonyme und Metadaten getrennt von den 3D-Strukturdateien archiviert werden: Synonyme befinden sich unter und die Metadaten werden als Teil von SDF-Dateien gespeichert, die im Datensatz „Aktuell-Vollständig“ archiviert sind . Die Synonyme wurden verwendet, um eine benutzerfreundliche Suchmaschine auf dem ALATIS-Webserver zu erstellen. Die Metadaten wurden für die anschließende Konsistenzanalyse benötigt. Im Folgenden stellen wir die beiden wichtigsten Ergebnisse unserer Studie vor.
- Inkonsistenz zwischen den archivierten 3D-Strukturen und Formeln
- Inkonsistenz zwischen den archivierten 3D-Strukturen und InChI-Strings
- (a) Inkonsistenz in der Atomkonnektivität
- (b) Inkonsistenz in der Ladungsverteilung
- (c) Inkonsistenz in der Stereochemie
- (c.1) Inkonsistenz in der Doppelbindung sp2 Stereochemie
- (c.2) Inkonsistenz in der Stereochemie chiraler Zentren
Inkonsistenz zwischen den archivierten 3D-Strukturen und Formeln
Die chemische Formel einer in PubChem archivierten Verbindung folgt normalerweise der Hill-Konvention13 und stellt die Kernelternstruktur der Verbindung dar9. Das PubChem-Archiv enthält jedoch 1.239.752 geladene chemische Formeln, wobei Ladungen durch ein Symbol am Ende der chemischen Formel gekennzeichnet sind. Die Kernelternstruktur einer Verbindung gibt die Zusammensetzung der Verbindung an, bevor Ladungen durch Addition oder Subtraktion von Wasserstoffatomen auferlegt werden. Wie die Beispiele in Fig. 2 ist es nicht immer möglich, die Kernelternstruktur einer Verbindung aus ihrer geladenen chemischen Formel zu bestimmen. Dies liegt daran, dass die Ladung nicht aus der Addition oder Subtraktion von Protonen resultiert, sondern der kovalenten Struktur der Verbindung intrinsisch sein könnte. Daher könnte eine groß angelegte rechnerische Verarbeitung und Kuratierung der Datenbank zu inkonsistenten oder mehrdeutigen Ergebnissen bei der Identifizierung der Atomzusammensetzungen der Verbindungen führen. Dieses Problem kann durch Verwendung von Standard-InChI-Strings behoben werden. Die Formelschicht von Standard-InChI-Strings liefert die Zusammensetzung des Kernelternteils einer Verbindung, und die Nettoladungs- („/ q“) und Protonierungsschichten („/ p“) von InChI-Strings repräsentieren Verbindungsladungen. Diese Trennung von Ladungen von Formeln erleichtert die Extraktion der genauen Anzahl von Atomen in der Strukturdatei oder chemischen Formel einer Verbindung sowie die Angabe der mit der Verbindung verbundenen Ladungstypen. Wir haben eine vollständige Liste von PubChem-CIDs mit geladenen chemischen Formeln sowie die entsprechenden ALATIS-Formeln im Hill-Format erstellt, die aus Standard-InChI-Strings extrahiert wurden. Diese Daten sind auf der ALATIS-Website verfügbar.
Inkonsistenz zwischen den archivierten 3D-Strukturen und InChI-Strings
Wir haben die hinterlegten PubChem InChI-Strings mit denen von ALATIS verglichen (ALATIS nutzt InChI-Programm v. 1.04 ). Standard-InChI-Zeichenfolgen stellen eindeutige zusammengesetzte Bezeichner dar, die für Querverweise auf Einträge aus verschiedenen Datenbanken verwendet werden können5. Diese Strings bestehen aus mehreren Informationsschichten, einschließlich Verbindungsformeln, kovalente Konnektivität zwischen schweren Atomen, die Anzahl der Wasserstoffatome, die mit schweren Atomen assoziiert sind, eine Schicht zur Darstellung der Chiralität, und andere Schichten, die mit isotopisch markierten Atomen und Verbindungsladungen assoziiert sind9. Wir haben ALATIS verwendet, um die in PubChem hinterlegten 3D-Strukturdateien zu verarbeiten, und Einträge markiert, bei denen die entsprechenden hinterlegten InChI-Zeichenfolgen nicht mit den von ALATIS gemeldeten übereinstimmten. Tabelle 1 zeigt verschiedene Kategorien dieser gekennzeichneten PubChem-Einträge. In dieser Tabelle gibt die Kategorie „Atomkonnektivität“ die Anzahl der Einträge an, die aufgrund von Diskrepanzen in (a) der kovalenten Konnektivität zwischen schweren Atomen (gemeldet in der „/ c“ -Schicht von InChI-Strings) oder (b) der Anzahl der den schweren Atomen zugewiesenen Wasserstoffatome gekennzeichnet wurden („/ h“ -Schicht von InChI-Strings). Die Kategorie „Ladung“ gibt die Anzahl der markierten Einträge an, die unterschiedliche (De-) Protonierungen („/ p“ -Schicht von InChI) oder intrinsische kovalente Ladungen („/ q“ -Schicht) darstellen. Die Kategorie „Stereochemie“ zeigt die Anzahl der Einträge an, die aufgrund von Diskrepanzen in ihrer (a) „/ b“ -Schicht von InChI-Strings, die die sp2-Doppelbindungsstereochemie der Verbindungen meldet, oder (b) InChI „/ t“ -Schicht gekennzeichnet wurden, die Orientierungen von chiralen Zentren meldet. Wir stellen fest, dass eine Verbindung in mehreren Kategorien gekennzeichnet und gemeldet werden kann. Insgesamt wiesen unsere Analysen bei 32.036.565 Einträgen (etwa 33% der PubChem-Einträge mit 3D-Strukturen) eine Diskrepanz zwischen dem archivierten InChI-String und dem von ALATIS aus der entsprechenden 3D-Struktur generierten String auf. Eine falsche Darstellung der Stereochemie war der häufigste Grund für Diskrepanzen, gefolgt von Ladungs- und Atomkonnektivität (Tabelle 1). Vollständige Listen dieser markierten Einträge werden auf unserer Website gemeldet.
Im Folgenden finden Sie Beispiele aus den drei Kategorien gekennzeichneter Inkonsistenzen.
(a) Inkonsistenz in der Atomkonnektivität
Wie oben erwähnt, stellen die Schichten „/ c“ und „/ h“ in der Standard-InChI-Zeichenfolge die Konnektivität schwerer Atome bzw. die Anzahl der zugehörigen Wasserstoffatome zu den schweren Atomen dar. Der PubChem-Eintrag in Abb. 3 veranschaulicht einen Fall, in dem die 3D-Strukturdatei und die hinterlegten InChI-Strings unterschiedliche kovalente Bindungen zwischen schweren Atomen darstellen. Die korrekte Identifizierung der 3D-Struktur ist für funktionelle Untersuchungen von Verbindungen unerlässlich, und diese Kategorie von Inkonsistenzen kann zu falschen Schlussfolgerungen führen.
(b) Inkonsistenz in der Ladungsverteilung
Wie oben erwähnt, werden unterschiedliche Ladungen aufgrund von (de) Protonierung oder intrinsischen kovalenten Ladungen von Verbindungen in den Schichten „/ p“ und „/ q“ von InChI-Strings dargestellt. Die gekennzeichneten PubChem-Einträge in dieser Kategorie sind solche, in denen die archivierte 3D-Struktur und die InChI-Strings unterschiedliche Ladezustände darstellen. Abbildung 4 zeigt ein Beispiel aus dieser Kategorie.
(c) Inkonsistenz in der Stereochemie
(c.1) Inkonsistenz in der Doppelbindung sp2 Stereochemie
Die Orientierung der Struktur einer Verbindung über eine Doppelbindung, ob die Konfiguration cis oder trans ist, wird genau in Standard-InChI-Strings erfasst. Diese Orientierungen, die nur in 3D-Strukturen identifiziert werden können, sind in der Ebene „/ b“ von InChI Strings angegeben. Die in Abbildung 5 gezeigte PubChem-Verbindung zeigt ein Beispiel für eine Diskrepanz zwischen der Konfiguration der archivierten 3D-Struktur und der zugehörigen InChI-Zeichenfolge. In diesem Beispiel enthält die InChI-Zeichenfolge des PubChem-Eintrags (CID 1551886) in der Ebene „/ b“ ein Fragezeichen, das angibt, dass die Konfiguration der Verbindung nicht eindeutig ist. Die archivierte 3D-Struktur stellt jedoch die trans-Konfiguration der Verbindung dar.
(c.2) Inkonsistenz in der Stereochemie chiraler Zentren
Die Stereochemie (Chiralität) kleiner Moleküle spielt eine wichtige Rolle bei der Bestimmung ihrer Funktion. Unter den mehr als 91 Millionen PubChem-Einträgen mit 3D-Strukturen zeigten unsere Berechnungen mit ALATIS, dass mehr als 55% der Einträge (50.508.180 Einträge) mindestens ein chirales Zentrum enthielten. Etwa 60% dieser Einträge (30.236.352 Einträge) wurden während unserer Analyse aufgrund von Inkonsistenzen zwischen der stereochemischen Schicht der in PubChem abgelagerten InChI-Strings und denen, die von ALATIS aus den Strukturen erzeugt wurden, markiert. Die vollständige Liste dieser Einträge ist auf der ALATIS-Website verfügbar. Abbildung 6 zeigt ein Beispiel aus diesen markierten Einträgen.