Articles

Automatisierte Bewertung der Konsistenz in der PubChem Compound database

Am zwanzigsten Dezember 2017 haben wir zwei Sätze archivierter PubChem-Strukturdateien heruntergeladen: (i) den Datensatz „Current-Full“ bestehend aus 94.201.188 Einträgen mit ihren entsprechenden zweidimensionalen (2D) Strukturen, die im SDF12-Format gespeichert sind, und (ii) den Datensatz „Compound_3D“ bestehend aus 91.699.620 Einträgen mit ihren entsprechenden dreidimensionalen (3D) Strukturen im SDF-Format gespeichert. Der Datensatz „Current-Full“ wurde benötigt, da er Metadaten enthält, die in den Dateien „Compound_3D“ nicht verfügbar sind. Mehr als 2,5 Millionen Einträge in der PubChem hatten keine 3D-Strukturdatei. Interessanterweise hatten alle Verbindungen mit mehr als 152 Atomen keine 3D-Strukturen (Abb. 1).

Abbildung 1: Histogramme, die die Anzahl der Atome und Massen der Einträge in PubChem anzeigen.
figure1

Die x-Achse der Histogramme (a) und (b) stellt die Anzahl der Atome in einer Verbindung dar, und die y-Achse gibt die Anzahl der Verbindungen mit der entsprechenden Anzahl von Atomen an. (a) Histogramm der Massen für Verbindungen mit weniger als 152 Atomen: Die für „Current-Full“ -Einträge (2D-Strukturen) sind blau und die für die „Compound_3D“ -Einträge grün dargestellt. Der 152-Atom-Cutoff wurde basierend auf der maximalen Anzahl von Atomen in Verbindungen im Datensatz „Compound_3D“ ausgewählt. (b) Zählt für Verbindungen mit >152 Atomen. PubChem enthält keine 3D-Strukturinformationen für diese Verbindungen. (c) Histogramm der Massen von Verbindungen, wie in den SDF-Dateien von PubChem „Current-Full“ -Einträgen angegeben. Die meisten Verbindungen in der Datenbank hatten Massen von weniger als 1.000 Da; 11.550 Verbindungen hatten jedoch eine Masse von mehr als 2.000 Da (nicht in (c) gezeigt) – beispielsweise gab PubChem CID 23393956 die genaue Masse von 59.745,256 Da an.

Um die Korrektheit der Atomchiralität zu untersuchen, haben wir den Compound_3D-Datensatz mit der ALATIS-Software verarbeitet. Dieser Schritt erzeugte eindeutige Identifikatoren für mehr als 91 Millionen Verbindungen und ihre konstituierenden Atome (Data Citation 1). Die Ausgabe für jeden Eintrag bestand aus: (i) Strukturdateien in den Formaten SDF, PDB und XYZ, die ALATIS-basierte Bezeichner (Labels) für alle Atome enthalten, (ii) eine Karte, die die eingegebenen Atombeschriftungen mit den eindeutigen Atombeschriftungen verknüpft, (iii) eine Datei, die eine Standard-InChI-Zeichenfolge enthält als eindeutige zusammengesetzte Kennung (genannt ‚inchi.inchi‘), (iv) zwei Textdateien mit dem Namen ‚Warnungen.txt‘ und ‚Fehler.txt‘, die Warnungen oder Fehler im Zusammenhang mit der ALATIS-Analyse einer bestimmten Verbindung enthalten, und (v) eine CSV-Datei (comma-separated values) mit dem Namen ‚meta_data.csv‘, die die diesem Eintrag zugeordneten Metadaten enthält. Die Metadatendatei enthält neben dem PubChem Compound Identifier (CID), der Molekularformel, dem Gewicht und der genauen Masse, wie von PubChem gemeldet, die entsprechende Standard-InChI-Zeichenfolge, wie sie von ALATIS generiert wurde. Um den direkten Vergleich der Ergebnisse zu erleichtern, einschließlich des Vergleichs von 3D-Eingabestrukturen und ALATIS-Ausgabestrukturen, die mit eindeutigen Atomkennungen versehen sind, haben wir für jede Verbindung eine Webseite erstellt, die Download-Links zu allen Daten enthält. Wir haben die Software Jmol verwendet, um Darstellungen der 3D-Strukturen zu erstellen. Auf die eindeutigen Verbindungs- und Atomkennungen sowie auf Informationen zu PubChem-Einträgen kann über die ALATIS-Website zugegriffen werden . Benutzer können die Suchmaschine auf dieser Website mit einer PubChem-CID oder einem zusammengesetzten Namen abfragen, um die entsprechende ALATIS-Ausgabe abzurufen.

Wir haben die von ALATIS kuratierten Daten verwendet, um die Konsistenz der für jeden Eintrag in PubChem gespeicherten Daten zu analysieren. Beachten Sie, dass die Synonyme und Metadaten getrennt von den 3D-Strukturdateien archiviert werden: Synonyme befinden sich unter und die Metadaten werden als Teil von SDF-Dateien gespeichert, die im Datensatz „Aktuell-Vollständig“ archiviert sind . Die Synonyme wurden verwendet, um eine benutzerfreundliche Suchmaschine auf dem ALATIS-Webserver zu erstellen. Die Metadaten wurden für die anschließende Konsistenzanalyse benötigt. Im Folgenden stellen wir die beiden wichtigsten Ergebnisse unserer Studie vor.

Inkonsistenz zwischen den archivierten 3D-Strukturen und Formeln

Die chemische Formel einer in PubChem archivierten Verbindung folgt normalerweise der Hill-Konvention13 und stellt die Kernelternstruktur der Verbindung dar9. Das PubChem-Archiv enthält jedoch 1.239.752 geladene chemische Formeln, wobei Ladungen durch ein Symbol am Ende der chemischen Formel gekennzeichnet sind. Die Kernelternstruktur einer Verbindung gibt die Zusammensetzung der Verbindung an, bevor Ladungen durch Addition oder Subtraktion von Wasserstoffatomen auferlegt werden. Wie die Beispiele in Fig. 2 ist es nicht immer möglich, die Kernelternstruktur einer Verbindung aus ihrer geladenen chemischen Formel zu bestimmen. Dies liegt daran, dass die Ladung nicht aus der Addition oder Subtraktion von Protonen resultiert, sondern der kovalenten Struktur der Verbindung intrinsisch sein könnte. Daher könnte eine groß angelegte rechnerische Verarbeitung und Kuratierung der Datenbank zu inkonsistenten oder mehrdeutigen Ergebnissen bei der Identifizierung der Atomzusammensetzungen der Verbindungen führen. Dieses Problem kann durch Verwendung von Standard-InChI-Strings behoben werden. Die Formelschicht von Standard-InChI-Strings liefert die Zusammensetzung des Kernelternteils einer Verbindung, und die Nettoladungs- („/ q“) und Protonierungsschichten („/ p“) von InChI-Strings repräsentieren Verbindungsladungen. Diese Trennung von Ladungen von Formeln erleichtert die Extraktion der genauen Anzahl von Atomen in der Strukturdatei oder chemischen Formel einer Verbindung sowie die Angabe der mit der Verbindung verbundenen Ladungstypen. Wir haben eine vollständige Liste von PubChem-CIDs mit geladenen chemischen Formeln sowie die entsprechenden ALATIS-Formeln im Hill-Format erstellt, die aus Standard-InChI-Strings extrahiert wurden. Diese Daten sind auf der ALATIS-Website verfügbar.

Abbildung 2: Beispiele für PubChem-Einträge mit geladenen chemischen Formeln.
figure2

(ein) PubChem CID 91929631. Die archivierte chemische Formel für diesen Eintrag in PubChem ist C15H17N4O3S +. Diese Formel gibt 17 Wasserstoffatome in der positiv geladenen Verbindung an. Die Kernelternstruktur dieser Verbindung enthält jedoch nur 16 Wasserstoffatome; Der zusätzliche Wasserstoff resultiert aus der Protonierung der Verbindung in ihrer geladenen Form. Die ALATIS-Formel für diese Verbindung „C15H16N4O3S“ zeigt die korrekte Atomzusammensetzung mit 16 Wasserstoffatomen, und der zusätzliche Wasserstoff ist in der entsprechenden InChI-Zeichenfolge (Schicht „/ p“) „InChI = 1 S / C15H16N4O3S /c16″ angegeben-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/ h1-9,18 H,10H2,(H3,16,17)(H,19,20)/p + 1“ . (b) PubChem CID 91124997. Die chemische Formel für diese Verbindung in PubChem ist (C15H16N +). In diesem Fall entsteht die positive Ladung aus dem quaternären Stickstoff, und die korrekte Zusammensetzung der Verbindung enthält 16 Wasserstoffatome, was der Formel in PubChem entspricht. Die ALATIS-Formel für diese Verbindung zeigt die 16 Wasserstoffatome (C15H16N), und die Ladung wird durch Schicht („/ q“) in der entsprechenden Standard-InChI-Zeichenfolge „InChI = 1 S / C15H16N / c1″ dargestellt-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/ h3-9,12 H,10H2,1-2H3/q + 1/t12-/m0/s1“ .

Inkonsistenz zwischen den archivierten 3D-Strukturen und InChI-Strings

Wir haben die hinterlegten PubChem InChI-Strings mit denen von ALATIS verglichen (ALATIS nutzt InChI-Programm v. 1.04 ). Standard-InChI-Zeichenfolgen stellen eindeutige zusammengesetzte Bezeichner dar, die für Querverweise auf Einträge aus verschiedenen Datenbanken verwendet werden können5. Diese Strings bestehen aus mehreren Informationsschichten, einschließlich Verbindungsformeln, kovalente Konnektivität zwischen schweren Atomen, die Anzahl der Wasserstoffatome, die mit schweren Atomen assoziiert sind, eine Schicht zur Darstellung der Chiralität, und andere Schichten, die mit isotopisch markierten Atomen und Verbindungsladungen assoziiert sind9. Wir haben ALATIS verwendet, um die in PubChem hinterlegten 3D-Strukturdateien zu verarbeiten, und Einträge markiert, bei denen die entsprechenden hinterlegten InChI-Zeichenfolgen nicht mit den von ALATIS gemeldeten übereinstimmten. Tabelle 1 zeigt verschiedene Kategorien dieser gekennzeichneten PubChem-Einträge. In dieser Tabelle gibt die Kategorie „Atomkonnektivität“ die Anzahl der Einträge an, die aufgrund von Diskrepanzen in (a) der kovalenten Konnektivität zwischen schweren Atomen (gemeldet in der „/ c“ -Schicht von InChI-Strings) oder (b) der Anzahl der den schweren Atomen zugewiesenen Wasserstoffatome gekennzeichnet wurden („/ h“ -Schicht von InChI-Strings). Die Kategorie „Ladung“ gibt die Anzahl der markierten Einträge an, die unterschiedliche (De-) Protonierungen („/ p“ -Schicht von InChI) oder intrinsische kovalente Ladungen („/ q“ -Schicht) darstellen. Die Kategorie „Stereochemie“ zeigt die Anzahl der Einträge an, die aufgrund von Diskrepanzen in ihrer (a) „/ b“ -Schicht von InChI-Strings, die die sp2-Doppelbindungsstereochemie der Verbindungen meldet, oder (b) InChI „/ t“ -Schicht gekennzeichnet wurden, die Orientierungen von chiralen Zentren meldet. Wir stellen fest, dass eine Verbindung in mehreren Kategorien gekennzeichnet und gemeldet werden kann. Insgesamt wiesen unsere Analysen bei 32.036.565 Einträgen (etwa 33% der PubChem-Einträge mit 3D-Strukturen) eine Diskrepanz zwischen dem archivierten InChI-String und dem von ALATIS aus der entsprechenden 3D-Struktur generierten String auf. Eine falsche Darstellung der Stereochemie war der häufigste Grund für Diskrepanzen, gefolgt von Ladungs- und Atomkonnektivität (Tabelle 1). Vollständige Listen dieser markierten Einträge werden auf unserer Website gemeldet.

Tabelle 1 Kategorien und Anzahl der markierten PubChem-Einträge.

Im Folgenden finden Sie Beispiele aus den drei Kategorien gekennzeichneter Inkonsistenzen.

(a) Inkonsistenz in der Atomkonnektivität

Wie oben erwähnt, stellen die Schichten „/ c“ und „/ h“ in der Standard-InChI-Zeichenfolge die Konnektivität schwerer Atome bzw. die Anzahl der zugehörigen Wasserstoffatome zu den schweren Atomen dar. Der PubChem-Eintrag in Abb. 3 veranschaulicht einen Fall, in dem die 3D-Strukturdatei und die hinterlegten InChI-Strings unterschiedliche kovalente Bindungen zwischen schweren Atomen darstellen. Die korrekte Identifizierung der 3D-Struktur ist für funktionelle Untersuchungen von Verbindungen unerlässlich, und diese Kategorie von Inkonsistenzen kann zu falschen Schlussfolgerungen führen.

Abbildung 3: Inkonsistenz in der Konnektivitätsschicht für schwere Atome.
figure3

ALATIS generierte Standard-InChI-Strings für 3D-Strukturen in PubChem und durch Vergleich dieser InChI-Strings mit den in der Datenbank hinterlegten InChI-Strings identifizierten wir Verbindungen, deren Konnektivitätsschichten nicht übereinstimmten. Diese Abbildung zeigt ein Beispiel für eine solche Diskrepanz für PubChem CID 12300268. (a) Darstellung der hinterlegten 3D-Struktur für den Eintrag. (b) Darstellung aus der hinterlegten InChI-Zeichenfolge. Wir stellen fest, dass die kovalenten Bindungen zwischen den beiden Strukturen unterschiedlich sind. Die Standard-InChI-Zeichenfolge der archivierten 3D-Struktur: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17- 18 H, 9-16H2, und die hinterlegte InChI-Zeichenfolge: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17- 18 Uhr,9-16H2. Die fett gedruckten InChI-Schichten zeigen die Diskrepanzen zwischen der Konnektivität schwerer Atome in den beiden InChI-Strings an.

(b) Inkonsistenz in der Ladungsverteilung

Wie oben erwähnt, werden unterschiedliche Ladungen aufgrund von (de) Protonierung oder intrinsischen kovalenten Ladungen von Verbindungen in den Schichten „/ p“ und „/ q“ von InChI-Strings dargestellt. Die gekennzeichneten PubChem-Einträge in dieser Kategorie sind solche, in denen die archivierte 3D-Struktur und die InChI-Strings unterschiedliche Ladezustände darstellen. Abbildung 4 zeigt ein Beispiel aus dieser Kategorie.

Abbildung 4: Inkonsistenz verantwortlich.
figure4

(a) Darstellung der für PubChem CID 2179800 archivierten 3D-Strukturdatei. b) Strukturelle Darstellung des für diese Verbindung gespeicherten InChI-Strings: „InChI = 1 S/C15H9N3O5/c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/ h1-8,19 H/p-1“. Die von ALATIS gemeldete Standard-InChI-Zeichenfolge für die Struktur in (a) Strukturdatei lautet „InChI = 1 S / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/ h1-8H/q-1“.

(c) Inkonsistenz in der Stereochemie

(c.1) Inkonsistenz in der Doppelbindung sp2 Stereochemie

Die Orientierung der Struktur einer Verbindung über eine Doppelbindung, ob die Konfiguration cis oder trans ist, wird genau in Standard-InChI-Strings erfasst. Diese Orientierungen, die nur in 3D-Strukturen identifiziert werden können, sind in der Ebene „/ b“ von InChI Strings angegeben. Die in Abbildung 5 gezeigte PubChem-Verbindung zeigt ein Beispiel für eine Diskrepanz zwischen der Konfiguration der archivierten 3D-Struktur und der zugehörigen InChI-Zeichenfolge. In diesem Beispiel enthält die InChI-Zeichenfolge des PubChem-Eintrags (CID 1551886) in der Ebene „/ b“ ein Fragezeichen, das angibt, dass die Konfiguration der Verbindung nicht eindeutig ist. Die archivierte 3D-Struktur stellt jedoch die trans-Konfiguration der Verbindung dar.

Abbildung 5: Inkonsistenz in der cis- und Trans-Konfiguration.
figure5

Darstellung der für den PubChem-Eintrag CID 1551886 archivierten 3D-Struktur, die eine definierte Stereochemie über die Doppelbindung zwischen C8 und N18 zeigt. Die für diesen Eintrag archivierte InChI-Zeichenfolge „InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22- 23 H/p-2/b15-7-,18-8?“ bezeichnet eine mehrdeutige Orientierung um die Doppelbindung zwischen C8 und N18. Infolgedessen stimmte die von ALATIS aus der Struktur generierte InChI-Zeichenfolge nicht mit der archivierten InChI-Zeichenfolge überein.

(c.2) Inkonsistenz in der Stereochemie chiraler Zentren

Die Stereochemie (Chiralität) kleiner Moleküle spielt eine wichtige Rolle bei der Bestimmung ihrer Funktion. Unter den mehr als 91 Millionen PubChem-Einträgen mit 3D-Strukturen zeigten unsere Berechnungen mit ALATIS, dass mehr als 55% der Einträge (50.508.180 Einträge) mindestens ein chirales Zentrum enthielten. Etwa 60% dieser Einträge (30.236.352 Einträge) wurden während unserer Analyse aufgrund von Inkonsistenzen zwischen der stereochemischen Schicht der in PubChem abgelagerten InChI-Strings und denen, die von ALATIS aus den Strukturen erzeugt wurden, markiert. Die vollständige Liste dieser Einträge ist auf der ALATIS-Website verfügbar. Abbildung 6 zeigt ein Beispiel aus diesen markierten Einträgen.

Abbildung 6: Inkonsistenz der zusammengesetzten Chiralität.
figure6

Beispiel aus PubChem CID 130156427. (a) Hinterlegte 3D-Struktur der Verbindung. (b) Struktur, die aus dem hinterlegten InChI-String erzeugt wird. Die wellenförmige Bindung in (b) weist auf eine mehrdeutige Bindungschiralität hin. Dies liegt daran, dass die archivierte InChI-Zeichenfolge für diese Verbindung „InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20- 21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)“ fehlt die notwendige stereochemische Schicht („/t“). Diese InChI-Schicht kann in der von ALATIS gemeldeten Standard-InChI-Zeichenfolge gefunden werden: „InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.“