Articles

zautomatyzowana ocena spójności w bazie danych PubChem Compound

20 grudnia 2017 r.pobraliśmy dwa zestawy archiwalnych plików strukturalnych PubChem: (i) zbiór danych „Current-Full” składający się z 94 201 188 wpisów z odpowiadającymi im dwuwymiarowymi (2D) strukturami przechowywanymi w formacie SDF12 oraz (ii) zbiór danych „Compound_3D” składający się z 94 201 188 wpisów 91 699 620 wpisów z odpowiadającymi im strukturami trójwymiarowymi (3D) zapisanymi w formacie SDF. Zestaw danych „Current-Full” był potrzebny, ponieważ zawiera metadane, które nie są dostępne w plikach „Compound_3D”. Ponad 2,5 miliona wpisów w PubChem nie miało pliku struktury 3D. Co ciekawe, wszystkie związki z więcej niż 152 atomami nie miały struktur 3D (rys. 1).

Rysunek 1: histogramy wyświetlające liczbę atomów i mas wpisów w PubChem.
rys. 1

oś X histogramów (a) i (b) reprezentuje liczbę atomów w związku, a oś y oznacza liczbę związków z odpowiednią liczbą atomów. (a) Histogram mas dla związków z mniej niż 152 atomami: te dla wpisów „Current-Full” (struktury 2D) są pokazane na niebiesko, a te dla wpisów „Compound_3D” są pokazane na Zielono. 152-atomowe odcięcie zostało wybrane na podstawie maksymalnej liczby atomów w związkach w zbiorze danych „Compound_3D”. B) liczy się dla związków o>152 atomach. PubChem nie zawiera informacji o strukturze 3D dla tych związków. C) Histogram mas związków, jak podano w plikach SDF pozycji PubChem „Current-Full”. Większość związków w bazie danych miała masy mniejsze niż 1000 Da; jednak 11 550 związków miało masę wyższą niż 2000 Da – nie pokazano w (c)) – na przykład PubChem CID 23393956 podał dokładną masę 59 745,256 Da.

aby zbadać poprawność chiralności atomu, przetworzyliśmy zestaw danych Compound_3D za pomocą oprogramowania ALATIS. Ten krok wygenerował unikalne identyfikatory dla ponad 91 milionów związków i ich atomów składowych (cytat z Danych 1). Wynik dla każdego wpisu składał się z: (i) pliki strukturalne w formatach SDF, PDB i XYZ zawierające identyfikatory (etykiety) oparte na ALATIS dla wszystkich atomów, (ii) Mapa łącząca wejściowe etykiety atomu z unikalnymi etykietami atomu, (iii) plik zawierający standardowy ciąg InChI jako unikalny identyfikator złożony (zwany ” inchi.inchi”), (iv) dwa pliki tekstowe o nazwie ” warnings.błąd ” i ” txt.txt’, które zawierają ostrzeżenia lub błędy związane z analizą alatis danego związku, oraz (v) plik wartości oddzielonych przecinkami (CSV) o nazwie 'meta_data.csv”, zawierające metadane powiązane z tym wpisem. Plik metadanych zawiera, oprócz identyfikatora PubChem compound identifier (CID), Wzór cząsteczkowy, wagę i dokładną masę zgodnie z raportem PubChem, odpowiedni standardowy ciąg InChI wygenerowany przez ALATISA. Aby ułatwić porównywanie wyników, w tym porównywanie struktur wejściowych 3D i struktur wyjściowych ALATIS opatrzonych unikalnymi identyfikatorami atom, wygenerowaliśmy stronę internetową dla każdego związku, która zawiera linki do pobierania wszystkich danych. Użyliśmy oprogramowania Jmol do tworzenia wyświetlaczy struktur 3D. Unikalne identyfikatory związków i atomów, wraz z informacjami związanymi z wpisami PubChem, można uzyskać za pośrednictwem strony internetowej ALATIS . Użytkownicy mogą odpytywać wyszukiwarkę na tej stronie za pomocą PubChem CID lub złożonej nazwy, aby pobrać odpowiedni wynik ALATIS.

wykorzystaliśmy dane alatisa do analizy spójności danych przechowywanych dla każdego wpisu w PubChem. Zauważ, że synonimy i metadane są archiwizowane oddzielnie od plików struktury 3D: synonimy znajdują się w i że metadane są przechowywane jako część plików SDF zarchiwizowanych w zestawie danych „Current-Full”. Synonimy zostały użyte przy tworzeniu przyjaznej dla użytkownika wyszukiwarki na serwerze internetowym ALATIS. Metadane były potrzebne do późniejszej analizy spójności. Poniżej przedstawiamy dwa główne wyniki naszego badania.

niespójność między zarchiwizowanymi strukturami 3D i wzorami

wzór chemiczny związku zarchiwizowanego w PubChem zwykle jest zgodny z konwencją Hilla13 i reprezentuje podstawową strukturę macierzystą składu9. Jednak Archiwum PubChem zawiera 1 239 752 naładowanych wzorów chemicznych, gdzie ładunki są oznaczone symbolem na końcu wzoru chemicznego. Podstawowa struktura macierzysta związku wskazuje skład Związku przed nałożeniem jakichkolwiek ładunków, poprzez dodanie lub odejmowanie atomów wodoru. Jak zilustrowano przykładami na Fig. 2, nie zawsze jest możliwe określenie podstawowej struktury macierzystej związku z jego naładowanym wzorem chemicznym. Wynika to z faktu, że ładunek, zamiast wynikać z dodawania lub odejmowania protonów, może być nieodłączny dla kowalencyjnej struktury związku. Tak więc, wielkoskalowe przetwarzanie obliczeniowe i kuratora bazy danych może prowadzić do niespójnych lub niejednoznacznych wyników w identyfikacji kompozycji atomu związków. Problem ten można rozwiązać poprzez użycie standardowych ciągów InChI. Warstwa formula_1 standardowych strun Inchiego określa skład rdzenia macierzystego związku, a warstwy ładunku netto („/q”) i protonacji („/p”) strun Inchiego reprezentują ładunki związków. Takie oddzielenie ładunków od wzorów ułatwia ekstrakcję dokładnej liczby atomów w pliku struktury związku lub wzorze chemicznym, a także wskazuje rodzaje ładunków związanych ze Związkiem. Stworzyliśmy pełną listę Cid PubChem z naładowanymi wzorami chemicznymi, wraz z odpowiednimi wzorami ALATIS w formacie Hill, jak wyodrębniono ze standardowych ciągów InChI. Dane te są dostępne na stronie internetowej ALATIS.

Rysunek 2: Przykłady wpisów PubChem z naładowanymi wzorami chemicznymi.
figure2

(a) PubChem CID 91929631. Zarchiwizowany wzór chemiczny dla tego wpisu w PubChem to C15H17N4O3S+. Wzór ten wskazuje na 17 atomów wodoru w dodatnio naładowanym związku. Jednak podstawowa struktura macierzysta tego związku zawiera tylko 16 atomów wodoru; dodatkowy Wodór wynika z protonacji związku w jego naładowanej postaci. Wzór ALATISA dla tego związku” C15H16N4O3S „pokazuje prawidłowy skład atomu z 16 atomami wodoru, a dodatkowy wodór jest wskazany w odpowiednim łańcuchu InChI (warstwa „/ p”) „InChI = 1 S / C15H16N4O3S / c16-15(17)11-5-4-8-13(9-11)23(21,22)18-10-14(20)19-12-6-2-1-3-7-12/h1-9,18 H, 10H2, (H3,16,17)(H,19, 20)/p + 1” . B) PubChem CID 91124997. Wzór chemiczny tego związku w PubChem to (C15H16N+). W tym przypadku ładunek dodatni powstaje z czwartorzędowego azotu, a prawidłowy skład związku zawiera 16 atomów wodoru, co odpowiada wzorze w PubChem. Wzór ALATISA dla tego związku pokazuje 16 atomów wodoru (C15H16N), a ładunek jest reprezentowany przez warstwę („/q”) w odpowiednim standardowym łańcuchu InChI „InChI = 1 S / C15H16N / c1-11-6-5-9-15-14-8-4-3-7-13(14)10-12(2)16(11)15/h3-9,12 H,10H2, 1-2H3/q + 1/t12-/m0/s1” .

niespójność między zarchiwizowanymi strukturami 3D i łańcuchami InChI

porównaliśmy zdeponowane łańcuchy PubChem InChI z tymi generowanymi przez ALATISA (ALATIS wykorzystuje program InChI V.1. 04). Standardowe łańcuchy InChI reprezentują unikalne identyfikatory złożone, które mogą być używane do odsyłaczy z różnych baz danych5. Ciągi te składają się z kilku warstw informacji, w tym wzorów złożonych, kowalencyjnej łączności między ciężkimi atomami, liczby atomów wodoru związanych z ciężkimi atomami, warstwy reprezentującej chiralność i innych warstw związanych z atomami znakowanymi izotopowo i wiązaniami Związkowymi 9. Użyliśmy ALATIS do przetwarzania plików struktury 3D zdeponowanych w PubChem i oflagowaliśmy wpisy, dla których odpowiednie zdeponowane łańcuchy InChI nie pasowały do tych zgłoszonych przez ALATISA. Tabela 1 pokazuje różne kategorie tych oznaczonych wpisów PubChem. W tej tabeli Kategoria ” łączność atomowa „podaje liczbę pozycji oznaczonych z powodu rozbieżności w (a) kowalencyjnej łączności między ciężkimi atomami (zgłaszanej w warstwie” /c „ciągów InChI) lub (b) liczbie atomów wodoru przypisanych do ciężkich atomów (warstwa” /h ” ciągów InChI). Kategoria „ładunek” zgłasza liczbę oznaczonych pozycji, które reprezentują różne protonacje (de) (warstwa” / p „InChI) lub wewnętrzne ładunki kowalencyjne (warstwa”/q”). Kategoria ” Stereochemia „pokazuje liczbę wpisów, które zostały oznaczone z powodu rozbieżności w ich (a)” /b „warstwie łańcuchów InChI, która zgłasza stereochemię wiązania podwójnego sp2 związków, lub (B) warstwie InChI” /t”, która zgłasza orientację centrów chiralnych. Zauważamy, że związek może być oznaczony i zgłoszony w wielu kategoriach. Ogólnie rzecz biorąc, nasze analizy oznaczyły 32 036 565 wpisów (około 33% wpisów PubChem ze strukturami 3D) jako rozbieżności między zarchiwizowanym ciągiem InChI a tym wygenerowanym z odpowiedniej struktury 3D przez ALATISA. Najczęstszą przyczyną rozbieżności była nieprawidłowa reprezentacja stereochemii, a następnie ładunek i łączność atomu(Tabela 1). Pełna lista tych oznaczonych wpisów znajduje się na naszej stronie internetowej .

Tabela 1 kategorie i numery oznaczonych wpisów PubChem.

poniżej przedstawiamy przykłady z trzech kategorii oznaczonych niespójności.

(A) niespójność w łączeniu atomów

jak wspomniano powyżej, warstwy „/c” i „/ h” w standardowym łańcuchu InChI reprezentują łączność ciężkich atomów i liczbę powiązanych atomów wodoru z ciężkimi atomami, odpowiednio. Wpis PubChem pokazany na Rys. 3 ilustruje przypadek, w którym plik struktury 3D i zdeponowane ciągi InChI reprezentują wyraźne wiązania kowalencyjne między ciężkimi atomami. Prawidłowa identyfikacja struktury 3D jest niezbędna w badaniach funkcjonalnych związków, a ta kategoria niespójności może prowadzić do błędnych wniosków.

Rysunek 3: niespójność w warstwie połączeniowej heavy atom.
figure3

alatis wygenerował standardowe łańcuchy InChI dla struktur 3D w PubChem i porównując te łańcuchy InChI ze zdeponowanymi łańcuchami InChI w bazie danych, zidentyfikowaliśmy związki, których warstwy łączeniowe nie pasowały. Rysunek ten pokazuje przykład takiej rozbieżności dla PubChem CID 12300268. a) przedstawienie złożonej struktury 3D dla wpisu. B) Reprezentacja ze zdeponowanego ciągu InChI. Zauważamy, że wiązania kowalencyjne różnią się między tymi dwoma strukturami. Standardowy ciąg InChI w zarchiwizowanej strukturze 3D: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-24(26)14-10-20/h1-8,17-18 H, 9-16H2, a zdeponowany ciąg InChI: InChI = 1 S/C26H26/c1-2-20-4-3-19(1)9-13-23-17-24(14-10-20)26-16-12-22-7-5-21(6-8-22)11-15-25(23)18-26/h1-8,17-18 H, 9-16H2. Pogrubione warstwy InChI wskazują na rozbieżności między łącznością ciężkich atomów w dwóch strunach InChI.

(b) niespójność w rozkładzie ładunków

jak wspomniano powyżej, różne ładunki spowodowane (de)protonacją lub wewnętrznymi ładunkami kowalencyjnymi związków są reprezentowane w warstwach „/p” i „/ q” ciągów InChI. Oznaczone wpisy PubChem w tej kategorii to te, w których zarchiwizowana struktura 3D i ciągi InChI reprezentują różne stany ładunku. Rysunek 4 pokazuje przykład z tej kategorii.

Rysunek 4:
figure4

(a) reprezentacja pliku struktury 3D zarchiwizowanego dla PubChem CID 2179800. (b) strukturalna reprezentacja łańcucha InChI zapisanego dla tego związku: „InChI = 1 S / C15H9N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8,19 H / p-1”. Standardowy ciąg znaków InChI dla struktury w pliku (a) structure zgłoszonym przez ALATISA to „InChI = 1 S / C15H8N3O5 / c19-13-6-5-10(18(22)23)7-9(13)8-16-17-14(20)11-3-1-2-4-12(11)15(17)21/h1-8h/q-1”.

(C) niespójność w stereochemii wiązania podwójnego

(c.1) niespójność w stereochemii wiązania podwójnego sp2

orientacja struktury związku wokół wiązania podwójnego, niezależnie od tego, czy konfiguracja jest cis, czy trans, jest uchwycona dokładnie w standardowych ciągach InChI. Te orientacje, które można zidentyfikować tylko w strukturach 3D, są wskazane w warstwie” / b ” ciągów InChI. Związek PubChem pokazany na fig. 5 pokazuje przykład rozbieżności między konfiguracją zarchiwizowanej struktury 3D a powiązanym z nią ciągiem InChI. W tym przykładzie łańcuch InChI wpisu PubChem (CID 1551886) zawiera znak zapytania w warstwie „/b”, co wskazuje, że konfiguracja związku jest niejednoznaczna. Jednak zarchiwizowana struktura 3D reprezentuje konfigurację trans związku.

Rysunek 5: niespójność w konfiguracji cis i trans.
figure5

Reprezentacja struktury 3D zarchiwizowanej dla wpisu PubChem CID 1551886, która pokazuje zdefiniowaną stereochemię dotyczącą wiązania podwójnego między C8 i N18. Jednak łańcuch InChI zarchiwizowany dla tego wpisu ” InChI = 1 S/C17H10N4O7S2/c22-13-3-1-11(20(25)26)5-9(13)7-15-16(24)19(17(29)30-15)18-8-10-6-12(21(27)28)2-4-14(10)23/h1-8,22-23 H/p-2 / b15-7-,18-8?”oznacza niejednoznaczną orientację wokół podwójnego wiązania między C8 i N18. W rezultacie łańcuch InChI wygenerowany ze struktury przez ALATISA nie pasował do zarchiwizowanego łańcucha InChI.

(c.2) niespójność w stereochemii ośrodków chiralnych

stereochemia (chiralność) małych cząsteczek odgrywa istotną rolę w określaniu ich funkcji. Spośród ponad 91 milionów wpisów PubChem ze strukturami 3D, nasze obliczenia przy użyciu ALATIS wykazały, że ponad 55% wpisów (50 508 180 wpisów) zawierało co najmniej jedno chiralne centrum. Około 60% tych wpisów (30 236 352) zostało oznaczonych podczas naszej analizy, z powodu niespójności między warstwą stereochemiczną zdeponowanych strun InChI w PubChem a tymi generowanymi przez ALATISA ze struktur. Pełna lista tych wpisów jest dostępna na stronie internetowej ALATIS. Rysunek 6 pokazuje jeden przykład z tych oznaczonych wpisów.

Rysunek 6: niespójność w chiralności złożonej.
figure6

przykład z PubChem CID 130156427. a) złożona struktura 3D związku. B) struktura wygenerowana ze zdeponowanego ciągu InChI. Wiązanie faliste w (b) wskazuje na dwuznaczną chiralność wiązania. Dzieje się tak dlatego, że zarchiwizowany łańcuch InChI dla tego związku „InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)” Tę warstwę InChI można znaleźć w standardowym łańcuchu InChI zgłaszanym przez ALATISA: „InChI = 1 S/C25H30N2O6/c1-25(2,3)33-24(30)27-21(22(28)31-4)13-14-26-23(29)32-15-20-18-11-7-5-9-16(18)17-10-6-8-12-19(17)20/h5-12,20-21 H,13-15H2,1-4H3,(H,26,29)(H,27,30)/t21-/m0/s1.”