zautomatyzowana ocena spójności w bazie danych PubChem Compound
20 grudnia 2017 r.pobraliśmy dwa zestawy archiwalnych plików strukturalnych PubChem: (i) zbiór danych „Current-Full” składający się z 94 201 188 wpisów z odpowiadającymi im dwuwymiarowymi (2D) strukturami przechowywanymi w formacie SDF12 oraz (ii) zbiór danych „Compound_3D” składający się z 94 201 188 wpisów 91 699 620 wpisów z odpowiadającymi im strukturami trójwymiarowymi (3D) zapisanymi w formacie SDF. Zestaw danych „Current-Full” był potrzebny, ponieważ zawiera metadane, które nie są dostępne w plikach „Compound_3D”. Ponad 2,5 miliona wpisów w PubChem nie miało pliku struktury 3D. Co ciekawe, wszystkie związki z więcej niż 152 atomami nie miały struktur 3D (rys. 1).
oś X histogramów (a) i (b) reprezentuje liczbę atomów w związku, a oś y oznacza liczbę związków z odpowiednią liczbą atomów. (a) Histogram mas dla związków z mniej niż 152 atomami: te dla wpisów „Current-Full” (struktury 2D) są pokazane na niebiesko, a te dla wpisów „Compound_3D” są pokazane na Zielono. 152-atomowe odcięcie zostało wybrane na podstawie maksymalnej liczby atomów w związkach w zbiorze danych „Compound_3D”. B) liczy się dla związków o>152 atomach. PubChem nie zawiera informacji o strukturze 3D dla tych związków. C) Histogram mas związków, jak podano w plikach SDF pozycji PubChem „Current-Full”. Większość związków w bazie danych miała masy mniejsze niż 1000 Da; jednak 11 550 związków miało masę wyższą niż 2000 Da – nie pokazano w (c)) – na przykład PubChem CID 23393956 podał dokładną masę 59 745,256 Da.
aby zbadać poprawność chiralności atomu, przetworzyliśmy zestaw danych Compound_3D za pomocą oprogramowania ALATIS. Ten krok wygenerował unikalne identyfikatory dla ponad 91 milionów związków i ich atomów składowych (cytat z Danych 1). Wynik dla każdego wpisu składał się z: (i) pliki strukturalne w formatach SDF, PDB i XYZ zawierające identyfikatory (etykiety) oparte na ALATIS dla wszystkich atomów, (ii) Mapa łącząca wejściowe etykiety atomu z unikalnymi etykietami atomu, (iii) plik zawierający standardowy ciąg InChI jako unikalny identyfikator złożony (zwany ” inchi.inchi”), (iv) dwa pliki tekstowe o nazwie ” warnings.błąd ” i ” txt.txt’, które zawierają ostrzeżenia lub błędy związane z analizą alatis danego związku, oraz (v) plik wartości oddzielonych przecinkami (CSV) o nazwie 'meta_data.csv”, zawierające metadane powiązane z tym wpisem. Plik metadanych zawiera, oprócz identyfikatora PubChem compound identifier (CID), Wzór cząsteczkowy, wagę i dokładną masę zgodnie z raportem PubChem, odpowiedni standardowy ciąg InChI wygenerowany przez ALATISA. Aby ułatwić porównywanie wyników, w tym porównywanie struktur wejściowych 3D i struktur wyjściowych ALATIS opatrzonych unikalnymi identyfikatorami atom, wygenerowaliśmy stronę internetową dla każdego związku, która zawiera linki do pobierania wszystkich danych. Użyliśmy oprogramowania Jmol do tworzenia wyświetlaczy struktur 3D. Unikalne identyfikatory związków i atomów, wraz z informacjami związanymi z wpisami PubChem, można uzyskać za pośrednictwem strony internetowej ALATIS . Użytkownicy mogą odpytywać wyszukiwarkę na tej stronie za pomocą PubChem CID lub złożonej nazwy, aby pobrać odpowiedni wynik ALATIS.
wykorzystaliśmy dane alatisa do analizy spójności danych przechowywanych dla każdego wpisu w PubChem. Zauważ, że synonimy i metadane są archiwizowane oddzielnie od plików struktury 3D: synonimy znajdują się w i że metadane są przechowywane jako część plików SDF zarchiwizowanych w zestawie danych „Current-Full”. Synonimy zostały użyte przy tworzeniu przyjaznej dla użytkownika wyszukiwarki na serwerze internetowym ALATIS. Metadane były potrzebne do późniejszej analizy spójności. Poniżej przedstawiamy dwa główne wyniki naszego badania.
- niespójność między zarchiwizowanymi strukturami 3D i wzorami
- niespójność między zarchiwizowanymi strukturami 3D i łańcuchami InChI
- (A) niespójność w łączeniu atomów
- (b) niespójność w rozkładzie ładunków
- (C) niespójność w stereochemii wiązania podwójnego
- (c.1) niespójność w stereochemii wiązania podwójnego sp2
- (c.2) niespójność w stereochemii ośrodków chiralnych
niespójność między zarchiwizowanymi strukturami 3D i wzorami
wzór chemiczny związku zarchiwizowanego w PubChem zwykle jest zgodny z konwencją Hilla13 i reprezentuje podstawową strukturę macierzystą składu9. Jednak Archiwum PubChem zawiera 1 239 752 naładowanych wzorów chemicznych, gdzie ładunki są oznaczone symbolem na końcu wzoru chemicznego. Podstawowa struktura macierzysta związku wskazuje skład Związku przed nałożeniem jakichkolwiek ładunków, poprzez dodanie lub odejmowanie atomów wodoru. Jak zilustrowano przykładami na Fig. 2, nie zawsze jest możliwe określenie podstawowej struktury macierzystej związku z jego naładowanym wzorem chemicznym. Wynika to z faktu, że ładunek, zamiast wynikać z dodawania lub odejmowania protonów, może być nieodłączny dla kowalencyjnej struktury związku. Tak więc, wielkoskalowe przetwarzanie obliczeniowe i kuratora bazy danych może prowadzić do niespójnych lub niejednoznacznych wyników w identyfikacji kompozycji atomu związków. Problem ten można rozwiązać poprzez użycie standardowych ciągów InChI. Warstwa formula_1 standardowych strun Inchiego określa skład rdzenia macierzystego związku, a warstwy ładunku netto („/q”) i protonacji („/p”) strun Inchiego reprezentują ładunki związków. Takie oddzielenie ładunków od wzorów ułatwia ekstrakcję dokładnej liczby atomów w pliku struktury związku lub wzorze chemicznym, a także wskazuje rodzaje ładunków związanych ze Związkiem. Stworzyliśmy pełną listę Cid PubChem z naładowanymi wzorami chemicznymi, wraz z odpowiednimi wzorami ALATIS w formacie Hill, jak wyodrębniono ze standardowych ciągów InChI. Dane te są dostępne na stronie internetowej ALATIS.
niespójność między zarchiwizowanymi strukturami 3D i łańcuchami InChI
porównaliśmy zdeponowane łańcuchy PubChem InChI z tymi generowanymi przez ALATISA (ALATIS wykorzystuje program InChI V.1. 04). Standardowe łańcuchy InChI reprezentują unikalne identyfikatory złożone, które mogą być używane do odsyłaczy z różnych baz danych5. Ciągi te składają się z kilku warstw informacji, w tym wzorów złożonych, kowalencyjnej łączności między ciężkimi atomami, liczby atomów wodoru związanych z ciężkimi atomami, warstwy reprezentującej chiralność i innych warstw związanych z atomami znakowanymi izotopowo i wiązaniami Związkowymi 9. Użyliśmy ALATIS do przetwarzania plików struktury 3D zdeponowanych w PubChem i oflagowaliśmy wpisy, dla których odpowiednie zdeponowane łańcuchy InChI nie pasowały do tych zgłoszonych przez ALATISA. Tabela 1 pokazuje różne kategorie tych oznaczonych wpisów PubChem. W tej tabeli Kategoria ” łączność atomowa „podaje liczbę pozycji oznaczonych z powodu rozbieżności w (a) kowalencyjnej łączności między ciężkimi atomami (zgłaszanej w warstwie” /c „ciągów InChI) lub (b) liczbie atomów wodoru przypisanych do ciężkich atomów (warstwa” /h ” ciągów InChI). Kategoria „ładunek” zgłasza liczbę oznaczonych pozycji, które reprezentują różne protonacje (de) (warstwa” / p „InChI) lub wewnętrzne ładunki kowalencyjne (warstwa”/q”). Kategoria ” Stereochemia „pokazuje liczbę wpisów, które zostały oznaczone z powodu rozbieżności w ich (a)” /b „warstwie łańcuchów InChI, która zgłasza stereochemię wiązania podwójnego sp2 związków, lub (B) warstwie InChI” /t”, która zgłasza orientację centrów chiralnych. Zauważamy, że związek może być oznaczony i zgłoszony w wielu kategoriach. Ogólnie rzecz biorąc, nasze analizy oznaczyły 32 036 565 wpisów (około 33% wpisów PubChem ze strukturami 3D) jako rozbieżności między zarchiwizowanym ciągiem InChI a tym wygenerowanym z odpowiedniej struktury 3D przez ALATISA. Najczęstszą przyczyną rozbieżności była nieprawidłowa reprezentacja stereochemii, a następnie ładunek i łączność atomu(Tabela 1). Pełna lista tych oznaczonych wpisów znajduje się na naszej stronie internetowej .
poniżej przedstawiamy przykłady z trzech kategorii oznaczonych niespójności.
(A) niespójność w łączeniu atomów
jak wspomniano powyżej, warstwy „/c” i „/ h” w standardowym łańcuchu InChI reprezentują łączność ciężkich atomów i liczbę powiązanych atomów wodoru z ciężkimi atomami, odpowiednio. Wpis PubChem pokazany na Rys. 3 ilustruje przypadek, w którym plik struktury 3D i zdeponowane ciągi InChI reprezentują wyraźne wiązania kowalencyjne między ciężkimi atomami. Prawidłowa identyfikacja struktury 3D jest niezbędna w badaniach funkcjonalnych związków, a ta kategoria niespójności może prowadzić do błędnych wniosków.