the PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities
- Streszczenie
- wprowadzenie
- Co nowego w PATRICU?
- wzrost danych i ulepszenia
- usługi
- godne uwagi aktualizacje istniejących usług
- kompleksowa analiza genomu
- drzewa filogenetyczne
- Fastq utilities
- wyrównanie genomu
- podobna wyszukiwarka genomów
- klasyfikacja taksonomiczna
- metagenomic read mapping
- metagenomic binning
- internetowe narzędzia analityczne
- Porównaj region viewer
- podsystemy
- interfejs wiersza poleceń (CLI)
- przyszłe kierunki
- finansowanie
- uwagi
Streszczenie
the PathoSystems Resource Integration Center (PATRIC) jest bakteryjnym Centrum Bioinformatics Resource Center finansowanym przez Narodowy Instytut alergii i Chorób Zakaźnych (https://www.patricbrc.org). PATRIC wspiera analizy bioinformatyczne wszystkich bakterii ze szczególnym uwzględnieniem patogenów, oferując bogate środowisko analizy porównawczej, które zapewnia użytkownikom dostęp do ponad 250 000 jednolicie opatrzonych adnotacjami i publicznie dostępnych genomów z wybranymi metadanymi. PATRIC oferuje internetowe narzędzia do wizualizacji i analizy porównawczej, prywatną przestrzeń roboczą, w której użytkownicy mogą analizować własne dane w kontekście kolekcji publicznych, usługi usprawniające złożone bioinformatyczne przepływy pracy oraz narzędzia wiersza poleceń do masowej analizy danych. W ciągu ostatnich kilku lat, w miarę jak eksperymenty genomowe i inne związane z omikami stały się bardziej opłacalne i powszechne, zaobserwowaliśmy znaczny wzrost wykorzystania i popytu na łatwe w użyciu, publicznie dostępne narzędzia i usługi bioinformatyczne. Tutaj przedstawiamy najnowsze aktualizacje zasobu PATRIC, w tym nowe internetowe narzędzia do analizy porównawczej, osiem nowych usług i wydanie interfejsu wiersza poleceń do dostępu, zapytań i analizowania danych.
wprowadzenie
program Bioinformatics Resource Center (BRC) został ustanowiony przez Narodowy Instytut alergii i Chorób Zakaźnych (NIAID) w 2004 roku z głównym naciskiem na zapewnienie dostępu do danych sekwencji genomu i narzędzi analitycznych do badania patogenów. PathoSystems Resource Integration Center (PATRIC) rozpoczął jako jeden z oryginalnych ośrodków, których zadaniem było wspieranie analizy porównawczej patogenów bakteryjnych (1-3). W 2009 roku PATRIC połączył się z National Microbial Pathogen Database Resource (NMP) BRC (4), który opracował udaną bazę danych nasion i system adnotacji RAST (Rapid Annotation using Subsystem Technology) do jednolicie kuratorowania i wyświetlania adnotacji genomu w obrębie gatunków drobnoustrojów (5-8). Z biegiem lat zasoby PATRIC rozszerzyły się i dostosowały, aby dotrzymać kroku wzrostowi bioinformatycznych zbiorów danych i potrzebie związanych z nimi narzędzi analitycznych. Według stanu na wrzesień 2019, PATRIC obejmuje ponad 250 000 publicznie dostępnych genomów drobnoustrojów i bogate środowisko analizy porównawczej.
od swojej premiery w 2008 r.RAST (http://rast.nmpdr.org) wykonał około 700 000 zadań adnotacji genomu dla użytkowników prywatnych. Poprzez zapewnienie dostępu do skryptów identyfikacji cech genomu opracowanych przez społeczność akademicką i spójnych prognoz dobrze dobranych funkcji białek z nasion, RAST służy jako model udanej usługi bioinformatycznej, ponieważ zmniejsza potrzebę tworzenia własnych niestandardowych potoków adnotacji, a jego spójność umożliwia późniejsze analizy porównawcze. Używając Rast jako szablonu, w 2014 PATRIC rozpoczął wdrażanie różnych usług bioinformatycznych za pośrednictwem strony internetowej, umożliwiając użytkownikom łączenie i opisywanie sekwencji genomu, rekonstrukcję modeli metabolicznych, analizę SNP i Indel oraz analizowanie i porównywanie eksperymentów RNA-seq. Wyniki tych zadań analitycznych można następnie porównać z publicznie dostępnymi zbiorami danych genomowych i innych omik w zasobie, zachowując prywatność w środowisku roboczym użytkownika. Do końca 2016 r.PATRIC przetwarzał ∼1500 zadań serwisowych miesięcznie, nie wliczając w to zadań zgłaszanych na stronie RAST (3).
od ostatniego opisu w badaniach nad kwasami nukleinowymi w 2016 roku (3) PATRIC przeszedł szereg aktualizacji i ulepszeń. Udoskonalono gromadzenie danych, zwłaszcza w obszarze oporności na środki przeciwdrobnoustrojowe (AMR) (9); środowisko przeglądania stron internetowych zostało wzbogacone o nowe narzędzia i wizualizacje; ulepszenia przestrzeni roboczej ułatwiły również wyszukiwanie i udostępnianie danych z projektów badawczych. Interfejs wiersza poleceń (CLI) do masowego pozyskiwania i analizy danych został zbudowany i wydany do dystrybucji na systemach Mac, Linux i Windows. PATRIC uruchomił również osiem nowych usług bioinformatycznych, z niedawnym naciskiem na możliwość analizy danych z mieszanych kultur lub próbek metagenomicznych. W końcu powstał bogaty zbiór samouczków, aby pomóc użytkownikom w korzystaniu z tych nowych narzędzi (https://docs.patricbrc.org/tutorial/). Ten raport opisuje wiele ostatnich niepublikowanych aktualizacji zasobu PATRIC.
Co nowego w PATRICU?
wzrost danych i ulepszenia
jedną z najbardziej dramatycznych zmian we wspieraniu pracy bioinformatycznej od początku programu BRC jest wykładniczy wzrost publicznie dostępnych sekwencji genomu drobnoustrojów (Rysunek 1). Zbiór prywatnych sekwencji genomu użytkownika, które zostały adnotowane i indeksowane przez Patrica, również wzrósł od czasu utworzenia środowiska roboczego i może faktycznie przekroczyć rozmiar publicznej kolekcji sekwencji genomu w ciągu następnego roku (Rysunek 1). Chociaż prywatny zestaw zawiera kilka ponownie przeanalizowanych sekwencji genomu,
skumulowany wzrost publicznych i prywatnych genomów w Patryku.
skumulowany wzrost publicznych i prywatnych genomów w Patryku.
nie widzimy oznak, że sekwencjonowanie genomu drobnoustrojów i związane z nim analizy bioinformatyczne zwalniają. Wzrost publicznie dostępnych danych o sekwencji genomu i powiązanych strukturyzowanych metadanych zrewolucjonizował również rodzaje analiz eksperymentalnych, które są możliwe. Na przykład PATRIC zapewnia uporządkowane i ręcznie dobierane metadane związane z każdym genomem, w tym pochodzące z laboratorium fenotypy AMR, organizmy gospodarza, źródła izolacji, dane dotyczące miejsca ludzkiego ciała i informacje geograficzne. Te zbiory strukturyzowanych metadanych stanowią podstawę do przeprowadzania eksperymentów uczenia maszynowego i uczenia głębokiego (10,11) oraz dostarczania użytkownikom narzędzi predykcyjnych (9). Przewidujemy, że zwiększone wykorzystanie technik sztucznej inteligencji w bioinformatyce będzie napędzać eksperymentalne decyzje projektowe i ostatecznie skróci czas wymagany do genetycznych i innych laboratoryjnych eksperymentów charakteryzacyjnych.
wspieranie badań AMR jest głównym obszarem zainteresowania dla gromadzenia danych i kuratorowania w PATRIC. Aktywnie przetwarzamy zarówno adnotacje dotyczące białek AMR, jak i pochodzące z laboratorium dane fenotypowe AMR związane z publicznymi genomami. System adnotacji jest w stanie precyzyjnie wyświetlać ponad 600 ręcznie opracowanych funkcji białka AMR. Zawiera również duży zbiór ściśle powiązanych funkcji białek innych niż AMR, które zostały opracowane w celu zapobiegania fałszywym przewidywaniom funkcji AMR. Aby zapewnić dodatkowe środki porównania, system adnotacji wyszukuje również geny o wysokim podobieństwie do tych, które są kuratorowane przez projekty CARD (12) i NCBI AMR gene database (13). Zbiór fenotypów AMR pochodzących z laboratorium został wygenerowany na podstawie danych z literatury, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) I innych źródeł publicznych. To wzrosła do ponad 40 000 sekwencji genomu i jest używany przez naukowców na całym świecie. Dodaliśmy również ponad 10 000 sekwencji plazmidowych i proroczych ze względu na ich znaczenie w badaniu i zwalczaniu AMR.
usługi
usługi świadczone przez PATRIC mają na celu umożliwienie łatwego dostępu do złożonych procesów bioinformatycznych. Dostęp do nich można uzyskać za pośrednictwem interfejsu PATRIC web i CLI. Większość usług może obsłużyć setki, a nawet tysiące zleceń dziennie. Zadania są zazwyczaj uruchamiane na szeregu wewnętrznych serwerów, a przepustowość przepięć jest obsługiwana przez duży klaster obliczeniowy. Usługi PATRIC zyskują na popularności od 2014 r., a od września 2019 r. ukończono z powodzeniem ponad 263 000 miejsc pracy (wykres 2).
zadania analizy zainicjowane przez użytkownika zakończone przez PATRIC bioinformatic services. Górny wykres pokazuje korzystanie z usług o dużej objętości. Dolny wykres pokazuje wykorzystanie niższego wolumenu i nowych usług. Zwróć uwagę na różnicę w skali między dwoma działkami.
zadania analizy zainicjowane przez użytkownika zakończone przez PATRIC bioinformatic services. Górny wykres pokazuje korzystanie z usług o dużej objętości. Dolny wykres pokazuje wykorzystanie niższego wolumenu i nowych usług. Zwróć uwagę na różnicę w skali między dwoma działkami.
godne uwagi aktualizacje istniejących usług
trzy z naszych wcześniej istniejących usług, montaż genomu, Adnotacja genomu i analiza RNA-seq, przeszły kilka godnych uwagi aktualizacji. Usługa montażu genomu została przebudowana za pomocą nowego harmonogramu zadań, który umożliwia bardziej sprawiedliwy proces kolejkowania zadań, który zapobiega powstawaniu wąskich gardeł w dużych zadaniach (14). Oprócz Pik (15) dodaliśmy Canu (16) dla zespołów o długim odczycie i Unicycler dla hybrydowych zespołów o długim i krótkim odczycie (17). Zapewniamy również obraz wykresu montażu Za pomocą bandaża (18), a zespoły mogą być polerowane za pomocą Racon (19) i Pilon (20) odpowiednio dla zespołów o długim i krótkim odczycie. W końcu mapowanie odczytu jest wykonywane w celu wygenerowania dokładnych statystyk zasięgu za pomocą Bowtie2 (21) lub Minimap2 (22) i SAMtools (23). Dwa nowe dodatki do usługi adnotacji genomu obejmują możliwość adnotacji sekwencji genomu bakteriofagów (24) i obliczanie statystyk jakości genomu opartych na aplikacji CheckM (25) oraz wewnętrzny model RAST, który ocenia jakość na podstawie występowania i kompletności ról podsystemu w genomie (26). Usługa analizy RNA-seq została również zaktualizowana, aby umożliwić eksperymenty badające odpowiedź gospodarza na infekcje drobnoustrojowe. Aby to potwierdzić, dodaliśmy kilka wspólnych genomów referencyjnych gospodarzy eukariotycznych, w tym Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, koguta, koguta, Homo sapiens, makaka mulatta, mięsień, łasica putorius furo, Rattus norvegicus i Sus scrofa. Niedawno dodaliśmy również hisat2 (hierarchiczne indeksowanie dla spliced alignment of transcripts) (27), wysoce wydajny system do dostosowywania odczytów z eksperymentów RNA-Seq do genomów gospodarza i umożliwiliśmy import zbiorów danych z SRA w interfejsie RNA-seq, dodatkowo zwiększając zdolność do przeprowadzania mieszanej analizy ekspresji różnicowej danych publicznych i prywatnych.
kompleksowa analiza genomu
jednym z najczęstszych przypadków użycia do analizy prywatnych genomów w PATRIC jest dla naukowców do montażu, a następnie adnotacji ich sekwencji genomu za pomocą dwóch oddzielnych usług. Wiosną 2018 roku uruchomiliśmy usprawnioną, kompleksową „meta-usługę” analizy genomu, która akceptuje odczyty sekwencjonowania, oblicza montaż i adnotację oraz zapewnia przyjazny dla użytkownika opis genomu. Wyniki obejmują ocenę jakości genomu, geny AMR i przewidywania fenotypu, geny specjalne, przegląd podsystemu, identyfikację najbliższych sekwencji genomu, drzewo filogenetyczne i listę cech, które odróżniają Genom od jego najbliższych sąsiadów. Kompleksowa usługa analizy genomu szybko stała się jedną z najpopularniejszych usług w PATRIC, z ponad 11 000 prac ukończonych od momentu uruchomienia w kwietniu 2018 roku.
drzewa filogenetyczne
zdolność do rekonstrukcji i wizualizacji relacji ewolucyjnych leży u podstaw biologii. W 2017 PATRIC uruchomił usługę drzewa filogenetycznego, która umożliwia użytkownikom tworzenie wysokiej jakości drzew filogenetycznych dla publicznych i prywatnych sekwencji genomu. Obecnie usługa oferuje użytkownikowi dwa przepływy pracy. Pierwszym z nich jest oparty na białkach proces budowania drzewa o nazwie 'All Shared Proteins’, który wykorzystuje estymację Filogenomiczną z postępującym udoskonalaniem (PEPR) (https://github.com/enordber/pepr). PEPR działa poprzez definiowanie współdzielonych rodzin białek de novo dla grupy genomu za pomocą BLAST (28) i HMMER (29) do identyfikacji podobnych białek i MCL (30) do budowy klastrów. Następnie wyrównania są generowane za pomocą mięśni (31) i przycinane za pomocą Gbloków (32). W końcu, na podstawie preferencji użytkownika, PEPR oblicza drzewo używając FastTree (33) lub RAxML (34). W 2019 roku uruchomiliśmy drugi, szybszy proces tworzenia drzew filogenetycznych o nazwie ” drzewa Kodonowe.”Wykorzystuje predefiniowane PATRIC global protein families (PGFams) (35), wybierając określoną przez użytkownika liczbę rodzin (10-1000), które są pojedynczą kopią (lub prawie tak) wśród członków grupy genomu. Dopasowania są generowane dla sekwencji białkowych każdej rodziny przy użyciu mięśni (31), a odpowiadające im sekwencje nukleotydowe są dopasowywane do tego przy użyciu funkcji kodonalnej Biopytonu (36). Połączenie wszystkich białek i nukleotydów jest zapisywane do pliku sformatowanego w PHYLIP (37). Następnie generowany jest plik partycji dla RaxML (34), który opisuje wyrównanie pod względem białek i nukleotydów w pierwszej, drugiej i trzeciej pozycji kodonu. Wartości wsparcia są generowane ze 100 rund szybkiego rozruchu w RaxML (38).
oprócz nowo sformatowanych plików drzew, usługa drzewa filogenetycznego zwraca przenośny plik dokumentu (PDF), przenośną grafikę sieciową (PNG) i skalowalną grafikę wektorową (SVG) obrazów drzewa zakorzenionego w punkcie środkowym generowanych przez FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Widok drzewa filogenetycznego na stronie PATRIC pozwala badaczom wybrać węzły i liście, umożliwiając użytkownikowi tworzenie grup z określonych kladów do dalszej analizy. Generuje również raport genomu, który zawiera listę sekwencji genomu i rodzin białek używanych w budowie drzewa oraz liczbę genów, białek, aminokwasów i nukleotydów używanych do obliczenia drzewa. W końcu, problematyczne sekwencje genomu, które mogą być usunięte w celu zwiększenia selekcji genów i poprawy siły drzewa są wymienione. Od czasu jego budowy, prawie 5000 miejsc pracy zostały przetworzone przez Phylogenetic Tree Service.
Fastq utilities
Ocena jakości sekwencjonowania odczytów jest ważnym pierwszym krokiem do zapewnienia, że późniejsze analizy, takie jak montaż, adnotacja itp. są dokładne. Usługa FASTQ Utilities, uruchomiona w lipcu 2019 r., umożliwia użytkownikom wyrównywanie odczytów, mierzenie jakości połączeń bazowych i przycinanie sekwencji niskiej jakości z odczytywanych plików. Serwis akceptuje pliki o długim lub krótkim odczycie w formacie pojedynczym lub sparowanym. Może również pobierać odczytywane pliki bezpośrednio z archiwum odczytu sekwencji NCBI (SRA) za pomocą identyfikatora run jako wejścia. Usługa składa się z trzech komponentów: „trim”, „FastQC” i „align”, które mogą być używane niezależnie lub w dowolnej kombinacji. Komponent trimming używa Trim Galore( 39), który jest opakowaniem Perla wokół narzędzi Cutadapt (40) i FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc). Komponent FastQC zapewnia kontrolę jakości surowych danych sekwencyjnych pochodzących z wysokowydajnych potoków sekwencjonowania i umożliwia szybką kontrolę jakości poprzez wskazanie problemów, które mogą mieć wpływ na dalsze analizy. Funkcja wyrównywania wyrównuje odczyty do referencyjnej sekwencji genomu za pomocą Bowtie2 (21,41), zapisując niezmapowane odczyty i generując raporty SamStat (42) dotyczące ilości i jakości wyrównań.
wyrównanie genomu
w listopadzie 2018 roku PATRIC uruchomił usługę wyrównywania genomu, aby umożliwić użytkownikom obliczanie całych wyrównań sekwencji genomu. Ta usługa korzysta z aplikacji progressiveMauve (43), która konstruuje pozycyjne wyrównania homologii wielu sekwencji genomu w rozszerzeniu oryginalnego algorytmu Mauve (44). Usługa umożliwia naukowcom dostosowanie do dwudziestu sekwencji genomu naraz. Wynik usługi obejmuje wizualne wyświetlanie genomu, które pozwala użytkownikom na przeglądanie i badanie całego wyrównania sekwencji genomu lub powiększenie w celu porównania poszczególnych regionów lub genów (Rysunek 3).
przepływ pracy analizy danych w PATRIC za pomocą usługi wyrównania genomu. (A) interfejs strony internetowej umożliwia wybór genomów; (B) wizualizacja wyrównanych regionów genomowych z dowolnymi delecjami, wstawkami lub przearanżowaniami; (C) powiększenie wyrównania pokaże geny na stojakach do przodu i do tyłu, które można wybrać; (D) wybranie konkretnego genu z przeglądarki wyrównania genomu otwiera stronę PATRIC Feature, na której pokazane są wszystkie dostępne dane dla tego genu. (E) Zakładka Compare Region View na stronie PATRIC Gene pokazuje zachowanie wybranego genu (pokazanego na czerwono), a także otaczających go genów. (F) każdy gen jest przypisany do specyficznej dla rodzaju (PLFam) lub globalnej (PGFam) rodziny białek, którą można wybrać ze strony funkcji, a członkowie rodziny mogą być porównani za pomocą narzędzia multiple Sequence Alignment/Gene Tree.
przepływ pracy analizy danych w PATRIC za pomocą usługi wyrównania genomu. (A) interfejs strony internetowej umożliwia wybór genomów; (B) wizualizacja wyrównanych regionów genomowych z dowolnymi delecjami, wstawkami lub przearanżowaniami; (C) zbliżenie na wyrównanie pokaże geny na stojakach do przodu i do tyłu, które można wybrać; (d) wybranie konkretnego genu z przeglądarki wyrównania genomu otwiera stronę PATRIC Feature, gdzie pokazane są wszystkie dostępne dane dla tego genu. (E) Zakładka Compare Region View na stronie PATRIC Gene pokazuje zachowanie wybranego genu (pokazanego na czerwono), a także otaczających go genów. (F) każdy gen jest przypisany do specyficznej dla rodzaju (PLFam) lub globalnej (PGFam) rodziny białek, którą można wybrać ze strony funkcji, a członkowie rodziny mogą być porównani za pomocą narzędzia multiple Sequence Alignment/Gene Tree.
podobna wyszukiwarka genomów
gdy badacz ma nową sekwencję genomu, jedną z pierwszych rzeczy, które chcą zidentyfikować, są najbliżsi krewni organizmu, ale może to być trudne, gdy publiczna kolekcja jest tak duża. PATRIC udostępnia usługę o nazwie The Similar Genome Finder, aby umożliwić naukowcom szybką identyfikację podobnych sekwencji genomu za pomocą Mash (45). Mash działa poprzez redukcję dużych sekwencji do małych reprezentatywnych szkiców, które można wykorzystać do oszacowania odległości mutacji na podstawie wspólnych k-merów. PATRIC pozwala na porównanie ze wszystkimi publicznymi sekwencjami genomu lub zestawem genomu referencyjnego NCBI. Narzędzie pozwala badaczom dostosować czułość wyszukiwania, wybierając maksymalną liczbę wspólnych k-merów, próg wartości p lub odległość. Wyniki są zwracane jako lista najbardziej podobnych sekwencji genomu z odpowiednimi metadanymi. Podobnie jak w przypadku wszystkich tabel PATRIC, naukowcy mogą wybrać sekwencje do tworzenia grup do późniejszej analizy lub pobrać wyniki.
klasyfikacja taksonomiczna
uruchomiona w marcu 2019 r.usługa klasyfikacji taksonomicznej określa skład taksonomiczny próbek mieszanych lub metagenomicznych. Ta usługa wykorzystuje aplikację Kraken2 (46), która identyfikuje K-Mery, które są wskaźnikami różnych jednostek taksonomicznych. Baza danych Krakena używana przez serwis jest pełną kompilacją opartą na wszystkich sekwencjach genomu RefSeq (47), sekwencji genomu ludzkiego, plazmidach i sekwencjach wektorowych. Wyjście zadania zawiera standardowy format raportu Krakena, z każdym taksonem bakterii hiperłączem do pasującej strony w PATRIC. Serwis zwraca również wykres Korony (48), który pokazuje procent odczytów mapowanych do każdego taksonu i pozwala użytkownikowi zbadać wybrane taksony.
metagenomic read mapping
naukowcy badający AMR lub zjadliwość mogą być zainteresowani analizą genów w mieszanych lub metagenomicznych zestawach odczytu. Usługa mapowania odczytu metagenome umożliwia badaczom wyszukiwanie tych specyficznych genów w zestawie odczytów. Działa poprzez wyrównanie odczytów do genu referencyjnego przy użyciu KMA, który wykorzystuje K-Mer seeding i algorytm Needlemana–Wunscha do dokładnego wyrównania odczytów do interesujących genów (49). Użytkownicy mogą obecnie dopasować się do zestawów genów referencyjnych z kompleksowej bazy antybiotykooporności (Card) (50) i bazy czynników wirulencji (VFDB) (51). Usługa zwraca html i tekstowe wersje standardowego raportu KMA, który pokazuje szczegółowe informacje o mapowaniu, linki do genów w PATRIC z dużym podobieństwem i sekwencję konsensusu zmontowaną z wyrównanych odczytów.
metagenomic binning
uruchomiona w sierpniu 2017 r.usługa Metagenomic Binning łączy odczyty z próbki metagenomic w ciągi, a następnie próbuje oddzielić te ciągi w pojemniki, które reprezentują genomy poszczególnych gatunków. Te pojemniki są następnie w pełni adnotowane, a szczegółowe statystyki jakości są obliczane dla każdego pojemnika. Algorytm binningu rozpoczyna się od skanowania stygów w poszukiwaniu specyficznych białek markerowych, które prawie zawsze występują pojedynczo w genomie. Podobieństwo marker-białko jest używane do rekrutacji podobnych genomów Patrica, które są następnie używane do rekrutacji dodatkowych stygów w oparciu o rozróżnianie białek k-mers. Podobnie jak w przypadku pojedynczych genomów izolowanych, pojemniki są umieszczane w przestrzeni roboczej użytkownika i indeksowane w bazie danych PATRIC jako prywatne genomy, umożliwiając pełne wykorzystanie analiz porównawczych PATRIC i narzędzi wizualizacji dla każdego pojemnika.
internetowe narzędzia analityczne
strona PATRIC oferuje kilka interaktywnych wizualnych narzędzi analitycznych, które umożliwiają użytkownikom porównywanie zbiorów danych omics. Narzędzia te integrują DANE różnych typów, wykonują niektóre zadania obliczeniowe i renderują interaktywne wizualizacje dla użytkownika. PATRIC obecnie obsługuje wiele internetowych narzędzi analitycznych, takich jak Heat Map Viewer do porównywania współdzielonej zawartości białka, Pathway Viewer do odkrywania szlaków metabolicznych i przeglądarka genomu do wyświetlania cech genomowych na chromosomie. Dodaliśmy dwie nowe wizualizacje do strony PATRIC, które pierwotnie istniały na stronach RAST i SEED, ale wymagały znaczącej przebudowy, aby były funkcjonalne do użytku z setkami tysięcy genomów.
Porównaj region viewer
Porównaj Region Viewer pozwala badaczom porównać sąsiedztwo genów (genetyczne loci lub klastry chromosomowe) w wielu gatunkach. Użytkownik wybiera interesujący Gen, rozmiar regionu genomowego i liczbę genomów do porównania. Wyświetlacz pokazuje podobieństwo BLAST genu ostrości i podobieństwo otaczających genów w obrębie regionu (ryc. 3e).
w RAST, to narzędzie opiera się na wstępnie obliczonej bazie danych wszystkich do wszystkich podobieństw BLAST (28), aby określić zestaw genomów mających dopasowanie do genu będącego przedmiotem zainteresowania, i oblicza szczegółowe porównanie parami genów w wybranym regionie, aby kodować dane kolorem. Ze względu na liczbę genomów w bazie danych PATRIC, metoda ta jest zbyt wolna do użycia w czasie rzeczywistym. PATRIC version of this tool bases the focus gene lookup and color coding on either the genus-specific (PLFam) or global (PGFam) protein families (35), which are precomputed for each genome, so the search space is more scoped. Jednak ta wizualizacja jest skalowalna, ponieważ BLAST jest używany tylko do obliczenia podobieństwa białek dla genów skupionych w zbiorze.
podsystemy
podsystemy są zbiorami funkcjonalnie powiązanych białek i są niezbędnym urządzeniem koncepcyjnym do identyfikacji i projekcji funkcji białek w różnych gatunkach (7,52). PATRIC oblicza i wyświetla dane podsystemu dla każdej publicznej i prywatnej sekwencji genomu. Podsystemy, które wynikają z ręcznej adnotacji przez zespół ekspertów kuratorów, dzielą się na Nadklasę (przykład: metabolizm), klasę (przykład: reakcja na stres, obrona i zjadliwość), podklasę (przykład: odporność na antybiotyki i związki toksyczne), nazwę podsystemu (przykład: odporność na arsen) i rolę funkcjonalną każdego z włączonych genów. Kliknięcie zakładki podsystemy dla dowolnego genomu zapewnia trzy różne widoki. Przegląd podsystemów pokazuje wykres kołowy, który wyświetla procent genów, które należą do określonej superklasy. Zakładka podsystemy zawiera liczbę genów występujących w danej Nadklasie. Zakładka geny zawiera listę wszystkich genów we wszystkich podsystemach i zawiera znaczniki PATRIC i RefSeq locus (47). Informacje o podsystemach są dostępne nie tylko dla poszczególnych genomów, ale są również sumowane dla każdego poziomu taksonomicznego, aż do Superkingdom przy użyciu taksonomii NCBI (53). Użytkownik może utworzyć widok heatmapy pokazujący obecność i brak określonych białek w wybranym podsystemie w obrębie taksonu lub określonej grupy genomu.
interfejs wiersza poleceń (CLI)
przez ostatnie 5 lat PATRIC data store był zarządzany przy użyciu struktury bazy danych Apache Solr NoSQL. Aby sprostać szybko rosnącemu gromadzeniu danych i wykorzystać zalety skalowalności i odporności, wiosną 2019 roku Architektura bazy danych PATRIC została przekonwertowana na architekturę bazy danych Apache SolrCloud. Baza danych SolrCloud jest podzielona na serię SolrCores do zarządzania powiązanymi typami danych, takimi jak cechy genomu, sekwencje i dane transkryptomiczne. Podstawowy interfejs programowania aplikacji (API) umożliwia programowy dostęp do tych rdzeni i zawartych w nich danych; jednak gromadzenie danych może stać się skomplikowane podczas nawigacji i scalania pól z różnych rdzeni. Opracowaliśmy zestaw skryptów wiersza poleceń, które wykorzystują API do uzyskiwania dostępu do magazynu danych i wykonywania wspólnych analiz. Ta dystrybucja jest dostępna dla systemów operacyjnych Mac, Windows i Linux, w tym Ubuntu i CentOS 6 i 7 oraz Fedory 28 i 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Zarówno Dystrybucja, jak i strona PATRIC zawierają samouczki dotyczące używania skryptów z przykładami (https://docs.patricbrc.org/cli_tutorial/). Dystrybucja 482mb zawiera wiele podstawowych skryptów środowiska PATIRC. Niektóre umożliwiają zbiorcze pobieranie, scalanie i manipulowanie danymi, a inne umożliwiają bardziej złożone analizy. Dystrybucja zawiera również przydatne skrypty z wcześniejszych projektów SEED (5) i RASTtk (8). Szczególnie godną uwagi funkcjonalnością oferowaną przez dystrybucję PATRIC CLI jest możliwość zarządzania plikami w przestrzeni roboczej. Użytkownicy mogą logować się do prywatnego obszaru roboczego, tworzyć podkatalogi, przenosić pliki do lub z obszaru roboczego oraz uruchamiać zadania adnotacji i montażu. Skrypty te zapewniają środki do łączenia i opisywania setek, a nawet tysięcy sekwencji genomu. Dodatkowo udostępniliśmy PATRIC workspace za pośrednictwem protokołu File Transfer Protocol (FTP), który stanowi alternatywny sposób przenoszenia dużych ilości danych do i z obszaru roboczego. Użytkownicy mogą uzyskać dostęp do obszaru roboczego za pomocą wiersza poleceń lub za pomocą menedżera plików FTP. Planujemy kontynuować rozwój narzędzi wiersza poleceń, aby umożliwić większy dostęp do usług i łatwiejszą manipulację danymi.
przyszłe kierunki
w 2020 roku zespół PATRIC na University of Chicago, University of Virginia i Fellowship for Interpretation of Genomes połączy się z wirusowym zespołem BRC, który obsługuje zasoby ViPR (Virus Pathogen Database and Analysis Resource) i IRD (Influenza Research Database) w J. Craig Venter Institute (JCVI). Nowo utworzony zespół bakteryjno-wirusowy BRC (BV-BRC) będzie nadal utrzymywał strony PATRIC, IRD i ViPR, dodając jednocześnie nowe funkcje przekrojowe. Zamierzamy skupić się głównie na poprawie użyteczności nowego zasobu BV-BRC do analizy epidemiologicznej, rozszerzeniu magazynu danych o inne typy danych i metadanych, zwiększeniu dostępu do ustrukturyzowanych danych, które mogą być wykorzystywane w aplikacjach sztucznej inteligencji oraz ulepszeniu architektury wdrażania narzędzi i usług.
finansowanie
Narodowego Instytutu Alergologii i Chorób Zakaźnych (NIAID) . Finansowanie za opłatą za otwarty dostęp: NIAID.
Oświadczenie o konflikcie interesów. Nic nie jest określone.
uwagi
prawdziwy adres: Davis, Argonne National Laboratory, computing, environment and Life Sciences, 9700 S. Cass Avenue, Argonne, Il 60439, USA.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
.
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
;
:
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
.
.
;
–
.
.
;
:
–
.
,
,
,
,
,
.
;
:
–
.
,
,
,
.
;
:
.
,
,
,
.
.
;
:
–
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
.
.
;
:
–
.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
.
.
;
:
.
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
.
;
:
–
.
.
;
:
–
.
,
.
;
:
–
.
,
,
.
.
;
:
.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
.
;
.
,
,
.
;
:
–
.
.
;
http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.
.
;
:
–
.
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
.
.
;
:
.
,
,
.
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
.
;
:
–
.
opublikowane przez Oxford University Publishing w imieniu badań nad kwasami nukleinowymi 2019.