Articles

the PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities

Streszczenie

the PathoSystems Resource Integration Center (PATRIC) jest bakteryjnym Centrum Bioinformatics Resource Center finansowanym przez Narodowy Instytut alergii i Chorób Zakaźnych (https://www.patricbrc.org). PATRIC wspiera analizy bioinformatyczne wszystkich bakterii ze szczególnym uwzględnieniem patogenów, oferując bogate środowisko analizy porównawczej, które zapewnia użytkownikom dostęp do ponad 250 000 jednolicie opatrzonych adnotacjami i publicznie dostępnych genomów z wybranymi metadanymi. PATRIC oferuje internetowe narzędzia do wizualizacji i analizy porównawczej, prywatną przestrzeń roboczą, w której użytkownicy mogą analizować własne dane w kontekście kolekcji publicznych, usługi usprawniające złożone bioinformatyczne przepływy pracy oraz narzędzia wiersza poleceń do masowej analizy danych. W ciągu ostatnich kilku lat, w miarę jak eksperymenty genomowe i inne związane z omikami stały się bardziej opłacalne i powszechne, zaobserwowaliśmy znaczny wzrost wykorzystania i popytu na łatwe w użyciu, publicznie dostępne narzędzia i usługi bioinformatyczne. Tutaj przedstawiamy najnowsze aktualizacje zasobu PATRIC, w tym nowe internetowe narzędzia do analizy porównawczej, osiem nowych usług i wydanie interfejsu wiersza poleceń do dostępu, zapytań i analizowania danych.

wprowadzenie

program Bioinformatics Resource Center (BRC) został ustanowiony przez Narodowy Instytut alergii i Chorób Zakaźnych (NIAID) w 2004 roku z głównym naciskiem na zapewnienie dostępu do danych sekwencji genomu i narzędzi analitycznych do badania patogenów. PathoSystems Resource Integration Center (PATRIC) rozpoczął jako jeden z oryginalnych ośrodków, których zadaniem było wspieranie analizy porównawczej patogenów bakteryjnych (1-3). W 2009 roku PATRIC połączył się z National Microbial Pathogen Database Resource (NMP) BRC (4), który opracował udaną bazę danych nasion i system adnotacji RAST (Rapid Annotation using Subsystem Technology) do jednolicie kuratorowania i wyświetlania adnotacji genomu w obrębie gatunków drobnoustrojów (5-8). Z biegiem lat zasoby PATRIC rozszerzyły się i dostosowały, aby dotrzymać kroku wzrostowi bioinformatycznych zbiorów danych i potrzebie związanych z nimi narzędzi analitycznych. Według stanu na wrzesień 2019, PATRIC obejmuje ponad 250 000 publicznie dostępnych genomów drobnoustrojów i bogate środowisko analizy porównawczej.

od swojej premiery w 2008 r.RAST (http://rast.nmpdr.org) wykonał około 700 000 zadań adnotacji genomu dla użytkowników prywatnych. Poprzez zapewnienie dostępu do skryptów identyfikacji cech genomu opracowanych przez społeczność akademicką i spójnych prognoz dobrze dobranych funkcji białek z nasion, RAST służy jako model udanej usługi bioinformatycznej, ponieważ zmniejsza potrzebę tworzenia własnych niestandardowych potoków adnotacji, a jego spójność umożliwia późniejsze analizy porównawcze. Używając Rast jako szablonu, w 2014 PATRIC rozpoczął wdrażanie różnych usług bioinformatycznych za pośrednictwem strony internetowej, umożliwiając użytkownikom łączenie i opisywanie sekwencji genomu, rekonstrukcję modeli metabolicznych, analizę SNP i Indel oraz analizowanie i porównywanie eksperymentów RNA-seq. Wyniki tych zadań analitycznych można następnie porównać z publicznie dostępnymi zbiorami danych genomowych i innych omik w zasobie, zachowując prywatność w środowisku roboczym użytkownika. Do końca 2016 r.PATRIC przetwarzał ∼1500 zadań serwisowych miesięcznie, nie wliczając w to zadań zgłaszanych na stronie RAST (3).

od ostatniego opisu w badaniach nad kwasami nukleinowymi w 2016 roku (3) PATRIC przeszedł szereg aktualizacji i ulepszeń. Udoskonalono gromadzenie danych, zwłaszcza w obszarze oporności na środki przeciwdrobnoustrojowe (AMR) (9); środowisko przeglądania stron internetowych zostało wzbogacone o nowe narzędzia i wizualizacje; ulepszenia przestrzeni roboczej ułatwiły również wyszukiwanie i udostępnianie danych z projektów badawczych. Interfejs wiersza poleceń (CLI) do masowego pozyskiwania i analizy danych został zbudowany i wydany do dystrybucji na systemach Mac, Linux i Windows. PATRIC uruchomił również osiem nowych usług bioinformatycznych, z niedawnym naciskiem na możliwość analizy danych z mieszanych kultur lub próbek metagenomicznych. W końcu powstał bogaty zbiór samouczków, aby pomóc użytkownikom w korzystaniu z tych nowych narzędzi (https://docs.patricbrc.org/tutorial/). Ten raport opisuje wiele ostatnich niepublikowanych aktualizacji zasobu PATRIC.

Co nowego w PATRICU?

wzrost danych i ulepszenia

jedną z najbardziej dramatycznych zmian we wspieraniu pracy bioinformatycznej od początku programu BRC jest wykładniczy wzrost publicznie dostępnych sekwencji genomu drobnoustrojów (Rysunek 1). Zbiór prywatnych sekwencji genomu użytkownika, które zostały adnotowane i indeksowane przez Patrica, również wzrósł od czasu utworzenia środowiska roboczego i może faktycznie przekroczyć rozmiar publicznej kolekcji sekwencji genomu w ciągu następnego roku (Rysunek 1). Chociaż prywatny zestaw zawiera kilka ponownie przeanalizowanych sekwencji genomu,

Rysunek 1.

skumulowany wzrost publicznych i prywatnych genomów w Patryku.

Rysunek 1.

skumulowany wzrost publicznych i prywatnych genomów w Patryku.

nie widzimy oznak, że sekwencjonowanie genomu drobnoustrojów i związane z nim analizy bioinformatyczne zwalniają. Wzrost publicznie dostępnych danych o sekwencji genomu i powiązanych strukturyzowanych metadanych zrewolucjonizował również rodzaje analiz eksperymentalnych, które są możliwe. Na przykład PATRIC zapewnia uporządkowane i ręcznie dobierane metadane związane z każdym genomem, w tym pochodzące z laboratorium fenotypy AMR, organizmy gospodarza, źródła izolacji, dane dotyczące miejsca ludzkiego ciała i informacje geograficzne. Te zbiory strukturyzowanych metadanych stanowią podstawę do przeprowadzania eksperymentów uczenia maszynowego i uczenia głębokiego (10,11) oraz dostarczania użytkownikom narzędzi predykcyjnych (9). Przewidujemy, że zwiększone wykorzystanie technik sztucznej inteligencji w bioinformatyce będzie napędzać eksperymentalne decyzje projektowe i ostatecznie skróci czas wymagany do genetycznych i innych laboratoryjnych eksperymentów charakteryzacyjnych.

wspieranie badań AMR jest głównym obszarem zainteresowania dla gromadzenia danych i kuratorowania w PATRIC. Aktywnie przetwarzamy zarówno adnotacje dotyczące białek AMR, jak i pochodzące z laboratorium dane fenotypowe AMR związane z publicznymi genomami. System adnotacji jest w stanie precyzyjnie wyświetlać ponad 600 ręcznie opracowanych funkcji białka AMR. Zawiera również duży zbiór ściśle powiązanych funkcji białek innych niż AMR, które zostały opracowane w celu zapobiegania fałszywym przewidywaniom funkcji AMR. Aby zapewnić dodatkowe środki porównania, system adnotacji wyszukuje również geny o wysokim podobieństwie do tych, które są kuratorowane przez projekty CARD (12) i NCBI AMR gene database (13). Zbiór fenotypów AMR pochodzących z laboratorium został wygenerowany na podstawie danych z literatury, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) I innych źródeł publicznych. To wzrosła do ponad 40 000 sekwencji genomu i jest używany przez naukowców na całym świecie. Dodaliśmy również ponad 10 000 sekwencji plazmidowych i proroczych ze względu na ich znaczenie w badaniu i zwalczaniu AMR.

usługi

usługi świadczone przez PATRIC mają na celu umożliwienie łatwego dostępu do złożonych procesów bioinformatycznych. Dostęp do nich można uzyskać za pośrednictwem interfejsu PATRIC web i CLI. Większość usług może obsłużyć setki, a nawet tysiące zleceń dziennie. Zadania są zazwyczaj uruchamiane na szeregu wewnętrznych serwerów, a przepustowość przepięć jest obsługiwana przez duży klaster obliczeniowy. Usługi PATRIC zyskują na popularności od 2014 r., a od września 2019 r. ukończono z powodzeniem ponad 263 000 miejsc pracy (wykres 2).

Rysunek 2.

zadania analizy zainicjowane przez użytkownika zakończone przez PATRIC bioinformatic services. Górny wykres pokazuje korzystanie z usług o dużej objętości. Dolny wykres pokazuje wykorzystanie niższego wolumenu i nowych usług. Zwróć uwagę na różnicę w skali między dwoma działkami.

Rysunek 2.

zadania analizy zainicjowane przez użytkownika zakończone przez PATRIC bioinformatic services. Górny wykres pokazuje korzystanie z usług o dużej objętości. Dolny wykres pokazuje wykorzystanie niższego wolumenu i nowych usług. Zwróć uwagę na różnicę w skali między dwoma działkami.

godne uwagi aktualizacje istniejących usług

trzy z naszych wcześniej istniejących usług, montaż genomu, Adnotacja genomu i analiza RNA-seq, przeszły kilka godnych uwagi aktualizacji. Usługa montażu genomu została przebudowana za pomocą nowego harmonogramu zadań, który umożliwia bardziej sprawiedliwy proces kolejkowania zadań, który zapobiega powstawaniu wąskich gardeł w dużych zadaniach (14). Oprócz Pik (15) dodaliśmy Canu (16) dla zespołów o długim odczycie i Unicycler dla hybrydowych zespołów o długim i krótkim odczycie (17). Zapewniamy również obraz wykresu montażu Za pomocą bandaża (18), a zespoły mogą być polerowane za pomocą Racon (19) i Pilon (20) odpowiednio dla zespołów o długim i krótkim odczycie. W końcu mapowanie odczytu jest wykonywane w celu wygenerowania dokładnych statystyk zasięgu za pomocą Bowtie2 (21) lub Minimap2 (22) i SAMtools (23). Dwa nowe dodatki do usługi adnotacji genomu obejmują możliwość adnotacji sekwencji genomu bakteriofagów (24) i obliczanie statystyk jakości genomu opartych na aplikacji CheckM (25) oraz wewnętrzny model RAST, który ocenia jakość na podstawie występowania i kompletności ról podsystemu w genomie (26). Usługa analizy RNA-seq została również zaktualizowana, aby umożliwić eksperymenty badające odpowiedź gospodarza na infekcje drobnoustrojowe. Aby to potwierdzić, dodaliśmy kilka wspólnych genomów referencyjnych gospodarzy eukariotycznych, w tym Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, koguta, koguta, Homo sapiens, makaka mulatta, mięsień, łasica putorius furo, Rattus norvegicus i Sus scrofa. Niedawno dodaliśmy również hisat2 (hierarchiczne indeksowanie dla spliced alignment of transcripts) (27), wysoce wydajny system do dostosowywania odczytów z eksperymentów RNA-Seq do genomów gospodarza i umożliwiliśmy import zbiorów danych z SRA w interfejsie RNA-seq, dodatkowo zwiększając zdolność do przeprowadzania mieszanej analizy ekspresji różnicowej danych publicznych i prywatnych.

kompleksowa analiza genomu

jednym z najczęstszych przypadków użycia do analizy prywatnych genomów w PATRIC jest dla naukowców do montażu, a następnie adnotacji ich sekwencji genomu za pomocą dwóch oddzielnych usług. Wiosną 2018 roku uruchomiliśmy usprawnioną, kompleksową „meta-usługę” analizy genomu, która akceptuje odczyty sekwencjonowania, oblicza montaż i adnotację oraz zapewnia przyjazny dla użytkownika opis genomu. Wyniki obejmują ocenę jakości genomu, geny AMR i przewidywania fenotypu, geny specjalne, przegląd podsystemu, identyfikację najbliższych sekwencji genomu, drzewo filogenetyczne i listę cech, które odróżniają Genom od jego najbliższych sąsiadów. Kompleksowa usługa analizy genomu szybko stała się jedną z najpopularniejszych usług w PATRIC, z ponad 11 000 prac ukończonych od momentu uruchomienia w kwietniu 2018 roku.

drzewa filogenetyczne

zdolność do rekonstrukcji i wizualizacji relacji ewolucyjnych leży u podstaw biologii. W 2017 PATRIC uruchomił usługę drzewa filogenetycznego, która umożliwia użytkownikom tworzenie wysokiej jakości drzew filogenetycznych dla publicznych i prywatnych sekwencji genomu. Obecnie usługa oferuje użytkownikowi dwa przepływy pracy. Pierwszym z nich jest oparty na białkach proces budowania drzewa o nazwie 'All Shared Proteins’, który wykorzystuje estymację Filogenomiczną z postępującym udoskonalaniem (PEPR) (https://github.com/enordber/pepr). PEPR działa poprzez definiowanie współdzielonych rodzin białek de novo dla grupy genomu za pomocą BLAST (28) i HMMER (29) do identyfikacji podobnych białek i MCL (30) do budowy klastrów. Następnie wyrównania są generowane za pomocą mięśni (31) i przycinane za pomocą Gbloków (32). W końcu, na podstawie preferencji użytkownika, PEPR oblicza drzewo używając FastTree (33) lub RAxML (34). W 2019 roku uruchomiliśmy drugi, szybszy proces tworzenia drzew filogenetycznych o nazwie ” drzewa Kodonowe.”Wykorzystuje predefiniowane PATRIC global protein families (PGFams) (35), wybierając określoną przez użytkownika liczbę rodzin (10-1000), które są pojedynczą kopią (lub prawie tak) wśród członków grupy genomu. Dopasowania są generowane dla sekwencji białkowych każdej rodziny przy użyciu mięśni (31), a odpowiadające im sekwencje nukleotydowe są dopasowywane do tego przy użyciu funkcji kodonalnej Biopytonu (36). Połączenie wszystkich białek i nukleotydów jest zapisywane do pliku sformatowanego w PHYLIP (37). Następnie generowany jest plik partycji dla RaxML (34), który opisuje wyrównanie pod względem białek i nukleotydów w pierwszej, drugiej i trzeciej pozycji kodonu. Wartości wsparcia są generowane ze 100 rund szybkiego rozruchu w RaxML (38).

oprócz nowo sformatowanych plików drzew, usługa drzewa filogenetycznego zwraca przenośny plik dokumentu (PDF), przenośną grafikę sieciową (PNG) i skalowalną grafikę wektorową (SVG) obrazów drzewa zakorzenionego w punkcie środkowym generowanych przez FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Widok drzewa filogenetycznego na stronie PATRIC pozwala badaczom wybrać węzły i liście, umożliwiając użytkownikowi tworzenie grup z określonych kladów do dalszej analizy. Generuje również raport genomu, który zawiera listę sekwencji genomu i rodzin białek używanych w budowie drzewa oraz liczbę genów, białek, aminokwasów i nukleotydów używanych do obliczenia drzewa. W końcu, problematyczne sekwencje genomu, które mogą być usunięte w celu zwiększenia selekcji genów i poprawy siły drzewa są wymienione. Od czasu jego budowy, prawie 5000 miejsc pracy zostały przetworzone przez Phylogenetic Tree Service.

Fastq utilities

Ocena jakości sekwencjonowania odczytów jest ważnym pierwszym krokiem do zapewnienia, że późniejsze analizy, takie jak montaż, adnotacja itp. są dokładne. Usługa FASTQ Utilities, uruchomiona w lipcu 2019 r., umożliwia użytkownikom wyrównywanie odczytów, mierzenie jakości połączeń bazowych i przycinanie sekwencji niskiej jakości z odczytywanych plików. Serwis akceptuje pliki o długim lub krótkim odczycie w formacie pojedynczym lub sparowanym. Może również pobierać odczytywane pliki bezpośrednio z archiwum odczytu sekwencji NCBI (SRA) za pomocą identyfikatora run jako wejścia. Usługa składa się z trzech komponentów: „trim”, „FastQC” i „align”, które mogą być używane niezależnie lub w dowolnej kombinacji. Komponent trimming używa Trim Galore( 39), który jest opakowaniem Perla wokół narzędzi Cutadapt (40) i FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc). Komponent FastQC zapewnia kontrolę jakości surowych danych sekwencyjnych pochodzących z wysokowydajnych potoków sekwencjonowania i umożliwia szybką kontrolę jakości poprzez wskazanie problemów, które mogą mieć wpływ na dalsze analizy. Funkcja wyrównywania wyrównuje odczyty do referencyjnej sekwencji genomu za pomocą Bowtie2 (21,41), zapisując niezmapowane odczyty i generując raporty SamStat (42) dotyczące ilości i jakości wyrównań.

wyrównanie genomu

w listopadzie 2018 roku PATRIC uruchomił usługę wyrównywania genomu, aby umożliwić użytkownikom obliczanie całych wyrównań sekwencji genomu. Ta usługa korzysta z aplikacji progressiveMauve (43), która konstruuje pozycyjne wyrównania homologii wielu sekwencji genomu w rozszerzeniu oryginalnego algorytmu Mauve (44). Usługa umożliwia naukowcom dostosowanie do dwudziestu sekwencji genomu naraz. Wynik usługi obejmuje wizualne wyświetlanie genomu, które pozwala użytkownikom na przeglądanie i badanie całego wyrównania sekwencji genomu lub powiększenie w celu porównania poszczególnych regionów lub genów (Rysunek 3).

Rysunek 3.

przepływ pracy analizy danych w PATRIC za pomocą usługi wyrównania genomu. (A) interfejs strony internetowej umożliwia wybór genomów; (B) wizualizacja wyrównanych regionów genomowych z dowolnymi delecjami, wstawkami lub przearanżowaniami; (C) powiększenie wyrównania pokaże geny na stojakach do przodu i do tyłu, które można wybrać; (D) wybranie konkretnego genu z przeglądarki wyrównania genomu otwiera stronę PATRIC Feature, na której pokazane są wszystkie dostępne dane dla tego genu. (E) Zakładka Compare Region View na stronie PATRIC Gene pokazuje zachowanie wybranego genu (pokazanego na czerwono), a także otaczających go genów. (F) każdy gen jest przypisany do specyficznej dla rodzaju (PLFam) lub globalnej (PGFam) rodziny białek, którą można wybrać ze strony funkcji, a członkowie rodziny mogą być porównani za pomocą narzędzia multiple Sequence Alignment/Gene Tree.

Rysunek 3.

przepływ pracy analizy danych w PATRIC za pomocą usługi wyrównania genomu. (A) interfejs strony internetowej umożliwia wybór genomów; (B) wizualizacja wyrównanych regionów genomowych z dowolnymi delecjami, wstawkami lub przearanżowaniami; (C) zbliżenie na wyrównanie pokaże geny na stojakach do przodu i do tyłu, które można wybrać; (d) wybranie konkretnego genu z przeglądarki wyrównania genomu otwiera stronę PATRIC Feature, gdzie pokazane są wszystkie dostępne dane dla tego genu. (E) Zakładka Compare Region View na stronie PATRIC Gene pokazuje zachowanie wybranego genu (pokazanego na czerwono), a także otaczających go genów. (F) każdy gen jest przypisany do specyficznej dla rodzaju (PLFam) lub globalnej (PGFam) rodziny białek, którą można wybrać ze strony funkcji, a członkowie rodziny mogą być porównani za pomocą narzędzia multiple Sequence Alignment/Gene Tree.

podobna wyszukiwarka genomów

gdy badacz ma nową sekwencję genomu, jedną z pierwszych rzeczy, które chcą zidentyfikować, są najbliżsi krewni organizmu, ale może to być trudne, gdy publiczna kolekcja jest tak duża. PATRIC udostępnia usługę o nazwie The Similar Genome Finder, aby umożliwić naukowcom szybką identyfikację podobnych sekwencji genomu za pomocą Mash (45). Mash działa poprzez redukcję dużych sekwencji do małych reprezentatywnych szkiców, które można wykorzystać do oszacowania odległości mutacji na podstawie wspólnych k-merów. PATRIC pozwala na porównanie ze wszystkimi publicznymi sekwencjami genomu lub zestawem genomu referencyjnego NCBI. Narzędzie pozwala badaczom dostosować czułość wyszukiwania, wybierając maksymalną liczbę wspólnych k-merów, próg wartości p lub odległość. Wyniki są zwracane jako lista najbardziej podobnych sekwencji genomu z odpowiednimi metadanymi. Podobnie jak w przypadku wszystkich tabel PATRIC, naukowcy mogą wybrać sekwencje do tworzenia grup do późniejszej analizy lub pobrać wyniki.

klasyfikacja taksonomiczna

uruchomiona w marcu 2019 r.usługa klasyfikacji taksonomicznej określa skład taksonomiczny próbek mieszanych lub metagenomicznych. Ta usługa wykorzystuje aplikację Kraken2 (46), która identyfikuje K-Mery, które są wskaźnikami różnych jednostek taksonomicznych. Baza danych Krakena używana przez serwis jest pełną kompilacją opartą na wszystkich sekwencjach genomu RefSeq (47), sekwencji genomu ludzkiego, plazmidach i sekwencjach wektorowych. Wyjście zadania zawiera standardowy format raportu Krakena, z każdym taksonem bakterii hiperłączem do pasującej strony w PATRIC. Serwis zwraca również wykres Korony (48), który pokazuje procent odczytów mapowanych do każdego taksonu i pozwala użytkownikowi zbadać wybrane taksony.

metagenomic read mapping

naukowcy badający AMR lub zjadliwość mogą być zainteresowani analizą genów w mieszanych lub metagenomicznych zestawach odczytu. Usługa mapowania odczytu metagenome umożliwia badaczom wyszukiwanie tych specyficznych genów w zestawie odczytów. Działa poprzez wyrównanie odczytów do genu referencyjnego przy użyciu KMA, który wykorzystuje K-Mer seeding i algorytm Needlemana–Wunscha do dokładnego wyrównania odczytów do interesujących genów (49). Użytkownicy mogą obecnie dopasować się do zestawów genów referencyjnych z kompleksowej bazy antybiotykooporności (Card) (50) i bazy czynników wirulencji (VFDB) (51). Usługa zwraca html i tekstowe wersje standardowego raportu KMA, który pokazuje szczegółowe informacje o mapowaniu, linki do genów w PATRIC z dużym podobieństwem i sekwencję konsensusu zmontowaną z wyrównanych odczytów.

metagenomic binning

uruchomiona w sierpniu 2017 r.usługa Metagenomic Binning łączy odczyty z próbki metagenomic w ciągi, a następnie próbuje oddzielić te ciągi w pojemniki, które reprezentują genomy poszczególnych gatunków. Te pojemniki są następnie w pełni adnotowane, a szczegółowe statystyki jakości są obliczane dla każdego pojemnika. Algorytm binningu rozpoczyna się od skanowania stygów w poszukiwaniu specyficznych białek markerowych, które prawie zawsze występują pojedynczo w genomie. Podobieństwo marker-białko jest używane do rekrutacji podobnych genomów Patrica, które są następnie używane do rekrutacji dodatkowych stygów w oparciu o rozróżnianie białek k-mers. Podobnie jak w przypadku pojedynczych genomów izolowanych, pojemniki są umieszczane w przestrzeni roboczej użytkownika i indeksowane w bazie danych PATRIC jako prywatne genomy, umożliwiając pełne wykorzystanie analiz porównawczych PATRIC i narzędzi wizualizacji dla każdego pojemnika.

internetowe narzędzia analityczne

strona PATRIC oferuje kilka interaktywnych wizualnych narzędzi analitycznych, które umożliwiają użytkownikom porównywanie zbiorów danych omics. Narzędzia te integrują DANE różnych typów, wykonują niektóre zadania obliczeniowe i renderują interaktywne wizualizacje dla użytkownika. PATRIC obecnie obsługuje wiele internetowych narzędzi analitycznych, takich jak Heat Map Viewer do porównywania współdzielonej zawartości białka, Pathway Viewer do odkrywania szlaków metabolicznych i przeglądarka genomu do wyświetlania cech genomowych na chromosomie. Dodaliśmy dwie nowe wizualizacje do strony PATRIC, które pierwotnie istniały na stronach RAST i SEED, ale wymagały znaczącej przebudowy, aby były funkcjonalne do użytku z setkami tysięcy genomów.

Porównaj region viewer

Porównaj Region Viewer pozwala badaczom porównać sąsiedztwo genów (genetyczne loci lub klastry chromosomowe) w wielu gatunkach. Użytkownik wybiera interesujący Gen, rozmiar regionu genomowego i liczbę genomów do porównania. Wyświetlacz pokazuje podobieństwo BLAST genu ostrości i podobieństwo otaczających genów w obrębie regionu (ryc. 3e).

w RAST, to narzędzie opiera się na wstępnie obliczonej bazie danych wszystkich do wszystkich podobieństw BLAST (28), aby określić zestaw genomów mających dopasowanie do genu będącego przedmiotem zainteresowania, i oblicza szczegółowe porównanie parami genów w wybranym regionie, aby kodować dane kolorem. Ze względu na liczbę genomów w bazie danych PATRIC, metoda ta jest zbyt wolna do użycia w czasie rzeczywistym. PATRIC version of this tool bases the focus gene lookup and color coding on either the genus-specific (PLFam) or global (PGFam) protein families (35), which are precomputed for each genome, so the search space is more scoped. Jednak ta wizualizacja jest skalowalna, ponieważ BLAST jest używany tylko do obliczenia podobieństwa białek dla genów skupionych w zbiorze.

podsystemy

podsystemy są zbiorami funkcjonalnie powiązanych białek i są niezbędnym urządzeniem koncepcyjnym do identyfikacji i projekcji funkcji białek w różnych gatunkach (7,52). PATRIC oblicza i wyświetla dane podsystemu dla każdej publicznej i prywatnej sekwencji genomu. Podsystemy, które wynikają z ręcznej adnotacji przez zespół ekspertów kuratorów, dzielą się na Nadklasę (przykład: metabolizm), klasę (przykład: reakcja na stres, obrona i zjadliwość), podklasę (przykład: odporność na antybiotyki i związki toksyczne), nazwę podsystemu (przykład: odporność na arsen) i rolę funkcjonalną każdego z włączonych genów. Kliknięcie zakładki podsystemy dla dowolnego genomu zapewnia trzy różne widoki. Przegląd podsystemów pokazuje wykres kołowy, który wyświetla procent genów, które należą do określonej superklasy. Zakładka podsystemy zawiera liczbę genów występujących w danej Nadklasie. Zakładka geny zawiera listę wszystkich genów we wszystkich podsystemach i zawiera znaczniki PATRIC i RefSeq locus (47). Informacje o podsystemach są dostępne nie tylko dla poszczególnych genomów, ale są również sumowane dla każdego poziomu taksonomicznego, aż do Superkingdom przy użyciu taksonomii NCBI (53). Użytkownik może utworzyć widok heatmapy pokazujący obecność i brak określonych białek w wybranym podsystemie w obrębie taksonu lub określonej grupy genomu.

interfejs wiersza poleceń (CLI)

przez ostatnie 5 lat PATRIC data store był zarządzany przy użyciu struktury bazy danych Apache Solr NoSQL. Aby sprostać szybko rosnącemu gromadzeniu danych i wykorzystać zalety skalowalności i odporności, wiosną 2019 roku Architektura bazy danych PATRIC została przekonwertowana na architekturę bazy danych Apache SolrCloud. Baza danych SolrCloud jest podzielona na serię SolrCores do zarządzania powiązanymi typami danych, takimi jak cechy genomu, sekwencje i dane transkryptomiczne. Podstawowy interfejs programowania aplikacji (API) umożliwia programowy dostęp do tych rdzeni i zawartych w nich danych; jednak gromadzenie danych może stać się skomplikowane podczas nawigacji i scalania pól z różnych rdzeni. Opracowaliśmy zestaw skryptów wiersza poleceń, które wykorzystują API do uzyskiwania dostępu do magazynu danych i wykonywania wspólnych analiz. Ta dystrybucja jest dostępna dla systemów operacyjnych Mac, Windows i Linux, w tym Ubuntu i CentOS 6 i 7 oraz Fedory 28 i 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Zarówno Dystrybucja, jak i strona PATRIC zawierają samouczki dotyczące używania skryptów z przykładami (https://docs.patricbrc.org/cli_tutorial/). Dystrybucja 482mb zawiera wiele podstawowych skryptów środowiska PATIRC. Niektóre umożliwiają zbiorcze pobieranie, scalanie i manipulowanie danymi, a inne umożliwiają bardziej złożone analizy. Dystrybucja zawiera również przydatne skrypty z wcześniejszych projektów SEED (5) i RASTtk (8). Szczególnie godną uwagi funkcjonalnością oferowaną przez dystrybucję PATRIC CLI jest możliwość zarządzania plikami w przestrzeni roboczej. Użytkownicy mogą logować się do prywatnego obszaru roboczego, tworzyć podkatalogi, przenosić pliki do lub z obszaru roboczego oraz uruchamiać zadania adnotacji i montażu. Skrypty te zapewniają środki do łączenia i opisywania setek, a nawet tysięcy sekwencji genomu. Dodatkowo udostępniliśmy PATRIC workspace za pośrednictwem protokołu File Transfer Protocol (FTP), który stanowi alternatywny sposób przenoszenia dużych ilości danych do i z obszaru roboczego. Użytkownicy mogą uzyskać dostęp do obszaru roboczego za pomocą wiersza poleceń lub za pomocą menedżera plików FTP. Planujemy kontynuować rozwój narzędzi wiersza poleceń, aby umożliwić większy dostęp do usług i łatwiejszą manipulację danymi.

przyszłe kierunki

w 2020 roku zespół PATRIC na University of Chicago, University of Virginia i Fellowship for Interpretation of Genomes połączy się z wirusowym zespołem BRC, który obsługuje zasoby ViPR (Virus Pathogen Database and Analysis Resource) i IRD (Influenza Research Database) w J. Craig Venter Institute (JCVI). Nowo utworzony zespół bakteryjno-wirusowy BRC (BV-BRC) będzie nadal utrzymywał strony PATRIC, IRD i ViPR, dodając jednocześnie nowe funkcje przekrojowe. Zamierzamy skupić się głównie na poprawie użyteczności nowego zasobu BV-BRC do analizy epidemiologicznej, rozszerzeniu magazynu danych o inne typy danych i metadanych, zwiększeniu dostępu do ustrukturyzowanych danych, które mogą być wykorzystywane w aplikacjach sztucznej inteligencji oraz ulepszeniu architektury wdrażania narzędzi i usług.

finansowanie

Narodowego Instytutu Alergologii i Chorób Zakaźnych (NIAID) . Finansowanie za opłatą za otwarty dostęp: NIAID.

Oświadczenie o konflikcie interesów. Nic nie jest określone.

uwagi

prawdziwy adres: Davis, Argonne National Laboratory, computing, environment and Life Sciences, 9700 S. Cass Avenue, Argonne, Il 60439, USA.

Snyder
e.

,

Campagna
N.

,

Lou
J.

,

Nordberg
E.K.

,

Karur
H.

,

Shukla
m.

,

Soneja
J.

,

Tien
YU

,

Xue
T.

,

YU
x.
Patrick: centrum integracji zasobów VBI pathosystems

.

kwasy nukleinowe Rez.
2006

;

35

:

D401

D406

.

Wattam
AR

,

Abraham
D.

,

Dalaj
O.

,

Diz
T. L.

,

Driscoll
t.

,

Gabbard
J.L.

,

Gillespie
J.J.

,

Gough
R.

,

Hicks
D.

,

Kenyon
R.
Patryk, baza danych bioinformatyki bakteryjnej i zasób analityczny

.

kwasy nukleinowe Rez.
2013

;

42

:

D581

D591

.

Wattam
AR

,

Davies
J.J.

,

Assaf
R.

,

Boyswert
s.

,

Brettin
T.

,

Boone
s.

,

Conrad
N.

,

Dietrich
em

,

diz
t.

,

Gabbard
J.L.
ulepszenia w PATRIC, całkowicie bakteryjnej bazie danych bioinformatyki i centrum zasobów analizy

.

kwasy nukleinowe Rez.
2016

;

45

:

D535

D542

.

Macneil
lk
Reich
C.
Aziz
P. K.
Бартельс
D.
Кохун
M.
Дисз
T
Edwards
P. A.
Гердес
C.
Hwang
K.
Кубал
M.
zasoby krajowej bazy danych patogenów drobnoustrojów( NMPDR): Platforma genomiczna oparta na adnotacji podsystemu

.

kwasy nukleinowe Rez.
2006

;

35

:

D347

D353

.

Overbeck
R.

,

Olson
R.

,

Push
R. D.

,

Olsen
G. J.

,

Davis
J.J.

,

Diz
T.

,

Edwards
R. A.

,

Gerdes
S.

,

Parrello
B.

,

Shukla
M.
nasiona i szybka adnotacja genomów drobnoustrojów przy użyciu technologii podsystemów (RAST)

.

kwasy nukleinowe Rez.
2013

;

42

:

D206

D214

.

Aziz
P. K.
Бартельс
D.
Best
A.
ДеДжонг
M.
Дисз
T
Edwards
P. A.
Формсма
K.
Гердес
C.
Glass
E. M.

,

Kubal
m.
serwer RAST: szybkie adnotacje z wykorzystaniem technologii podsystemów

.

BMC Genomics

.

2008

;

9

:

75

.

Overbeck
R.

,

Begley
T.

,

Butler
R. M.

,

Choudhury
J.W.

,

Zhuang
X.-YU

,

Kohun
M.

,

De Crecy-Lagarde
w.

,

Diaz
N.

,

Diz
T.

,

Edwards
r.
podejście Podsystemowe do adnotacji genomu i jego zastosowanie w projekcie adnotacji 1000 genomów

.

kwasy nukleinowe Rez.
2005

;

33

:

5691

5702

.

Brettin
T.

,

Davis
J.J.

,

Diz
T.

,

Edwards
R. a.

,

Gerdes
s.

,

Olsen
G. J.

,

Olson
R.

,

Overbeck
R.

,

Parrello
B.

,

Puszcza
D.
RASTtk: modułowa i rozszerzalna implementacja algorytmu RAST do tworzenia niestandardowych potoków adnotacji i adnotacji pakietów genomów

.

pracownik naukowy
2015

;

5

:

8365

.

Antonopoulos
da

,

Assaf
R.

,

Aziz
R.K.

,

Brettin
T.

,

kok
s.

,

Konrad
N.

,

Davis
j.J.

,

Dietrich
em

,

Diz
T.

,

Gerdes
s.
Patrick jako unikalny zasób do badania oporności na środki przeciwdrobnoustrojowe

.

krótko. Bioinformacja.
2019

;

20

:

1094

1102

.

Nguyen
m.

,

Brettin
T.

,

Long
SV

,

Musser
J.M.

,

Olsen
RJ.

,

Olson
R.

,

Shukla
M.

,

Stevens
RL

,

Xia
F.

,

YU H.
opracowanie testu panelowego na minimalne stężenie hamujące in silico dla Klebsiella pneumoniae

.

2018

;

8

:

421

.

Nguyen
m.

,

Long
SV

,

McDermott
PF

,

Olsen
RJ

,

Olson
R.

,

Stevens
R. L.

,

Tyson
G. H.

,

Zhao
S.

,

Davis
J.J.
wykorzystanie uczenia maszynowego do przewidywania mikrobów przeciwdrobnoustrojowych i związanych z nimi cech genomu dla salmonelli nietyfoidalnych

.

J.w. Migotać. Mikrobiol.
2019

;

57

:

e01260-18

.

Jia
B.
Рафеня
A. P.
Алкок
B.
Ваглехнер
N.
Roku
P.
Tsang
k. K.
Lago
Ba
Dave
B. M.
Pereira
C.
Sharma
A. N.
Mapa 2017: rozbudowa i zorientowana na model kuracja kompleksowej bazy danych oporności na antybiotyki

.

kwasy nukleinowe Rez.
2016

;

45

:

D566

D573

.

Feldgarden
M.

,

Brower
V.

,

Haft
D. X.

,

Prasad
A. B.

,

slotta
D. J.

,

I.

,

Tyson
G. H.

,

Zhao
s.

,

Hsu
S. – H.

,

McDermott
P. F.
Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

.

Antimicrob. Agents Chemother.
2019

;

63

:

e00483-19

.

Yoo
A.B.

,

Jette
M.A.

,

Grondona
M.
Slurm: Simple linux utility for resource management

.

Workshop on Job Scheduling Strategies for Parallel Processing

.

2003

;

Berlin, Heidelberg
Springer
44

60

.

Банкевич
A.
Нурк
C.
Antipov
D.
Gurewicz
A.
Dworkin
M.
Gumowce
as
Leucyna
W. M.
Николенко
S. I.
David
C.
Пржибельский
A. D.
Łopaty: nowy algorytm złożenia genomu i jego aplikacji do sekwencjonowania pojedynczych komórek

.

J. Obliczanie. Biol.
2012

;

19

:

455

477

.

Koren
s.

,

Valenz
BP

,

Berlin
K.

,

Miller
J.R.

,

Bergman
NH

,

Phillippi
am
Canu: skalowalny i możliwy dokładny montaż do długiego odczytu dzięki adaptacyjnemu ważeniu K-Mer i separacji powtórzeń

.

Rez genomu
2017

;

27

:

722

736

.

Knot
RR

,

Judd
lm

,

Gorry
Kl

,

Holt
ke
Unicykler: rozwiązywanie zespołów genomu bakteryjnego z krótkich i długich sekwencji odczytu

.

PLoS oblicza. Biol.
2017

;

13

:

e1005595

.

Wik
RR

,

Schulz
Mb

,

Zobel
J.

,

Holt
ke
farmy: interaktywna wizualizacja zespołów genomu de novo

.

Bioinformatyka

.

2015

;

31

:

3350

3352

.

Vaser
R.

,

Sovich
I.

,

Nagarayan
N.

,

Shikich
m.
szybki i możliwy dokładny montaż genomu de novo z długich nieskorygowanych odczytów

.

Rez genomu
2017

;

27

:

737

746

.

Walker
BJ

,

Abil
T.

,

Shi
T.

,

ksiądz
m.

,

Abuelliel
A.

,

Saktikumar
S.

,

Cuomo
S. A.

,

Zn
K.

,

Wortman
J.

,

Young
SK
Pylon: zintegrowane narzędzie do kompleksowego wykrywania wariantów drobnoustrojów i poprawy montażu genomu

.

PLoS One

.

2014

;

9

:

e112963

.

Langmead
B.

,

Yates
SL
szybkie wyrównanie podczas czytania z prześwitem za pomocą muszki 2

.

Nat. Metody

.

2012

;

9

:

357

359

.

It
H.
Minimapa2: wyrównanie par sekwencji nukleotydowych

.

Bioinformatyka

.

2018

;

34

:

3094

3100

.

to
x.

,

Handsaker
B.

,

Weisoker
A.

,

Fennell
T.

,

Rouen
j.

,

Homer
N.

,

marzec
R.

,

Abecasis
R.

,

Durbin
R.
format wyrównania sekwencji/Mapy i SAMtools

.

Bioinformatyka

.

2009

;

25

:

2078

2079

.

McNair
K.

,

Aziz
R. K.

,

Push
G. D.

,

Overbeck
R.

,

Dutil
B. E.

,

Edwards
r.
Kloki
MRJ

,

Kropiński
AM

,

Lavigne
R
Adnotacja genomu faga przy użyciu potoku RAST

.

metody i protokoły bakteriofagów

.

2018

;

3

:

Nowy Jork
Humana Press
231

238

.

Parks
Dh

,

Imelfort
m.

,

Skennerton
kt

,

Hugenholz
P.

,

Tyson
GW
sprawdź: ocena jakości genomów drobnoustrojów izolowanych z izolatów, pojedynczych komórek i metagenomów

.

Rez genomu
2015

;

25

:

1043

1055

.

Parrello
B.

,

Butler
R.

,

członek
P.

,

Olson
R.

,

Overbeck
J.w.

,

Puszcza
GD

,

Wonstein
w.

,

Overbeck
R.
usługa oparta na uczeniu maszynowym do oceny jakości genomów za pomocą PATRIC

.

Bioinformatyka BMC

.

2019

;

20

:

486

.

Kim
D.

,

Langmid
B.

,

Yates
S. L.
HISAT: szybki wyrównywacz połączeń o niskich wymaganiach pamięci

.

Nat. Metody

.

2015

;

12

:

357

360

.

Boratyński
GM

,

Camacho
s.

,

Cooper
PS

,

Kuluris
G.

,

Fong
A.

,

Matte
N.

,

Madden
T. L.

,

matten
VT

,

spacer
SD

,

merezhuk
YU
wybuch: bardziej wydajny raport z poprawą użyteczności

.

kwasy nukleinowe Rez.
2013

;

41

:

W29

W33

.

Eddie
SR
profil ukrytych modeli Markowa

.

Bioinformatyka

.

1998

;

14

:

755

763

.

Enright

,

van Dongen
S.

,

Uzunis
S. A.
skuteczny algorytm do wykrywania rodzin białek na dużą skalę

.

kwasy nukleinowe Rez.
2002

;

30

:

1575

1584

.

Edgar
R. S.
mięśnie: wyrównanie wielu sekwencji z wysoką precyzją i wysoką przepustowością

.

kwasy nukleinowe Otw.
2004

;

32

:

1792

1797

.

Talavera
G.

,

Castresana
J.
Poprawa filogenezy po usunięciu rozbieżnych i niejednoznacznie wyrównanych bloków z wyrównania sekwencji białek

.

System. Biol.
2007

;

56

:

564

577

.

cennik
mn

,

div
PS

,

Arkin
AP
FastTree 2-drzewa maksymalnego prawdopodobieństwa dla dużych wyrównań

.

PLoS One

.

2010

;

5

:

e9490

.

Stamatakis
A.
raxml wersja 8: narzędzie do analizy filogenetycznej i późniejszej analizy dużych filogenez

.

Bioinformatyka

.

2014

;

30

:

1312

1313

.

Davies
J.J.

,

Gerdes
s.

,

Olsen
J.J.

,

Olson
R.

,

Puszcza
G. D.

,

Shukla
m.

,

Wonstein
w.

,

Wattam
AR

,

YU
x.
pattifamy: rodziny białek dla genomów drobnoustrojów w bazie danych Patric

.

z przodu. Mikrobiol.
2016

;

7

:

118

.

PJ

,

Antao
T.

,

Chang
J.T.

,

Chapman
Ba

,

Cox
CJ

,

Dalke
A.

,

Friedberg
I.

,

Hamelrick
T.

,

Kauff
F.

,

Wilczyński
B.
biopython: swobodnie dostępne narzędzia Pythona do obliczeniowej biologii molekularnej i bioinformatyki

.

Bioinformatyka

.

2009

;

25

:

1422

1423

.

Felsenstein
J.
Phillip (pakiet wyjściowy filogenezy), Wersja 3.5 c

.

1993

;

Seattle, Waszyngton
Joseph Felsenstein

.

Stamatakis
A.

,

Hoover
P.

,

Rużmon
J.
algorytm szybkiego ładowania początkowego dla serwerów WWW RAxML

.

System. Biol.
2008

;

57

:

758

771

.

Kruger
F.
wykończenie w obfitości: narzędzie do owijania wokół Cutadapt i FastQC do konsekwentnego stosowania jakości i przycinania adapterów do plików FastQ, z dodatkową funkcjonalnością dla bibliotek typu RRBs (zredukowana Reprezentacja Bisufite-Seq)

.

2012

;

(28 kwietnia 2016, Data ostatniego dostępu)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin
M.
Cutadapt usuwa sekwencje adapterów z odczytów sekwencji o dużej przepustowości

.

EMBnet J.
2011

;

17

:

10

12

.

Langmide
B.

,

Wilkes
S.

,

Antonescu
B.

,

Charles
R.
skalowanie niwelatorów odczytu do setek wątków na procesorach ogólnego przeznaczenia

.

Bioinformatyka

.

2018

;

35

:

421

432

.

Lassmann
T.

,

Hayashizaki
YU

,

Daub
S. O.
SAMSTAT: monitorowanie zniekształceń w danych sekwencjonowania nowej generacji

.

Bioinformatyka

.

2010

;

27

:

130

131

.

Darling
AE

,

Mau
B.

,

Perna
NT
postępujący postęp: wyrównanie wielu genomu ze wzrostem, utratą i permutacji

.

PLoS One

.

2010

;

5

:

e11147

.

Darling
A. S.

,

Mau
B.

,

Blattner
F. R.

,

Perna
N. T.
fiolet: wielokrotne wyrównanie zachowanej sekwencji genomowej z permutacjami

.

2004

;

14

:

1394

1403

.

Ondów
BD

,

Treangen
TJ.

,

Melstead
P.

,

Malloni
AB

,

Bergman
NH

,

Coren
S.

,

Phillippi
am
Mash: szybkie oszacowanie odległości genomu i metagenomu za pomocą Minhash

.

Biologia Genomowa.
2016

;

17

:

132

.

Wood
de

,

Yates
SL
Kraken: Taksonomia ultraszybkiej sekwencji metagenomicznej przy użyciu precyzyjnych dopasowań

.

Genom Biol.
2014

;

15

:

R46

.

Haft
Dh

,

Dicuccio
m.

,

Badretdin
A.

,

Brower
B.

,

w.

,

k.

,

it
w.

,

Chitsaz
F.

,

Derbyshire
Mk

,

Gonzalez
nr
Refsec: Aktualizacja adnotacji i kuracji prokariotycznego genomu

.

kwasy nukleinowe Rez.
2017

;

46

:

D851

D860

.

Ondov
BD

,

Bergman
NH

,

Filippi
am
interaktywna wizualizacja metagenomiczna w przeglądarce internetowej

.

Bioinformatyka BMC

.

2011

;

12

:

385

.

Clausen
P. T.

,

Aarestrup
F. M.

,

Lund
O.
szybkie i dokładne dopasowanie surowych odczytów do nadmiarowych baz danych za pomocą KMA

.

Bioinformatyka BMC

.

2018

;

19

:

307

.

Macarthur
AG

,

Waglechner
N.

,

Nizam
F.

,

Jan
A.

,

Azad
ma

,

bailai
aj.

,

Bhullar
K.

,

Canova
MJ

,

dwa Pascale
R.

,

Ejim
L.
kompleksowa baza danych na temat oporności na antybiotyki

.

preparat przeciwdrobnoustrojowy. Środki chemioterapii.
2013

;

57

:

3348

3357

.

Liu
B.

,

Zheng
D.

,

Jin
K.

,

pies
L.

,

yang
J.
vfdb 2019: porównawcza Platforma patogenomiczna z interaktywnym interfejsem internetowym

.

kwasy nukleinowe Otw.
2018

;

47

:

D687

D692

.

Overbeck
R.

,

Olson
R.

,

Push
R. D.

,

Olsen
G. J.

,

Davis
J.J.

,

Diz
T.

,

Edwards
Ra

,

Gerdes
s.

,

Parrello
B.

,

Shukla
M
nasiona i szybka adnotacja genomów drobnoustrojów przy użyciu technologii podsystemów (Rast)

.

kwasy nukleinowe Otw.
2013

;

42

:

D206

D214

.

Federhen
s.
baza danych taksonomii NCBI

.

kwasy nukleinowe Rez.
2011

;

40

:

D136

D143

.

opublikowane przez Oxford University Publishing w imieniu badań nad kwasami nukleinowymi 2019.

ta praca została napisana (a) przez amerykańskiego urzędnika(ów) Publicznego i znajduje się w domenie publicznej w USA.