Articles

PATRIC Bioinformatika Resource Center: rozšíření dat a možnosti analýzy

Abstrakt

PathoSystems Integrace Zdrojů Center (PATRIC) je bakteriální Bioinformatika Resource Center financovaných z Národního Institutu pro Alergie a Infekční Choroby (https://www.patricbrc.org). PATRIC podporuje bioinformatická analýza všechny bakterie, se zvláštním důrazem na patogeny, které nabízejí bohatý srovnávací analýzy prostředí, které poskytuje uživatelům přístup k více než 250 000 jednotně komentovaný a veřejně dostupné genomů s kurátorem metadata. PATRIC nabízí web-based vizualizace a srovnávací analýzy nástrojů, privátní pracovní prostor, v němž mohou uživatelé analyzovat svá vlastní data v rámci veřejné sbírky, služby, které zefektivňují komplexní bioinformatická pracovní postupy a nástroje příkazového řádku pro hromadné analýzy údajů. V posledních několika letech, jako genomické a další omics-související experimenty se staly nákladově efektivní a široce rozšířené, jsme pozorovali výrazný nárůst v použití a poptávky pro snadný-k-použití, veřejně dostupné bioinformatická nástroje a služby. Zde uvádíme nedávné aktualizace zdroje PATRIC, včetně nových webových srovnávacích analytických nástrojů, osmi nových služeb a vydání rozhraní příkazového řádku pro přístup, dotazování a analýzu dat.

ÚVOD

Bioinformatika Resource Center (BRC) program byl vytvořen Národní Institut pro Alergie a Infekční Nemoci (NIAID) v roce 2004 s hlavním zaměřením na poskytování přístupu do genomu sekvence dat a analytických nástrojů pro studium patogenů. Pathosystems Resource Integration Center (PATRIC) začalo jako jedno z původních Center pověřených podporou srovnávací analýzy bakteriálních patogenů (1-3). V roce 2009, PATRIC sloučila s Národní Mikrobiální Patogen Databáze Zdrojů (NMPDR) BRC (4), která vyvinula úspěšný SEED databáze a RAST (Rychlý Anotace pomocí Subsystému Technologie) anotace systém pro rovnoměrně kurátorství a projektování genomu popisy přes mikrobiální druhy (5-8). V průběhu let se zdroj PATRIC rozšířil a přizpůsobil tak, aby držel krok s růstem bioinformatických datových souborů a potřebou souvisejících analytických nástrojů. Od září 2019, PATRIC zahrnuje více než 250 000 veřejně dostupných mikrobiálních genomů a bohatý srovnávací analýzu prostředí.

od svého uvedení na trh v roce 2008 provedl RAST (http://rast.nmpdr.org) ∼700 000 úloh anotace genomu pro soukromé uživatele. Tím, že poskytuje přístup k genom funkce identifikace skriptů vyvinut akademické obce a v souladu projekce z dobře sestaveného funkce bílkovin ze SEMEN, RAST slouží jako model pro úspěšné bioinformatická služby, protože zmírňuje potřebu uživatelům vytvářet své vlastní anotace potrubí, a jeho konzistence umožňuje následné srovnávací analýzy. Pomocí RAST jako šablonu, v roce 2014 PATRIC se začaly provádět řadu bioinformatická služeb prostřednictvím webové stránky, která umožňuje uživatelům sestavit a anotace genomu sekvence, rekonstruovat metabolické modely, analyzovat Snp a INDELs, a analyzovat a porovnat RNA-seq experimenty. Výsledky těchto analýzy pracovních míst by pak mohly být ve srovnání s veřejně k dispozici genomické a další hospodářské údaje sbírek ve zdroji, zatímco byl držen v soukromých rámci uživatelského prostředí workspace. Do konce roku 2016, PATRIC bylo zpracování ∼1500 pracovních míst ve službách za měsíc, a to včetně pracovních míst předložené RAST stránky (3).

od posledního popisu ve výzkumu nukleových kyselin v roce 2016 (3) prošel PATRIC řadou aktualizací a vylepšení. Sběr dat byl vylepšen, zejména v oblasti antimikrobiální rezistence (AMR) (9); prohlížení webových stránek prostředí byla obohacena o nové nástroje a vizualizace; a zlepšení pracovního prostředí mají také usnadňuje najít a sdílení výzkumných dat projektu. Rozhraní příkazového řádku (CLI) pro sběr a analýzu hromadných dat bylo vytvořeno a vydáno pro distribuci na systémech Mac, Linux a Windows. PATRIC má také zahájila osm nových bioinformatická služeb, s posledních důraz je kladen na schopnost analyzovat data ze smíšených kultur nebo metagenomic vzorků. Nakonec byla vytvořena bohatá sbírka výukových programů, které uživatelům pomáhají s těmito novými nástroji (https://docs.patricbrc.org/tutorial/). Tato zpráva popisuje mnoho nedávných nepublikovaných aktualizací zdroje PATRIC.

co je nového v PATRIC?

Data růstu a vylepšení

Jeden z nejvíce dramatické změny v podpoře bioinformatická práce od začátku BRC program byl exponenciální růst ve veřejně dostupných mikrobiální genom sekvence (Obrázek 1). Sbírky soukromé uživatele genomu sekvence, které mají být komentovaný a indexovány PATRIC má také pěstována od založení workspace prostředí, a ve skutečnosti může překročit velikost veřejnosti sekvence genomu kolekce během příštího roku (Obrázek 1). Ačkoli soukromá Sada obsahuje některé reanalyzované genomové sekvence,

Obrázek 1.

kumulativní růst veřejných a soukromých genomů v PATRIC.

Obrázek 1.

kumulativní růst veřejných a soukromých genomů v PATRIC.

nevidíme žádné náznaky zpomalení sekvenování mikrobiálního genomu a jeho souvisejících bioinformatických analýz. Nárůst veřejně dostupných dat sekvencí genomu a souvisejících strukturovaných metadat také způsobil revoluci v typech experimentálních analýz, které jsou možné. Například PATRIC poskytuje strukturovaný a ručně kurátorem metadata spojená s každým genomu, včetně laboratorních odvozené AMR fenotypy, hostitelských organismů, izolace zdroje, lidské tělo stránky dat a geografických informací. Tyto sbírky strukturovaných metadat poskytují základ pro běh strojového učení a experimentů hlubokého učení (10,11)a pro poskytování prediktivních nástrojů uživatelům (9). Očekáváme, že větší využití umělé inteligence technik v bioinformatika bude řídit experimentální design rozhodnutí a v konečném důsledku zkrátit čas potřebný pro genetické a další laboratorní charakterizace experimenty.

podpora výzkumu AMR je hlavní oblastí pro sběr a kuraci dat v PATRIC. Aktivně kurátorujeme anotace proteinů AMR i laboratorně odvozená data fenotypu AMR spojená s veřejnými genomy. Anotační systém je schopen přesně promítnout více než 600 ručně kurátorských funkcí AMR proteinu. Obsahuje také velkou sbírku úzce souvisejících funkcí non-AMR proteinu, které byly kurátorem, aby se zabránilo falešným předpovědím funkcí AMR. Poskytnout další prostředky, srovnání, anotace systém také vyhledávání pro geny s vysokou podobnost k těm, kurátor KARTY (12) a NCBI AMR genové databáze projektů (13). Laboratoř-odvozené AMR fenotyp kolekce byla generované kurátorství dat z literatury, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) a dalších veřejných zdrojů. To se rozrostlo na více než 40 000 genomových sekvencí a je používán výzkumníky po celém světě. Přidali jsme také více než 10 000 plazmidových a prorockých sekvencí kvůli jejich významu při studiu a boji proti AMR.

Služby

služby poskytované PATRIC jsou navrženy tak, aby umožnily snadný přístup k komplexní bioinformatická pracovní postupy. Jsou přístupné přes webové rozhraní PATRIC a CLI. Většina služeb má schopnost zvládnout stovky nebo dokonce tisíce pracovních míst denně. Úlohy jsou obvykle spuštěny na řadě Interních serverů, přičemž přepěťová kapacita je zpracována velkým výpočetním clusterem. Služby PATRIC rostly v popularitě od roku 2014 a od září 2019 bylo úspěšně dokončeno více než 263 000 pracovních míst (Obrázek 2).

Obrázek 2.

uživatelsky iniciované analytické úlohy dokončené PATRIC bioinformatic services. Horní graf ukazuje využití velkoobjemových služeb. Spodní graf ukazuje využití nižšího objemu a nových služeb. Všimněte si rozdílu v měřítku mezi dvěma grafy.

Obrázek 2.

uživatelsky iniciované analytické úlohy dokončené PATRIC bioinformatic services. Horní graf ukazuje využití velkoobjemových služeb. Spodní graf ukazuje využití nižšího objemu a nových služeb. Všimněte si rozdílu v měřítku mezi dvěma grafy.

Pozoruhodné aktualizace stávajících služeb

Tři z našich pre=stávající služby, Genom Shromáždění, Anotace Genomu a RNA-seq analýza, prošly několik pozoruhodných aktualizací. Služba sestavování genomu byla přestavěna s novým plánovačem úloh, který umožňuje spravedlivější proces fronty úloh, který zabraňuje vytváření úzkých míst velkými úlohami (14). Kromě SPAdes (15), přidali jsme Canu (16) pro dlouhodobé čtení sestavy a Unicycler pro hybridní dlouhé a krátké-čtení sestav (17). Poskytujeme také obraz sestavy grafu pomocí Obvaz (18), a sestavy mohou být leštěny pomocí Racon (19) a Pilon (20) pro dlouhé a krátké-čtení sestavy, resp. Nakonec se provádí mapování čtení pro generování přesných statistik pokrytí pomocí Bowtie2 (21) nebo Minimap2 (22) a SAMtools (23). Dva nové přírůstky do Genomu Anotace Služby patří možnost komentovat bakteriofága genomu sekvence (24) a výpočet genomu kvalitní statistiky, které jsou založeny na CheckM aplikace (25) a vnitřní RAST model, který posuzuje kvalitu na základě výskytu a úplnost subsystém rolí v genomu (26). Analytická služba RNA-seq byla také aktualizována, aby umožnila experimenty studující odpověď hostitele na mikrobiální infekce. Na podporu tohoto, přidali jsme několik společných eukaryotické hostitelské referenční genomy včetně Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, pták, Pták, Homo sapiens, Macaca mulatta, Mus svalů, Lasička putorius furo, Rattus norvegicus a Sus scrofa. Také jsme nedávno přidali HISAT2 (hierarchické indexování pro sestříhané vyrovnání přepisy) (27), vysoce efektivní systém pro vyrovnání čte z RNA-Seq experimenty do hostitelského genom a umožnil import datových souborů z SRA v RNA-seq rozhraní, což dále zvyšuje schopnost provádět smíšené diferenciální exprese analýza veřejných a soukromých údajů.

Komplexní analýzy genomu

Jedním z nejčastějších případů použití pro analýzu soukromých genomů v PATRIC je pro výzkumníky sestavit a pak komentovat jejich genomu sekvence pomocí dvou samostatných služeb. Na jaře 2018 jsme spustili efektivní komplexní analýzu genomu „meta-service“, která přijímá sekvenční čtení, počítá sestavení a anotaci a poskytuje uživatelsky přívětivý popis genomu. Výstup obsahuje genom hodnocení kvality, AMR geny a fenotyp předpovědi, speciální geny, subsystému přehled, identifikace nejbližší genomu sekvence, fylogenetický strom a seznam funkcí, které odlišují genomu z jeho nejbližších sousedů. Komplexní Analýzy Genomu Služby se rychle zvýšil za jeden z nejpopulárnějších služeb v PATRIC s více než 11 000 pracovních míst byla dokončena od svého uvedení na trh v dubnu 2018.

fylogenetické stromy

schopnost rekonstruovat a vizualizovat evoluční vztahy leží v srdci biologie. V roce 2017 společnost PATRIC spustila službu fylogenetický strom, která uživatelům umožňuje vytvářet vysoce kvalitní fylogenetické stromy pro veřejné a soukromé genomové sekvence. Služba v současné době nabízí uživateli dva pracovní postupy. První je na bázi proteinů strom-stavební workflow s názvem ‚Všechny Sdílené Proteiny, které používá Phylogenomic Odhad s Progressive Refinement (PEPR) potrubí (https://github.com/enordber/pepr). PEPR pracuje tím, že definuje sdílené protein rodiny de novo pro genomu skupiny pomocí BLAST (28) a HMMER (29) identifikovat podobné proteiny a MCL (30) vytvářet shluky. Potom se vytvoří zarovnání pomocí svalu (31) a ořízne se Gbloky (32). Nakonec, na základě preferencí uživatele, PEPR vypočítá strom pomocí FastTree (33) nebo RAxML (34). V roce 2019, jsme spustili druhý, rychlejší, fylogenetický strom budování workflow s názvem ‚Kodon Stromy. To využívá předdefinované PATRIC globální proteinové rodiny (PGFams) (35), výběr uživatelem zadaný počet rodin (10-1000), které jsou single-copy (nebo téměř tak) mezi členy genomu skupiny. Zarovnání jsou generovány pro proteinových sekvencí z každé rodiny pomocí Svalů (31) a jejich odpovídající nukleotidové sekvence jsou zarovnány pomocí codonalign funkce BioPython (36). Zřetězené zarovnání všech proteinů a nukleotidů je zapsáno do souboru ve formátu PHYLIP (37). Poté se vygeneruje soubor oddílů pro RaxML (34), který popisuje zarovnání proteinů a nukleotidů v první, druhé a třetí pozici kodonu. Hodnoty podpory jsou generovány ze 100 kol rychlého bootstrapingu v RaxML (38).

kromě Newick-formátovaný strom souborů, Fylogenetický Strom Služba vrátí portable document soubor (PDF), portable network graphics (PNG) a škálovatelné vektorové grafiky (SVG), soubor s obrázkem na střed kořeny stromu obrazy generované FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Fylogenetický stromový pohled na webu PATRIC umožňuje vědcům vybrat uzly a listy, což uživateli umožňuje vytvářet skupiny z konkrétních clades pro další analýzu. Generuje také zprávu o genomu, která poskytuje seznam genomových sekvencí a proteinových rodin používaných při konstrukci stromu a počty genů, proteinů, aminokyselin a nukleotidů používaných k výpočtu stromu. Nakonec jsou uvedeny problematické genomové sekvence, které by mohly být odstraněny, aby se zvýšil výběr genů a zlepšila se síla stromu. Od doby, kdy byla postavena, bylo zpracováno téměř 5000 pracovních míst fylogenetickou stromovou službou.

fastq utilities

posouzení kvality sekvenování čtení je důležitým prvním krokem k zajištění následných analýz, jako je sestavení, anotace atd. jsou přesné. Na Fastq Utilities Služby, která byla zahájena v červenci 2019, umožňuje uživatelům zarovnat čte, změřte základnu, kvalitu hovoru, a čalounění low-kvalitní sekvence z číst soubory. Služba přijímá soubory s dlouhým nebo krátkým čtením v jednom nebo spárovaném formátu. To může také načíst číst soubory přímo z NCBI sekvence číst archiv (SRA) pomocí identifikátoru run jako vstup. Služba má tři komponenty, „trim“, „FastQC“ a „align“, které lze použít samostatně nebo v jakékoli kombinaci. Komponenta ořezávání používá Trim Galore (39), což je Perl obal kolem nástrojů Cutadapt (40) a FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc). Na FastQC komponenta poskytuje kontroly kvality na raw sekvenční data přicházející z vysoce paralelních měrení, celogenomové sekvenování potrubí a umožňuje rychlou kontrolu kvality, což naznačuje problémy, které by mohly mít dopad následných analýz. Funkce zarovnání zarovná čtení na referenční sekvenci genomu pomocí Bowtie2 (21,41), šetří nezmapované čtení a generuje zprávy SamStat (42) o množství a kvalitě zarovnání.

zarovnání genomu

V listopadu 2018 PATRIC spustil službu zarovnání genomu, která uživatelům umožňuje vypočítat zarovnání sekvencí celého genomu. Tato služba používá aplikaci progressiveMauve (43), která konstruuje poziční homologii s více sekvencemi genomu v rozšíření původního algoritmu lila (44). Tato služba umožňuje vědcům sladit až dvacet genomových sekvencí najednou. Výstup služby zahrnuje vizuální zobrazení genomu, který umožňuje uživatelům zobrazit a prozkoumat celé zarovnání sekvence genomu nebo přiblížit porovnání jednotlivých oblastí nebo genů (obrázek 3).

obrázek 3.

workflow analýzy dat v PATRIC pomocí služby zarovnání genomu. (A) internetové rozhraní umožňuje výběr z genomů; (B) vizualizace souladu genomové regiony s jakýmkoliv delecí, inzercí nebo přestaveb; (C) přiblížení na zarovnání se zobrazí geny na vpřed a vzad stoj, které mohou být vybrány; (D) výběr konkrétní gen z Genomu Alignment viewer otevře PATRIC Funkce Stránka, kde jsou všechny údaje k dispozici, pro tento gen jsou zobrazeny. (E) karta porovnání regionu na stránce PATRIC genu ukazuje zachování vybraného genu (zobrazeno červeně) a také okolních genů. (F) Každý gen je přiřazen rod-specifické (PLFam) nebo globální (PGFam) proteinové rodiny, které mohou být vybrány z Funkce Stránky, a členové rodiny mohou být ve srovnání s použitím Více Sekvence Zarovnání/Gene Tree nástroj.

obrázek 3.

workflow analýzy dat v PATRIC pomocí služby zarovnání genomu. (A) internetové rozhraní umožňuje výběr z genomů; (B) vizualizace souladu genomové regiony s jakýmkoliv delecí, inzercí nebo přestaveb; (C) přiblížení na zarovnání se zobrazí geny na vpřed a vzad stoj, které mohou být vybrány; (D) výběr konkrétní gen z Genomu Alignment viewer otevře PATRIC Funkce Stránka, kde jsou všechny údaje k dispozici, pro tento gen jsou zobrazeny. (E) karta porovnání regionu na stránce PATRIC genu ukazuje zachování vybraného genu (zobrazeno červeně) a také okolních genů. (F) Každý gen je přiřazen rod-specifické (PLFam) nebo globální (PGFam) proteinové rodiny, které mohou být vybrány z Funkce Stránky, a členové rodiny mohou být ve srovnání s použitím Více Sekvence Zarovnání/Gene Tree nástroj.

Podobný genomu finder

Když výzkumník má nový genom, jedna z prvních věcí, které chtějí identifikovat, je nejbližší příbuzní pro organismus, ale to může být obtížné, když veřejnou sbírku je tak velký. PATRIC poskytuje službu nazvanou podobný vyhledávač genomu, která umožňuje vědcům rychle identifikovat podobné sekvence genomu pomocí kaše (45). Mash pracuje redukcí velkých sekvencí na malé reprezentativní náčrtky, které lze použít k odhadu mutačních vzdáleností na základě sdílených k-mers. PATRIC umožňuje srovnání se všemi veřejnými sekvencemi genomu nebo s referenční sadou genomu NCBI. Tento nástroj umožňuje vědcům upravit citlivost vyhledávání výběrem maximálního počtu k-mers držených ve společném, prahu hodnoty P nebo vzdálenosti. Výsledky jsou vráceny jako seznam nejpodobnějších genomových sekvencí s odpovídajícími metadaty. Stejně jako u všech tabulek PATRIC mohou vědci vybrat sekvence pro vytvoření skupin pro pozdější analýzu nebo stáhnout výsledky.

taxonomická klasifikace

taxonomická klasifikační služba, která byla zahájena v březnu 2019, identifikuje taxonomické složení smíšených nebo metagenomických vzorků. Tato služba používá aplikaci Kraken2 (46), která identifikuje k-mers, které svědčí o různých taxonomických jednotkách. Kraken databáze používané službou je plné sestavení, který je založen na všech RefSeq genomu sekvence (47), lidský genom, plasmidů a vektorů sekvencí. Výstup úlohy zahrnuje standardní formát sestavy Kraken, s každým bakteriálním taxonem hypertextovým odkazem na odpovídající stránku v PATRIC. Služba také vrací Krona plot (48), který ukazuje procento přečtení, které mapovány na každém taxonu a umožňuje uživateli prozkoumat vybrané taxony.

Metagenomic číst mapování

Vědci, kteří studují AMR nebo virulence může být zájem v analýze genů ve smíšených nebo metagenomic číst soubory. Služba mapování čtení Metagenomu umožňuje vědcům vyhledávat tyto specifické geny v sadě čtení. Funguje tak, že zarovná čtení proti referenčnímu genu pomocí KMA, který používá k-mer setí a algoritmus Needleman-Wunsch k přesnému zarovnání čtení s geny zájmu (49). Uživatelé mohou v současné době zarovnat proti referenční genové sady z Komplexní Antibiotické Rezistence Databáze (KARTA) (50) a Faktor Virulence Databáze (VFDB) (51). Služba vrátí html a textové verze standard KMA zprávu, která ukazuje podrobné informace o mapování, odkazy na geny v PATRIC s vysokou podobnost, a konsensus sekvence sestavené z vyrovnaných čte.

Metagenomic binning

Zahájena v srpnu 2017, Metagenomic Binning Služby sestavuje, čte z metagenomic vzorku do contigs a pak se pokusí oddělit tyto contigs do zásobníků, které představují genomů jednotlivých druhů. Tyto koše jsou pak plně anotovány a pro každý koš jsou vypočteny podrobné statistiky kvality. Binningový algoritmus začíná skenováním spojů pro specifické markerové proteiny, které se téměř vždy vyskytují jednotlivě v genomu. Podobnost marker-protein se používá k náboru podobných genomů z PATRIC, které se pak používají k náboru dalších spojů založených na rozlišování proteinových k-mers. Podobné jeden izolovat genomů, koše jsou umístěny v uživatelském prostoru a indexovány v PATRIC databáze jako soukromé genomů, což umožňuje plné využití PATRIC srovnávací analýzy a vizualizační nástroje pro každý bin.

webové analytické nástroje

webová stránka PATRIC nabízí několik interaktivních vizuálních analytických nástrojů, které uživatelům umožňují porovnávat datové sady omics. Tyto nástroje integrují data různých typů, provádějí některé výpočetní úkoly a poskytují uživateli interaktivní vizualizace. PATRIC v současné době podporuje mnoho webových analytických nástrojů, jako je Teplo Mapa Prohlížeč pro srovnání sdílený obsah bílkovin, Cesta Prohlížeč pro zkoumání metabolických drah a Genome Browser pro zobrazování genových funkcí na chromozomu. Na web PATRIC jsme přidali dvě nové vizualizace, které původně existovaly na webových stránkách RAST a SEED, ale vyžadovalo významné reengineering, aby byl funkční pro použití se stovkami tisíc genomů.

porovnat region viewer

porovnat Region Viewer umožňuje výzkumníkům porovnat genové sousedství (genetické lokusy nebo chromozomální klastry) napříč mnoha druhy. Uživatel vybere Gen zájmu, velikost genomové oblasti a počet genomů pro srovnání. Displej vykresluje BLASTOVOU podobnost zaostřovacího genu a podobnost okolních genů v oblasti (obrázek 3E).

V RAST, tento nástroj se opírá o precomputed databáze všech-všechny vysoké (28) podobnosti určit soubor genomů mají zápas k gen, a počítá podrobné párového srovnání genů ve vybrané oblasti barevný kód data. Vzhledem k počtu genomů v databázi PATRIC je tato metoda příliš pomalá pro použití v reálném čase. V PATRIC verze tohoto nástroje základny zaměření genu vyhledávání a barevné kódování na obou rod-specifické (PLFam) nebo globální (PGFam) proteinové rodiny (35), které jsou precomputed pro každý genom, takže hledání prostor je více rozsahem. Tato vizualizace je však škálovatelná, protože BLAST se používá pouze k výpočtu podobnosti proteinů pro zaostřovací geny v sadě.

Subsystémů

Subsystémy jsou sbírky funkčně příbuzné proteiny a jsou zásadní koncepční zařízení pro identifikaci a projekci bílkovin funkcí napříč druhy (7,52). PATRIC nyní počítá a zobrazuje data subsystému pro každou veřejnou a soukromě komentovanou sekvenci genomu. Subsystémy, které jsou výsledkem ruční anotace týmem odborných kurátorů, jsou rozděleny do Nadtřídy (příklad: Metabolismus), Třídy (příklad: Reakce na Stres, Obranné a Virulence), Podtřídy (příklad: Rezistence na antibiotika a toxické látky), Subsystém Názvu (například: Arsen odpor) a funkční úlohu každého z obsažených genů. Kliknutím na kartu subsystémy pro libovolný genom získáte tři různé pohledy. Přehled subsystémů ukazuje výsečový graf, který zobrazuje procento genů, které jsou v určité Superclass. Karta subsystémy obsahuje počet genů nalezených v určité Superclass. Karta geny obsahuje seznam všech genů napříč všemi subsystémy a zahrnuje značky PATRIC a RefSeq locus (47). Informace o subsystému nejsou k dispozici pouze pro jednotlivé genomy, ale jsou také shrnuty pro každou taxonomickou úroveň, až do Superkingdomu pomocí taxonomie NCBI (53). Heatmap pohledu ukazuje přítomnost a nepřítomnost specifických proteinů na vybraný subsystém přes taxonu nebo konkrétní genomu skupiny mohou být vytvořeny uživatelem.

rozhraní příkazového řádku (CLI)

za posledních 5 let bylo úložiště dat PATRIC spravováno pomocí databázové struktury NoSQL Apache Solr. K uspokojení rychle rostoucí sběr dat a přijmout výhody, škálovatelnost a odolnost, PATRIC architektura databáze byl převeden na Apache SolrCloud databáze architektury na jaře 2019. Databáze SolrCloud je rozdělena do řady SolrCores pro správu souvisejících datových typů, jako jsou funkce genomu, sekvence a transkriptomická data. Základní aplikační programovací rozhraní (API) umožňuje programový přístup k těmto jádrům a datům, která obsahují; získávání dat však může být složité při navigaci a slučování polí z různých jader. Vyvinuli jsme sadu skriptů příkazového řádku, které používají API pro přístup k datovému úložišti a provádění běžných analýz. Tato distribuce je k dispozici pro Mac, Windows a Linux operační systémy, včetně Ubuntu a CentOS 6 a 7, a Fedora 28 a 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Obě distribuce a PATRIC webové stránky obsahují návody, jak používat skripty s příklady (https://docs.patricbrc.org/cli_tutorial/). Distribuce 482MB obsahuje mnoho základních skriptů prostředí PATIRC. Některé umožňují hromadné stahování, slučování a manipulaci s daty a jiné umožňují složitější analýzy. Distribuce také obsahuje užitečné skripty z dřívějších projektů SEED (5) a RASTtk (8). Zvláště pozoruhodnou funkcí, kterou nabízí distribuce PATRIC CLI, je schopnost spravovat soubory v pracovním prostoru. Uživatelé se mohou přihlásit do soukromého pracovního prostoru, vytvářet podadresáře, přesouvat soubory do nebo z pracovního prostoru a spouštět anotace a montážní úlohy. Tyto skripty poskytují prostředky pro sestavení a anotaci stovek nebo dokonce tisíců genomových sekvencí. Navíc, máme také PATRIC pracovní prostor přístupný přes FTP (File Transfer Protocol), který poskytuje alternativní způsob pohybu velkého množství dat do a z pracovního prostoru. Uživatelé mohou přistupovat k pracovnímu prostoru pomocí příkazového řádku nebo pomocí správce souborů FTP. Plánujeme pokračovat ve vývoji nástrojů příkazového řádku, které umožní lepší přístup ke službám a snadnější manipulaci s daty.

BUDOUCÍ SMĚRY

V roce 2020, PATRIC týmu na University of Chicago, University of Virginia a Společenství pro Výklad Genomů bude kombinovat s virovou BRC tým, který podporuje ViPR (Virus Patogen Databáze a Analýzy Zdrojů) a IRD (Chřipka Výzkum Databáze) zdroje na J. Craig Venter Institute (JCVI). Nově vzniklá bakteriální a virové BRC tým (BV-BRC), bude i nadále udržovat PATRIC, IRD a ViPR webové stránky při přidání nové průřezové funkce. Máme v úmyslu se intenzivně soustředit na zlepšení užitných nového BV-BRC zdroj pro epidemiologické analýzy, rozšiřování úložiště dat zahrnout další data a metadata typy, větší přístup do strukturovaných dat, které mohou být použity v oblasti umělé inteligence aplikace, a zlepšit nasazení architektury pro nástroje a služby.

financování

Národní institut pro alergie a infekční nemoci (NIAID). Financování poplatku za otevřený přístup: NIAID.

Prohlášení o střetu zájmů. Žádné uvedeno.

poznámky

současná adresa: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 s. Cass Avenue, Argonne, IL 60439, USA.

Snyder
E.
Kampanya
, N.
Lu
J
Nordberg
E. K.

,

Karur
H
Shukla
M
Soneja
J
Tian
Y.
Xue
T.

,

Yoo
h.
PATRIC: VBI pathosystems resource integration center

.

nukleové kyseliny Res.
2006

;

35

:

D401

D406

.

Wattam
. a. R
Abraham
D
Dalay
O
Disz
T. L.

,

Driscoll
T
Gabbard
J. L.
Gillespie
J
Gough
R
Hix
D
Kenyon
R.
PATRIC, bakteriální bioinformatika databáze a zdroj analýzy

.

Nukleových Kyselin.
2013

;

42

:

D581

D591

.

Wattam
. a. R
Davis
J
Assaf
R
Boisvert
.

,

Brettin
T
Houska
C
Conrad
, N.
Dietrich
em
Disz
T
Gabbard
J. L.
vylepšení PATRIC, all-bakteriální bioinformatika databáze a analýza resource center

.

Nukleových Kyselin.
2016

;

45

:

D535

D542

.

McNeil
L. K.
Říše
C
Aziz
R. K.
Bartels
D

,

Cohoon
M
Disz
T
Edwards
R. a.
Gerdes
.
Hwang
K.
Kubal
M.
národní zdroj databáze mikrobiálních patogenů (NMPDR): genomická platforma založená na anotaci subsystému

.

Nukleových Kyselin.
2006

;

35

:

D347

D353

.

Overbeek
R
Olson
R
Pusch
G. D.
Olsen
G. J.

,

Davis
J
Disz
T
Edwards
R. a.
Gerdes
.
Parrello
B.

,

Shukla
m.
semeno a rychlá anotace mikrobiálních genomů pomocí Subsystémové technologie (RAST)

.

Nukleových Kyselin.
2013

;

42

:

D206

D214

.

Aziz
R. K.
Bartels
D
Aa
DeJongh
M

,

Disz
T
Edwards
R. a.
Formsma
K.
Gerdes
.
Skla
em

,

Kubal
m.
Rast Server: rychlé anotace pomocí subsystémové technologie

.

BMC genomika

.

2008

;

9

:

75

.

Overbeek
R
Begley
T
Butler
R. M.
Choudhuri
J. V.

,

Chuang
H.-Y.
Cohoon
M
de Crécy-Lagard
V
Diaz
, N.
Disz
T

,

Edwards
R.
subsystémový přístup k anotaci genomu a jeho využití v projektu k anotaci 1000 genomů

.

nukleové kyseliny Res.
2005

;

33

:

5691

5702

.

Brettin
T
Davis
J
Disz
T
Edwards
R. a.

,

Gerdes
.
Olsen
G. J.
Olson
R
Overbeek
R
Parrello
B.
Pusch
G. D.
RASTtk: modulární a rozšiřitelný provádění RAST algoritmus pro budování vlastní anotace potrubí a anotace šarží genomů

.

Sci. Rep.
2015

;

5

:

8365

.

Antonopoulos
D. A.
Assaf
R
Aziz
R. K.
Brettin
T

,

Houska
C
Conrad
, N.
Davis
J
Dietrich
em
Disz
T.

,

Gerdes
s.
PATRIC jako jedinečný zdroj pro studium antimikrobiální rezistence

.

Stručný. Bioinformace.
2019

;

20

:

1094

1102

.

Nguyen
M
Brettin
T
W
Musser
J. M.

,

Olsen
R. J.
Olson
R
Shukla
M
Stevens
R. L.
Xia
F
Yoo
H.
vývoj in silico testu minimální inhibiční koncentrace na Klebsiella pneumoniae

.

Sci. Rep.
2018

;

8

:

421

.

Nguyen
M
W
McDermott
P. F.
Olsen
R. J.

,

Olson
R
Stevens
R. L.
Tyson
G. H.

,

, Zhao
.
Davis
j. J.
použití strojového učení k predikci antimikrobiálních Mic a souvisejících genomových funkcí pro nontyphoidní salmonelu

.

J. Blink. Mikrobiol.
2019

;

57

:

e01260-18

.

Jia
B.
Raphenya
. a. R
Alcock
B.
Waglechner
, N.

,

Guo
P
Tsang
K. K.
Lago
B. a.
Dave
B. M.
Pereira
.

,

Sharma
A. N.
CARD 2017: rozšíření a modelově zaměřená kurace komplexní databáze rezistence vůči antibiotikům

.

Nukleových Kyselin.
2016

;

45

:

D566

D573

.

Feldgarden
M
parťák tulák
V
Rukojeť
D. H.
Prasad
ab

,

Slotta
D. J.
Tolstoj
I.
Tyson
G. H.

,

, Zhao
.
Hsu
, C.-H.

,

McDermott
P. F.
Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

.

Antimicrob. Agents Chemother.
2019

;

63

:

e00483-19

.

Yoo
A.B.

,

Jette
M.A.

,

Grondona
M.
Slurm: Simple linux utility for resource management

.

Workshop on Job Scheduling Strategies for Parallel Processing

.

2003

;

Berlin, Heidelberg
Springer
44

60

.

Bankevich
A
Nurk
.
Antipov
D
Gurevič
Aa

,

Dvorkin
M
Kulikov
, A. S.
Leucin
V. M.
Nikolenko
S. I.
Pham
.

,

Prjibelski
a. D.
Rýče: nový genom shromáždění algoritmus a jeho aplikace na jednotlivé buňky sekvenování

.

J. Comput. Biol.
2012

;

19

:

455

477

.

Koren
.
Walenz
B. P.
Berlín
K.
Miller
J. r. R

,

Bergman
N. H.
Phillippy
.
Canu: škálovatelné a možné přesné dlouhé-číst montáž pomocí adaptivní k-mer vážení a opakujte oddělení

.

Genome Res.
2017

;

27

:

722

736

.

Knot
R. R.
Judd
L. M.
Gorrie
C. L.
Holt
K. E.
Unicycler: řešení bakteriální genom sestavy z krátké a dlouhé sekvenční čte

.

PLoS Comput. Biol.
2017

;

13

:

e1005595

.

Knot
R. R.
Schultz
M. B.
Zobel
J

,

Holt
K. E.
Vazníky: interaktivní vizualizace de novo genomové sestavy

.

bioinformatika

.

2015

;

31

:

3350 –

3352

.

Vaser
R
Sović
I.
Nagarajan
, N.

,

Šikić
M
Rychle a možné přesné genom de novo assembly z dlouho neopravené čte

.

Genome Res.
2017

;

27

:

737

746

.

Walker
B. J.
Abeel
T
Bambucké
T
Kněz
M.
Abouelliel
A
Sakthikumar
.
Cuomo
C. a.
Zn
Q
Wortman
J

,

Mladý
S. K
Pylonu: integrovaný nástroj pro komplexní mikrobiální varianta detekce genomu a montáž zlepšení

.

PLoS One

.

2014

;

9

:

e112963

.

Langmead
B.
Yates
S. L.
Rychlé gapped-číst vyrovnání s Motýlek 2

.

nat. Metody

.

2012

;

9

:

357 –

359

.

h.
Minimap2: párové zarovnání pro nukleotidové sekvence

.

bioinformatika

.

2018

;

34

:

3094

3100

.

H
Handsaker
B.
Wysoker
A
Fennell
T

,

Ruan
J
Homer
, N.
Marth
G.
Abecasis
G.
Durbin
R
sequence alignment/map formátu a SAMtools

.

bioinformatika

.

2009

;

25

:

2078

2079

.

McNair
K.
Aziz
R. K.
Pusch
G. D.
Overbeek
R

,

Dutilh
B. E.
Edwards
R.
Clokie
MRJ
Kropinski
JSEM
Lavigne
R
Phage Anotace Genomu Pomocí RAST Potrubí

.

metody a protokoly bakteriofágů

.

2018

;

3

:

NY
Humana Press
231

238

.

Parky
D. H.
Imelfort
M
Skennerton
ct
Hugenholtz
P

,

Tyson
G. W.
CheckM: hodnocení kvality mikrobiálních genomů získaných z izolátů, jednotlivých buněk a metagenomů

.

Genome Res.
2015

;

25

:

1043

1055

.

Parrello
B.
Butler
R
Chlenski
P
Olson
R

,

Overbeek
J
Pusch
G. D.
Vonstein
V
Overbeek
R.
služba založená na strojovém učení pro odhad kvality genomů pomocí PATRIC

.

BMC bioinformatika

.

2019

;

20

:

486

.

Kim
D
Langmead
B.
Yates
S. L.
HISAT: rychle sestříhané vyrovnávač s nízkými požadavky na paměť

.

nat. Metody

.

2015

;

12

:

357

360

.

Boratyn
G. M.
Camacho
C.
Cooper
P. S.
Coulouris
G.
Fong
A
Matný
, N.
Madden
T. L.

,

Matten
W. T.
Chůze
S. D.
Merezhuk
Y.
VÝBUCH: účinnější zpráva s vylepšení použitelnosti

.

nukleové kyseliny Res.
2013

;

41

:

W29

W33

.

Eddy
S. R.
Profil skryté Markovovy modely

.

bioinformatika

.

1998

;

14

:

755 –

763

.

Enright
a. J.
Van Dongen
.
Ouzounis
C. a.
efektivní algoritmus pro velké-měřítko detekce proteinů rodiny

.

nukleové kyseliny Res.
2002

;

30

:

1575

1584

.

Edgar
RC
sval: vícenásobné zarovnání sekvence s vysokou přesností a vysokou propustností

.

nukleové kyseliny Res.
2004

;

32

:

1792

1797

.

Talavera
G.
Castresana
J
Zlepšení phylogenies po odstranění divergentní a nejednoznačně zarovnané bloky z proteinové sekvence zarovnání

.

Syst. Biol.
2007

;

56

:

564

577

.

Cena
M. N.
Dehal
P. S.
Arkin
a. P.
FastTree 2-přibližně stromy s maximální pravděpodobností pro velké zarovnání

.

PLoS One

.

2010

;

5

:

e9490

.

Stamatakis
A
RAxML verze 8: nástroj pro fylogenetické analýzy a post-analýzy z velké phylogenies

.

bioinformatika

.

2014

;

30

:

1312

1313

.

Davis
J
Gerdes
.
Olsen
G. J.
Olson
R
Pusch
G. D.
Shukla
M
Vonstein
V
Wattam
. a. R

,

Yoo
H
PATtyFams: Protein rodiny pro mikrobiální genomy v PATRIC databáze

.

přední. Mikrobiol.
2016

;

7

:

118

.

Penis
P. J.
Antao
T
Chang
J. T.
Chapman
B. a.

,

Cox
C. J.
Dalke
A
Friedberg
I.
Hamelryck
T
Kauff
F
Wilczynski
B.
Biopython: volně k dispozici Python nástrojů pro výpočetní molekulární biologie a bioinformatiky

.

bioinformatika

.

2009

;

25

:

1422

1423

.

Felsensteinem
J
PHYLIP (Fylogeneze Závěr Balíčku), Verze 3.5 c

.

1993

;

Seattle, Washington
Joseph Felsenstein

.

Stamatakis
A
Vysavač
P
Abode
J
rychlé bootstrap algoritmus pro RAxML webové servery

.

Syst. Biol.
2008

;

57

:

758

771

.

Krueger
F
Výbava Habaděj: wrapper nástroj kolem Cutadapt a FastQC důsledně aplikovat kvalitu a adaptér ořezávání FastQ soubory, s některé další funkce pro MspI-stravitelné RRBS-typ (Snížené Zastoupení Bisufite-Seq) knihovny

.

2012

;

(28. Dubna 2016, Datum posledního přístupu)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin
M
Cutadapt odstraňuje adaptér sekvence z vysoce paralelních měrení, celogenomové sekvenování čte

.

EMBnet J.
2011

;

17

:

10

12

.

Langmead
B.
Wilks
C
Antonescu
V

,

Karel
R
Škálování číst aligners stovky závitů na univerzálních procesorů

.

bioinformatika

.

2018

;

35

:

421 –

432

.

Lassmann
T
Hayashizaki
Y.
Mazanice
C. O.
SAMStat: sledování předsudky v další generaci sekvenování dat

.

bioinformatika

.

2010

;

27

:

130

131

.

Darling
A.E.

,

Mau
b.

,

Perna

T.

progressiveMauve: vícenásobné zarovnání genomu se ziskem, ztrátou a přeskupení

.

PLoS One

.

2010

;

5

:

e11147

.

Miláčku
a. C.
Mau
B.
Blattner
F. R
Perna
n. t.
lila: vícenásobné zarovnání zachované genomické sekvence s přeskupením

.

Genome Res.
2004

;

14

:

1394

1403

.

Ondov
B. D.
Treangen
, T. J.
Melsted
P
Mallonee
ab

,

Bergman
N. H.
Koren
.
Phillippy
.
Mash: rychle genomu a metagenome vzdálenost odhadnout pomocí MinHash

.

genom Biol.
2016

;

17

:

132

.

Dřevo
D. E.
Yates
S. L.
Kraken: ultrarychlé metagenomic sekvence taxonomie pomocí přesné zarovnání

.

genom Biol.
2014

;

15

:

R46

.

Rukojeť
D. H.
DiCuccio
M
Badretdin
A
parťák tulák
V

,

Chetvernin
V
O ‚ neill
K.
W.
Chitsaz
F
Derbyshire
M. K.
Gonzales
, N.
RefSeq: aktualizace na prokaryotického genomu anotace a curation

.

Nukleových Kyselin.
2017

;

46

:

D851

D860

.

Ondov
B. D.
Bergman
N. H.
Phillippy
.
Interaktivní metagenomic vizualizace ve Webovém prohlížeči

.

BMC bioinformatika

.

2011

;

12

:

385

.

Clausen
P. T.
Aarestrup
F. M.
Lund
O
Rychlé a přesné zarovnání syrové čte proti redundantní databáze s KMA

.

BMC bioinformatika

.

2018

;

19

:

307

.

McArthur
A. G.
Waglechner
, N.
Nizam
F
Yan
A

,

Azad
M. a.
Baylay
a. J.
Bhullar
K.
Canova
M. J.
Dvě Pascale
G.
Ejim
L
komplexní antibiotické rezistence databáze

.

Antimikrob. Agenti Chemother.
2013

;

57

:

3348

3357

.

Liu
B.
Zheng
D
Jin
Q
Pes
L

,

Yang
J
VFDB 2019: srovnávací pathogenomic platforma s interaktivní webové rozhraní

.

nukleové kyseliny Res.
2018

;

47

:

D687

D692

.

Overbeek
R
Olson
R
Pusch
G. D.
Olsen
G. J.

,

Davis
J
Disz
T
Edwards
R. a.
Gerdes
.
Parrello
B.

,

Shukla
M
OSIVO a Rychlý Anotace mikrobiálních genomů pomocí Subsystémů Technologie (RAST)

.

nukleové kyseliny Res.
2013

;

42

:

D206

D214

.

Federhen
s.
databáze NCBI taxonomie

.

Nukleových Kyselin.
2011

;

40

:

D136

D143

.

Publikoval Oxford University Press jménem Nukleových Kyselin Výzkumu do roku 2019.
tato práce je napsána (a) zaměstnanci vlády USA a je ve veřejné doméně v USA.