Articles

PATRIC Bioinformatika Resource Center: rozšíření dat a možnosti analýzy

13 září, 2021 by admin

Abstrakt

PathoSystems Integrace Zdrojů Center (PATRIC) je bakteriální Bioinformatika Resource Center financovaných z Národního Institutu pro Alergie a Infekční Choroby (https://www.patricbrc.org). PATRIC podporuje bioinformatická analýza všechny bakterie, se zvláštním důrazem na patogeny, které nabízejí bohatý srovnávací analýzy prostředí, které poskytuje uživatelům přístup k více než 250 000 jednotně komentovaný a veřejně dostupné genomů s kurátorem metadata. PATRIC nabízí web-based vizualizace a srovnávací analýzy nástrojů, privátní pracovní prostor, v němž mohou uživatelé analyzovat svá vlastní data v rámci veřejné sbírky, služby, které zefektivňují komplexní bioinformatická pracovní postupy a nástroje příkazového řádku pro hromadné analýzy údajů. V posledních několika letech, jako genomické a další omics-související experimenty se staly nákladově efektivní a široce rozšířené, jsme pozorovali výrazný nárůst v použití a poptávky pro snadný-k-použití, veřejně dostupné bioinformatická nástroje a služby. Zde uvádíme nedávné aktualizace zdroje PATRIC, včetně nových webových srovnávacích analytických nástrojů, osmi nových služeb a vydání rozhraní příkazového řádku pro přístup, dotazování a analýzu dat.

ÚVOD

Bioinformatika Resource Center (BRC) program byl vytvořen Národní Institut pro Alergie a Infekční Nemoci (NIAID) v roce 2004 s hlavním zaměřením na poskytování přístupu do genomu sekvence dat a analytických nástrojů pro studium patogenů. Pathosystems Resource Integration Center (PATRIC) začalo jako jedno z původních Center pověřených podporou srovnávací analýzy bakteriálních patogenů (1-3). V roce 2009, PATRIC sloučila s Národní Mikrobiální Patogen Databáze Zdrojů (NMPDR) BRC (4), která vyvinula úspěšný SEED databáze a RAST (Rychlý Anotace pomocí Subsystému Technologie) anotace systém pro rovnoměrně kurátorství a projektování genomu popisy přes mikrobiální druhy (5-8). V průběhu let se zdroj PATRIC rozšířil a přizpůsobil tak, aby držel krok s růstem bioinformatických datových souborů a potřebou souvisejících analytických nástrojů. Od září 2019, PATRIC zahrnuje více než 250 000 veřejně dostupných mikrobiálních genomů a bohatý srovnávací analýzu prostředí.

od svého uvedení na trh v roce 2008 provedl RAST (http://rast.nmpdr.org) ∼700 000 úloh anotace genomu pro soukromé uživatele. Tím, že poskytuje přístup k genom funkce identifikace skriptů vyvinut akademické obce a v souladu projekce z dobře sestaveného funkce bílkovin ze SEMEN, RAST slouží jako model pro úspěšné bioinformatická služby, protože zmírňuje potřebu uživatelům vytvářet své vlastní anotace potrubí, a jeho konzistence umožňuje následné srovnávací analýzy. Pomocí RAST jako šablonu, v roce 2014 PATRIC se začaly provádět řadu bioinformatická služeb prostřednictvím webové stránky, která umožňuje uživatelům sestavit a anotace genomu sekvence, rekonstruovat metabolické modely, analyzovat Snp a INDELs, a analyzovat a porovnat RNA-seq experimenty. Výsledky těchto analýzy pracovních míst by pak mohly být ve srovnání s veřejně k dispozici genomické a další hospodářské údaje sbírek ve zdroji, zatímco byl držen v soukromých rámci uživatelského prostředí workspace. Do konce roku 2016, PATRIC bylo zpracování ∼1500 pracovních míst ve službách za měsíc, a to včetně pracovních míst předložené RAST stránky (3).

od posledního popisu ve výzkumu nukleových kyselin v roce 2016 (3) prošel PATRIC řadou aktualizací a vylepšení. Sběr dat byl vylepšen, zejména v oblasti antimikrobiální rezistence (AMR) (9); prohlížení webových stránek prostředí byla obohacena o nové nástroje a vizualizace; a zlepšení pracovního prostředí mají také usnadňuje najít a sdílení výzkumných dat projektu. Rozhraní příkazového řádku (CLI) pro sběr a analýzu hromadných dat bylo vytvořeno a vydáno pro distribuci na systémech Mac, Linux a Windows. PATRIC má také zahájila osm nových bioinformatická služeb, s posledních důraz je kladen na schopnost analyzovat data ze smíšených kultur nebo metagenomic vzorků. Nakonec byla vytvořena bohatá sbírka výukových programů, které uživatelům pomáhají s těmito novými nástroji (https://docs.patricbrc.org/tutorial/). Tato zpráva popisuje mnoho nedávných nepublikovaných aktualizací zdroje PATRIC.

co je nového v PATRIC?

Data růstu a vylepšení

Jeden z nejvíce dramatické změny v podpoře bioinformatická práce od začátku BRC program byl exponenciální růst ve veřejně dostupných mikrobiální genom sekvence (Obrázek 1). Sbírky soukromé uživatele genomu sekvence, které mají být komentovaný a indexovány PATRIC má také pěstována od založení workspace prostředí, a ve skutečnosti může překročit velikost veřejnosti sekvence genomu kolekce během příštího roku (Obrázek 1). Ačkoli soukromá Sada obsahuje některé reanalyzované genomové sekvence,

Obrázek 1.

kumulativní růst veřejných a soukromých genomů v PATRIC.

Obrázek 1.

kumulativní růst veřejných a soukromých genomů v PATRIC.

nevidíme žádné náznaky zpomalení sekvenování mikrobiálního genomu a jeho souvisejících bioinformatických analýz. Nárůst veřejně dostupných dat sekvencí genomu a souvisejících strukturovaných metadat také způsobil revoluci v typech experimentálních analýz, které jsou možné. Například PATRIC poskytuje strukturovaný a ručně kurátorem metadata spojená s každým genomu, včetně laboratorních odvozené AMR fenotypy, hostitelských organismů, izolace zdroje, lidské tělo stránky dat a geografických informací. Tyto sbírky strukturovaných metadat poskytují základ pro běh strojového učení a experimentů hlubokého učení (10,11)a pro poskytování prediktivních nástrojů uživatelům (9). Očekáváme, že větší využití umělé inteligence technik v bioinformatika bude řídit experimentální design rozhodnutí a v konečném důsledku zkrátit čas potřebný pro genetické a další laboratorní charakterizace experimenty.

podpora výzkumu AMR je hlavní oblastí pro sběr a kuraci dat v PATRIC. Aktivně kurátorujeme anotace proteinů AMR i laboratorně odvozená data fenotypu AMR spojená s veřejnými genomy. Anotační systém je schopen přesně promítnout více než 600 ručně kurátorských funkcí AMR proteinu. Obsahuje také velkou sbírku úzce souvisejících funkcí non-AMR proteinu, které byly kurátorem, aby se zabránilo falešným předpovědím funkcí AMR. Poskytnout další prostředky, srovnání, anotace systém také vyhledávání pro geny s vysokou podobnost k těm, kurátor KARTY (12) a NCBI AMR genové databáze projektů (13). Laboratoř-odvozené AMR fenotyp kolekce byla generované kurátorství dat z literatury, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) a dalších veřejných zdrojů. To se rozrostlo na více než 40 000 genomových sekvencí a je používán výzkumníky po celém světě. Přidali jsme také více než 10 000 plazmidových a prorockých sekvencí kvůli jejich významu při studiu a boji proti AMR.

Služby

služby poskytované PATRIC jsou navrženy tak, aby umožnily snadný přístup k komplexní bioinformatická pracovní postupy. Jsou přístupné přes webové rozhraní PATRIC a CLI. Většina služeb má schopnost zvládnout stovky nebo dokonce tisíce pracovních míst denně. Úlohy jsou obvykle spuštěny na řadě Interních serverů, přičemž přepěťová kapacita je zpracována velkým výpočetním clusterem. Služby PATRIC rostly v popularitě od roku 2014 a od září 2019 bylo úspěšně dokončeno více než 263 000 pracovních míst (Obrázek 2).

Obrázek 2.

uživatelsky iniciované analytické úlohy dokončené PATRIC bioinformatic services. Horní graf ukazuje využití velkoobjemových služeb. Spodní graf ukazuje využití nižšího objemu a nových služeb. Všimněte si rozdílu v měřítku mezi dvěma grafy.

Obrázek 2.

Pozoruhodné aktualizace stávajících služeb

Tři z našich pre=stávající služby, Genom Shromáždění, Anotace Genomu a RNA-seq analýza, prošly několik pozoruhodných aktualizací. Služba sestavování genomu byla přestavěna s novým plánovačem úloh, který umožňuje spravedlivější proces fronty úloh, který zabraňuje vytváření úzkých míst velkými úlohami (14). Kromě SPAdes (15), přidali jsme Canu (16) pro dlouhodobé čtení sestavy a Unicycler pro hybridní dlouhé a krátké-čtení sestav (17). Poskytujeme také obraz sestavy grafu pomocí Obvaz (18), a sestavy mohou být leštěny pomocí Racon (19) a Pilon (20) pro dlouhé a krátké-čtení sestavy, resp. Nakonec se provádí mapování čtení pro generování přesných statistik pokrytí pomocí Bowtie2 (21) nebo Minimap2 (22) a SAMtools (23). Dva nové přírůstky do Genomu Anotace Služby patří možnost komentovat bakteriofága genomu sekvence (24) a výpočet genomu kvalitní statistiky, které jsou založeny na CheckM aplikace (25) a vnitřní RAST model, který posuzuje kvalitu na základě výskytu a úplnost subsystém rolí v genomu (26). Analytická služba RNA-seq byla také aktualizována, aby umožnila experimenty studující odpověď hostitele na mikrobiální infekce. Na podporu tohoto, přidali jsme několik společných eukaryotické hostitelské referenční genomy včetně Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, pták, Pták, Homo sapiens, Macaca mulatta, Mus svalů, Lasička putorius furo, Rattus norvegicus a Sus scrofa. Také jsme nedávno přidali HISAT2 (hierarchické indexování pro sestříhané vyrovnání přepisy) (27), vysoce efektivní systém pro vyrovnání čte z RNA-Seq experimenty do hostitelského genom a umožnil import datových souborů z SRA v RNA-seq rozhraní, což dále zvyšuje schopnost provádět smíšené diferenciální exprese analýza veřejných a soukromých údajů.

Komplexní analýzy genomu

Jedním z nejčastějších případů použití pro analýzu soukromých genomů v PATRIC je pro výzkumníky sestavit a pak komentovat jejich genomu sekvence pomocí dvou samostatných služeb. Na jaře 2018 jsme spustili efektivní komplexní analýzu genomu „meta-service“, která přijímá sekvenční čtení, počítá sestavení a anotaci a poskytuje uživatelsky přívětivý popis genomu. Výstup obsahuje genom hodnocení kvality, AMR geny a fenotyp předpovědi, speciální geny, subsystému přehled, identifikace nejbližší genomu sekvence, fylogenetický strom a seznam funkcí, které odlišují genomu z jeho nejbližších sousedů. Komplexní Analýzy Genomu Služby se rychle zvýšil za jeden z nejpopulárnějších služeb v PATRIC s více než 11 000 pracovních míst byla dokončena od svého uvedení na trh v dubnu 2018.

fylogenetické stromy

schopnost rekonstruovat a vizualizovat evoluční vztahy leží v srdci biologie. V roce 2017 společnost PATRIC spustila službu fylogenetický strom, která uživatelům umožňuje vytvářet vysoce kvalitní fylogenetické stromy pro veřejné a soukromé genomové sekvence. Služba v současné době nabízí uživateli dva pracovní postupy. První je na bázi proteinů strom-stavební workflow s názvem ‚Všechny Sdílené Proteiny, které používá Phylogenomic Odhad s Progressive Refinement (PEPR) potrubí (https://github.com/enordber/pepr). PEPR pracuje tím, že definuje sdílené protein rodiny de novo pro genomu skupiny pomocí BLAST (28) a HMMER (29) identifikovat podobné proteiny a MCL (30) vytvářet shluky. Potom se vytvoří zarovnání pomocí svalu (31) a ořízne se Gbloky (32). Nakonec, na základě preferencí uživatele, PEPR vypočítá strom pomocí FastTree (33) nebo RAxML (34). V roce 2019, jsme spustili druhý, rychlejší, fylogenetický strom budování workflow s názvem ‚Kodon Stromy. To využívá předdefinované PATRIC globální proteinové rodiny (PGFams) (35), výběr uživatelem zadaný počet rodin (10-1000), které jsou single-copy (nebo téměř tak) mezi členy genomu skupiny. Zarovnání jsou generovány pro proteinových sekvencí z každé rodiny pomocí Svalů (31) a jejich odpovídající nukleotidové sekvence jsou zarovnány pomocí codonalign funkce BioPython (36). Zřetězené zarovnání všech proteinů a nukleotidů je zapsáno do souboru ve formátu PHYLIP (37). Poté se vygeneruje soubor oddílů pro RaxML (34), který popisuje zarovnání proteinů a nukleotidů v první, druhé a třetí pozici kodonu. Hodnoty podpory jsou generovány ze 100 kol rychlého bootstrapingu v RaxML (38).

kromě Newick-formátovaný strom souborů, Fylogenetický Strom Služba vrátí portable document soubor (PDF), portable network graphics (PNG) a škálovatelné vektorové grafiky (SVG), soubor s obrázkem na střed kořeny stromu obrazy generované FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Fylogenetický stromový pohled na webu PATRIC umožňuje vědcům vybrat uzly a listy, což uživateli umožňuje vytvářet skupiny z konkrétních clades pro další analýzu. Generuje také zprávu o genomu, která poskytuje seznam genomových sekvencí a proteinových rodin používaných při konstrukci stromu a počty genů, proteinů, aminokyselin a nukleotidů používaných k výpočtu stromu. Nakonec jsou uvedeny problematické genomové sekvence, které by mohly být odstraněny, aby se zvýšil výběr genů a zlepšila se síla stromu. Od doby, kdy byla postavena, bylo zpracováno téměř 5000 pracovních míst fylogenetickou stromovou službou.

fastq utilities

posouzení kvality sekvenování čtení je důležitým prvním krokem k zajištění následných analýz, jako je sestavení, anotace atd. jsou přesné. Na Fastq Utilities Služby, která byla zahájena v červenci 2019, umožňuje uživatelům zarovnat čte, změřte základnu, kvalitu hovoru, a čalounění low-kvalitní sekvence z číst soubory. Služba přijímá soubory s dlouhým nebo krátkým čtením v jednom nebo spárovaném formátu. To může také načíst číst soubory přímo z NCBI sekvence číst archiv (SRA) pomocí identifikátoru run jako vstup. Služba má tři komponenty, „trim“, „FastQC“ a „align“, které lze použít samostatně nebo v jakékoli kombinaci. Komponenta ořezávání používá Trim Galore (39), což je Perl obal kolem nástrojů Cutadapt (40) a FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc). Na FastQC komponenta poskytuje kontroly kvality na raw sekvenční data přicházející z vysoce paralelních měrení, celogenomové sekvenování potrubí a umožňuje rychlou kontrolu kvality, což naznačuje problémy, které by mohly mít dopad následných analýz. Funkce zarovnání zarovná čtení na referenční sekvenci genomu pomocí Bowtie2 (21,41), šetří nezmapované čtení a generuje zprávy SamStat (42) o množství a kvalitě zarovnání.

zarovnání genomu

V listopadu 2018 PATRIC spustil službu zarovnání genomu, která uživatelům umožňuje vypočítat zarovnání sekvencí celého genomu. Tato služba používá aplikaci progressiveMauve (43), která konstruuje poziční homologii s více sekvencemi genomu v rozšíření původního algoritmu lila (44). Tato služba umožňuje vědcům sladit až dvacet genomových sekvencí najednou. Výstup služby zahrnuje vizuální zobrazení genomu, který umožňuje uživatelům zobrazit a prozkoumat celé zarovnání sekvence genomu nebo přiblížit porovnání jednotlivých oblastí nebo genů (obrázek 3).

obrázek 3.

workflow analýzy dat v PATRIC pomocí služby zarovnání genomu. (A) internetové rozhraní umožňuje výběr z genomů; (B) vizualizace souladu genomové regiony s jakýmkoliv delecí, inzercí nebo přestaveb; (C) přiblížení na zarovnání se zobrazí geny na vpřed a vzad stoj, které mohou být vybrány; (D) výběr konkrétní gen z Genomu Alignment viewer otevře PATRIC Funkce Stránka, kde jsou všechny údaje k dispozici, pro tento gen jsou zobrazeny. (E) karta porovnání regionu na stránce PATRIC genu ukazuje zachování vybraného genu (zobrazeno červeně) a také okolních genů. (F) Každý gen je přiřazen rod-specifické (PLFam) nebo globální (PGFam) proteinové rodiny, které mohou být vybrány z Funkce Stránky, a členové rodiny mohou být ve srovnání s použitím Více Sekvence Zarovnání/Gene Tree nástroj.

obrázek 3.

Podobný genomu finder

Když výzkumník má nový genom, jedna z prvních věcí, které chtějí identifikovat, je nejbližší příbuzní pro organismus, ale to může být obtížné, když veřejnou sbírku je tak velký. PATRIC poskytuje službu nazvanou podobný vyhledávač genomu, která umožňuje vědcům rychle identifikovat podobné sekvence genomu pomocí kaše (45). Mash pracuje redukcí velkých sekvencí na malé reprezentativní náčrtky, které lze použít k odhadu mutačních vzdáleností na základě sdílených k-mers. PATRIC umožňuje srovnání se všemi veřejnými sekvencemi genomu nebo s referenční sadou genomu NCBI. Tento nástroj umožňuje vědcům upravit citlivost vyhledávání výběrem maximálního počtu k-mers držených ve společném, prahu hodnoty P nebo vzdálenosti. Výsledky jsou vráceny jako seznam nejpodobnějších genomových sekvencí s odpovídajícími metadaty. Stejně jako u všech tabulek PATRIC mohou vědci vybrat sekvence pro vytvoření skupin pro pozdější analýzu nebo stáhnout výsledky.

taxonomická klasifikace

taxonomická klasifikační služba, která byla zahájena v březnu 2019, identifikuje taxonomické složení smíšených nebo metagenomických vzorků. Tato služba používá aplikaci Kraken2 (46), která identifikuje k-mers, které svědčí o různých taxonomických jednotkách. Kraken databáze používané službou je plné sestavení, který je založen na všech RefSeq genomu sekvence (47), lidský genom, plasmidů a vektorů sekvencí. Výstup úlohy zahrnuje standardní formát sestavy Kraken, s každým bakteriálním taxonem hypertextovým odkazem na odpovídající stránku v PATRIC. Služba také vrací Krona plot (48), který ukazuje procento přečtení, které mapovány na každém taxonu a umožňuje uživateli prozkoumat vybrané taxony.

Metagenomic číst mapování

Vědci, kteří studují AMR nebo virulence může být zájem v analýze genů ve smíšených nebo metagenomic číst soubory. Služba mapování čtení Metagenomu umožňuje vědcům vyhledávat tyto specifické geny v sadě čtení. Funguje tak, že zarovná čtení proti referenčnímu genu pomocí KMA, který používá k-mer setí a algoritmus Needleman-Wunsch k přesnému zarovnání čtení s geny zájmu (49). Uživatelé mohou v současné době zarovnat proti referenční genové sady z Komplexní Antibiotické Rezistence Databáze (KARTA) (50) a Faktor Virulence Databáze (VFDB) (51). Služba vrátí html a textové verze standard KMA zprávu, která ukazuje podrobné informace o mapování, odkazy na geny v PATRIC s vysokou podobnost, a konsensus sekvence sestavené z vyrovnaných čte.

Metagenomic binning

Zahájena v srpnu 2017, Metagenomic Binning Služby sestavuje, čte z metagenomic vzorku do contigs a pak se pokusí oddělit tyto contigs do zásobníků, které představují genomů jednotlivých druhů. Tyto koše jsou pak plně anotovány a pro každý koš jsou vypočteny podrobné statistiky kvality. Binningový algoritmus začíná skenováním spojů pro specifické markerové proteiny, které se téměř vždy vyskytují jednotlivě v genomu. Podobnost marker-protein se používá k náboru podobných genomů z PATRIC, které se pak používají k náboru dalších spojů založených na rozlišování proteinových k-mers. Podobné jeden izolovat genomů, koše jsou umístěny v uživatelském prostoru a indexovány v PATRIC databáze jako soukromé genomů, což umožňuje plné využití PATRIC srovnávací analýzy a vizualizační nástroje pro každý bin.

webové analytické nástroje

webová stránka PATRIC nabízí několik interaktivních vizuálních analytických nástrojů, které uživatelům umožňují porovnávat datové sady omics. Tyto nástroje integrují data různých typů, provádějí některé výpočetní úkoly a poskytují uživateli interaktivní vizualizace. PATRIC v současné době podporuje mnoho webových analytických nástrojů, jako je Teplo Mapa Prohlížeč pro srovnání sdílený obsah bílkovin, Cesta Prohlížeč pro zkoumání metabolických drah a Genome Browser pro zobrazování genových funkcí na chromozomu. Na web PATRIC jsme přidali dvě nové vizualizace, které původně existovaly na webových stránkách RAST a SEED, ale vyžadovalo významné reengineering, aby byl funkční pro použití se stovkami tisíc genomů.

porovnat region viewer

porovnat Region Viewer umožňuje výzkumníkům porovnat genové sousedství (genetické lokusy nebo chromozomální klastry) napříč mnoha druhy. Uživatel vybere Gen zájmu, velikost genomové oblasti a počet genomů pro srovnání. Displej vykresluje BLASTOVOU podobnost zaostřovacího genu a podobnost okolních genů v oblasti (obrázek 3E).

V RAST, tento nástroj se opírá o precomputed databáze všech-všechny vysoké (28) podobnosti určit soubor genomů mají zápas k gen, a počítá podrobné párového srovnání genů ve vybrané oblasti barevný kód data. Vzhledem k počtu genomů v databázi PATRIC je tato metoda příliš pomalá pro použití v reálném čase. V PATRIC verze tohoto nástroje základny zaměření genu vyhledávání a barevné kódování na obou rod-specifické (PLFam) nebo globální (PGFam) proteinové rodiny (35), které jsou precomputed pro každý genom, takže hledání prostor je více rozsahem. Tato vizualizace je však škálovatelná, protože BLAST se používá pouze k výpočtu podobnosti proteinů pro zaostřovací geny v sadě.

Subsystémů

Subsystémy jsou sbírky funkčně příbuzné proteiny a jsou zásadní koncepční zařízení pro identifikaci a projekci bílkovin funkcí napříč druhy (7,52). PATRIC nyní počítá a zobrazuje data subsystému pro každou veřejnou a soukromě komentovanou sekvenci genomu. Subsystémy, které jsou výsledkem ruční anotace týmem odborných kurátorů, jsou rozděleny do Nadtřídy (příklad: Metabolismus), Třídy (příklad: Reakce na Stres, Obranné a Virulence), Podtřídy (příklad: Rezistence na antibiotika a toxické látky), Subsystém Názvu (například: Arsen odpor) a funkční úlohu každého z obsažených genů. Kliknutím na kartu subsystémy pro libovolný genom získáte tři různé pohledy. Přehled subsystémů ukazuje výsečový graf, který zobrazuje procento genů, které jsou v určité Superclass. Karta subsystémy obsahuje počet genů nalezených v určité Superclass. Karta geny obsahuje seznam všech genů napříč všemi subsystémy a zahrnuje značky PATRIC a RefSeq locus (47). Informace o subsystému nejsou k dispozici pouze pro jednotlivé genomy, ale jsou také shrnuty pro každou taxonomickou úroveň, až do Superkingdomu pomocí taxonomie NCBI (53). Heatmap pohledu ukazuje přítomnost a nepřítomnost specifických proteinů na vybraný subsystém přes taxonu nebo konkrétní genomu skupiny mohou být vytvořeny uživatelem.

rozhraní příkazového řádku (CLI)

za posledních 5 let bylo úložiště dat PATRIC spravováno pomocí databázové struktury NoSQL Apache Solr. K uspokojení rychle rostoucí sběr dat a přijmout výhody, škálovatelnost a odolnost, PATRIC architektura databáze byl převeden na Apache SolrCloud databáze architektury na jaře 2019. Databáze SolrCloud je rozdělena do řady SolrCores pro správu souvisejících datových typů, jako jsou funkce genomu, sekvence a transkriptomická data. Základní aplikační programovací rozhraní (API) umožňuje programový přístup k těmto jádrům a datům, která obsahují; získávání dat však může být složité při navigaci a slučování polí z různých jader. Vyvinuli jsme sadu skriptů příkazového řádku, které používají API pro přístup k datovému úložišti a provádění běžných analýz. Tato distribuce je k dispozici pro Mac, Windows a Linux operační systémy, včetně Ubuntu a CentOS 6 a 7, a Fedora 28 a 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Obě distribuce a PATRIC webové stránky obsahují návody, jak používat skripty s příklady (https://docs.patricbrc.org/cli_tutorial/). Distribuce 482MB obsahuje mnoho základních skriptů prostředí PATIRC. Některé umožňují hromadné stahování, slučování a manipulaci s daty a jiné umožňují složitější analýzy. Distribuce také obsahuje užitečné skripty z dřívějších projektů SEED (5) a RASTtk (8). Zvláště pozoruhodnou funkcí, kterou nabízí distribuce PATRIC CLI, je schopnost spravovat soubory v pracovním prostoru. Uživatelé se mohou přihlásit do soukromého pracovního prostoru, vytvářet podadresáře, přesouvat soubory do nebo z pracovního prostoru a spouštět anotace a montážní úlohy. Tyto skripty poskytují prostředky pro sestavení a anotaci stovek nebo dokonce tisíců genomových sekvencí. Navíc, máme také PATRIC pracovní prostor přístupný přes FTP (File Transfer Protocol), který poskytuje alternativní způsob pohybu velkého množství dat do a z pracovního prostoru. Uživatelé mohou přistupovat k pracovnímu prostoru pomocí příkazového řádku nebo pomocí správce souborů FTP. Plánujeme pokračovat ve vývoji nástrojů příkazového řádku, které umožní lepší přístup ke službám a snadnější manipulaci s daty.

BUDOUCÍ SMĚRY

V roce 2020, PATRIC týmu na University of Chicago, University of Virginia a Společenství pro Výklad Genomů bude kombinovat s virovou BRC tým, který podporuje ViPR (Virus Patogen Databáze a Analýzy Zdrojů) a IRD (Chřipka Výzkum Databáze) zdroje na J. Craig Venter Institute (JCVI). Nově vzniklá bakteriální a virové BRC tým (BV-BRC), bude i nadále udržovat PATRIC, IRD a ViPR webové stránky při přidání nové průřezové funkce. Máme v úmyslu se intenzivně soustředit na zlepšení užitných nového BV-BRC zdroj pro epidemiologické analýzy, rozšiřování úložiště dat zahrnout další data a metadata typy, větší přístup do strukturovaných dat, které mohou být použity v oblasti umělé inteligence aplikace, a zlepšit nasazení architektury pro nástroje a služby.

financování

Národní institut pro alergie a infekční nemoci (NIAID). Financování poplatku za otevřený přístup: NIAID.

Prohlášení o střetu zájmů. Žádné uvedeno.

poznámky

současná adresa: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 s. Cass Avenue, Argonne, IL 60439, USA.

Snyder

Kampanya

, N.

Nordberg

E. K.

Karur

Shukla

Soneja

Tian

Xue

Yoo

PATRIC: VBI pathosystems resource integration center

nukleové kyseliny Res.

2006

;

D401

–

D406

Wattam

. a. R

Abraham

Dalay

Disz

T. L.

Driscoll

Gabbard

J. L.

Gillespie

Gough

Hix

Kenyon

PATRIC, bakteriální bioinformatika databáze a zdroj analýzy

Nukleových Kyselin.

2013

;

D581

–

D591

Wattam

. a. R

Davis

Assaf

Boisvert

Brettin

Houska

Conrad

, N.

Dietrich

Disz

Gabbard

J. L.

vylepšení PATRIC, all-bakteriální bioinformatika databáze a analýza resource center

Nukleových Kyselin.

2016

;

D535

–

D542

McNeil

L. K.

Říše

Aziz

R. K.

Bartels

Cohoon

Disz

Edwards

R. a.

Gerdes

Hwang

Kubal

národní zdroj databáze mikrobiálních patogenů (NMPDR): genomická platforma založená na anotaci subsystému

Nukleových Kyselin.

2006

;

D347

–

D353

Overbeek

Olson

Pusch

G. D.

Olsen

G. J.

Davis

Disz

Edwards

R. a.

Gerdes

Parrello

Shukla

semeno a rychlá anotace mikrobiálních genomů pomocí Subsystémové technologie (RAST)

Nukleových Kyselin.

2013

;

D206

–

D214

Aziz

R. K.

Bartels

DeJongh

Disz

Edwards

R. a.

Formsma

Gerdes

Skla

Kubal

Rast Server: rychlé anotace pomocí subsystémové technologie

BMC genomika

2008

;

Overbeek

Begley

Butler

R. M.

Choudhuri

J. V.

Chuang

H.-Y.

Cohoon

de Crécy-Lagard

Diaz

, N.

Disz

Edwards

subsystémový přístup k anotaci genomu a jeho využití v projektu k anotaci 1000 genomů

nukleové kyseliny Res.

2005

;

5691

–

5702

Brettin

Davis

Disz

Edwards

R. a.

Gerdes

Olsen

G. J.

Olson

Overbeek

Parrello

Pusch

G. D.

RASTtk: modulární a rozšiřitelný provádění RAST algoritmus pro budování vlastní anotace potrubí a anotace šarží genomů

Sci. Rep.

2015

;

8365

Antonopoulos

D. A.

Assaf

Aziz

R. K.

Brettin

Houska

Conrad

, N.

Davis

Dietrich

Disz

Gerdes

PATRIC jako jedinečný zdroj pro studium antimikrobiální rezistence

Stručný. Bioinformace.

2019

;

1094

–

1102

Nguyen

Brettin

Musser

J. M.

Olsen

R. J.

Olson

Shukla

Stevens

R. L.

Xia

Yoo

vývoj in silico testu minimální inhibiční koncentrace na Klebsiella pneumoniae

Sci. Rep.

2018

;

421

Nguyen

McDermott

P. F.

Olsen

R. J.

Olson

Stevens

R. L.

Tyson

G. H.

, Zhao

Davis

j. J.

použití strojového učení k predikci antimikrobiálních Mic a souvisejících genomových funkcí pro nontyphoidní salmonelu

J. Blink. Mikrobiol.

2019

;

e01260-18

Jia

Raphenya

. a. R

Alcock

Waglechner

, N.

Guo

Tsang

K. K.

Lago

B. a.

Dave

B. M.

Pereira

Sharma

A. N.

CARD 2017: rozšíření a modelově zaměřená kurace komplexní databáze rezistence vůči antibiotikům

Nukleových Kyselin.

2016

;

D566

–

D573

Feldgarden

parťák tulák

Rukojeť

D. H.

Prasad

Slotta

D. J.

Tolstoj

Tyson

G. H.

, Zhao

Hsu

, C.-H.

McDermott

P. F.

Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

Antimicrob. Agents Chemother.

2019

;

e00483-19

Yoo

A.B.

Jette

M.A.

Grondona

Slurm: Simple linux utility for resource management

Workshop on Job Scheduling Strategies for Parallel Processing

2003

;

Berlin, Heidelberg

Springer

–

Bankevich

Nurk

Antipov

Gurevič

Dvorkin

Kulikov

, A. S.

Leucin

V. M.

Nikolenko

S. I.

Pham

Prjibelski

a. D.

Rýče: nový genom shromáždění algoritmus a jeho aplikace na jednotlivé buňky sekvenování

J. Comput. Biol.

2012

;

455

–

477

Koren

Walenz

B. P.

Berlín

Miller

J. r. R

Bergman

N. H.

Phillippy

Canu: škálovatelné a možné přesné dlouhé-číst montáž pomocí adaptivní k-mer vážení a opakujte oddělení

Genome Res.

2017

;

722

–

736

Knot

R. R.

Judd

L. M.

Gorrie

C. L.

Holt

K. E.

Unicycler: řešení bakteriální genom sestavy z krátké a dlouhé sekvenční čte

PLoS Comput. Biol.

2017

;

e1005595

Knot

R. R.

Schultz

M. B.

Zobel

Holt

K. E.

Vazníky: interaktivní vizualizace de novo genomové sestavy

bioinformatika

2015

;

3350 –

3352

Vaser

Sović

Nagarajan

, N.

Šikić

Rychle a možné přesné genom de novo assembly z dlouho neopravené čte

Genome Res.

2017

;

737

–

746

Walker

B. J.

Abeel

Bambucké

Kněz

Abouelliel

Sakthikumar

Cuomo

C. a.

Wortman

Mladý

S. K

Pylonu: integrovaný nástroj pro komplexní mikrobiální varianta detekce genomu a montáž zlepšení

PLoS One

2014

;

e112963

Langmead

Yates

S. L.

Rychlé gapped-číst vyrovnání s Motýlek 2

nat. Metody

2012

;

357 –

359

Minimap2: párové zarovnání pro nukleotidové sekvence

bioinformatika

2018

;

3094

–

3100

Handsaker

Wysoker

Fennell

Ruan

Homer

, N.

Marth

Abecasis

Durbin

sequence alignment/map formátu a SAMtools

bioinformatika

2009

;

2078

–

2079

McNair

Aziz

R. K.

Pusch

G. D.

Overbeek

Dutilh

B. E.

Edwards

Clokie

MRJ

Kropinski

JSEM

Lavigne

Phage Anotace Genomu Pomocí RAST Potrubí

metody a protokoly bakteriofágů

2018

;

Humana Press

231

–

238

Parky

D. H.

Imelfort

Skennerton

Hugenholtz

Tyson

G. W.

CheckM: hodnocení kvality mikrobiálních genomů získaných z izolátů, jednotlivých buněk a metagenomů

Genome Res.

2015

;

1043

–

1055

Parrello

Butler

Chlenski

Olson

Overbeek

Pusch

G. D.

Vonstein

Overbeek

služba založená na strojovém učení pro odhad kvality genomů pomocí PATRIC

BMC bioinformatika

2019

;

486

Kim

Langmead

Yates

S. L.

HISAT: rychle sestříhané vyrovnávač s nízkými požadavky na paměť

nat. Metody

2015

;

357

–

360

Boratyn

G. M.

Camacho

Cooper

P. S.

Coulouris

Fong

Matný

, N.

Madden

T. L.

Matten

W. T.

Chůze

S. D.

Merezhuk

VÝBUCH: účinnější zpráva s vylepšení použitelnosti

nukleové kyseliny Res.

2013

;

W29

–

W33

Eddy

S. R.

Profil skryté Markovovy modely

bioinformatika

1998

;

755 –

763

Enright

a. J.

Van Dongen

Ouzounis

C. a.

efektivní algoritmus pro velké-měřítko detekce proteinů rodiny

nukleové kyseliny Res.

2002

;

1575

–

1584

Edgar

sval: vícenásobné zarovnání sekvence s vysokou přesností a vysokou propustností

nukleové kyseliny Res.

2004

;

1792

–

1797

Talavera

Castresana

Zlepšení phylogenies po odstranění divergentní a nejednoznačně zarovnané bloky z proteinové sekvence zarovnání

Syst. Biol.

2007

;

564

–

577

Cena

M. N.

Dehal

P. S.

Arkin

a. P.

FastTree 2-přibližně stromy s maximální pravděpodobností pro velké zarovnání

PLoS One

2010

;

e9490

Stamatakis

RAxML verze 8: nástroj pro fylogenetické analýzy a post-analýzy z velké phylogenies

bioinformatika

2014

;

1312

–

1313

Davis

Gerdes

Olsen

G. J.

Olson

Pusch

G. D.

Shukla

Vonstein

Wattam

. a. R

Yoo

PATtyFams: Protein rodiny pro mikrobiální genomy v PATRIC databáze

přední. Mikrobiol.

2016

;

118

Penis

P. J.

Antao

Chang

J. T.

Chapman

B. a.

Cox

C. J.

Dalke

Friedberg

Hamelryck

Kauff

Wilczynski

Biopython: volně k dispozici Python nástrojů pro výpočetní molekulární biologie a bioinformatiky

bioinformatika

2009

;

1422

–

1423

Felsensteinem

PHYLIP (Fylogeneze Závěr Balíčku), Verze 3.5 c

1993

;

Seattle, Washington

Joseph Felsenstein

Stamatakis

Vysavač

Abode

rychlé bootstrap algoritmus pro RAxML webové servery

Syst. Biol.

2008

;

758

–

771

Krueger

Výbava Habaděj: wrapper nástroj kolem Cutadapt a FastQC důsledně aplikovat kvalitu a adaptér ořezávání FastQ soubory, s některé další funkce pro MspI-stravitelné RRBS-typ (Snížené Zastoupení Bisufite-Seq) knihovny

2012

;

(28. Dubna 2016, Datum posledního přístupu)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin

Cutadapt odstraňuje adaptér sekvence z vysoce paralelních měrení, celogenomové sekvenování čte

EMBnet J.

2011

;

–

Langmead

Wilks

Antonescu

Karel

Škálování číst aligners stovky závitů na univerzálních procesorů

bioinformatika

2018

;

421 –

432

Lassmann

Hayashizaki

Mazanice

C. O.

SAMStat: sledování předsudky v další generaci sekvenování dat

bioinformatika

2010

;

130

–

131

Darling

A.E.

Mau

Perna

progressiveMauve: vícenásobné zarovnání genomu se ziskem, ztrátou a přeskupení

PLoS One

2010

;

e11147

Miláčku

a. C.

Mau

Blattner

F. R

Perna

n. t.

lila: vícenásobné zarovnání zachované genomické sekvence s přeskupením

Genome Res.

2004

;

1394

–

1403

Ondov

B. D.

Treangen

, T. J.

Melsted

Mallonee

Bergman

N. H.

Koren

Phillippy

Mash: rychle genomu a metagenome vzdálenost odhadnout pomocí MinHash

genom Biol.

2016

;

132

Dřevo

D. E.

Yates

S. L.

Kraken: ultrarychlé metagenomic sekvence taxonomie pomocí přesné zarovnání

genom Biol.

2014

;

R46

Rukojeť

D. H.

DiCuccio

Badretdin

parťák tulák

Chetvernin

O ‚ neill

Chitsaz

Derbyshire

M. K.

Gonzales

, N.

RefSeq: aktualizace na prokaryotického genomu anotace a curation

Nukleových Kyselin.

2017

;

D851

–

D860

Ondov

B. D.

Bergman

N. H.

Phillippy

Interaktivní metagenomic vizualizace ve Webovém prohlížeči

BMC bioinformatika

2011

;

385

Clausen

P. T.

Aarestrup

F. M.

Lund

Rychlé a přesné zarovnání syrové čte proti redundantní databáze s KMA

BMC bioinformatika

2018

;

307

McArthur

A. G.

Waglechner

, N.

Nizam

Yan

Azad

M. a.

Baylay

a. J.

Bhullar

Canova

M. J.

Dvě Pascale

Ejim

komplexní antibiotické rezistence databáze

Antimikrob. Agenti Chemother.

2013

;

3348

–

3357

Liu

Zheng

Jin

Pes

Yang

VFDB 2019: srovnávací pathogenomic platforma s interaktivní webové rozhraní

nukleové kyseliny Res.

2018

;

D687

–

D692

Overbeek

Olson

Pusch

G. D.

Olsen

G. J.

Davis

Disz

Edwards

R. a.

Gerdes

Parrello

Shukla

OSIVO a Rychlý Anotace mikrobiálních genomů pomocí Subsystémů Technologie (RAST)

nukleové kyseliny Res.

2013

;

D206

–

D214

Federhen

databáze NCBI taxonomie

Nukleových Kyselin.

2011

;

D136

–

D143

Publikoval Oxford University Press jménem Nukleových Kyselin Výzkumu do roku 2019.

tato práce je napsána (a) zaměstnanci vlády USA a je ve veřejné doméně v USA.

Company Pride

PATRIC Bioinformatika Resource Center: rozšíření dat a možnosti analýzy

Abstrakt

ÚVOD

co je nového v PATRIC?

Data růstu a vylepšení

Služby

Pozoruhodné aktualizace stávajících služeb

Komplexní analýzy genomu

fylogenetické stromy

fastq utilities

zarovnání genomu

Podobný genomu finder

taxonomická klasifikace

Metagenomic číst mapování

Metagenomic binning

webové analytické nástroje

porovnat region viewer

Subsystémů

rozhraní příkazového řádku (CLI)

BUDOUCÍ SMĚRY

financování

poznámky

Napsat komentář Zrušit odpověď na komentář

Archivy

Základní informace