Articles

PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities

september 13, 2021 by admin

Abstract

PathoSystems Resource Integration Center (PATRIC) är det bakteriella Bioinformatics Resource Center som finansieras av National Institute of Allergy and Infectious Diseases (https://www.patricbrc.org). PATRIC stöder bioinformatiska analyser av alla bakterier med särskild tonvikt på patogener och erbjuder en rik jämförande analysmiljö som ger användarna tillgång till över 250 000 enhetligt kommenterade och offentligt tillgängliga genom med kuraterade metadata. PATRIC erbjuder webbaserade visualiserings-och jämförande analysverktyg, en privat arbetsyta där användare kan analysera sina egna data i samband med de offentliga samlingarna, tjänster som effektiviserar komplexa bioinformatiska arbetsflöden och kommandoradsverktyg för massdataanalys. Under de senaste åren, som genomiska och andra omics-relaterade experiment har blivit mer kostnadseffektiva och utbredda, har vi observerat en betydande tillväxt i användningen av och efterfrågan på lättanvända, offentligt tillgängliga bioinformatiska verktyg och tjänster. Här rapporterar vi de senaste uppdateringarna till PATRIC-resursen, inklusive nya webbaserade jämförande analysverktyg, åtta nya tjänster och utgåvan av ett kommandoradsgränssnitt för att komma åt, fråga och analysera data.

introduktion

programmet Bioinformatics Resource Center (BRC) grundades av National Institute of Allergy and Infectious Diseases (NIAID) 2004 med ett primärt fokus på att ge tillgång till genomsekvensdata och analysverktyg för att studera patogener. PathoSystems Resource Integration Center (PATRIC) började som en av de ursprungliga centra uppgift att stödja jämförande analys av bakteriella patogener (1-3). Under 2009 fusionerades PATRIC med National Microbial Pathogen Database Resource (NMPDR) BRC (4), som hade utvecklat den framgångsrika FRÖDATABASEN och rast (Rapid Annotation using Subsystem Technology) annotation system för enhetligt kurering och projicering av genomanteckningar över mikrobiella arter (5-8). Under åren har PATRIC-resursen expanderat och anpassats för att hålla jämna steg med tillväxten i bioinformatiska dataset och behovet av tillhörande analysverktyg. Från och med September 2019 inkluderar PATRIC över 250 000 offentligt tillgängliga mikrobiella genom och en rik jämförande analysmiljö.

sedan lanseringen 2008 har RAST (http://rast.nmpdr.org) utfört 700 000 genomanmärkningsjobb för privata användare. Genom att ge tillgång till genomfunktionsidentifieringsskript som utvecklats av det akademiska samfundet och konsekventa prognoser av välkurerade proteinfunktioner från fröet, fungerar RAST som en modell för en framgångsrik bioinformatisk tjänst eftersom den lindrar behovet för användare att bygga sina egna anpassade annoteringsrörledningar och dess konsistens möjliggör nedströms jämförande analyser. Med hjälp av RAST som mall började PATRIC 2014 implementera en mängd bioinformatiska tjänster via webbplatsen så att användare kan montera och kommentera genomsekvenser, rekonstruera metaboliska modeller, analysera SNP och INDELs och analysera och jämföra RNA-seq-experiment. Resultaten av dessa analysjobb kan sedan jämföras med de offentligt tillgängliga genomiska och andra omic-datainsamlingarna i resursen, samtidigt som de hålls privata inom användarens arbetsytemiljö. I slutet av 2016 behandlade PATRIC 1 500 jobb per månad, med undantag för jobb som lämnades in på RAST-webbplatsen (3).

sedan Senast beskrivet i Nukleinsyraforskning 2016 (3) har PATRIC genomgått en serie uppdateringar och förbättringar. Datainsamlingen har förbättrats, särskilt inom området antimikrobiell resistens (AMR) (9); webbläsningsmiljön har förbättrats med nya verktyg och visualiseringar; och förbättringar av arbetsytan har också gjort det lättare att hitta och dela forskningsprojektdata. Ett kommandoradsgränssnitt (CLI) för massdataförvärv och analys har byggts och släppts för distribution på Mac, Linux och Windows-system. PATRIC har också lanserat åtta nya bioinformatiska tjänster, med nyligen tonvikt på förmågan att analysera data från blandade kulturer eller metagenomiska prover. Äntligen har en rik samling tutorials skapats för att hjälpa användare med dessa nya verktyg (https://docs.patricbrc.org/tutorial/). Den här rapporten beskriver många av de senaste opublicerade uppdateringarna av PATRIC-resursen.

vad är nytt i PATRIC?

datatillväxt och förbättringar

en av de mest dramatiska förändringarna i att stödja bioinformatiskt arbete sedan början av BRC-programmet har varit den exponentiella tillväxten i offentligt tillgängliga mikrobiella genomsekvenser (Figur 1). Samlingen av privata användargenomsekvenser som har kommenterats och indexerats av PATRIC har också vuxit sedan etableringen av arbetsytemiljön och kan faktiskt överstiga storleken på den offentliga genomsekvenssamlingen inom nästa år (Figur 1). Även om den privata uppsättningen innehåller några omanalyserade genomsekvenser,

Figur 1.

kumulativ tillväxt av offentliga och privata Genom i PATRIC.

Figur 1.

kumulativ tillväxt av offentliga och privata Genom i PATRIC.

Vi ser ingen indikation på att mikrobiell genomsekvensering och dess relaterade bioinformatiska analyser saktar. Ökningen av offentligt tillgängliga genomsekvensdata och relaterade strukturerade metadata har också revolutionerat de typer av experimentella analyser som är möjliga. PATRIC tillhandahåller till exempel strukturerade och manuellt kurerade metadata associerade med varje Genom, inklusive laboratorie-härledda AMR-fenotyper, värdorganismer, isoleringskällor, data för människokroppsplats och geografisk information. Dessa samlingar av strukturerade metadata utgör grunden för att köra maskininlärning och djupa inlärningsexperiment (10,11) och för att tillhandahålla prediktiva verktyg till användare (9). Vi räknar med att den ökade användningen av artificiell intelligens tekniker i bioinformatik kommer att driva experimentella designbeslut och i slutändan förkorta den tid som krävs för genetiska och andra laboratoriebaserade karakterisering experiment.

att stödja AMR-forskning är ett stort fokusområde för datainsamling och curation vid PATRIC. Vi samlar aktivt både AMR-proteinanteckningar och laboratorie-härledda AMR-fenotypdata associerade med offentliga genom. Annotationssystemet kan exakt projicera över 600 handkurerade AMR-proteinfunktioner. Den innehåller också en stor samling av närbesläktade icke-AMR-proteinfunktioner som har kuraterats för att förhindra falska förutsägelser av AMR-funktioner. För att tillhandahålla ytterligare medel för jämförelse söker annoteringssystemet också efter gener med hög likhet med de som kurateras av kort (12) och NCBI AMR gendatabasprojekt (13). Den laboratoriebaserade AMR-fenotypsamlingen har genererats genom att samla in data från litteraturen, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) och andra offentliga källor. Den har vuxit till att omfatta över 40 000 genomsekvenser och används av forskare över hela världen. Vi har också lagt till över 10 000 plasmid-och profagsekvenser på grund av deras betydelse för att studera och bekämpa AMR.

tjänster

de tjänster som tillhandahålls av PATRIC är utformade för att möjliggöra enkel åtkomst till komplexa bioinformatiska arbetsflöden. De kan nås via PATRIC webbgränssnitt och CLI. De flesta tjänster har kapacitet att hantera hundratals eller till och med tusentals jobb per dag. Jobb körs vanligtvis på en serie interna servrar, med överspänningskapacitet som hanteras av ett stort datakluster. PATRIC-Tjänsterna har vuxit i popularitet sedan 2014 och från och med September 2019 har över 263 000 jobb slutförts (Figur 2).

Figur 2.

användarinitierade analysjobb slutförda av PATRIC bioinformatic services. Den översta tomten visar användningen av högvolymstjänster. Den nedre tomten visar användningen av lägre volym och nya tjänster. Notera skillnaden i skala mellan de två tomterna.

Figur 2.

anmärkningsvärda uppdateringar av befintliga tjänster

tre av våra pre = befintliga tjänster, Genommontering, Genomanteckning och RNA-seq-analys, har genomgått flera anmärkningsvärda uppdateringar. Genommonteringstjänsten har byggts om med en ny jobbschemaläggare som möjliggör en rättvisare jobbköprocess som förhindrar stora jobb från att skapa flaskhalsar (14). Förutom spader (15) har vi lagt till Canu (16) för långläst montering och Unicycler för hybrid lång-och kortlästa enheter (17). Vi tillhandahåller också en bild av monteringsdiagrammet med Bandage (18), och aggregat kan poleras med Racon (19) och Pilon (20) för lång – respektive kortlästa enheter. Slutligen utförs läskartläggning för att generera exakt täckningsstatistik med Bowtie2 (21) eller Minimap2 (22) och SAMtools (23). Två nya tillägg till Genome Annotation Service inkluderar förmågan att kommentera bakteriofaggenomsekvenser (24) och beräkningen av genomkvalitetsstatistik som baseras på CheckM-applikationen (25) och en intern RAST-modell som bedömer kvalitet baserat på förekomsten och fullständigheten av delsystemroller i genomet (26). RNA-seq-analystjänsten har också uppdaterats för att möjliggöra experiment som studerar värdrespons på mikrobiella infektioner. För att stödja detta har vi lagt till flera vanliga eukaryota värdreferensgenomer inklusive Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, kuk, Kuk, Homo sapiens, Macaca mulatta, Mus muskel, vessla putorius furo, Rattus norvegicus och Sus scrofa. Vi har också nyligen lagt till HISAT2 (hierarchical indexing for spliced alignment of transcripts) (27), ett högeffektivt system för att anpassa läsningar från RNA-Seq-experiment till värdgenom och aktiverat import av dataset från SRA i RNA-seq-gränssnittet, vilket ytterligare förbättrar förmågan att utföra blandad differentialuttrycksanalys av offentliga och privata data.

omfattande genomanalys

ett av de vanligaste användningsfallen för analys av privata genom På PATRIC är för forskare att montera och sedan kommentera deras genomsekvenser med hjälp av två separata tjänster. Våren 2018 lanserade vi en strömlinjeformad omfattande genomanalys ’meta-service’ som accepterar sekvenseringsläsningar, beräknar montering och annotering och ger en användarvänlig beskrivning av genomet. Produktionen inkluderar en genomkvalitetsbedömning, AMR-gener och fenotypförutsägelser, specialgener, delsystemöversikt, identifiering av närmaste genomsekvenser, ett fylogenetiskt träd och en lista över funktioner som skiljer genomet från sina närmaste grannar. Den omfattande Genomanalystjänsten har snabbt blivit en av de mest populära tjänsterna i PATRIC med över 11 000 jobb slutförda sedan lanseringen i April 2018.

fylogenetiska träd

förmågan att rekonstruera och visualisera evolutionära relationer ligger i hjärtat av biologin. I 2017 lanserade PATRIC Phylogenetic Tree Service som gör det möjligt för användare att bygga högkvalitativa fylogenetiska träd för offentliga och privata genomsekvenser. Tjänsten erbjuder för närvarande två arbetsflöden till användaren. Den första är ett proteinbaserat trädbyggande arbetsflöde som kallas ”Alla delade proteiner”, som använder Fylogenomisk uppskattning med progressiv förfining (PEPR) pipeline (https://github.com/enordber/pepr). PEPR fungerar genom att definiera delade proteinfamiljer de novo för en genomgrupp med BLAST (28) och HMMER (29) för att identifiera liknande proteiner och MCL (30) för att bygga kluster. Därefter genereras anpassningar med hjälp av muskler (31) och trimmas med Gblocks (32). Slutligen, baserat på användarens önskemål, beräknar PEPR trädet med antingen FastTree (33) eller RAxML (34). Under 2019 lanserade vi ett andra, snabbare, fylogenetiskt trädbyggnadsarbetsflöde som heter ’Codon Trees.’Det utnyttjar fördefinierade PATRIC global protein families (PGFams) (35) och väljer ett användarspecificerat antal familjer (10-1000) som är enstaka (eller nästan så) bland medlemmar i en genomgrupp. Inriktningar genereras för proteinsekvenser av varje familj med hjälp av muskler (31), och deras motsvarande nukleotidsekvenser är inriktade på detta med hjälp av Kodonalign-funktionen hos BioPython (36). En sammanfogad inriktning av alla proteiner och nukleotider skrivs till en PHYLIP-formaterad fil (37). En partitionsfil för RaxML (34) genereras sedan, som beskriver inriktningen i termer av proteinerna och nukleotiderna i första, andra och tredje kodonpositionerna. Stödvärden genereras från 100 omgångar av snabb bootstrapping i RaxML (38).

förutom de Newick-formaterade trädfilerna returnerar den fylogenetiska Trädtjänsten en portable document file (PDF), en portable network graphics (png) och en scalable vector graphics (SVG) – bildfil för de mittpunktsrotade trädbilderna som genereras av FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Den fylogenetiska trädvyn på PATRIC-webbplatsen gör det möjligt för forskare att välja noder och löv, vilket gör det möjligt för användaren att skapa grupper från specifika klader för vidare analys. Det genererar också en genomrapport som ger en lista över genomsekvenser och proteinfamiljer som används vid konstruktion av träd och räkningen av gener, proteiner, aminosyror och nukleotider som används för att beräkna trädet. Slutligen listas problematiska genomsekvenser som kan tas bort för att öka genvalet och förbättra trädets styrka. Sedan den byggdes har nästan 5000 jobb bearbetats av Phylogenetic Tree Service.

Fastq utilities

att bedöma kvaliteten på sekvenseringsläsningar är ett viktigt första steg för att säkerställa att efterföljande analyser, såsom montering, annotering etc. är korrekta. Fastq Utilities-Tjänsten, som lanserades i juli 2019, gör det möjligt för användare att justera läsningar, mäta basanropskvalitet och trimma sekvenser av låg kvalitet från lästa filer. Tjänsten accepterar lång-eller kortlästa filer i enstaka eller parade slutformat. Det kan också hämta läsa filer direkt från NCBI Sequence Read Archive (SRA) med hjälp av en kör identifierare som indata. Tjänsten har tre komponenter, ’trim, ”FastQC,’ och ’align,’ som kan användas oberoende eller i valfri kombination. Trimkomponenten använder Trim Galore (39), som är ett Perl-omslag runt Cutadapt (40) och FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) verktyg. FastQC-Komponenten ger kvalitetskontroller av raw-sekvensdata som kommer från sekvenseringsrörledningar med hög genomströmning och möjliggör snabb kvalitetskontroll genom att indikera problem som kan påverka nedströmsanalyser. Justeringsfunktionen justerar läsningar till en referensgenomsekvens med Bowtie2 (21,41), vilket sparar omappade läsningar och genererar SamStat (42) rapporter om mängden och kvaliteten på inriktningarna.

genome alignment

i November 2018 lanserade PATRIC Genome Alignment-tjänsten för att göra det möjligt för användare att beräkna hela genomsekvensanpassningar. Denna tjänst använder progressiveMauve-applikationen (43), som konstruerar positionell homologi flera genomsekvensanpassningar i en förlängning av den ursprungliga Mauve-algoritmen (44). Tjänsten gör det möjligt för forskare att anpassa upp till tjugo genomsekvenser åt gången. Resultatet av tjänsten inkluderar en visuell visning av genomet som gör det möjligt för användare att visa och utforska hela genomsekvensinriktningen eller zooma in för att jämföra enskilda regioner eller gener (Figur 3).

Figur 3.

ett arbetsflöde för dataanalys i PATRIC med hjälp av Genomjusteringstjänsten. (A) webbplatsgränssnittet tillåter val av genom; (B) visualisering av de inriktade genomregionerna med eventuella borttagningar, Infogningar eller omarrangemang; (C) zooma in på inriktningen visar generna på fram-och bakstativ, som kan väljas; (D) välja en specifik gen från genomjusteringsvisaren öppnar PATRIC-funktionssidan, där alla tillgängliga data för den genen visas. (E) fliken jämför Regionvy på PATRIC-Gensidan visar bevarande av den valda genen (visas i rött) och även de omgivande generna. (F) varje gen tilldelas en genspecifik (PLFam) eller global (PGFam) proteinfamilj som kan väljas från funktionssidan, och familjemedlemmarna kan jämföras med hjälp av verktyget Multiple Sequence Alignment/Gene Tree.

Figur 3.

ett arbetsflöde för dataanalys i PATRIC med hjälp av Genomjusteringstjänsten. (A) webbplatsgränssnittet tillåter val av genom; (B) visualisering av de inriktade genomregionerna med eventuella borttagningar, Infogningar eller omarrangemang; (C) zooma in på inriktningen kommer att visa generna på framåt och bakåt står, som kan väljas; (D) välja en specifik gen från Genome Alignment viewer öppnar PATRIC Feature sida, där alla tillgängliga data för den genen visas. (E) fliken jämför Regionvy på PATRIC-Gensidan visar bevarande av den valda genen (visas i rött) och även de omgivande generna. (F) varje gen tilldelas en genspecifik (PLFam) eller global (PGFam) proteinfamilj som kan väljas från funktionssidan, och familjemedlemmarna kan jämföras med hjälp av verktyget Multiple Sequence Alignment/Gene Tree.

liknande genomsökare

När en forskare har en ny genomsekvens är en av de första sakerna de vill identifiera de närmaste släktingarna för organismen, men det kan vara svårt när den offentliga samlingen är så stor. PATRIC tillhandahåller en tjänst som kallas likartad Genomfinnare för att tillåta forskare att snabbt identifiera liknande genomsekvenser med Mash (45). Mash fungerar genom att minska stora sekvenser till små representativa skisser, som kan användas för att uppskatta mutationsavstånd baserat på delade k-mers. PATRIC möjliggör jämförelse mot alla offentliga genomsekvenser eller NCBI-referensgenomuppsättningen. Verktyget gör det möjligt för forskare att justera sökkänsligheten genom att välja det maximala antalet k-mers som hålls gemensamt, p-värde tröskel eller avståndet. Resultaten returneras som en lista över de mest liknande genomsekvenserna med motsvarande metadata. Som med alla PATRIC-tabeller kan forskare välja sekvenser för att skapa grupper för senare analys eller ladda ner resultaten.

taxonomisk klassificering

den taxonomiska Klassificeringstjänsten lanserades i mars 2019 och identifierar den taxonomiska sammansättningen av blandade eller metagenomiska prover. Denna tjänst använder Kraken2 (46)-applikationen, som identifierar k-mers som indikerar olika taxonomiska enheter. Kraken-databasen som används av tjänsten är en fullständig byggnad som bygger på alla RefSeq – genomsekvenser (47), Den mänskliga genomsekvensen, plasmider och vektorsekvenser. Jobbutgången innehåller standard Kraken-rapportformatet, där varje bakteriell taxon hyperlänkas till matchande sida i PATRIC. Tjänsten returnerar också en Krona tomt (48) som visar andelen läser som mappas till varje taxon och tillåter användaren att utforska utvalda taxa.

Metagenomic read mapping

forskare som studerar AMR eller virulens kan vara intresserade av att analysera gener i blandade eller metagenomiska läsuppsättningar. Metagenome Read Mapping Service gör det möjligt för forskare att söka efter dessa specifika gener i en uppsättning läsningar. Det fungerar genom att anpassa läsningar mot en referensgen med KMA, som använder k-Mer–sådd och Needleman-Wunsch-algoritmen för att exakt anpassa läsningen till generna av intresse (49). Användare kan för närvarande anpassa sig mot referensgenuppsättningarna från den omfattande Antibiotikaresistensdatabasen (CARD) (50) och Virulensfaktordatabasen (VFDB) (51). Tjänsten returnerar html-och textversioner av standard KMA-rapporten, som visar detaljerad kartläggningsinformation, länkar till gener i PATRIC med hög likhet och en konsensussekvens sammansatt från de inriktade läsningarna.

Metagenomic binning

metagenomic Binning-tjänsten lanserades i augusti 2017 och läser från ett metagenomiskt prov i contigs och försöker sedan separera dessa contigs i fack som representerar genomerna hos enskilda arter. Dessa fack är sedan helt annoterade och detaljerad kvalitetsstatistik beräknas för varje fack. Binningsalgoritmen börjar med att skanna contigs för specifika markörproteiner som nästan alltid förekommer enskilt i genomet. Markör-proteinlikheten används för att rekrytera liknande genom från PATRIC, som sedan används för att rekrytera ytterligare contigs baserat på särskiljande protein k-mers. I likhet med enstaka isolatgenom placeras facken i användarens arbetsyta och indexeras i PATRIC-databasen som privata genom, vilket möjliggör full användning av PATRIC jämförande analys och visualiseringsverktyg för varje fack.

webbaserade analysverktyg

PATRIC-webbplatsen erbjuder flera interaktiva visuella analysverktyg som gör det möjligt för användare att jämföra omics-dataset. Dessa verktyg integrerar data av olika slag, utför vissa beräkningsuppgifter och gör interaktiva visualiseringar för användaren. PATRIC stöder för närvarande många webbaserade analysverktyg, såsom Heat Map Viewer för att jämföra delat proteininnehåll, Pathway Viewer för att utforska metaboliska vägar och Genombläddraren för att visa genomiska funktioner på kromosomen. Vi har lagt till två nya visualiseringar till PATRIC webbplats som ursprungligen fanns på RAST och SEED webbplatser, men krävde betydande reengineering vara funktionell för användning med hundratusentals genom.

jämför regionvisare

jämför Regionvisaren tillåter forskare att jämföra genkvarter (genetiska loci eller kromosomala kluster) över många arter. En användare väljer en gen av intresse, storleken på den genomiska regionen och antalet genom för jämförelsen. Displayen gör BLASTLIKHETEN hos fokusgenen och likheten hos de omgivande generna inom regionen (figur 3E).

i RAST förlitar sig detta verktyg på en förberäknad databas med all-to-all BLAST (28) likheter för att bestämma uppsättningen genom som har en matchning till genen av intresse och beräknar en detaljerad parvis jämförelse av gener i det valda området för att färgkoda data. På grund av antalet genom i PATRIC-databasen är denna metod för långsam för realtidsanvändning. PATRIC-versionen av detta verktyg baserar fokusgenuppslag och färgkodning på antingen genspecifika (PLFam) eller globala (PGFam) proteinfamiljer (35), som är förberäknade för varje genom, så sökutrymmet är mer scoped. Denna visualisering är dock skalbar eftersom BLAST endast används för att beräkna proteinlikhet för fokusgenerna inom uppsättningen.

delsystem

delsystem är samlingar av funktionellt relaterade proteiner och är en viktig konceptuell anordning för att identifiera och projicera proteinfunktioner över arter (7,52). PATRIC beräknar nu och visar delsystemdata för varje offentlig och privat kommenterad genomsekvens. Delsystem, som härrör från manuell anteckning av ett team av expertkuratorer, är indelade i superklass (exempel: Metabolism), klass (exempel: stressrespons, försvar och virulens), underklass (exempel: resistens mot antibiotika och giftiga föreningar), Delsystemnamn (exempel: Arsenikresistens) och den funktionella rollen för var och en av de inkluderade generna. Genom att klicka på fliken delsystem för alla genom ger tre olika vyer. Delsystemsöversikten visar ett cirkeldiagram som visar procentandelen av generna som finns i en viss superklass. Fliken delsystem innehåller antalet gener som finns i en viss superklass. Fliken gener innehåller en lista över alla gener över alla delsystem och inkluderar PATRIC-och RefSeq locus-taggarna (47). Delsysteminformation är inte bara tillgänglig för enskilda genom, men summeras också för varje taxonomisk nivå, hela vägen upp till Superkingdom med hjälp av NCBI taxonomi (53). En heatmap-vy som visar närvaro och frånvaro av specifika proteiner per valt delsystem över en taxon eller en specifik genomgrupp kan skapas av användaren.

kommandoradsgränssnitt (CLI)

under de senaste 5 åren har PATRIC-datalagret hanterats med en NoSQL Apache Solr-databasstruktur. För att tillgodose den snabbt växande datainsamlingen och för att dra fördel av skalbarhet och motståndskraft konverterades PATRIC-databasarkitekturen till en Apache SolrCloud-databasarkitektur våren 2019. Solrcloud-databasen är uppdelad i en serie SolrCores för hantering av relaterade datatyper, såsom genomfunktioner, sekvenser och transkriptomiska data. Ett underliggande applikationsprogrammeringsgränssnitt (API) möjliggör programmatisk åtkomst till dessa kärnor och de data som de innehåller; datainsamling kan dock bli komplex när man navigerar och sammanfogar fält från de olika kärnorna. Vi har utvecklat en uppsättning kommandoradsskript som använder API för att komma åt datalagret och utföra gemensamma analyser. Denna distribution är tillgänglig för Mac, Windows och Linux operativsystem, inklusive Ubuntu och CentOS 6 och 7, och Fedora 28 och 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Både distributionen och PATRIC-webbplatsen innehåller handledning om hur man använder skript med exempel (https://docs.patricbrc.org/cli_tutorial/). 482mb-distributionen innehåller många av de underliggande skripten i PATIRC-miljön. Vissa möjliggör massnedladdning, sammanslagning och manipulation av data och andra möjliggör mer komplexa analyser. Distributionen innehåller också användbara skript från tidigare SEED (5) och RASTtk (8) projekt. En särskilt anmärkningsvärd funktionalitet som erbjuds av PATRIC CLI-distributionen är möjligheten att hantera filer i arbetsytan. Användare kan logga in på en privat arbetsyta, skapa underkataloger, flytta filer till eller från arbetsytan och starta annoterings-och monteringsjobb. Dessa skript ger medel för att montera och kommentera hundratals eller till och med tusentals genomsekvenser. Dessutom har vi också gjort PATRIC workspace tillgängligt via File Transfer Protocol (FTP), vilket ger ett alternativt sätt att flytta stora mängder data till och från arbetsytan. Användare kan komma åt arbetsytan med kommandoraden eller genom att använda en FTP-filhanterare. Vi planerar att fortsätta utveckla kommandoradsverktygen för att möjliggöra större tillgång till tjänster och enklare datamanipulation.

framtida riktningar

år 2020 kommer PATRIC-teamet vid University of Chicago, University of Virginia och Fellowship for Interpretation of Genomes att kombinera med det virala BRC-teamet som stöder ViPR (Virus Pathogen Database and Analysis Resource) och IRD (Influensaforskningsdatabas) resurser vid J. Craig Venter Institute (JCVI). Det nybildade bakteriella och virala BRC-teamet (BV-BRC) kommer att fortsätta att underhålla PATRIC -, IRD-och ViPR-webbplatserna medan de lägger till ny korsningsfunktionalitet. Vi har för avsikt att fokusera starkt på att förbättra nyttan av den nya BV-BRC resurs för epidemiologisk analys, utöka datalagret till att omfatta andra data och metadatatyper, öka tillgången till strukturerade data som kan användas i artificiell intelligens applikationer, och förbättra driftsättning arkitektur för verktyg och tjänster.

finansiering

National Institute of Allergy and Infectious Diseases (NIAID) . Finansiering för Open access charge: NIAID.

intressekonflikt uttalande. Ingen anges.

anteckningar

nuvarande adress: James J. Davis, Argonne National Laboratory, Computing, miljö och biovetenskap, 9700 S. Cass Avenue, Argonne, IL 60439, USA.

Snyder

Kampanya

Nordberg

E. K.

Karur

Shukla

soneja

tian

Xue

Yoo

PATRIC: VBI pathosystems resource integration center

nukleinsyror Res.

2006

;

D401 div– –

D406

Wattam

A. R.

Abraham

Dalay

Disz

T. L.

Driscoll

Gabbard

J. L.

Gillespie

J. J.

Gough

Hix

Kenyon

PATRIC, den bakteriella bioinformatikdatabasen och analysresursen

nukleinsyror Res.

2013

;

D581 div– –

D591

Wattam

A. R.

Davis

Assaf

Boisvert

brettin

bun

Conrad

Dietrich

E. M.

disz

Gabbard

J. L.

förbättringar av PATRIC, den all-bakteriella bioinformatikdatabasen och analysresurscentret

nukleinsyror Res.

2016

;

D535 div– –

D542

McNeil

L. K.

Reich

Aziz

R. K.

Bartels

Cohoon

disz

Edwards

R. A.

Gerdes

Hwang

Kubal

National Microbial Pathogen Database Resource (NMPDR): en genomikplattform baserad på delsystemanteckning

nukleinsyror Res.

2006

;

D347 div– –

D353

Overbeek

Olson

Pusch

G. D.

Olsen

G. J.

Davis

disz

Edwards

R. A.

Gerdes

parrello

Shukla

fröet och den snabba anteckningen av mikrobiella genom med hjälp av Delsystemteknik (RAST)

nukleinsyror Res.

2013

;

D206 div– –

D214

Aziz

Bartels

bästa

DeJongh

disz

Edwards

R. A.

formsma

Gerdes

glas

E. M.

Kubal

rast-servern: snabba anteckningar med hjälp av subsystemteknik

BMC Genomics

2008

;

Overbeek

Begley

Butler

Choudhuri

J. V.

Chuang

H.-Y.

Cohoon

de cr oc-Lagard

Diaz

Disz

Edwards

delsystemen närmar sig genomanmärkning och dess användning i projektet för att kommentera 1000 genom

nukleinsyror Res.

2005

;

5691

–

5702

Davis

J. J.

Disz

Edwards

R. A.

Gerdes

Olsen

G. J.

Olson

Overbeek

parrello

Pusch

G. D.

RASTtk: en modulär och utbyggbar implementering av RAST-algoritmen för att bygga anpassade annoteringsrörledningar och kommentera partier av genom

Sci. Rep.

2015

;

8365

Antonopoulos

D. A.

Assaf

Aziz

Brettin

Bun

Conrad

Davis

J. J.

Dietrich

E. M.

disz

Gerdes

PATRIC som en unik resurs för att studera antimikrobiell resistens

kort. Bioinform.

2019

;

1094

–

1102

Nguyen

Brettin

lång

S. W.

Musser

J. M.

Olsen

R. J.

Olson

Shukla

Stevens

R. L.

Xia

yoo

utveckla In silico minsta hämmande koncentrationspaneltest för Klebsiella pneumoniae

Sci. Rep.

2018

;

421

Nguyen

lång

S. W.

McDermott

Olsen

R. J.

Olson

Stevens

R. L.

Tyson

G. H.

Zhao

Davis

J. J.

använda maskininlärning för att förutsäga antimikrobiella Mikrofoner och associerade genomfunktioner för nontyphoid Salmonella

J. Blink. Mikrobiol.

2019

;

e01260-18

Jia

Rafenya

A. R.

Alcock

Waglechner

Guo

Tsang

K. K.

Lago

B. A.

Dave

B. M.

Pereira

Sharma

A. N.

kort 2017: expansion och modellcentrerad curation av den omfattande antibiotikaresistensdatabasen

nukleinsyror Res.

2016

;

D566 div– –

D573

Feldgarden

Brover

Haft

D. H.

Prasad

A. B.

Slotta

D. J.

Tolstoy

Tyson

G. H.

Zhao

Hsu

C.-H.

McDermott

P. F.

Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

Antimicrob. Agents Chemother.

2019

;

e00483-19

Yoo

A.B.

Jette

M.A.

Grondona

Slurm: Simple linux utility for resource management

Workshop on Job Scheduling Strategies for Parallel Processing

2003

;

Berlin, Heidelberg

Springer

–

Bankevich

Nurk

Antipov

Gurevich

A. A.

Dvorkin

Kulikov

A. S.

leucin

V. M.

nikolenko

S. I.

Pham

prjibelski

A. D.

spader: en ny Genommonteringsalgoritm och dess tillämpningar på encellig sekvensering

J. dator. Biol.

2012

;

455

–

477

Koren

Walenz

Berlin

Miller

Bergman

N. H.

Phillippy

a.m.

canu: skalbar och möjlig noggrann långläst montering via adaptiv k-Mer-viktning och upprepad separation

genom Res.

2017

;

722

–

736

veke

R. R.

Judd

L. M.

Gorrie

C. L.

Holt

K. E.

Unicycler: upplösning av bakteriella genomaggregat från kort och lång sekvensering läser

PLoS Comput. Biol.

2017

;

e1005595

veke

R. R.

Schultz

M. B.

Zobel

Holt

K. E.

fackverk: interaktiv visualisering av de novo genomenheter

bioinformatik

2015

;

3350

–

3352

Vaser

Sovjiri

Nagarajan

snabb och möjlig noggrann de novo genommontering från långa okorrigerade läser

genom Res.

2017

;

737

–

746

Walker

B. J.

Abeel

Shea

präst

Abouelliel

Sakthikumar

Cuomo

C. A.

Wortman

young

S. K.

pylon: det integrerade verktyget för omfattande mikrobiell variantdetektering och genommonteringsförbättring

PLoS En

2014

;

e112963

Langmead

Yates

S. L.

snabb gapped-läs justering med Bowtie 2

Nat. Metoder

2012

;

357

–

359

det

Minimap2: parvis justering för nukleotidsekvenser

bioinformatik

2018

;

3094

–

3100

det

Handsaker

Wysoker

Fennell

Ruan

Homer

Marth

Abecasis

Durbin

sekvensinriktningen/kartformatet och SAMtools

bioinformatik

2009

;

2078

–

2079

McNair

Aziz

Pusch

Overbeek

Dutilh

B. E.

Edwards

Klokie

MRJ

Kropinski

Lavigne

Faggenomannotering med RAST-rörledningen

bakteriofager metoder och protokoll

2018

;

Humana Tryck

231

–

238

Parker

D. H.

Imelfort

Skennerton

C. T.

Hugenholtz

Tyson

G. W.

checkm: bedömning av kvaliteten på mikrobiella genom som utvinns från isolat, enstaka celler och metagenomer

genom Res.

2015

;

1043

–

1055

Parrello

Butler

Chlenski

Olson

div>,

Overbeek

Pusch

G. D.

vonstein

Overbeek

den maskininlärningsbaserade tjänsten för att uppskatta kvaliteten på genom med PATRIC

BMC bioinformatik

2019

;

486

Kim

Langmead

Yates

S. L.

HISAT: en snabb skarvad aligner med låga minneskrav

div>.

Nat. Metoder

2015

;

357

–

360

Boratyn

G. M.

Camacho

Cooper

P. S.

Coulouris

Fong

Matt

Madden

matten

W. T.

walk

S. D.

merezhuk

Blast: en effektivare rapport med användbarhetsförbättringar

nukleinsyror Res.

2013

;

W29 div–-

W33

Eddy

S. R.

profil dolda Markov modeller

bioinformatik

1998

;

755

–

763

Enright

Van Dongen

Ouzounis

den effektiva algoritmen för storskalig detektion av proteinfamiljer

nukleinsyror Res.

2002

;

1575

–

1584

Edgar

R. C.

muskel: multipel sekvensinriktning med hög noggrannhet och hög genomströmning

nukleinsyror Res.

2004

;

1792

–

1797

Talavera

Castresana

förbättring av fylogenier efter avlägsnande av divergerande och tvetydigt inriktade block från proteinsekvensinriktningar

Syst. Biol.

2007

;

564

–

577

pris

M. N.

Dehal

P. S.

Arkin

A. P.

FastTree 2-ungefär maximal sannolikhet träd för stora inriktningar

PLoS En

2010

;

e9490

Stamatakis

RAxML version 8: Ett verktyg för fylogenetisk analys och postanalys av stora fylogenier

bioinformatik

2014

;

1312

–

1313

Davis

J. J.

Gerdes

Olsen

G. J.

Olson

Pusch

G. D.

Shukla

Vonstein

Wattam

A. R.

yoo

pattyfams: proteinfamiljer för de mikrobiella genomerna i Patric-databasen

främre. Mikrobiol.

2016

;

118

kuk

Antao

Chang

Chapman

ba.

Cox

C. J.

Dalke

Friedberg

Hamelryck

Kauff

Wilczynski

biopython: fritt tillgängliga Python-verktyg för beräkningsmolekylärbiologi och bioinformatik

bioinformatik

2009

;

1422

–

1423

Felsenstein

PHYLIP (fylogeni inferens paket), Version 3.5 c

1993

;

Seattle, Washington

Joseph Felsenstein

Stamatakis

Hoover

Rougemont

den snabba Bootstrap algoritm för RAxML webbservrar

Syst. Biol.

2008

;

758

–

771

Krueger

: ett omslagsverktyg runt Cutadapt och FastQC för att konsekvent tillämpa kvalitet och adaptertrimning på FastQ-filer, med lite extra funktionalitet för mspi-digererade RRBs-typ (reducerad Representation Bisufite-Seq) bibliotek

2012

;

(28 April 2016, datum senast åtkomst)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin

Cutadapt tar bort adaptersekvenser från sekvensering med hög genomströmning

EMBnet J.

2011

;

–

Langmead

Wilks

Antonescu

Charles

skalning läs aligners till hundratals trådar på allmänna processorer

bioinformatik

2018

;

421

–

432

Lassmann

Hayashizaki

Daub

SAMStat: övervakning av fördomar i nästa generations sekvenseringsdata

bioinformatik

2010

;

130

–

131

älskling

A. E.

Mau

Perna

N. T.

progressiveMauve: multipel genominriktning med genförstärkning, förlust och omarrangemang

PLoS En

2010

;

e11147

älskling

A. C.

Mau

Blattner

F. R.

Perna

N. T.

Mauve: multipel inriktning av konserverad genomisk sekvens med omarrangemang

genom Res.

2004

;

1394

–

1403

Ondov

B. D.

Treangen

T. J.

Melsted

Mallonee

A. B.

Bergman

N. H.

Koren

Phillippy

A. M.

mash: snabb genom och Metagenom avstånd uppskattning med minhash

Genome Biol.

2016

;

132

Trä

D. E.

Yates

S. L.

Kraken: ultrasnabb metagenomic sekvens taxonomi med exakta inriktningar

Genome Biol.

2014

;

R46

Haft

D. H.

DiCuccio

Badretdin

Brover

chetvernin

O ’ neill

det

Chitsaz

Derbyshire

Gonzales

RefSeq: en uppdatering om prokaryot genomanteckning och curation

nukleinsyror Res.

2017

;

D851 div– –

D860

Ondov

B. D.

Bergman

N. H.

Phillippy

A. M.

interaktiv metagenomisk visualisering i en webbläsare

BMC bioinformatik

2011

;

385

Clausen

P. T.

Aarestrup

F. M.

Lund

snabb och exakt justering av raw läser mot redundanta databaser med KMA

BMC bioinformatik

2018

;

307

McArthur

A. G.

Waglechner

Nizam

Yan

Azad

M. A.

baylay

A. J.

Bhullar

Canova

M. J.

två Pascale

Ejim

den omfattande databasen för antibiotikaresistens

Antimikrob. Agenter Chemother.

2013

;

3348

–

3357

Liu

Zheng

Jin

hund

yang

VFDB 2019: den jämförande patogenomiska plattformen med det interaktiva webbgränssnittet

nukleinsyror Res.

2018

;

D687 div– –

D692

Overbeek

Olson

Pusch

G. D.

Olsen

G. J.

Davis

disz

Edwards

R. A.

Gerdes

parrello

Shukla

fröet och den snabba anteckningen av mikrobiella genom med hjälp av delsystemteknik (rast)

nukleinsyror Res.

2013

;

D206 div– –

D214

Federhen

NCBI taxonomi databas

nukleinsyror Res.

2011

;

D136 div– –

D143

publicerad av Oxford University Press på uppdrag av Nucleic Acids Research 2019.

detta arbete är skrivet av(A) US Government employee (s) och är offentligt i USA.

Company Pride

PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities

Abstract

introduktion

vad är nytt i PATRIC?

datatillväxt och förbättringar

tjänster

anmärkningsvärda uppdateringar av befintliga tjänster

omfattande genomanalys

fylogenetiska träd

Fastq utilities

genome alignment

liknande genomsökare

taxonomisk klassificering

Metagenomic read mapping

Metagenomic binning

webbaserade analysverktyg

jämför regionvisare

delsystem

kommandoradsgränssnitt (CLI)

framtida riktningar

finansiering

anteckningar

Lämna ett svar Avbryt svar

Arkiv

Meta