Articles

DEN PATRIC Bioinformatics Resource Center: utvide data og analyse evner

september 13, 2021 by admin

Abstract

Den Patosystems Resource Integration Center (PATRIC) er bakteriell Bioinformatikk Ressurssenter finansiert av National Institute Of Allergi Og Smittsomme Sykdommer (https://www.patricbrc.org). PATRIC støtter bioinformatiske analyser av alle bakterier med spesiell vekt på patogener, og tilbyr et rikt komparativt analysemiljø som gir brukerne tilgang til over 250 000 jevnt annoterte og offentlig tilgjengelige genomer med kuraterte metadata. PATRIC tilbyr webbaserte visualiserings-og komparative analyseverktøy, et privat arbeidsområde der brukerne kan analysere sine egne data i sammenheng med de offentlige samlingene, tjenester som strømlinjeformer komplekse bioinformatiske arbeidsflyter og kommandolinjeverktøy for massedataanalyse. I løpet av de siste årene, etter hvert som genomiske og andre omics-relaterte eksperimenter har blitt mer kostnadseffektive og utbredt, har vi observert betydelig vekst i bruken av og etterspørselen etter brukervennlige, offentlig tilgjengelige bioinformatiske verktøy og tjenester. HER rapporterer VI de siste oppdateringene TIL PATRIC-ressursen, inkludert nye nettbaserte komparative analyseverktøy, åtte nye tjenester og utgivelsen av et kommandolinjegrensesnitt for å få tilgang til, spørre og analysere data.

INTRODUKSJON

PROGRAMMET BIOINFORMATICS Resource Center (BRC) ble etablert av NATIONAL Institute Of Allergy and Infectious Diseases (NIAID) i 2004 med hovedfokus på å gi tilgang til genomsekvensdata og analyseverktøy for å studere patogener. PathoSystems Resource Integration Center (PATRIC) begynte som et av de opprinnelige sentrene som hadde til oppgave å støtte komparativ analyse av bakterielle patogener (1-3). I 2009 fusjonerte PATRIC Med NATIONAL Microbial Patogen Database Resource (NMPDR) BRC (4), som hadde utviklet den vellykkede FRØDATABASEN og rast (Rapid Annotation using Subsystem Technology) annotation system for jevnt kuratering og projisering av genommerknader på tvers av mikrobielle arter (5-8). GJENNOM årene har PATRIC-ressursen utvidet og tilpasset seg for å holde tritt med veksten i bioinformatiske datasett og behovet for tilhørende analyseverktøy. PER September 2019 inkluderer PATRIC over 250 000 offentlig tilgjengelige mikrobielle genomer og et rikt komparativt analysemiljø.

SIDEN lanseringen i 2008 har RAST (http://rast.nmpdr.org) utført ∼700 000 genomannmerkingsjobber for private brukere. VED å gi tilgang til genomfunksjonsidentifikasjonsskript utviklet av fagmiljøet og konsistente fremskrivninger av godt kuraterte proteinfunksjoner fra FRØET, FUNGERER RAST som en modell for en vellykket bioinformatisk tjeneste fordi det lindrer behovet for brukere å bygge egne tilpassede annotasjonsrørledninger, og dens konsistens muliggjør nedstrøms komparative analyser. VED å bruke RAST som en mal, begynte PATRIC i 2014 å implementere en rekke bioinformatiske tjenester gjennom nettstedet, slik at brukerne kunne sette sammen og annotere genomsekvenser, rekonstruere metabolske modeller, analysere SNPs og INDELs, og analysere OG sammenligne rna-seq-eksperimenter. Resultatene av disse analysejobbene kan da sammenlignes med de offentlig tilgjengelige genomiske og andre omiske datasamlinger i ressursen, samtidig som de holdes private i brukerens arbeidsmiljømiljø. VED utgangen av 2016 behandlet PATRIC ∼1500 servicejobber per måned, ikke inkludert jobber som ble sendt til rast-nettstedet (3).

SIDEN SIST beskrevet i Nukleinsyreforskning i 2016 (3), HAR PATRIC gjennomgått en rekke oppdateringer og forbedringer. Datainnsamlingen er forbedret, spesielt innen antimikrobiell resistens (AMR) (9); nettlesingsmiljøet er forbedret med nye verktøy og visualiseringer; og forbedringer av arbeidsområdet har også gjort det enklere å finne og dele forskningsprosjektdata. Et kommandolinjegrensesnitt (cli) for massedatainnsamling og analyse er bygget og utgitt for distribusjon På Mac, Linux og Windows-systemer. PATRIC har også lansert åtte nye bioinformatiske tjenester, med nylig lagt vekt på evnen til å analysere data fra blandede kulturer eller metagenomiske prøver. Endelig har en rik samling av opplæringsprogrammer blitt opprettet for å hjelpe brukere med disse nye verktøyene (https://docs.patricbrc.org/tutorial/). Denne rapporten beskriver mange av de siste upubliserte oppdateringene TIL PATRIC-ressursen.

HVA ER NYTT I PATRIC?

datavekst og forbedringer

en av de mest dramatiske endringene i å støtte bioinformatisk arbeid siden begynnelsen av BRC-programmet har vært eksponentiell vekst i offentlig tilgjengelige mikrobielle genomsekvenser (Figur 1). Samlingen av private brukergenomsekvenser som ER annotert og indeksert av PATRIC, har også vokst siden etableringen av arbeidsmiljøet, og kan faktisk overstige størrelsen på den offentlige genomsekvenssamlingen innen neste år (Figur 1). Selv om det private settet inneholder noen reanalyserte genomsekvenser,

Figur 1.

Kumulativ vekst av offentlige og private genomer I PATRIC.

Figur 1.

Kumulativ vekst av offentlige og private genomer I PATRIC.

vi ser ingen indikasjon på at mikrobiell genomsekvensering og tilhørende bioinformatiske analyser avtar. Økningen i offentlig tilgjengelige genomsekvensdata og tilhørende strukturerte metadata har også revolusjonert typene eksperimentelle analyser som er mulige. FOR eksempel gir PATRIC strukturerte og manuelt kuraterte metadata knyttet til hvert genom, inkludert laboratorieavledede amr-fenotyper, vertsorganismer, isolasjonskilder, menneskekroppsdata og geografisk informasjon. Disse samlingene av strukturerte metadata gir grunnlaget for å kjøre maskinlæring og dype læringseksperimenter (10,11), og for å gi prediktive verktøy til brukere (9). Vi forventer at økt bruk av kunstig intelligens teknikker i bioinformatikk vil drive eksperimentelle design beslutninger og til slutt forkorte tiden som kreves for genetiske og andre laboratoriebaserte karakterisering eksperimenter.Støtte TIL AMR-forskning er et stort fokusområde for datainnsamling og konservering hos PATRIC. Vi kuraterer aktivt BÅDE AMR – proteinmerknader og laboratorieavledede amr-fenotypedata knyttet til offentlige genomer. Annotasjonssystemet kan nøyaktig projisere over 600 håndkurerte AMR-proteinfunksjoner. Den inneholder også en stor samling av nært beslektede ikke-AMR-proteinfunksjoner som er kuratert for å forhindre falske spådommer OM AMR-funksjoner. For å gi et ekstra middel til sammenligning, søker annoteringssystemet også etter gener med høy likhet med de som er kuratert AV CARD (12) og NCBI AMR gene database prosjekter (13). Den laboratorieavledede amr-fenotypesamlingen er generert ved å kuratere data fra litteraturen, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) og andre offentlige kilder. Det har vokst til å omfatte over 40 000 genomsekvenser og blir brukt av forskere over hele verden. Vi har også lagt over 10 000 plasmid og profetere sekvenser på grunn av deres betydning i å studere OG bekjempe AMR.

Tjenester

TJENESTENE FRA PATRIC er utformet for å gi enkel tilgang til komplekse bioinformatiske arbeidsflyter. De kan nås via PATRIC webgrensesnitt og CLI. De fleste tjenester har kapasitet til å håndtere hundrevis eller tusenvis av jobber per dag. Jobber kjøres vanligvis på en rekke interne servere, med overspenningskapasitet som håndteres av en stor databehandlingsklynge. PATRIC-tjenestene har vokst i popularitet siden 2014, og fra September 2019 har over 263 000 jobber blitt fullført (Figur 2).

Figur 2.

Brukerinitierte analysejobber utført av PATRIC bioinformatic services. Den øverste plottet viser bruken av høyvolumstjenester. Bunnplottet viser bruken av lavere volum og nye tjenester. Legg merke til forskjellen i skala mellom de to tomtene.

Figur 2.

Bemerkelsesverdige oppdateringer til eksisterende tjenester

Tre av våre pre = eksisterende tjenester, Genome Assembly, Genome Annotation og RNA-seq analyse, har gjennomgått flere bemerkelsesverdige oppdateringer. Genome Assembly-Tjenesten er ombygd med en ny jobbplanlegger som muliggjør en mer rettferdig jobbkøprosess som forhindrer store jobber i å skape flaskehalser (14). I Tillegg Til SPAdes (15) har Vi Lagt Til Canu (16) for langlest montering og Unicycler for hybrid lang-og kortlest montering (17). Vi gir også et bilde av monteringsgrafen ved Hjelp Av Bandasje (18), og forsamlinger kan poleres ved Hjelp Av Racon (19) og Pilon (20) for henholdsvis lange og korte lese forsamlinger. Til slutt utføres lesekartlegging for å generere nøyaktig dekningsstatistikk ved Hjelp Av Bowtie2 (21) eller Minimap2 (22) og SAMtools (23). To nye tillegg til Genome Annotation Service inkluderer evnen til å annotere bakteriofaggenomsekvenser (24) og beregning av genomkvalitetsstatistikk som er basert På CheckM-applikasjonen (25) og en intern RAST-modell som vurderer kvalitet basert på forekomst og fullstendighet av delsystemroller i genomet (26). RNA-seq-analysetjenesten har også blitt oppdatert for å muliggjøre eksperimenter som studerer vertsrespons på mikrobielle infeksjoner. For å støtte dette har vi lagt til flere vanlige eukaryotiske vertsreferansegener, inkludert Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, Cock, cock, Homo sapiens, Macaca mulatta, Mus muscle, Weasel putorius furo, Rattus norvegicus og Sus scrofa. Vi har også nylig lagt TIL HISAT2 (hierarchical indexing for spleised alignment of transcripts) (27), et svært effektivt system for justering av leser fra RNA-Seq-eksperimenter for å være vert for genomer og aktivert import av datasett fra SRA i rna-seq-grensesnittet, noe som ytterligere forbedrer evnen til å utføre blandet differensialuttrykksanalyse av offentlige og private data.

Omfattende genomanalyse

En av de mest vanlige brukstilfelle for analyse av private genomer PÅ PATRIC er for forskere å sette sammen og deretter kommentere sine genomsekvenser ved hjelp av to separate tjenester. Våren 2018 lanserte vi en strømlinjeformet Omfattende Genomanalyse ‘meta-service’ som aksepterer sekvensering leser, beregner montering og merknad, og gir en brukervennlig beskrivelse av genomet. Utgangen inkluderer en genomkvalitetsvurdering, amr-gener OG fenotypeforutsigelser, spesialgener, delsystemoversikt, identifisering av nærmeste genomsekvenser, et fylogenetisk tre og en liste over funksjoner som skiller genomet fra nærmeste naboer. Den Omfattende Genomanalysetjenesten har raskt steget til å være en AV DE mest populære tjenestene I PATRIC med over 11 000 jobber fullført siden lanseringen i April 2018.

Fylogenetiske trær

evnen til å rekonstruere og visualisere evolusjonære relasjoner ligger i hjertet av biologien. I 2017 lanserte PATRIC Phylogenetic Tree Service som gjør det mulig for brukere å bygge fylogenetiske trær av høy kvalitet for offentlige og private genomsekvenser. Tjenesten tilbyr for tiden to arbeidsflyter til brukeren. Den første er en proteinbasert arbeidsflyt for trebygging kalt «Alle Delte Proteiner», som bruker Phylogenomic Estimation with Progressive Refinement (PEPR) pipeline (https://github.com/enordber/pepr). PEPR fungerer ved å definere delte protein familier de novo for et genom gruppe VED HJELP AV BLAST (28) OG HMMER (29) for å identifisere lignende proteiner OG MCL (30) for å bygge klynger. Deretter genereres justeringer ved Hjelp Av Muskel (31), og trimmet Med Gblocks (32). TIL slutt, basert på brukerens preferanser, beregner PEPR treet ved Hjelp Av Enten FastTree (33) eller RAxML (34). I 2019 lanserte Vi en andre, raskere, fylogenetisk trebyggingsarbeidsflyt kalt ‘Codon Trees. DEN utnytter forhåndsdefinerte PATRIC global protein families (PGFams) (35), og velger et brukerdefinert antall familier (10-1000) som er enkeltkopier (eller nesten så) blant medlemmer av en genomgruppe. Justeringer genereres for proteinsekvenser av hver familie ved Hjelp Av Muskel (31), og deres tilsvarende nukleotidsekvenser er justert til dette ved hjelp Av kodonalign-funksjonen Til BioPython (36). En sammenkoblet justering av alle proteiner og nukleotider er skrevet til EN PHYLIP-formatert fil (37). En partisjonsfil for RaxML (34) genereres deretter, som beskriver justeringen i form av proteiner og nukleotider i første, andre og tredje kodonposisjoner. Støtteverdier genereres fra 100 runder med rask oppstart i RaxML (38).

i tillegg til de Newick-formaterte tre-filene, returnerer Fylogenetisk Tre-Tjenesten en bærbar dokumentfil (PDF), en portable network graphics (PNG) og EN scalable vector graphics (SVG) – bildefil av midtpunktrotede trebildene generert Av FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Den fylogenetisk trevisning PÅ PATRIC nettstedet tillater forskere å velge noder og blader, slik at brukeren kan lage grupper fra bestemte klader for videre analyse. Det genererer også en genomrapport som gir en liste over genomsekvensene og proteinfamiliene som brukes i konstruksjonen av treet og tellingene av gener, proteiner, aminosyrer og nukleotider som brukes til å beregne treet. Til slutt er problematiske genomsekvenser som kan fjernes for å øke genvalget og forbedre styrken av treet, oppført. Siden den ble bygget, har nesten 5000 jobber blitt behandlet av Fylogenetisk Treservice.

Fastq utilities

Vurdere kvaliteten på sekvensering leser er et viktig første skritt for å sikre at påfølgende analyser, for eksempel montering, merknad, etc. er nøyaktige. Fastq Utilities-Tjenesten, som ble lansert i juli 2019, gjør det mulig for brukere å justere leser, måle baseanropskvalitet og trimme sekvenser av lav kvalitet fra lesefiler. Tjenesten aksepterer lang-eller kortleste filer i enkelt-eller sammenkoblet format. DET kan også hente lese filer direkte fra NCBI Sequence Read Archive (SRA) ved hjelp av en run identifier som input. Tjenesten har tre komponenter, ‘trim’, ‘FastQC’ og ‘align’, som kan brukes uavhengig eller i en hvilken som helst kombinasjon. Trimmingskomponenten bruker Trim Galore (39), som er En Perl-innpakning rundt Cutadapt (40) Og FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) verktøy. FastQC-komponenten gir kvalitetskontroller av rå sekvensdata som kommer fra rørledninger med høy gjennomstrømmingssekvensering, og muliggjør rask kvalitetskontroll ved å indikere problemer som kan påvirke nedstrømsanalyser. Justeringsfunksjonen justerer leser til en referansegenomsekvens ved Hjelp Av Bowtie2 (21,41), lagrer unmapped leser og genererer SamStat (42) rapporter om mengden og kvaliteten på justeringene.

Genome alignment

I November 2018 lanserte PATRIC Genome Alignment-Tjenesten for å gjøre det mulig for brukere å beregne hele genomsekvensjusteringer. Denne tjenesten bruker progressiveMauve-applikasjonen (43), som konstruerer posisjonshomologi med flere genomsekvensjusteringer i en forlengelse av den opprinnelige Mauve-algoritmen (44). Tjenesten gjør det mulig for forskere å justere opptil tjue genomsekvenser om gangen. Utgangen fra tjenesten inkluderer en visuell visning av genomet som lar brukerne se og utforske hele genomsekvensjusteringen eller zoome inn for å sammenligne individuelle regioner eller gener (Figur 3).

Figur 3.

en dataanalyse arbeidsflyt I PATRIC ved Hjelp Av Genome Alignment Service. (A) nettsidens grensesnitt tillater valg av genomer; (B) visualisering av de justerte genomiske regionene med eventuelle slettinger, innsettinger eller omarrangementer; (C) zooming inn på justeringen vil vise gener på frem-og bakoverstativene, som kan velges; (D) valg av et bestemt gen fra Genomjusteringsviseren åpner PATRIC-Funksjonssiden, der alle dataene som er tilgjengelige for det genet, vises. (E) Sammenlign Regionsvisning-fanen på PATRIC Gene-Siden viser bevaring av det valgte genet (vist i rødt), og også de omkringliggende gener. (F) hvert gen er tilordnet en genusspesifikk (PLFam) eller global (pgfam) proteinfamilie som kan velges fra Funksjonssiden, og familiemedlemmene kan sammenlignes ved Hjelp Av Verktøyet Multiple Sequence Alignment/Gene Tree.

Figur 3.

en dataanalyse arbeidsflyt I PATRIC ved Hjelp Av Genome Alignment Service. (A) nettstedets grensesnitt tillater valg av genomer; (B) visualisering av de justerte genomiske regionene med eventuelle slettinger, innsettinger eller omarrangementer; (C) zooming inn på justeringen vil vise gener på forover og revers stativ, som kan velges; (D) å velge et bestemt gen fra Genomjusteringsviseren åpner PATRIC-Funksjonssiden, der alle dataene som er tilgjengelige for det genet, vises. (E) Sammenlign Regionsvisning-fanen på PATRIC Gene-Siden viser bevaring av det valgte genet (vist i rødt), og også de omkringliggende gener. (F) hvert gen er tilordnet en genusspesifikk (PLFam) eller global (pgfam) proteinfamilie som kan velges fra Funksjonssiden, og familiemedlemmene kan sammenlignes ved Hjelp Av Verktøyet Multiple Sequence Alignment/Gene Tree.

Lignende genomfinner

når en forsker har en ny genomsekvens, er en av de første tingene de vil identifisere nærmeste slektninger for organismen, men dette kan være vanskelig når den offentlige samlingen er så stor. PATRIC gir en tjeneste kalt Lignende Genom Finder for å tillate forskere å raskt identifisere lignende genomsekvenser ved Hjelp Av Mash (45). Mash fungerer ved å redusere store sekvenser til små representative skisser, som kan brukes til å estimere mutasjon avstander basert på delte k-mers. PATRIC tillater sammenligning mot alle offentlige genomsekvenser eller NCBI-referansegenomsettet. Verktøyet gjør det mulig for forskere å justere søkefølsomheten ved å velge maksimalt antall k-mers holdt i felles, p-verdi terskel eller avstand. Resultatene returneres som en liste over de mest liknende genomsekvensene med tilsvarende metadata. Som med ALLE PATRIC-tabeller kan forskere velge sekvenser for å lage grupper for senere analyse, eller laste ned resultatene.

Taksonomisk klassifisering

Taksonomisk Klassifiseringstjeneste Lansert I Mars 2019 identifiserer taksonomisk sammensetning av blandede eller metagenomiske prøver. Denne tjenesten bruker Kraken2 (46)-applikasjonen, som identifiserer k-mers som er indikative for ulike taksonomiske enheter. Kraken-databasen som brukes av tjenesten er en fullbygging som er basert på Alle RefSeq-genomsekvenser (47), den menneskelige genomsekvensen, plasmider og vektorsekvenser. Jobbutgang inkluderer standard kraken rapportformat, med hver bakteriell taxon hyperkoblet til den matchende siden I PATRIC. Tjenesten returnerer også En Kroneplot (48) som viser prosentandelen av leser som er kartlagt til hvert taxon og lar brukeren utforske valgt taxa.

Metagenomisk lesekartlegging

Forskere som studerer AMR eller virulens kan være interessert i å analysere gener i blandede eller metagenomiske lesesett. Metagenome Les Kartleggingstjenesten gjør det mulig for forskere å søke etter disse spesifikke genene i et sett med leser. Det fungerer ved å justere leser mot et referansegen ved HJELP AV KMA, som bruker k-mer-såing og Needleman-Wunsch-algoritmen for nøyaktig å justere lesene til genene av interesse (49). Brukere kan for tiden justere seg mot referansegensettene fra Den Omfattende Antibiotikaresistensdatabasen (CARD) (50) og Virulensfaktordatabasen (VFDB) (51). Tjenesten returnerer html-og tekstversjoner av standard kma-rapporten, som viser detaljert kartinformasjon, lenker til gener i PATRIC med høy likhet, og en konsensussekvens samlet fra den justerte leser.

Metagenomic binning

Lansert i August 2017, samler Metagenomic Binning-Tjenesten fra en metagenomisk prøve inn i kontigs og forsøker deretter å skille disse kontigene i hyller som representerer genomene til enkelte arter. Disse hyllene er så fullt annotert og detaljert kvalitetsstatistikk beregnes for hver bin. Binning-algoritmen starter ved å skanne contigs for spesifikke markørproteiner som nesten alltid forekommer enkeltvis i genomet. Markørproteinlikheten brukes til å rekruttere lignende genomer fra PATRIC, som deretter brukes til å rekruttere flere contigs basert på å skille mellom protein k-mers. I likhet med single isolate genomer, er hyllene plassert i brukerens arbeidsområde og indeksert i PATRIC-databasen som private genomer, slik at full bruk AV PATRIC comparative analysis and visualization tools for hver bin.

webbaserte analyseverktøy

PATRIC-nettstedet tilbyr flere interaktive visuelle analyseverktøy som gjør det mulig for brukere å sammenligne omics-datasett. Disse verktøyene integrerer data av ulike typer, utfører noen beregningsoppgaver og gjengir interaktive visualiseringer for brukeren. PATRIC støtter for tiden mange nettbaserte analyseverktøy, for eksempel Heat Map Viewer for å sammenligne delt proteininnhold, Pathway Viewer for å utforske metabolske veier og Genomleseren for å vise genomiske egenskaper på kromosomet. VI har lagt til to nye visualiseringer TIL PATRIC nettsiden som opprinnelig eksisterte PÅ rast og SEED nettsteder, men krevde betydelig reengineering å være funksjonell for bruk med hundretusener av genomer.

Sammenlign regionviseren

Sammenlign Regionviseren lar forskere sammenligne genområder (genetiske loci eller kromosomale klynger) på tvers av mange arter. En bruker velger et gen av interesse, størrelsen på den genomiske regionen og antall genomer for sammenligningen. Skjermen gjengir BLASTLIKHETEN til focus-genet, og likheten til de omkringliggende gener i regionen (Figur 3E).

I RAST er dette verktøyet avhengig av en forhåndsdefinert database med all-to-all BLAST (28) likheter for å bestemme settet av genomer som har en kamp med genet av interesse, og beregner en detaljert parvis sammenligning av gener i den valgte regionen for å fargekode dataene. På grunn av antall genomer i PATRIC-databasen, er denne metoden for langsom for sanntidsbruk. PATRIC-versjonen av dette verktøyet baserer fokusgenoppslag og fargekoding på enten de genusspesifikke (PLFam) eller globale (pgfam) proteinfamiliene (35), som er forhåndsdefinert for hvert genom, slik at søkeplassen er mer omfangsrik. Imidlertid er denne visualiseringen skalerbar fordi BLAST bare brukes til å beregne proteinlikhet for fokusgener i settet.

Delsystemer

Delsystemer er samlinger av funksjonelt relaterte proteiner og er en viktig konseptuell enhet for å identifisere og projisere proteinfunksjoner på tvers av arter (7,52). PATRIC beregner nå og viser delsystemdata for hver offentlig og privat annotert genom sekvens. Delsystemer, som skyldes manuell merknad av et team av ekspertkuratorer, er delt Inn I Superklasse (Eksempel: Metabolisme), Klasse (eksempel: Stressrespons, Forsvar og Virulens), Underklasse (eksempel: Resistens mot antibiotika og giftige forbindelser), Delsystemnavn (eksempel: Arsenresistens) og den funksjonelle rollen til hvert av de inkluderte gener. Ved å klikke på delsystemer fanen for noen genom gir tre forskjellige visninger. Delsystemoversikten viser et sektordiagram som viser prosenten av genene som er i En Bestemt Superklasse. Delsystemer-fanen inneholder antall gener som finnes i En Bestemt Superklasse. Kategorien Gener inneholder en liste over alle gener på tvers av alle delsystemene, og inkluderer PATRIC og RefSeq locus-kodene (47). Delsysteminformasjon er ikke bare tilgjengelig for individuelle genomer, men summeres også for hvert taksonomisk nivå, helt opp Til Superkingdom ved HJELP AV NCBI-taksonomien (53). En heatmap-visning som viser tilstedeværelse og fravær av spesifikke proteiner per utvalgte delsystem over et takson eller en bestemt genomgruppe, kan opprettes av brukeren.

Kommandolinjegrensesnitt (Cli)

DE siste 5 årene har PATRIC datalager blitt administrert ved Hjelp Av en nosql Apache Solr databasestruktur. FOR å imøtekomme den raskt voksende datainnsamlingen og for å ta fordeler skalerbarhet og robusthet, BLE PATRIC databasearkitektur konvertert til En Apache SolrCloud databasearkitektur våren 2019. SolrCloud-databasen er delt inn i En serie SolrCores for å administrere relaterte datatyper, for eksempel genomfunksjoner, sekvenser og transkriptomiske data. Et underliggende programmeringsgrensesnitt (API) gir programmatisk tilgang til disse kjernene og dataene de inneholder; datainnsamling kan imidlertid bli komplisert når du navigerer og slår sammen felt fra de forskjellige kjernene. Vi har utviklet et sett med kommandolinjeskript som bruker API for å få tilgang til datalageret og utføre vanlige analyser. Denne distribusjonen er tilgjengelig For Mac, Windows og Linux operativsystemer, Inkludert Ubuntu Og CentOS 6 og 7, Og Fedora 28 og 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Både distribusjonen og PATRIC-nettstedet inneholder opplæringsprogrammer om hvordan man bruker skriptene med eksempler (https://docs.patricbrc.org/cli_tutorial/). Fordelingen PÅ 482 MB inneholder mange av de underliggende skriptene I PATIRC-miljøet. Noen muliggjør massenedlasting, sammenslåing og manipulering av data, mens andre muliggjør mer komplekse analyser. Distribusjonen inneholder også nyttige skript fra TIDLIGERE SEED (5) og RASTtk (8) prosjekter. EN spesielt bemerkelsesverdig funksjonalitet som TILBYS AV PATRIC CLI-distribusjonen, er evnen til å administrere filer i arbeidsområdet. Brukere kan logge inn på et privat arbeidsområde, opprette underkataloger, flytte filer inn i eller ut av arbeidsområdet og starte merknader og monteringsjobber. Disse skriptene gir midler for montering og kommentere hundrevis eller tusenvis av genomsekvenser. I TILLEGG har VI også gjort PATRIC workspace tilgjengelig Via FILE Transfer Protocol (FTP), som gir en alternativ måte å flytte store mengder data inn og ut av arbeidsområdet. Brukere kan få tilgang til arbeidsområdet ved hjelp av kommandolinjen eller VED HJELP AV EN FTP-filbehandling. Vi planlegger å fortsette å utvikle kommandolinjeverktøyene for å gi større tilgang til tjenester og enklere datamanipulering.

FREMTIDIGE RETNINGER

I 2020 VIL PATRIC-teamet ved University Of Chicago, University Of Virginia og Fellowship for Interpretation Of Genomes kombinere med det virale BRC-teamet som støtter vipr (Virus Pathogen Database And Analysis Resource) og IRD (Influenza Research Database) ressurser Ved J. Craig Venter Institute (JCVI). Det nylig dannede bakterielle OG virale BRC-teamet (BV-BRC) vil fortsette å opprettholde PATRIC, IRD og ViPR-nettstedene mens du legger til ny krysskuttfunksjonalitet. Vi har til hensikt å fokusere sterkt på å forbedre bruken AV den nye bv-BRC-ressursen for epidemiologisk analyse, utvide datalageret til å inkludere andre data-og metadatatyper, øke tilgangen til strukturerte data som kan brukes i kunstige intelligensapplikasjoner, og forbedre distribusjonsarkitekturen for verktøyene og tjenestene.

FINANSIERING

Nasjonalt Institutt For Allergi og Smittsomme Sykdommer (NIAID). Finansiering for open access charge: NIAID.

Interessekonflikt. Ingen oppgitt.

Merknader

Nåværende adresse: James J. Davis, Argonne National Laboratory, Databehandling, Miljø Og Biovitenskap, 9700 S. Cass Avenue, Argonne, IL 60439, USA.

– >

Snyder

Kampanya

Nordberg

E. K.

Karur

Shukla

Soneja

Tian

Xue

Yoo

PATRIC: den VBI pathosystems ressurs integrasjon senter

Nukleinsyrer Res.

2006

;

D401

–

D406

Disz

T. L.

kenyon

PATRIC, den bakterielle bioinformatikkdatabasen og analyseressursen

Nukleinsyrer Res.

2013

;

D581

–

D591

gabbard

j. l.

Forbedringer TIL PATRIC, all-bakteriell bioinformatikk database og analyse ressurssenter

Nukleinsyrer Res.

2016

;

D535

–

D542

Bartels

> kubal

m.NATIONAL Microbial Patogen Database Resource (NMPDR): en genomics plattform basert på delsystem annotasjon

Nukleinsyrer Res.

2006

;

D347

–

D353

. ,

Olsen

G. J.

Shukla

FRØET og Den Raske Merknaden av mikrobielle genomer ved Hjelp Av Delsystemteknologi (RAST)

Nukleinsyrer Res.

2013

;

D206

–

D214

Aziz

R. K.

Bartels

Beste

A. A.

DeJongh

e. m.

edwards

r. a.

formsma

gerdes

glass

e. m.

Kubal

RAST-Serveren: raske merknader ved hjelp av delsystemteknologi

BMC Genomikk

2008

;

v.,

Chuang

h.-y. ,

Cohoon

Disz

Diaz

Disz

edwards

delsystemene tilnærming til genom merknad og dens bruk i prosjektet for å kommentere 1000 genomer

Nukleinsyrer Res.

2005

;

5691

–

5702

. div > pusch

g. d.RASTtk: en modulær og utvidbar implementering av rast-algoritmen for å bygge tilpassede annotasjonsrørledninger og annotering av grupper av genomer. Sci. Rep.

2015

;

8365

. – >

Antonopoulos

D. A.

Assaf

Aziz

R. K.

Brettin

Bun

Conrad

Davis

J. J.

Dietrich

E. M.

Disz

Gerdes

PATRIC som en unik ressurs for å studere antimikrobiell resistens

Kort. Bioinform.

2019

;

1094

–

1102

olsen

xia

yoo

Utvikling av silico minimum hemmende konsentrasjon panel test For Klebsiella pneumoniae

. Sci. Rep.

2018

;

421

j. ,

olson

stevens

tyson

zhao

davis

j. j.

ved hjelp av maskinlæring for å forutsi antimikrobielle MICs og tilhørende genomfunksjoner for nontyphoidal Salmonella

J. Blink. Mikrobiol.

2019

;

e01260-18

. ,

sharma

a. n.

CARD 2017: utvidelse og modellsentrisk kurering av den omfattende antibiotikaresistensdatabasen

Nukleinsyrer Res.

2016

;

D566

–

D573

. a. b. ,

slotta

tolstoy

i.,

tyson

zhao

hsu

c.-h.

mcdermott

p. f.

Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

Antimicrob. Agents Chemother.

2019

;

e00483-19

Yoo

A.B.

Jette

M.A.

Grondona

Slurm: Simple linux utility for resource management

Workshop on Job Scheduling Strategies for Parallel Processing

2003

;

Berlin, Heidelberg

Springer

–

a.,

dvorkin

kulikov

/ div>,

prjibelski

a. d.

spar: Et Nytt Genom montering algoritme og dens anvendelser til encellede Sekvensering

. J. Comput. Biol.

2012

;

455

–

477

. – >

Koren

Walenz

B. P.

Berlin

Miller

J. R.

Bergman

N. H.

Phillippy

A. M.

Canu: skalerbare og mulig nøyaktige lang-les montering via adaptive k-mer vekting og gjenta separasjon

. 2017

;

722

–

736

Judd

L. M.

Gorrie

Holt

K. E.

Unicycler: løse bakterielle genom samlinger fra kort og lang sekvensering leser

PLoS Comput. Biol.

2017

;

e1005595

. k. e.

takstoler: interaktiv visualisering av de novo genom forsamlinger

Bioinformatikk

2015

;

3350– / div> –

3352

rask og mulig nøyaktig de novo genom montering fra lang ukorrigert leser

. 2017 ;

737

–

746

. ,

Prest

div>,

young

s. k.

pylon: Den Integrerte Verktøy For Omfattende Mikrobiell variant deteksjon og genom montering forbedring

PLoS One

2014

;

e112963

Langmead

Yates

S. L.

Rask gapped-les justering med Bowtie 2

Nat. Metoder

2012

;

357

–

359

Det

Minimap2: parvis justering for nukleotidsekvenser

Bioinformatikk

2018

;

3094

–

3100

homer

marth

Durbin

sekvensjustering/kartformat og SAMtools

Bioinformatikk

2009

;

2078

–

2079

r. Clokie

MRJ

Kropinski

Lavigne

Phage Genom Merknad Ved HJELP AV RAST Rørledningen

Bakteriofager Metoder og Protokoller

2018

;

Humana Trykk

231– / div> –

238

div> p. ,

tyson

g. w.

checkm: vurdering av kvaliteten på mikrobielle genomer gjenvunnet fra isolater, enkeltceller og metagenomer

. 2015 ;

1043– / div> –

1055

– >

Parrello

Butler

Chlenski

Olson

Overbeek

Pusch

G. D.

Vonstein

Overbeek

den maskinlæringsbaserte tjenesten for å estimere kvaliteten på genomene ved HJELP AV PATRIC

BMC Bioinformatikk

2019

;

486

Kim

Langmead

Yates

S. L.

HISAT: en rask skjøtes aligner med lite minne krav

div>.

Nat. Metoder

2015

;

357

–

360

Boratyn

Camacho

Coulouris

Fong

Matte

Madden

T. L.

div>matten

w. t.

gå

s. d.

merezhuk

blast: en mer effektiv Rapport med forbedringer av brukervennlighet

Nukleinsyrer Res.

2013

;

W29

–

W33

Eddy

profil skjulte Markov modeller.

Bioinformatikk

1998

;

755

–

763

Enright

A. J.

Van Dongen

Ouzounis

C. A.

den effektive algoritmen for storskala deteksjon av protein familier

Nukleinsyrer Res.

2002

;

1575

–

1584

Edgar

MUSKEL: flere sekvensjustering med høy nøyaktighet og høy gjennomstrømning

Nukleinsyrer Res.

2004

;

1792

–

1797

Talavera

Castresana

Forbedring av fylogenier etter fjerning av divergerende og tvetydig justerte blokker fra protein sekvens justeringer

Syst. Biol.

2007

;

564

–

577

A. P.

FastTree 2-omtrent maksimal sannsynlighet trær for store justeringer

PLoS One

2010

;

e9490

Stamatakis

RAxML versjon 8: et verktøy for fylogenetisk analyse og post-analyse av store fylogenier

Bioinformatikk

2014

;

1312

–

1313

G. J.

yoo

pattyfams: Proteinfamilier For de mikrobielle genomene I patric-databasen

Foran. Mikrobiol.

2016

;

118

. ,

Chapman

B. A.

cox

c. j.

biopython: fritt tilgjengelige Python-Verktøy For beregningsmolekylærbiologi Og bioinformatikk.

Bioinformatikk

2009

;

1422

–

1423

Felsenstein

PHYLIP (Fylogeni Slutning Pakke), Versjon 3.5 c

1993

;

Seattle, Washington

Joseph Felsenstein

Stamatakis

Hoover

Rougemont

den raske oppstartsalgoritmen for RAxML webservere

/ div>.

Syst. Biol.

2008

;

758

–

771

: En wrapper verktøy rundt Cutadapt Og FastQC å konsekvent bruke kvalitet og adapter trimming Til FastQ filer, med litt ekstra funksjonalitet For MspI-fordøyd RRBS-type (Redusert Representasjon Bisufite-Seq) biblioteker

2012

;

(28. April 2016, dato sist besøkt)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin

Cutadapt fjerner adaptersekvenser fra sekvensering med høy gjennomstrømming leser

EMBnet J.

2011

;

–

div >

skalering les aligners til hundrevis av tråder på generelle prosessorer

Bioinformatikk

2018

;

421

–

432

SAMStat: overvåking skjevheter i neste generasjon sekvensering data

Bioinformatikk

2010

;

130

–

131

Darling

A. E.

Mau

Perna

N. T.

progressiveMauve: multiple genomet justering med gen gevinst, tap og omorganisering

PLoS One

2010

;

e11147

n. t.Mauve: multiple justering av konservert genomisk sekvens med omarrangementer.

Genom Res.

2004

;

1394

–

1403

. ,

bergman

n. h.

Koren

philippy

mash: rask genom og Metagenome avstand estimat ved hjelp av minhash

Genom Biol.

2016

;

132

Tre

Yates

Kraken: lynrask metagenomisk sekvens taksonomi ved hjelp av nøyaktige justeringer

Genom Biol.

2014

;

R46

. ,

chetvernin

o ‘ neill

det

Chitsaz

Derbyshire

M. K.

Gonzales

RefSeq: en oppdatering på prokaryotisk genom merknad og kurering

Nukleinsyrer Res.

2017

;

D851

–

D860

Interaktiv metagenomisk visualisering i En Web nettleser

BMC Bioinformatikk

2011

;

385

Clausen

P. T.

Aarestrup

Lund

Rask og presis justering av raw-leser mot overflødige databaser med kma

BMC Bioinformatikk

2018

;

307

azad

m. a.

baylay

a. j.

bhullar

Canova

M. J.

To Pascale

Ejim

den omfattende antibiotikaresistensdatabasen

. Antimicrob . Agenter Chemother.

2013

;

3348

–

3357

div > yang

vfdb 2019: den komparative patogenomiske plattformen med det interaktive webgrensesnittet

Nukleinsyrer Res.

2018

;

D687

–

D692

. ,

Olsen

G. J.

div > shukla

frøet og den raske annotasjonen av mikrobielle genomer ved hjelp av delsystemteknologi (Rast)

Nukleinsyrer Res.

2013

;

D206

–

D214

NCBI taksonomi database

Nukleinsyrer Res.

2011

;

D136

–

D143

Publisert Av Oxford University Press på vegne Av Nukleinsyreforskning 2019.

dette arbeidet er skrevet av (A) Us Government employee (s) og er i DET offentlige området I USA.

Company Pride

DEN PATRIC Bioinformatics Resource Center: utvide data og analyse evner

Abstract

INTRODUKSJON

HVA ER NYTT I PATRIC?

datavekst og forbedringer

Tjenester

Bemerkelsesverdige oppdateringer til eksisterende tjenester

Omfattende genomanalyse

Fylogenetiske trær

Fastq utilities

Genome alignment

Lignende genomfinner

Taksonomisk klassifisering

Metagenomisk lesekartlegging

Metagenomic binning

webbaserte analyseverktøy

Sammenlign regionviseren

Delsystemer

Kommandolinjegrensesnitt (Cli)

FREMTIDIGE RETNINGER

FINANSIERING

Merknader

Legg igjen en kommentar Avbryt svar

Arkiv

Meta