Articles

PATRIC Bioinformatics Resource Center: udvidelse af data-og analysefunktioner

abstrakt

PathoSystems Resource Integration Center (PATRIC) er det bakterielle Bioinformatikressourcecenter finansieret af National Institute of Allergy and Infectious Diseases (https://www.patricbrc.org). PATRIC understøtter bioinformatiske analyser af alle bakterier med særlig vægt på patogener og tilbyder et rigt komparativt analysemiljø, der giver brugerne adgang til over 250 000 ensartet kommenterede og offentligt tilgængelige genomer med kuraterede metadata. PATRIC tilbyder internetbaserede visualiserings-og komparative analyseværktøjer, et privat arbejdsområde, hvor brugerne kan analysere deres egne data i forbindelse med de offentlige samlinger, tjenester, der strømliner komplekse bioinformatiske arbejdsgange og kommandolinjeværktøjer til massedataanalyse. I løbet af de sidste mange år, da genomiske og andre omics-relaterede eksperimenter er blevet mere omkostningseffektive og udbredte, vi har observeret en betydelig vækst i brugen af og efterspørgslen efter brugervenlige, offentligt tilgængelige bioinformatiske værktøjer og tjenester. Her rapporterer vi de seneste opdateringer til PATRIC-ressourcen, herunder nye internetbaserede komparative analyseværktøjer, otte nye tjenester og udgivelsen af en kommandolinjegrænseflade for at få adgang til, forespørge og analysere data.

introduktion

Bioinformatics Resource Center (BRC) – programmet blev oprettet af National Institute of Allergy and Infectious Diseases (NIAID) i 2004 med primært fokus på at give adgang til genomsekvensdata og analyseværktøjer til undersøgelse af patogener. PathoSystems Resource Integration Center (PATRIC) begyndte som et af de oprindelige centre, der havde til opgave at støtte komparativ analyse af bakterielle patogener (1-3). I 2009 fusionerede PATRIC med National Microbial Pathogen Database Resource (NMPDR) BRC (4), som havde udviklet den vellykkede FRØDATABASE og RAST (Rapid Annotation using delsystem Technology) annotationssystem til ensartet kuratering og projicering af genomanmærkninger på tværs af mikrobielle arter (5-8). I årenes løb har PATRIC-ressourcen udvidet og tilpasset sig for at holde trit med væksten i bioinformatiske datasæt og behovet for tilknyttede analyseværktøjer. Fra September 2019 inkluderer PATRIC over 250 000 offentligt tilgængelige mikrobielle genomer og et rigt komparativt analysemiljø.

siden lanceringen i 2008 har RAST (http://rast.nmpdr.org) udført 700 000 genom annotation job til private brugere. Ved at give adgang til genom-funktionsidentifikationsscripts udviklet af det akademiske samfund og konsistente fremskrivninger af velkuraterede proteinfunktioner fra frøet, Rast fungerer som en model for en vellykket bioinformatisk service, fordi det lindrer behovet for brugere at opbygge deres egne brugerdefinerede annotationsledninger, og dens konsistens muliggør sammenlignende analyser nedstrøms. Ved hjælp af RAST som skabelon begyndte PATRIC i 2014 at implementere en række bioinformatiske tjenester via hjemmesiden, der giver brugerne mulighed for at samle og kommentere genomsekvenser, rekonstruere metaboliske modeller, analysere SNP ‘er og Indel’ er og analysere og sammenligne RNA-sekv-eksperimenter. Resultaterne af disse analysejob kunne derefter sammenlignes med de offentligt tilgængelige genomiske og andre omic-dataindsamlinger i ressourcen, mens de holdes private inden for brugerens arbejdsområdemiljø. Ved udgangen af 2016 behandlede PATRIC 1500 servicejob pr.måned, ikke inklusive job, der blev sendt til RAST hjemmeside (3).

siden sidst beskrevet i Nukleinsyreforskning i 2016 (3) har PATRIC gennemgået en række opdateringer og forbedringer. Dataindsamlingen er blevet forbedret, især inden for antimikrobiel resistens (AMR) (9); internetsøgningsmiljøet er blevet forbedret med nye værktøjer og visualiseringer; og forbedringer af arbejdsområdet har også gjort det lettere at finde og dele forskningsprojektdata. En kommandolinjegrænseflade (CLI) til indsamling og analyse af massedata er blevet bygget og frigivet til distribution på Mac-systemer. PATRIC har også lanceret otte nye bioinformatiske tjenester, hvor der for nylig lægges vægt på evnen til at analysere data fra blandede kulturer eller metagenomiske prøver. Endelig er der oprettet en rig samling tutorials for at hjælpe brugere med disse nye værktøjer (https://docs.patricbrc.org/tutorial/). Denne rapport beskriver mange af de nylige upublicerede opdateringer til PATRIC-ressourcen.

hvad er nyt i PATRIC?

datavækst og forbedringer

en af de mest dramatiske ændringer i Understøttelse af bioinformatisk arbejde siden begyndelsen af BRC-programmet har været den eksponentielle vækst i offentligt tilgængelige mikrobielle genomsekvenser (Figur 1). Samlingen af private brugergenomsekvenser, der er kommenteret og indekseret af PATRIC, er også vokset siden oprettelsen af arbejdsområdemiljøet og kan faktisk overstige størrelsen på den offentlige genomsekvenssamling inden for det næste år (Figur 1). Selvom det private sæt indeholder nogle reanalyserede genomsekvenser,

Figur 1.

kumulativ vækst af offentlige og private genomer i PATRIC.

Figur 1.

kumulativ vækst af offentlige og private genomer i PATRIC.

Vi ser ingen indikation af, at mikrobiel genomsekventering og dens relaterede bioinformatiske analyser aftager. Stigningen i offentligt tilgængelige genomsekvensdata og relaterede strukturerede metadata har også revolutioneret de typer eksperimentelle analyser, der er mulige. For eksempel, PATRIC leverer strukturerede og manuelt kuraterede metadata forbundet med hvert genom, inklusive laboratorieafledte AMR-fænotyper, værtsorganismer, isoleringskilder, data om menneskelig kropssted og geografisk information. Disse samlinger af strukturerede metadata danner grundlaget for at køre maskinlæring og dybe læringseksperimenter (10,11) Og for at levere forudsigelige værktøjer til brugerne (9). Vi forventer, at den øgede brug af kunstig intelligens teknikker i bioinformatik vil drive eksperimentelle designbeslutninger og i sidste ende forkorte den tid, der kræves til genetiske og andre laboratoriebaserede karakteriseringseksperimenter.

støtte til AMR-forskning er et stort fokusområde for dataindsamling og kuration på PATRIC. Vi kuraterer aktivt både AMR-proteinanmærkninger og laboratorieafledte AMR-fænotypedata forbundet med offentlige genomer. Annotationssystemet er i stand til nøjagtigt at projicere over 600 håndkuraterede AMR-proteinfunktioner. Det indeholder også en stor samling af nært beslægtede ikke-AMR-proteinfunktioner, der er kurateret for at forhindre falske forudsigelser af AMR-funktioner. For at tilvejebringe et yderligere middel til sammenligning søger annotationssystemet også efter gener med høj lighed med dem, der er kurateret af kortet (12) og NCBI AMR-gendatabaseprojekter (13). Den laboratorieafledte AMR-fænotypeindsamling er genereret ved at kuratere data fra litteraturen, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) og andre offentlige kilder. Det er vokset til at omfatte over 40 000 genomsekvenser og bruges af forskere over hele verden. Vi har også tilføjet over 10 000 plasmid-og profagesekvenser på grund af deres betydning for at studere og bekæmpe AMR.

Services

de tjenester, der leveres af PATRIC, er designet til at give nem adgang til komplekse bioinformatiske arbejdsgange. De kan tilgås via PATRIC internet interface og CLI. De fleste tjenester har kapacitet til at håndtere hundreder eller endda tusinder af job om dagen. Job køres typisk på en række interne servere, hvor overspændingskapacitet håndteres af en stor computerklynge. PATRIC-tjenesterne er vokset i popularitet siden 2014, og fra September 2019 er over 263 000 job afsluttet med succes (figur 2).

figur 2.

Brugerinitierede analysejob afsluttet af PATRIC bioinformatic services. Det øverste plot viser brugen af højvolumentjenester. Den nederste plot viser brugen af lavere volumen og nye tjenester. Bemærk forskellen i skala mellem de to plot.

figur 2.

Brugerinitierede analysejob afsluttet af PATRIC bioinformatic services. Det øverste plot viser brugen af højvolumentjenester. Den nederste plot viser brugen af lavere volumen og nye tjenester. Bemærk forskellen i skala mellem de to plot.

bemærkelsesværdige opdateringer til eksisterende tjenester

tre af vores præ=eksisterende tjenester, Genomsamling, Genomanmærkning og RNA-sekv-analyse har gennemgået flere bemærkelsesværdige opdateringer. Genom Assembly Service er blevet genopbygget med en ny jobplanlægger, der muliggør en mere retfærdig jobkøproces, der forhindrer store job i at skabe flaskehalse (14). Ud over Spar (15) har vi tilføjet Canu (16) til langlæst samling og Unicycler til hybrid lang-og kortlæste samlinger (17). Vi leverer også et billede af monteringsgrafen ved hjælp af Bandage (18), og samlinger kan poleres ved hjælp af Racon (19) og Pilon (20) til henholdsvis lang – og kortlæste samlinger. Endelig udføres læsekortlægning for at generere nøjagtige dækningsstatistikker ved hjælp af Buetie2 (21) eller Minimap2 (22) og SAMtools (23). To nye tilføjelser til genom-Annotationstjenesten inkluderer evnen til at kommentere bakteriofaggenomsekvenser (24) og beregning af genomkvalitetsstatistikker, der er baseret på CheckM-applikationen (25) og en intern RAST-model, der vurderer kvalitet baseret på forekomsten og fuldstændigheden af delsystemroller i genomet (26). RNA-sekv-analysetjenesten er også blevet opdateret for at muliggøre eksperimenter, der studerer værtsrespons på mikrobielle infektioner. For at understøtte dette har vi tilføjet flere almindelige eukaryote værtsreferencegenomer, herunder Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, Cock, cock, Homo sapiens, Macaca mulatta, Mus muscle, væsel putorius furo, Rattus norvegicus og Sus scrofa. Vi har også for nylig tilføjet HISAT2 (hierarkisk indeksering for splejset justering af udskrifter) (27), et meget effektivt system til justering af læsninger fra RNA-Sekv-eksperimenter til vært for genomer og aktiveret import af datasæt fra SRA i RNA-sekv-grænsefladen, hvilket yderligere forbedrer evnen til at udføre blandet differentiel ekspressionsanalyse af offentlige og private data.

omfattende genomanalyse

en af de mest almindelige brugssager til analyse af private genomer på PATRIC er, at forskere samler og derefter kommenterer deres genomsekvenser ved hjælp af to separate tjenester. I foråret 2018 lancerede vi en strømlinet omfattende Genomanalyse ‘meta-service’, der accepterer sekventering læser, beregner samling og annotation, og giver en brugervenlig beskrivelse af genomet. Udgangen inkluderer en genomkvalitetsvurdering, AMR-gener og fænotype-forudsigelser, specialgener, undersystemoversigt, identifikation af de nærmeste genomsekvenser, et fylogenetisk træ og en liste over funktioner, der adskiller genomet fra dets nærmeste naboer. Den omfattende Genomanalysetjeneste er hurtigt steget til at være en af de mest populære tjenester i PATRIC med over 11 000 job afsluttet siden lanceringen i April 2018.

fylogenetiske træer

evnen til at rekonstruere og visualisere evolutionære forhold ligger i hjertet af biologien. I 2017 lancerede PATRIC fylogenetisk Trætjeneste, der giver brugerne mulighed for at bygge fylogenetiske træer af høj kvalitet til offentlige og private genomsekvenser. Tjenesten tilbyder i øjeblikket to arbejdsgange til brugeren. Den første er en proteinbaseret træbygningsarbejdsgang kaldet ‘Alle delte proteiner’, der bruger Fylogenomisk estimering med progressiv forfining (PEPR) pipeline (https://github.com/enordber/pepr). PEPR fungerer ved at definere delte proteinfamilier de novo for en genomgruppe ved hjælp af BLAST (28) og HMMER (29) til at identificere lignende proteiner og MCL (30) til at opbygge klynger. Derefter genereres justeringer ved hjælp af muskel (31) og trimmes med Gblocks (32). Endelig, baseret på brugerens præference, beregner PEPR træet ved hjælp af enten FastTree (33) eller Raksml (34). I 2019 lancerede vi en anden, hurtigere, fylogenetisk træbygningsarbejdsproces kaldet ‘Codon Trees. Det udnytter foruddefinerede PATRIC global protein families (PGFams) (35) og vælger et brugerspecificeret antal familier (10-1000), der er enkeltkopi (eller næsten) blandt medlemmer af en genomgruppe. Justeringer genereres for proteinsekvenser af hver familie ved hjælp af muskel (31), og deres tilsvarende nukleotidsekvenser er justeret til dette ved hjælp af Codonalign-funktionen af BioPython (36). En sammenkædet tilpasning af alle proteiner og nukleotider skrives til en PHYLIP-formateret fil (37). Derefter genereres en partitionsfil til 34, som beskriver justeringen med hensyn til proteiner og nukleotider i den første, anden og tredje kodonposition. Støtte værdier genereres fra 100 runder af hurtig bootstrapping i Rackml (38).

ud over de Nyekick-formaterede træfiler returnerer den fylogenetiske Trætjeneste en bærbar dokumentfil (PDF), en bærbar netværksgrafik (PNG) og en skalerbar vektorgrafik (SVG) billedfil af midtpunktsrotede træbilleder genereret af FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Den fylogenetiske trævisning på PATRIC hjemmeside giver forskere mulighed for at vælge noder og blade, så brugeren kan oprette grupper fra specifikke klader til yderligere analyse. Det genererer også en genomrapport, der indeholder en liste over genomsekvenser og proteinfamilier, der anvendes til konstruktion af træ og tællingerne af gener, proteiner, aminosyrer og nukleotider, der bruges til at beregne træet. Endelig er problematiske genomsekvenser, der kunne fjernes for at øge genvalget og forbedre træets styrke, opført. Siden det blev bygget, er næsten 5000 job blevet behandlet af fylogenetisk Trætjeneste.

vurdering af kvaliteten af sekventering læser er et vigtigt første skridt for at sikre, at efterfølgende analyser, såsom samling, annotation, etc. er nøjagtige. Tjenesten, der blev lanceret i juli 2019, giver brugerne mulighed for at justere læsninger, måle baseopkaldskvalitet og trimme sekvenser af lav kvalitet fra læsefiler. Tjenesten accepterer lange eller kortlæste filer i enkelt eller parret slutformat. Det kan også hente læse filer direkte fra NCBI sekvens læse arkiv (SRA) ved hjælp af en køre identifikator som input. Tjenesten har tre komponenter,’ trim’,’ align ‘og’ align’, som kan bruges uafhængigt eller i enhver kombination. Trimmekomponenten bruger Trim Galore (39), som er en Perl-indpakning omkring Cutadapt (40) og Fastc (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) værktøjer. Komponenten leverer kvalitetskontrol af rå sekvensdata, der kommer fra sekventeringsrørledninger med høj kapacitet, og muliggør hurtig kvalitetskontrol ved at indikere problemer, der kan påvirke nedstrømsanalyser. Justeringsfunktionen justerer læsninger til en referencegenomsekvens ved hjælp af Buetie2 (21,41), gemmer ikke-kortlagte læsninger og genererer SamStat (42) rapporter om størrelsen og kvaliteten af justeringerne.

Genomjustering

I November 2018 lancerede PATRIC Genomjusteringstjenesten for at gøre det muligt for brugerne at beregne hele genomsekvensjusteringer. Denne tjeneste bruger progressiveMauve-applikationen (43), som konstruerer positionel homologi multiple genomsekvensjusteringer i en udvidelse af den originale Mauve-algoritme (44). Tjenesten gør det muligt for forskere at justere op til tyve genomsekvenser ad gangen. Tjenestens output inkluderer en visuel visning af genomet, der giver brugerne mulighed for at se og udforske hele genomsekvensjusteringen eller at forstørre ind for at sammenligne individuelle regioner eller gener (figur 3).

figur 3.

en arbejdsgang til dataanalyse i PATRIC ved hjælp af Genomjusteringstjenesten. (A) hjemmesidegrænsefladen tillader udvælgelse af genomer; (B) visualisering af de justerede genomregioner med eventuelle sletninger, indsættelser eller omlejringer; (C) at komme ind på justeringen viser generne på frem-og bagsiden, som kan vælges; (D) valg af et specifikt gen fra genomjusteringsviseren åbner PATRIC-Funktionssiden, hvor alle de tilgængelige data for det gen vises. (E) fanen Sammenlign Regionvisning på PATRIC-Gensiden viser bevarelse af det valgte gen (vist med rødt) og også de omgivende gener. (F) hvert gen er tildelt en slægtsspecifik (PLFam) eller global (PGFam) proteinfamilie, der kan vælges fra Funktionssiden, og familiemedlemmerne kan sammenlignes ved hjælp af værktøjet Multiple Sekvensjustering/Gentræ.

figur 3.

en arbejdsgang til dataanalyse i PATRIC ved hjælp af Genomjusteringstjenesten. (A) hjemmesidegrænsefladen tillader udvælgelse af genomer; (B) visualisering af de justerede genomiske regioner med eventuelle sletninger, indsættelser eller omlejringer; (D) valg af et specifikt gen fra genomjusteringsviseren åbner PATRIC-Funktionssiden, hvor alle de tilgængelige data for det gen vises. (E) fanen Sammenlign Regionvisning på PATRIC-Gensiden viser bevarelse af det valgte gen (vist med rødt) og også de omgivende gener. (F) hvert gen er tildelt en slægtsspecifik (PLFam) eller global (PGFam) proteinfamilie, der kan vælges fra Funktionssiden, og familiemedlemmerne kan sammenlignes ved hjælp af værktøjet Multiple Sekvensjustering/Gentræ.

lignende genomfinder

når en forsker har en ny genomsekvens, er en af de første ting, de vil identificere, de nærmeste slægtninge til organismen, men det kan være svært, når den offentlige samling er så stor. PATRIC leverer en tjeneste kaldet Similar Genome Finder for at give forskere mulighed for hurtigt at identificere lignende genomsekvenser ved hjælp af Mash (45). Mash fungerer ved at reducere store sekvenser til små repræsentative skitser, som kan bruges til at estimere mutationsafstande baseret på delte k-mers. PATRIC giver mulighed for sammenligning med alle offentlige genomsekvenser eller NCBI-referencegenomsættet. Værktøjet giver forskere mulighed for at justere søgefølsomheden ved at vælge det maksimale antal k-mers, der holdes fælles, p-værdi tærskel eller afstanden. Resultaterne returneres som en liste over de mest lignende genomsekvenser med tilsvarende metadata. Som med alle PATRIC-tabeller kan forskere vælge sekvenser for at oprette grupper til senere analyse eller hente resultaterne.

taksonomisk klassificering

taksonomisk Klassificeringstjeneste, der blev lanceret i marts 2019, identificerer den taksonomiske sammensætning af blandede eller metagenomiske prøver. Denne tjeneste bruger kraken2 (46) applikationen, som identificerer k-mers, der er vejledende for forskellige taksonomiske enheder. Kraken-databasen, der bruges af tjenesten, er en fuld opbygning, der er baseret på alle genomsekvenser (47), den humane genomsekvens, plasmider og vektorsekvenser. Joboutput inkluderer Standard Kraken-rapportformatet, med hver bakterietakson hyperlink til den matchende side i PATRIC. Tjenesten returnerer også et Krona-plot (48), der viser procentdelen af læsninger, der er kortlagt til hver takson, og giver brugeren mulighed for at udforske den valgte takst.

Metagenomisk læsekortlægning

forskere, der studerer AMR eller virulens, kan være interesserede i at analysere gener i blandede eller metagenomiske læsesæt. Metagenome Read Mapping Service gør det muligt for forskere at søge efter disse specifikke gener i et sæt læsninger. Det fungerer ved at justere læsninger mod et referencegen ved hjælp af KMA, som bruger k-mer såning og Needleman–Vunsch algoritme til nøjagtigt at justere læsningerne til generne af interesse (49). Brugere kan i øjeblikket tilpasse sig referencegensættene fra den omfattende Antibiotikaresistensdatabase (CARD) (50) og Virulensfaktordatabasen (VFDB) (51). Tjenesten returnerer html-og tekstversioner af standard KMA-rapporten, som viser detaljerede kortlægningsoplysninger, links til gener i PATRIC med høj lighed og en konsensussekvens samlet fra de justerede læser.

Metagenomic binning

lanceret i August 2017, metagenomic Binning Service samler læser fra en metagenomisk prøve i contigs og forsøger derefter at adskille disse contigs i skraldespande, der repræsenterer genomer af individuelle arter. Disse skraldespande er derefter fuldt kommenteret, og detaljerede kvalitetsstatistikker beregnes for hver skraldespand. Binning-algoritmen starter med at scanne contigs for specifikke markørproteiner, der næsten altid forekommer enkeltvis i genomet. Markør-protein-ligheden bruges til at rekruttere lignende genomer fra PATRIC, som derefter bruges til at rekruttere yderligere contigs baseret på at skelne protein k-mers. I lighed med enkeltisolatgenomer placeres skraldespandene i brugerens arbejdsområde og indekseres i PATRIC-databasen som private genomer, hvilket tillader fuld brug af PATRIC-sammenlignende analyse-og visualiseringsværktøjer til hver skraldespand.

internetbaserede analyseværktøjer

PATRIC ‘ s hjemmeside tilbyder flere interaktive visuelle analyseværktøjer, der gør det muligt for brugerne at sammenligne omics-datasæt. Disse værktøjer integrerer data af forskellige typer, udfører nogle beregningsopgaver og gengiver interaktive visualiseringer for brugeren. PATRIC understøtter i øjeblikket mange internetbaserede analyseværktøjer, såsom Varmekortviseren til sammenligning af delt proteinindhold, Vejviseren til udforskning af metaboliske veje og Genomsøgeren til visning af genomiske træk på kromosomet. Vi har tilføjet to nye visualiseringer til PATRIC hjemmeside, der oprindeligt eksisterede på Rast og SEED hjemmesider, men krævede betydelig reengineering at være funktionel til brug med hundredtusinder af genomer.

Sammenlign regionfremviser

Sammenlign Regionfremviser giver forskere mulighed for at sammenligne genkvarterer (genetiske loci eller kromosomale klynger) på tværs af mange arter. En bruger vælger et gen af interesse, størrelsen af den genomiske region og antallet af genomer til sammenligningen. Displayet gengiver blast ligheden af fokus genet, og ligheden mellem de omgivende gener i regionen (figur 3e).

i RAST er dette værktøj afhængig af en forudberegnet database med alt-til-alle BLAST (28) ligheder for at bestemme det sæt genomer, der matcher genet af interesse, og beregner en detaljeret parvis sammenligning af gener i det valgte område for at farvekode dataene. På grund af antallet af genomer i PATRIC-databasen er denne metode for langsom til brug i realtid. PATRIC-versionen af dette værktøj baserer fokusgenopslag og farvekodning på enten de slægtsspecifikke (PLFam) eller globale (PGFam) proteinfamilier (35), som er forudberegnet for hvert genom, så søgeområdet er mere scoped. Denne visualisering er imidlertid skalerbar, fordi BLAST kun bruges til at beregne proteinlighed for fokusgenerne i sættet.

delsystemer

delsystemer er samlinger af funktionelt relaterede proteiner og er en vital konceptuel enhed til at identificere og projicere proteinfunktioner på tværs af arter (7,52). PATRIC beregner og viser nu delsystemdata for hver offentlig og privat kommenteret genomsekvens. Delsystemer, der er resultatet af manuel annotation af et team af ekspertkuratorer, er opdelt i superklasse (eksempel: stofskifte), klasse (eksempel: stressrespons, Forsvar og virulens), underklasse (eksempel: resistens over for antibiotika og giftige forbindelser), Delsystemnavn (eksempel: Arsenresistens) og den funktionelle rolle for hvert af de inkluderede gener. Hvis du klikker på fanen undersystemer for ethvert genom, vises tre forskellige visninger. Delsystemoversigten viser et cirkeldiagram, der viser procentdelen af generne, der er i en bestemt superklasse. Fanen subsystemer inkluderer antallet af gener, der findes i en bestemt superklasse. Fanen gener indeholder en liste over alle gener på tværs af alle delsystemerne og inkluderer PATRIC-og Refseks locus-tags (47). Delsystemoplysninger er ikke kun tilgængelige for individuelle genomer, men opsummeres også for hvert taksonomisk niveau helt op til Superkingdom ved hjælp af NCBI-taksonomien (53). En heatmap-visning, der viser tilstedeværelse og fravær af specifikke proteiner pr.valgt delsystem på tværs af en takson eller en specifik genomgruppe, kan oprettes af brugeren.

kommandolinjegrænseflade (CLI)

i de sidste 5 år er PATRIC-datalageret blevet administreret ved hjælp af en Apache Solr-databasestruktur. For at imødekomme den hurtigt voksende dataindsamling og for at tage fordele skalerbarhed og modstandsdygtighed blev PATRIC-databasearkitekturen konverteret til en Apache SolrCloud-databasearkitektur i foråret 2019. SolrCloud-databasen er opdelt i en række SolrCores til styring af relaterede datatyper, såsom genomfunktioner, sekvenser og transkriptomiske data. En underliggende APPLIKATIONSPROGRAMMERINGSGRÆNSEFLADE (API) muliggør programmatisk adgang til disse kerner og de data, de indeholder; dataindsamling kan dog blive kompleks, når man navigerer og fletter felter fra de forskellige kerner. Vi har udviklet et sæt kommandolinjeskripter, der bruger API ‘ en til at få adgang til datalageret og udføre fælles analyser. Denne distribution er tilgængelig for Mac-operativsystemer, herunder Ubuntu og CentOS 6 og 7, og Fedora 28 og 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Både distribution og PATRIC hjemmeside indeholder tutorials om, hvordan man bruger scripts med eksempler (https://docs.patricbrc.org/cli_tutorial/). 482mb-distributionen indeholder mange af de underliggende scripts i PATIRC-miljøet. Nogle muliggør masseoverførsel, sammenlægning og manipulation af data, mens andre muliggør mere komplekse analyser. Distributionen indeholder også nyttige scripts fra tidligere SEED (5) og RASTtk (8) projekter. En særlig bemærkelsesværdig funktionalitet, der tilbydes af PATRIC CLI-distributionen, er muligheden for at administrere filer i arbejdsområdet. Brugere kan logge ind på et privat arbejdsområde, oprette undermapper, flytte filer ind i eller ud af arbejdsområdet og starte annotations-og samlingsjob. Disse scripts giver midlerne til at samle og kommentere hundreder eller endda tusinder af genomsekvenser. Derudover har vi også gjort PATRIC-arbejdsområdet tilgængeligt via File Transfer Protocol (FTP), som giver et alternativt middel til at flytte store mængder data ind og ud af arbejdsområdet. Brugere kan få adgang til arbejdsområdet ved hjælp af kommandolinjen eller ved hjælp af en FTP-filhåndtering. Vi planlægger at fortsætte med at udvikle kommandolinjeværktøjerne for at give større adgang til tjenester og lettere datamanipulation.

fremtidige retninger

i 2020 vil PATRIC-teamet ved University of Chicago, University of Virginia og stipendiet til fortolkning af genomer kombineres med det virale BRC-team, der understøtter ViPR (Virus patogen Database og Analyseressource) og IRD (influensa Research Database) ressourcer ved J. Craig Venter Institute (JCVI). Det nydannede bakterielle og virale BRC team (BV-BRC) vil fortsætte med at opretholde PATRIC, IRD og ViPR hjemmesider samtidig tilføje nye crosscutting funktionalitet. Vi har til hensigt at fokusere stærkt på at forbedre nytten af den nye BV-BRC-ressource til epidemiologisk analyse, udvide datalageret til at omfatte andre data-og metadatatyper, øge adgangen til strukturerede data, der kan bruges i applikationer med kunstig intelligens, og forbedre implementeringsarkitekturen for værktøjerne og tjenesterne.

finansiering

National Institute of Allergy and Infectious Diseases (NIAID) . Finansiering til Open access charge: NIAID.

interessekonflikt erklæring. Ingen angivet.

noter

nuværende adresse: James J. Davis, Argonne National Laboratory, Computing, miljø og Biovidenskab, 9700 S. Cass Avenue, Argonne, IL 60439, USA.

Snyder
E.

,

Kampanya
N.

,

Lu
J.

,

Nordberg
E. K.

,

Karur
H.

,

Shukla
M.

,

Soneja
J.

,

Tian
Y.

,

Yoo
H.
PATRIC: VBI pathosystems resource integration center

.

nukleinsyrer Res.
2006

;

35

:

D401

d406

.

A. R.

,

Abraham
D.

,

Dalay
O.

,

div

T. L.

,

Driscoll
T.

,

Gabbard
J. L.

,

Gillespie
J. J.

,

Gough
R.

,

Hej
D.

,

Kenyon
R.
PATRIC, den bakterielle bioinformatik database og analyse ressource

.

nukleinsyrer Res.
2013

;

42

:

D581

d591

.

A. R.

,

Davis
J. J.

,

Assaf
R.

,

Boisvert
S.

,

Brettin
T.

,

bun
C.

,

Conrad
N.

,

Dietrich
E. M.

,

Gabbard
J. L.
forbedringer til PATRIC, all-bakteriel bioinformatik database og analyse resource center

.

nukleinsyrer Res.
2016

;

45

:

D535

d542

.

McNeil
L. K.

,

Reich
C.

,

div> R. K.

,

Bartels
D.

,

cohoon
M.

,

div

T.

,

Gerdes
S.

,

hv
K.

,

Gerdes
S.

,

hv
K.

,

div > Kubal
M.
National Microbial Pathogen Database Resource (NMPDR): en genomisk platform baseret på delsystem annotation

.

nukleinsyrer Res.
2006

;

35

:

D347

d353

.

Overbeek
R.

,

Olson
R.

,

Pusch
G. D.

,

Olsen
G. J.

,

Davis
J. J.

,

div

T.

,

div>R. A.

,

Gerdes
S.

,

Parrello
B.

,

Shukla
M.
frøet og den hurtige Annotation af mikrobielle genomer ved hjælp af Delsystemteknologi (RAST)

.

nukleinsyrer Res.
2013

;

42

:

D206

D214

.

R. K.

,

Bartels
,

Best
A. A.

,

DeJongh
M.

,

div> T.

,

div>R. A.

,

formsma
K.

,

Gerdes
S.

,

glas
E. M.

,

Kubal
M.
RAST-serveren: hurtige kommentarer ved hjælp af delsystemteknologi

.

BMC Genomics

.

2008

;

9

:

75

.

Overbeek
R.

,

Begley
T.

,

Butler
R. M.

,

Choudhuri
J. V.

,

Chuang
H.-Y.

,

cohoon
M.

,

de cr-Lagard
v.

,

div

N.

,

div

T.

,

edges
R.
delsystemernes tilgang til genomanmærkning og dens anvendelse i projektet til at kommentere 1000 genomer

.

nukleinsyrer Res.
2005

;

33

:

5691

5702

.

Brettin
Brettin
R. A.

,

Gerdes
S.

,

Olsen
G. J.

,

Olson
R.

,

Overbeek
R.

,

Parrello
B.

,

Pusch
G. D.
RASTtk: en modulopbygget og udvidelig implementering af RAST-algoritmen til opbygning af brugerdefinerede annotationsledninger og annotering af batcher af genomer

.

Sci. Rep.
2015

;

5

:

8365

.

Antonopoulos
D. A.

,

Assaf
R.

,

Brettin
T.

,

Bun
C.

,

Conrad
N.

,

Davis
J. J.

,

Dietrich
E. M.

,

div

T.

,

Gerdes
S.
PATRIC som en unik ressource til undersøgelse af antimikrobiel resistens

.

kort. Bioinformere.
2019

;

20

:

1094

1102

.

Nguyen
M.

,

Brettin
T.

,

lang
S.

,

Musser
J. M.

,

Olsen
R. J.

,

Olson
R.

,

Shukla
M.

,

Stevens
R. L.

,

,

Yoo
H.
udvikling af in silico minimum inhiberende koncentrationspaneltest for Klebsiella pneumoniae

.

Sci. Rep.
2018

;

8

:

421

.

Nguyen
M.

,

lang
S.

,

McDermott
P. F.

,

Olsen
R. J.

,

Olson
R.

,

Stevens
R. L.

,

Tyson
G. H.

,

J. H.

S.

,

Davis
J. J.
brug af maskinlæring til at forudsige antimikrobielle Mikrofoner og tilknyttede genomfunktioner for ikke-kyfoid Salmonella

.

J. Blink. Mikrobiol.
2019

;

57

:

e01260-18

.

Jia
B.

,

Raphenya
A. R.

,

Alcock
B.

,

N.

,

Guo
P.

,

Tsang
K. K.

,

Lago
B. A.

,

Dave
B. M.

,

Pereira
S.

,

Sharma
A. N.
CARD 2017: udvidelse og modelcentreret kuration af den omfattende antibiotikaresistensdatabase

.

nukleinsyrer Res.
2016

;

45

:

D566

d573

.

Feldgarden
M.

,

Brover
V.

,

Haft
D. H.

,

Prasad
A. B.

,

Slotta
D. J.

,

Tolstoy
I.

,

Tyson
G. H.

,

J.

S.

,

Hsu
C.-H.

,

McDermott
P. F.
Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

.

Antimicrob. Agents Chemother.
2019

;

63

:

e00483-19

.

Yoo
A.B.

,

Jette
M.A.

,

Grondona
M.
Slurm: Simple linux utility for resource management

.

Workshop on Job Scheduling Strategies for Parallel Processing

.

2003

;

Berlin, Heidelberg
Springer
44

60

.

A.

,

Nurk
S.

,

Antipov
D.

,

Gurevich
A. A.

,

Dvorkin
M.

,

Kulikov
A. S.

,

leucin
V. M.

,

Nikolenko
S. I.

,

Pham
S.

,

prjibelski
A. D.
Spades: en ny genomsamlingsalgoritme og dens applikationer til enkeltcellesekventering

.

J. beregne. Biol.
2012

;

19

:

455

477

.

S.
B. P.

,

Berlin
K.

,

Miller
J. R.

,

Bergman
N. H.

,

Phillippy
Canu: skalerbar og mulig nøjagtig langlæst samling via adaptiv K-Mer vægtning og gentag adskillelse

.

genom Res.
2017

;

27

:

722

736

.

væge
R. R.

,

Judd
L. M.

,

Gorrie
C. L.

,

Holt
K. E.
Unicycler: løsning af bakterielle genomsamlinger fra kort og lang sekventering læser

.

PLoS Comput. Biol.
2017

;

13

:

e1005595

.

K. E.
bindingsværk: interaktiv visualisering af de novo genomsamlinger

.

Bioinformatik

.

2015

;

31

:

3350

3352

.

baser
R.
I.

,

Nagarajan
N.

,

M.
hurtig og mulig nøjagtig de novo genomsamling fra lange ukorrigerede læser

.

genom Res.
2017

;

27

:

737

746

.

B. J.

,

Abeel
T.

,

Shea
T.

,

Priest
M.

,

Abouelliel
A.

,

Sakthikumar
S.

,

Cuomo
C. A.

,

n
K.

div>,

young
S. K.
pylon: det integrerede værktøj til omfattende mikrobiel variantdetektion og forbedring af genomsamling

.

PLoS One

.

2014

;

9

:

e112963

.

Langmead
B.

,

Yates
S. L.
hurtig gapped-Læs justering med Butterfly 2

.

Nat. Metoder

.

2012

;

9

:

357

359

.

It
H.
Minimap2: parvis justering for nukleotidsekvenser

.

Bioinformatik

.

2018

;

34

:

3094

3100

.

det
H.

,

Handsaker
B.
A.

,

Fennell
T.

div>,

Ruan
J.

,

Homer
N.

,

Marth
G.

,

Abecasis
G.

,

Durbin
R.
sekvensjustering/kortformat og SAMtools

.

Bioinformatik

.

2009

;

25

:

2078

2079

.

Overbeek
R.

,

Dutilh
B. E.

,

edges
R.
Clokie
MRJ

,

Kropinski
AM

,

Lavigne
r
Faggenom Annotation ved hjælp af RAST Pipeline

.

bakteriofager metoder og protokoller

.

2018

;

3

:

NY
Humana Press
231

238

.

Parker
D. H.

,

Imelfort

,

Skennerton
C. T.

,

Hugenholts
P.

,

Tyson
G. V.
Checkm: vurdering af kvaliteten af mikrobielle genomer udvundet fra isolater, enkeltceller og metagenomer

.

genom Res.
2015

;

25

:

1043

1055

.

Parrello
B.

,

Butler
R.

,

Chlenski
P.

,

Olson
R.

,

Overbeek
J.

,

Pusch
G. D.

,

vonstein
v.

,

Overbeek
R.
den maskinlæringsbaserede service til estimering af kvaliteten af genomer ved hjælp af PATRIC

.

BMC Bioinformatik

.

2019

;

20

:

486

.

D.

,

Langmead
B.

,

Yates
S. L.
HISAT: en hurtig splejset aligner med lave hukommelseskrav

.

Nat. Metoder

.

2015

;

12

:

357

360

.

Boratyn
G. M.

,

Camacho
C.

,

Cooper
P. S.

,

Coulouris
G.

,

Fong
A.

,

Mat
N.

,

Madden
T. L.

,

Mat
N.

,

Madden
T. L.

,

matten
blast: en mere effektiv rapport med usability forbedringer

.

nukleinsyrer Res.
2013

;

41

:

V29

V33

.

Eddy
S. R.
profil skjulte Markov modeller

.

Bioinformatik

.

1998

;

14

:

755

763

.

Enright
A. J.

,

Van Dongen

S.

,

Ousounis
C. A.
den effektive algoritme til storskala påvisning af proteinfamilier

.

nukleinsyrer Res.
2002

;

30

:

1575

1584

.

Edgar
R. C.
muskel: flere sekvensjustering med høj nøjagtighed og høj gennemstrømning

.

nukleinsyrer Res.
2004

;

32

:

1792

1797

.

Talavera
G.

,

Castresana
J.
forbedring af fylogenier efter fjernelse af divergerende og tvetydigt justerede blokke fra proteinsekvensjusteringer

.

Syst. Biol.
2007

;

56

:

564

577

.

pris
M. N.

,

Dehal
P. S.

,

Arkin
A. P.
FastTree 2–ca.maksimal sandsynlighed træer for store justeringer

.

PLoS One

.

2010

;

5

:

e9490

.

Stamatakis
A.
Raksml version 8: Et værktøj til fylogenetisk analyse og post-analyse af store fylogenier

.

Bioinformatik

.

2014

;

30

:

1312

1313

.

J. J.

,

Gerdes
S.

,

Olsen
G. J.

,

Olson
R.

,

Pusch
G. D.

,

Shukla
M.

,

Vonstein
V.

,

,

Yoo
H.
pattyfams: Proteinfamilier til de mikrobielle genomer i Patric-databasen

.

Front. Mikrobiol.
2016

;

7

:

118

.

pik
P. J.

,

Antao
T.

,

Chang
J. T.

,

Chapman
B. A.

,

C. J.

,

Dalke
A.

,

Friedberg
I.

,

Hamelryck
T.

,

Kauff
F.

,

biopython: frit tilgængelige Python-værktøjer til beregningsmolekylærbiologi og bioinformatik

.

Bioinformatik

.

2009

;

25

:

1422

1423

.

Felsenstein
J.
PHYLIP (fylogeni inferens pakke), Version 3.5 c

.

1993

; Joseph Felsenstein

.

Stamatakis
A.

,

Hoover
P.

,

Rougemont
J.
den hurtige Bootstrap algoritme til/div>.

Syst. Biol.
2008

;

57

:

758

771

.

Krueger
F.
Trim massevis: til konsekvent at anvende kvalitet og adapter trimning til hurtige filer, med nogle ekstra funktionalitet til mspi-fordøjet RRBs-type (reduceret repræsentation Bisufit-sek) biblioteker

.

2012

;

(28.April 2016, dato sidst åbnet)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin
M.
Cutadapt fjerner adaptersekvenser fra sekventering med høj kapacitet

.

EMBnet J.
2011

;

17

:

10

12

.

B.

,

Vilke
C.

,

Antonescu
V.

,

Charles
R.
skalering læse aligners til hundredvis af tråde på generelle formål processorer

.

Bioinformatik

.

2018

;

35

:

421

432

.

Lassmann
T.
Y.

,

Daub
C. O.
SAMStat: overvågning af forstyrrelser i næste generations sekventeringsdata

.

Bioinformatik

.

2010

;

27

:

130

131

.

Darling
A. E.

,

Mau
B.

,

Perna
N. T.
progressiveMauve: multiple genomjustering med gengevinst, tab og omlægning

.

PLoS One

.

2010

;

5

:

e11147

.

Darling
A. C.

,

Mau
B.

,

Blattner
F. R.

,

Perna
N. T.
Mauve: multipel justering af konserveret genomisk sekvens med omlejringer

.

genom Res.
2004

;

14

:

1394

1403

.

B. D.

,

Treangen
T. J.

,

Melsted
P.

,

Mallonee
A. B.

,

Bergman
N. H.

,

Koren
S.

,

Phillippy
A. M.
mash: hurtigt genom-og Metagenomafstandsestimat ved hjælp af minhash

. genom Biol .

2016

;

17

:

132

.

træ
D. E.

,

Yates
S. L.
Kraken: ultrahurtig metagenomisk sekvenstaksonomi ved hjælp af nøjagtige justeringer

. genom Biol .

2014

;

15

:

R46

.

Haft
D. H.

,

DiCuccio
M.

,

Badretdin
A.

,

Brover
V.

,

chetvernin
v.

,

O ‘ Neill
K.

,

it
V.Derbyshire
M. K.

,

Derbyshire
M. K.

,

N. R.
refs: en opdatering om prokaryotisk genom annotation og kuration

.

nukleinsyrer Res.
2017

;

46

:

D851

d860

.

Ondov
B. D.

,

Bergman
N. H.

,

Phillippy
A. M.
interaktiv metagenomisk visualisering søg efter

.

BMC Bioinformatik

.

2011

;

12

:

385

.

Clausen
P. T.

,

Aarestrup
F. M.

,

Lund
O.
hurtig og præcis justering af rå læser mod redundante databaser med KMA

.

BMC Bioinformatik

.

2018

;

19

:

307

.

A.

,

M. A.

,

baylay
A. J.

,

Bhullar
K.

,

Canova
M. J.

,

to Pascale
G.

,

Ejim
L.
den omfattende antibiotikaresistensdatabase

.

Antimicrob. Agenter Chemother.
2013

;

57

:

3348

3357

.

Liu
B.
D.

,

Jin
Dog
L.

,

yang
J.
vfdb 2019: den komparative patogenomiske platform med den interaktive internetgrænseflade

.

nukleinsyrer Res.
2018

;

47

:

D687

D692

.

Overbeek
R.

,

Olson
R.

,

Pusch
G. D.

,

Olsen
G. J.

,

Davis
J. J.

,

div

T.

,

div>R. A.

,

Gerdes
S.

,

Parrello
B.

,

Shukla
m
frøet og den hurtige annotation af mikrobielle genomer ved hjælp af delsystemteknologi (Rast)

.

nukleinsyrer Res.
2013

;

42

:

D206

D214

.

Federhen
S.
NCBI-taksonomidatabasen

.

nukleinsyrer Res.
2011

;

40

:

D136

d143

.

udgivet af University Press på vegne af Nukleinsyreforskning 2019.
dette arbejde er skrevet af (A) amerikanske regeringsmedarbejdere og er offentligt tilgængelige i USA.