PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities
- Abstract
- introduktion
- vad är nytt i PATRIC?
- datatillväxt och förbättringar
- tjänster
- anmärkningsvärda uppdateringar av befintliga tjänster
- omfattande genomanalys
- fylogenetiska träd
- Fastq utilities
- genome alignment
- liknande genomsökare
- taxonomisk klassificering
- Metagenomic read mapping
- Metagenomic binning
- webbaserade analysverktyg
- jämför regionvisare
- delsystem
- kommandoradsgränssnitt (CLI)
- framtida riktningar
- finansiering
- anteckningar
Abstract
PathoSystems Resource Integration Center (PATRIC) är det bakteriella Bioinformatics Resource Center som finansieras av National Institute of Allergy and Infectious Diseases (https://www.patricbrc.org). PATRIC stöder bioinformatiska analyser av alla bakterier med särskild tonvikt på patogener och erbjuder en rik jämförande analysmiljö som ger användarna tillgång till över 250 000 enhetligt kommenterade och offentligt tillgängliga genom med kuraterade metadata. PATRIC erbjuder webbaserade visualiserings-och jämförande analysverktyg, en privat arbetsyta där användare kan analysera sina egna data i samband med de offentliga samlingarna, tjänster som effektiviserar komplexa bioinformatiska arbetsflöden och kommandoradsverktyg för massdataanalys. Under de senaste åren, som genomiska och andra omics-relaterade experiment har blivit mer kostnadseffektiva och utbredda, har vi observerat en betydande tillväxt i användningen av och efterfrågan på lättanvända, offentligt tillgängliga bioinformatiska verktyg och tjänster. Här rapporterar vi de senaste uppdateringarna till PATRIC-resursen, inklusive nya webbaserade jämförande analysverktyg, åtta nya tjänster och utgåvan av ett kommandoradsgränssnitt för att komma åt, fråga och analysera data.
introduktion
programmet Bioinformatics Resource Center (BRC) grundades av National Institute of Allergy and Infectious Diseases (NIAID) 2004 med ett primärt fokus på att ge tillgång till genomsekvensdata och analysverktyg för att studera patogener. PathoSystems Resource Integration Center (PATRIC) började som en av de ursprungliga centra uppgift att stödja jämförande analys av bakteriella patogener (1-3). Under 2009 fusionerades PATRIC med National Microbial Pathogen Database Resource (NMPDR) BRC (4), som hade utvecklat den framgångsrika FRÖDATABASEN och rast (Rapid Annotation using Subsystem Technology) annotation system för enhetligt kurering och projicering av genomanteckningar över mikrobiella arter (5-8). Under åren har PATRIC-resursen expanderat och anpassats för att hålla jämna steg med tillväxten i bioinformatiska dataset och behovet av tillhörande analysverktyg. Från och med September 2019 inkluderar PATRIC över 250 000 offentligt tillgängliga mikrobiella genom och en rik jämförande analysmiljö.
sedan lanseringen 2008 har RAST (http://rast.nmpdr.org) utfört 700 000 genomanmärkningsjobb för privata användare. Genom att ge tillgång till genomfunktionsidentifieringsskript som utvecklats av det akademiska samfundet och konsekventa prognoser av välkurerade proteinfunktioner från fröet, fungerar RAST som en modell för en framgångsrik bioinformatisk tjänst eftersom den lindrar behovet för användare att bygga sina egna anpassade annoteringsrörledningar och dess konsistens möjliggör nedströms jämförande analyser. Med hjälp av RAST som mall började PATRIC 2014 implementera en mängd bioinformatiska tjänster via webbplatsen så att användare kan montera och kommentera genomsekvenser, rekonstruera metaboliska modeller, analysera SNP och INDELs och analysera och jämföra RNA-seq-experiment. Resultaten av dessa analysjobb kan sedan jämföras med de offentligt tillgängliga genomiska och andra omic-datainsamlingarna i resursen, samtidigt som de hålls privata inom användarens arbetsytemiljö. I slutet av 2016 behandlade PATRIC 1 500 jobb per månad, med undantag för jobb som lämnades in på RAST-webbplatsen (3).
sedan Senast beskrivet i Nukleinsyraforskning 2016 (3) har PATRIC genomgått en serie uppdateringar och förbättringar. Datainsamlingen har förbättrats, särskilt inom området antimikrobiell resistens (AMR) (9); webbläsningsmiljön har förbättrats med nya verktyg och visualiseringar; och förbättringar av arbetsytan har också gjort det lättare att hitta och dela forskningsprojektdata. Ett kommandoradsgränssnitt (CLI) för massdataförvärv och analys har byggts och släppts för distribution på Mac, Linux och Windows-system. PATRIC har också lanserat åtta nya bioinformatiska tjänster, med nyligen tonvikt på förmågan att analysera data från blandade kulturer eller metagenomiska prover. Äntligen har en rik samling tutorials skapats för att hjälpa användare med dessa nya verktyg (https://docs.patricbrc.org/tutorial/). Den här rapporten beskriver många av de senaste opublicerade uppdateringarna av PATRIC-resursen.
vad är nytt i PATRIC?
datatillväxt och förbättringar
en av de mest dramatiska förändringarna i att stödja bioinformatiskt arbete sedan början av BRC-programmet har varit den exponentiella tillväxten i offentligt tillgängliga mikrobiella genomsekvenser (Figur 1). Samlingen av privata användargenomsekvenser som har kommenterats och indexerats av PATRIC har också vuxit sedan etableringen av arbetsytemiljön och kan faktiskt överstiga storleken på den offentliga genomsekvenssamlingen inom nästa år (Figur 1). Även om den privata uppsättningen innehåller några omanalyserade genomsekvenser,
kumulativ tillväxt av offentliga och privata Genom i PATRIC.
kumulativ tillväxt av offentliga och privata Genom i PATRIC.
Vi ser ingen indikation på att mikrobiell genomsekvensering och dess relaterade bioinformatiska analyser saktar. Ökningen av offentligt tillgängliga genomsekvensdata och relaterade strukturerade metadata har också revolutionerat de typer av experimentella analyser som är möjliga. PATRIC tillhandahåller till exempel strukturerade och manuellt kurerade metadata associerade med varje Genom, inklusive laboratorie-härledda AMR-fenotyper, värdorganismer, isoleringskällor, data för människokroppsplats och geografisk information. Dessa samlingar av strukturerade metadata utgör grunden för att köra maskininlärning och djupa inlärningsexperiment (10,11) och för att tillhandahålla prediktiva verktyg till användare (9). Vi räknar med att den ökade användningen av artificiell intelligens tekniker i bioinformatik kommer att driva experimentella designbeslut och i slutändan förkorta den tid som krävs för genetiska och andra laboratoriebaserade karakterisering experiment.
att stödja AMR-forskning är ett stort fokusområde för datainsamling och curation vid PATRIC. Vi samlar aktivt både AMR-proteinanteckningar och laboratorie-härledda AMR-fenotypdata associerade med offentliga genom. Annotationssystemet kan exakt projicera över 600 handkurerade AMR-proteinfunktioner. Den innehåller också en stor samling av närbesläktade icke-AMR-proteinfunktioner som har kuraterats för att förhindra falska förutsägelser av AMR-funktioner. För att tillhandahålla ytterligare medel för jämförelse söker annoteringssystemet också efter gener med hög likhet med de som kurateras av kort (12) och NCBI AMR gendatabasprojekt (13). Den laboratoriebaserade AMR-fenotypsamlingen har genererats genom att samla in data från litteraturen, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) och andra offentliga källor. Den har vuxit till att omfatta över 40 000 genomsekvenser och används av forskare över hela världen. Vi har också lagt till över 10 000 plasmid-och profagsekvenser på grund av deras betydelse för att studera och bekämpa AMR.
tjänster
de tjänster som tillhandahålls av PATRIC är utformade för att möjliggöra enkel åtkomst till komplexa bioinformatiska arbetsflöden. De kan nås via PATRIC webbgränssnitt och CLI. De flesta tjänster har kapacitet att hantera hundratals eller till och med tusentals jobb per dag. Jobb körs vanligtvis på en serie interna servrar, med överspänningskapacitet som hanteras av ett stort datakluster. PATRIC-Tjänsterna har vuxit i popularitet sedan 2014 och från och med September 2019 har över 263 000 jobb slutförts (Figur 2).
användarinitierade analysjobb slutförda av PATRIC bioinformatic services. Den översta tomten visar användningen av högvolymstjänster. Den nedre tomten visar användningen av lägre volym och nya tjänster. Notera skillnaden i skala mellan de två tomterna.
användarinitierade analysjobb slutförda av PATRIC bioinformatic services. Den översta tomten visar användningen av högvolymstjänster. Den nedre tomten visar användningen av lägre volym och nya tjänster. Notera skillnaden i skala mellan de två tomterna.
anmärkningsvärda uppdateringar av befintliga tjänster
tre av våra pre = befintliga tjänster, Genommontering, Genomanteckning och RNA-seq-analys, har genomgått flera anmärkningsvärda uppdateringar. Genommonteringstjänsten har byggts om med en ny jobbschemaläggare som möjliggör en rättvisare jobbköprocess som förhindrar stora jobb från att skapa flaskhalsar (14). Förutom spader (15) har vi lagt till Canu (16) för långläst montering och Unicycler för hybrid lång-och kortlästa enheter (17). Vi tillhandahåller också en bild av monteringsdiagrammet med Bandage (18), och aggregat kan poleras med Racon (19) och Pilon (20) för lång – respektive kortlästa enheter. Slutligen utförs läskartläggning för att generera exakt täckningsstatistik med Bowtie2 (21) eller Minimap2 (22) och SAMtools (23). Två nya tillägg till Genome Annotation Service inkluderar förmågan att kommentera bakteriofaggenomsekvenser (24) och beräkningen av genomkvalitetsstatistik som baseras på CheckM-applikationen (25) och en intern RAST-modell som bedömer kvalitet baserat på förekomsten och fullständigheten av delsystemroller i genomet (26). RNA-seq-analystjänsten har också uppdaterats för att möjliggöra experiment som studerar värdrespons på mikrobiella infektioner. För att stödja detta har vi lagt till flera vanliga eukaryota värdreferensgenomer inklusive Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, kuk, Kuk, Homo sapiens, Macaca mulatta, Mus muskel, vessla putorius furo, Rattus norvegicus och Sus scrofa. Vi har också nyligen lagt till HISAT2 (hierarchical indexing for spliced alignment of transcripts) (27), ett högeffektivt system för att anpassa läsningar från RNA-Seq-experiment till värdgenom och aktiverat import av dataset från SRA i RNA-seq-gränssnittet, vilket ytterligare förbättrar förmågan att utföra blandad differentialuttrycksanalys av offentliga och privata data.
omfattande genomanalys
ett av de vanligaste användningsfallen för analys av privata genom På PATRIC är för forskare att montera och sedan kommentera deras genomsekvenser med hjälp av två separata tjänster. Våren 2018 lanserade vi en strömlinjeformad omfattande genomanalys ’meta-service’ som accepterar sekvenseringsläsningar, beräknar montering och annotering och ger en användarvänlig beskrivning av genomet. Produktionen inkluderar en genomkvalitetsbedömning, AMR-gener och fenotypförutsägelser, specialgener, delsystemöversikt, identifiering av närmaste genomsekvenser, ett fylogenetiskt träd och en lista över funktioner som skiljer genomet från sina närmaste grannar. Den omfattande Genomanalystjänsten har snabbt blivit en av de mest populära tjänsterna i PATRIC med över 11 000 jobb slutförda sedan lanseringen i April 2018.
fylogenetiska träd
förmågan att rekonstruera och visualisera evolutionära relationer ligger i hjärtat av biologin. I 2017 lanserade PATRIC Phylogenetic Tree Service som gör det möjligt för användare att bygga högkvalitativa fylogenetiska träd för offentliga och privata genomsekvenser. Tjänsten erbjuder för närvarande två arbetsflöden till användaren. Den första är ett proteinbaserat trädbyggande arbetsflöde som kallas ”Alla delade proteiner”, som använder Fylogenomisk uppskattning med progressiv förfining (PEPR) pipeline (https://github.com/enordber/pepr). PEPR fungerar genom att definiera delade proteinfamiljer de novo för en genomgrupp med BLAST (28) och HMMER (29) för att identifiera liknande proteiner och MCL (30) för att bygga kluster. Därefter genereras anpassningar med hjälp av muskler (31) och trimmas med Gblocks (32). Slutligen, baserat på användarens önskemål, beräknar PEPR trädet med antingen FastTree (33) eller RAxML (34). Under 2019 lanserade vi ett andra, snabbare, fylogenetiskt trädbyggnadsarbetsflöde som heter ’Codon Trees.’Det utnyttjar fördefinierade PATRIC global protein families (PGFams) (35) och väljer ett användarspecificerat antal familjer (10-1000) som är enstaka (eller nästan så) bland medlemmar i en genomgrupp. Inriktningar genereras för proteinsekvenser av varje familj med hjälp av muskler (31), och deras motsvarande nukleotidsekvenser är inriktade på detta med hjälp av Kodonalign-funktionen hos BioPython (36). En sammanfogad inriktning av alla proteiner och nukleotider skrivs till en PHYLIP-formaterad fil (37). En partitionsfil för RaxML (34) genereras sedan, som beskriver inriktningen i termer av proteinerna och nukleotiderna i första, andra och tredje kodonpositionerna. Stödvärden genereras från 100 omgångar av snabb bootstrapping i RaxML (38).
förutom de Newick-formaterade trädfilerna returnerar den fylogenetiska Trädtjänsten en portable document file (PDF), en portable network graphics (png) och en scalable vector graphics (SVG) – bildfil för de mittpunktsrotade trädbilderna som genereras av FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Den fylogenetiska trädvyn på PATRIC-webbplatsen gör det möjligt för forskare att välja noder och löv, vilket gör det möjligt för användaren att skapa grupper från specifika klader för vidare analys. Det genererar också en genomrapport som ger en lista över genomsekvenser och proteinfamiljer som används vid konstruktion av träd och räkningen av gener, proteiner, aminosyror och nukleotider som används för att beräkna trädet. Slutligen listas problematiska genomsekvenser som kan tas bort för att öka genvalet och förbättra trädets styrka. Sedan den byggdes har nästan 5000 jobb bearbetats av Phylogenetic Tree Service.
Fastq utilities
att bedöma kvaliteten på sekvenseringsläsningar är ett viktigt första steg för att säkerställa att efterföljande analyser, såsom montering, annotering etc. är korrekta. Fastq Utilities-Tjänsten, som lanserades i juli 2019, gör det möjligt för användare att justera läsningar, mäta basanropskvalitet och trimma sekvenser av låg kvalitet från lästa filer. Tjänsten accepterar lång-eller kortlästa filer i enstaka eller parade slutformat. Det kan också hämta läsa filer direkt från NCBI Sequence Read Archive (SRA) med hjälp av en kör identifierare som indata. Tjänsten har tre komponenter, ’trim, ”FastQC,’ och ’align,’ som kan användas oberoende eller i valfri kombination. Trimkomponenten använder Trim Galore (39), som är ett Perl-omslag runt Cutadapt (40) och FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) verktyg. FastQC-Komponenten ger kvalitetskontroller av raw-sekvensdata som kommer från sekvenseringsrörledningar med hög genomströmning och möjliggör snabb kvalitetskontroll genom att indikera problem som kan påverka nedströmsanalyser. Justeringsfunktionen justerar läsningar till en referensgenomsekvens med Bowtie2 (21,41), vilket sparar omappade läsningar och genererar SamStat (42) rapporter om mängden och kvaliteten på inriktningarna.
genome alignment
i November 2018 lanserade PATRIC Genome Alignment-tjänsten för att göra det möjligt för användare att beräkna hela genomsekvensanpassningar. Denna tjänst använder progressiveMauve-applikationen (43), som konstruerar positionell homologi flera genomsekvensanpassningar i en förlängning av den ursprungliga Mauve-algoritmen (44). Tjänsten gör det möjligt för forskare att anpassa upp till tjugo genomsekvenser åt gången. Resultatet av tjänsten inkluderar en visuell visning av genomet som gör det möjligt för användare att visa och utforska hela genomsekvensinriktningen eller zooma in för att jämföra enskilda regioner eller gener (Figur 3).
ett arbetsflöde för dataanalys i PATRIC med hjälp av Genomjusteringstjänsten. (A) webbplatsgränssnittet tillåter val av genom; (B) visualisering av de inriktade genomregionerna med eventuella borttagningar, Infogningar eller omarrangemang; (C) zooma in på inriktningen visar generna på fram-och bakstativ, som kan väljas; (D) välja en specifik gen från genomjusteringsvisaren öppnar PATRIC-funktionssidan, där alla tillgängliga data för den genen visas. (E) fliken jämför Regionvy på PATRIC-Gensidan visar bevarande av den valda genen (visas i rött) och även de omgivande generna. (F) varje gen tilldelas en genspecifik (PLFam) eller global (PGFam) proteinfamilj som kan väljas från funktionssidan, och familjemedlemmarna kan jämföras med hjälp av verktyget Multiple Sequence Alignment/Gene Tree.
ett arbetsflöde för dataanalys i PATRIC med hjälp av Genomjusteringstjänsten. (A) webbplatsgränssnittet tillåter val av genom; (B) visualisering av de inriktade genomregionerna med eventuella borttagningar, Infogningar eller omarrangemang; (C) zooma in på inriktningen kommer att visa generna på framåt och bakåt står, som kan väljas; (D) välja en specifik gen från Genome Alignment viewer öppnar PATRIC Feature sida, där alla tillgängliga data för den genen visas. (E) fliken jämför Regionvy på PATRIC-Gensidan visar bevarande av den valda genen (visas i rött) och även de omgivande generna. (F) varje gen tilldelas en genspecifik (PLFam) eller global (PGFam) proteinfamilj som kan väljas från funktionssidan, och familjemedlemmarna kan jämföras med hjälp av verktyget Multiple Sequence Alignment/Gene Tree.
liknande genomsökare
När en forskare har en ny genomsekvens är en av de första sakerna de vill identifiera de närmaste släktingarna för organismen, men det kan vara svårt när den offentliga samlingen är så stor. PATRIC tillhandahåller en tjänst som kallas likartad Genomfinnare för att tillåta forskare att snabbt identifiera liknande genomsekvenser med Mash (45). Mash fungerar genom att minska stora sekvenser till små representativa skisser, som kan användas för att uppskatta mutationsavstånd baserat på delade k-mers. PATRIC möjliggör jämförelse mot alla offentliga genomsekvenser eller NCBI-referensgenomuppsättningen. Verktyget gör det möjligt för forskare att justera sökkänsligheten genom att välja det maximala antalet k-mers som hålls gemensamt, p-värde tröskel eller avståndet. Resultaten returneras som en lista över de mest liknande genomsekvenserna med motsvarande metadata. Som med alla PATRIC-tabeller kan forskare välja sekvenser för att skapa grupper för senare analys eller ladda ner resultaten.
taxonomisk klassificering
den taxonomiska Klassificeringstjänsten lanserades i mars 2019 och identifierar den taxonomiska sammansättningen av blandade eller metagenomiska prover. Denna tjänst använder Kraken2 (46)-applikationen, som identifierar k-mers som indikerar olika taxonomiska enheter. Kraken-databasen som används av tjänsten är en fullständig byggnad som bygger på alla RefSeq – genomsekvenser (47), Den mänskliga genomsekvensen, plasmider och vektorsekvenser. Jobbutgången innehåller standard Kraken-rapportformatet, där varje bakteriell taxon hyperlänkas till matchande sida i PATRIC. Tjänsten returnerar också en Krona tomt (48) som visar andelen läser som mappas till varje taxon och tillåter användaren att utforska utvalda taxa.
Metagenomic read mapping
forskare som studerar AMR eller virulens kan vara intresserade av att analysera gener i blandade eller metagenomiska läsuppsättningar. Metagenome Read Mapping Service gör det möjligt för forskare att söka efter dessa specifika gener i en uppsättning läsningar. Det fungerar genom att anpassa läsningar mot en referensgen med KMA, som använder k-Mer–sådd och Needleman-Wunsch-algoritmen för att exakt anpassa läsningen till generna av intresse (49). Användare kan för närvarande anpassa sig mot referensgenuppsättningarna från den omfattande Antibiotikaresistensdatabasen (CARD) (50) och Virulensfaktordatabasen (VFDB) (51). Tjänsten returnerar html-och textversioner av standard KMA-rapporten, som visar detaljerad kartläggningsinformation, länkar till gener i PATRIC med hög likhet och en konsensussekvens sammansatt från de inriktade läsningarna.
Metagenomic binning
metagenomic Binning-tjänsten lanserades i augusti 2017 och läser från ett metagenomiskt prov i contigs och försöker sedan separera dessa contigs i fack som representerar genomerna hos enskilda arter. Dessa fack är sedan helt annoterade och detaljerad kvalitetsstatistik beräknas för varje fack. Binningsalgoritmen börjar med att skanna contigs för specifika markörproteiner som nästan alltid förekommer enskilt i genomet. Markör-proteinlikheten används för att rekrytera liknande genom från PATRIC, som sedan används för att rekrytera ytterligare contigs baserat på särskiljande protein k-mers. I likhet med enstaka isolatgenom placeras facken i användarens arbetsyta och indexeras i PATRIC-databasen som privata genom, vilket möjliggör full användning av PATRIC jämförande analys och visualiseringsverktyg för varje fack.
webbaserade analysverktyg
PATRIC-webbplatsen erbjuder flera interaktiva visuella analysverktyg som gör det möjligt för användare att jämföra omics-dataset. Dessa verktyg integrerar data av olika slag, utför vissa beräkningsuppgifter och gör interaktiva visualiseringar för användaren. PATRIC stöder för närvarande många webbaserade analysverktyg, såsom Heat Map Viewer för att jämföra delat proteininnehåll, Pathway Viewer för att utforska metaboliska vägar och Genombläddraren för att visa genomiska funktioner på kromosomen. Vi har lagt till två nya visualiseringar till PATRIC webbplats som ursprungligen fanns på RAST och SEED webbplatser, men krävde betydande reengineering vara funktionell för användning med hundratusentals genom.
jämför regionvisare
jämför Regionvisaren tillåter forskare att jämföra genkvarter (genetiska loci eller kromosomala kluster) över många arter. En användare väljer en gen av intresse, storleken på den genomiska regionen och antalet genom för jämförelsen. Displayen gör BLASTLIKHETEN hos fokusgenen och likheten hos de omgivande generna inom regionen (figur 3E).
i RAST förlitar sig detta verktyg på en förberäknad databas med all-to-all BLAST (28) likheter för att bestämma uppsättningen genom som har en matchning till genen av intresse och beräknar en detaljerad parvis jämförelse av gener i det valda området för att färgkoda data. På grund av antalet genom i PATRIC-databasen är denna metod för långsam för realtidsanvändning. PATRIC-versionen av detta verktyg baserar fokusgenuppslag och färgkodning på antingen genspecifika (PLFam) eller globala (PGFam) proteinfamiljer (35), som är förberäknade för varje genom, så sökutrymmet är mer scoped. Denna visualisering är dock skalbar eftersom BLAST endast används för att beräkna proteinlikhet för fokusgenerna inom uppsättningen.
delsystem
delsystem är samlingar av funktionellt relaterade proteiner och är en viktig konceptuell anordning för att identifiera och projicera proteinfunktioner över arter (7,52). PATRIC beräknar nu och visar delsystemdata för varje offentlig och privat kommenterad genomsekvens. Delsystem, som härrör från manuell anteckning av ett team av expertkuratorer, är indelade i superklass (exempel: Metabolism), klass (exempel: stressrespons, försvar och virulens), underklass (exempel: resistens mot antibiotika och giftiga föreningar), Delsystemnamn (exempel: Arsenikresistens) och den funktionella rollen för var och en av de inkluderade generna. Genom att klicka på fliken delsystem för alla genom ger tre olika vyer. Delsystemsöversikten visar ett cirkeldiagram som visar procentandelen av generna som finns i en viss superklass. Fliken delsystem innehåller antalet gener som finns i en viss superklass. Fliken gener innehåller en lista över alla gener över alla delsystem och inkluderar PATRIC-och RefSeq locus-taggarna (47). Delsysteminformation är inte bara tillgänglig för enskilda genom, men summeras också för varje taxonomisk nivå, hela vägen upp till Superkingdom med hjälp av NCBI taxonomi (53). En heatmap-vy som visar närvaro och frånvaro av specifika proteiner per valt delsystem över en taxon eller en specifik genomgrupp kan skapas av användaren.
kommandoradsgränssnitt (CLI)
under de senaste 5 åren har PATRIC-datalagret hanterats med en NoSQL Apache Solr-databasstruktur. För att tillgodose den snabbt växande datainsamlingen och för att dra fördel av skalbarhet och motståndskraft konverterades PATRIC-databasarkitekturen till en Apache SolrCloud-databasarkitektur våren 2019. Solrcloud-databasen är uppdelad i en serie SolrCores för hantering av relaterade datatyper, såsom genomfunktioner, sekvenser och transkriptomiska data. Ett underliggande applikationsprogrammeringsgränssnitt (API) möjliggör programmatisk åtkomst till dessa kärnor och de data som de innehåller; datainsamling kan dock bli komplex när man navigerar och sammanfogar fält från de olika kärnorna. Vi har utvecklat en uppsättning kommandoradsskript som använder API för att komma åt datalagret och utföra gemensamma analyser. Denna distribution är tillgänglig för Mac, Windows och Linux operativsystem, inklusive Ubuntu och CentOS 6 och 7, och Fedora 28 och 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Både distributionen och PATRIC-webbplatsen innehåller handledning om hur man använder skript med exempel (https://docs.patricbrc.org/cli_tutorial/). 482mb-distributionen innehåller många av de underliggande skripten i PATIRC-miljön. Vissa möjliggör massnedladdning, sammanslagning och manipulation av data och andra möjliggör mer komplexa analyser. Distributionen innehåller också användbara skript från tidigare SEED (5) och RASTtk (8) projekt. En särskilt anmärkningsvärd funktionalitet som erbjuds av PATRIC CLI-distributionen är möjligheten att hantera filer i arbetsytan. Användare kan logga in på en privat arbetsyta, skapa underkataloger, flytta filer till eller från arbetsytan och starta annoterings-och monteringsjobb. Dessa skript ger medel för att montera och kommentera hundratals eller till och med tusentals genomsekvenser. Dessutom har vi också gjort PATRIC workspace tillgängligt via File Transfer Protocol (FTP), vilket ger ett alternativt sätt att flytta stora mängder data till och från arbetsytan. Användare kan komma åt arbetsytan med kommandoraden eller genom att använda en FTP-filhanterare. Vi planerar att fortsätta utveckla kommandoradsverktygen för att möjliggöra större tillgång till tjänster och enklare datamanipulation.
framtida riktningar
år 2020 kommer PATRIC-teamet vid University of Chicago, University of Virginia och Fellowship for Interpretation of Genomes att kombinera med det virala BRC-teamet som stöder ViPR (Virus Pathogen Database and Analysis Resource) och IRD (Influensaforskningsdatabas) resurser vid J. Craig Venter Institute (JCVI). Det nybildade bakteriella och virala BRC-teamet (BV-BRC) kommer att fortsätta att underhålla PATRIC -, IRD-och ViPR-webbplatserna medan de lägger till ny korsningsfunktionalitet. Vi har för avsikt att fokusera starkt på att förbättra nyttan av den nya BV-BRC resurs för epidemiologisk analys, utöka datalagret till att omfatta andra data och metadatatyper, öka tillgången till strukturerade data som kan användas i artificiell intelligens applikationer, och förbättra driftsättning arkitektur för verktyg och tjänster.
finansiering
National Institute of Allergy and Infectious Diseases (NIAID) . Finansiering för Open access charge: NIAID.
intressekonflikt uttalande. Ingen anges.
anteckningar
nuvarande adress: James J. Davis, Argonne National Laboratory, Computing, miljö och biovetenskap, 9700 S. Cass Avenue, Argonne, IL 60439, USA.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
.
.
;
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
.
;
:
–
.
,
,
,
.
;
:
.
,
,
,
.
.
;
:
–
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
.
.
;
:
–
.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
.
;
:
–
.
,
,
,
div>,
,
,
,
.
.
;
:
.
,
,
div>.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
.
.
;
:
–
.
,
,
.
;
:
–
.
.
;
:
–
.
,
.
;
:
–
.
,
,
.
.
;
:
.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
.
;
.
,
,
.
;
:
–
.
.
;
http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.
.
;
:
–
.
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
.
.
;
:
.
,
,
.
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
;
:
.
.
;
:
.