Articles

het PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities

september 13, 2021 by admin

Abstract

Het PathoSystems Resource Integration Center (PATRIC) is het bacteriële Bioinformatics Resource Center gefinancierd door het National Institute of Allergy and Infectious Diseases (https://www.patricbrc.org). PATRIC ondersteunt bioinformatische analyses van alle bacteriën met een speciale nadruk op pathogenen, die een rijke vergelijkende analyseomgeving aanbieden die gebruikers toegang biedt tot meer dan 250 000 uniform geannoteerde en publiek beschikbare genomen met samengestelde metadata. PATRIC biedt web-based visualisatie en vergelijkende analyse tools, een private werkruimte waarin gebruikers hun eigen gegevens kunnen analyseren in de context van de openbare collecties, diensten die complexe bioinformatische workflows stroomlijnen en command-line tools voor bulk data analyse. In de afgelopen jaren, als genomische en andere omics-gerelateerde experimenten meer kosteneffectief en wijdverbreid zijn geworden, hebben we een aanzienlijke groei waargenomen in het gebruik van en de vraag naar eenvoudig te gebruiken, openbaar beschikbare bioinformatische hulpmiddelen en diensten. Hier rapporteren we de recente updates van de PATRIC resource, waaronder nieuwe web-based vergelijkende analyse tools, acht nieuwe diensten en de release van een command-line interface voor toegang, query en analyseren van gegevens.

introductie

Het Bioinformatics Resource Center (BRC) programma werd in 2004 opgericht door het National Institute of Allergy and Infectious Diseases (NIAID) met een primaire focus op het verschaffen van toegang tot genoomsequentiegegevens en analysetools voor het bestuderen van pathogenen. PathoSystems Resource Integration Center (PATRIC) begon als een van de oorspronkelijke centra belast met het ondersteunen van vergelijkende analyse van bacteriële pathogenen (1-3). In 2009, PATRIC samengevoegd met de National Microbial Pathogen Database Resource (NMPDR) BRC (4), die de succesvolle zaad database en Rast (Rapid Annotation using Subsystem Technology) annotation system voor uniform curating en projecting genoom annotaties over microbiële species (5-8) had ontwikkeld. In de loop der jaren is de PATRIC-bron uitgebreid en aangepast om gelijke tred te houden met de groei in bioinformatische datasets en de behoefte aan bijbehorende analysetools. Vanaf September 2019, PATRIC omvat meer dan 250 000 openbaar beschikbare microbiële genomen en een rijke vergelijkende analyse omgeving.

sinds de lancering in 2008 heeft RAST (http://rast.nmpdr.org) ∼700 000 taken voor genoomannotatie uitgevoerd voor particuliere gebruikers. Door toegang te verlenen tot de identificatiescripts van de genoomeigenschappen die door de academische gemeenschap en consistente projecties van goed-gecureerde eiwitfuncties van het zaad worden ontwikkeld, dient RAST als model voor een succesvolle bioinformatische dienst omdat het de behoefte voor gebruikers verlicht om hun eigen douaneannotatiepijpleidingen te bouwen, en zijn consistentie laat downstream vergelijkende analyses toe. Gebruikend Rast als malplaatje, begon PATRIC in 2014 een verscheidenheid van bioinformatic diensten door de website te implementeren die gebruikers toestaan om genoomopeenvolgingen te assembleren en te annoteren, metabolische modellen te reconstrueren, SNPs en INDELs te analyseren, en RNA-seq experimenten te analyseren en te vergelijken. De resultaten van deze analysebanen kunnen dan worden vergeleken met de publiek beschikbare genomic-en andere omic-gegevensverzamelingen in de bron, terwijl ze privé worden gehouden binnen de werkomgeving van de gebruiker. Tegen het einde van 2016, PATRIC was het verwerken van 1500 1500 service banen per maand, exclusief banen worden ingediend op de RAST website (3).

sinds het laatst beschreven in Nucleïnezuuronderzoek in 2016 (3), heeft PATRIC een reeks updates en verbeteringen ondergaan. De gegevensverzameling is verbeterd, vooral op het gebied van antimicrobiële resistentie (AMR) (9); de webbrowseromgeving is verbeterd met nieuwe tools en visualisaties; en verbeteringen aan de werkruimte hebben het ook gemakkelijker gemaakt om onderzoeksgegevens te vinden en te delen. Een command line interface (CLI) voor bulk data acquisitie en analyse is gebouwd en vrijgegeven voor distributie op Mac, Linux en Windows-systemen. PATRIC heeft ook acht nieuwe bioinformatic diensten gelanceerd, met recente nadruk die op de capaciteit worden geplaatst om gegevens van gemengde culturen of metagenomic steekproeven te analyseren. Eindelijk is er een rijke verzameling tutorials gemaakt om gebruikers te helpen met deze nieuwe tools (https://docs.patricbrc.org/tutorial/). Dit rapport beschrijft veel van de recente niet-gepubliceerde updates van de PATRIC resource.

Wat is er nieuw in PATRIC?

gegevensgroei en-verbeteringen

een van de meest dramatische veranderingen in het ondersteunen van bioinformatisch werk sinds het begin van het BRC-programma was de exponentiële groei van publiek beschikbare microbiële genoomsequenties (figuur 1). De inzameling van particuliere gebruikersnoomsequenties die door PATRIC zijn geannoteerd en geïndexeerd is ook gegroeid sinds de oprichting van de werkruimteomgeving, en kan eigenlijk de grootte van de openbare verzameling van de genoomsequentie binnen het volgende jaar overschrijden (figuur 1). Hoewel de privéverzameling enkele opnieuw geanalyseerde genoomsequenties bevat, is

figuur 1.

cumulatieve groei van publieke en private genomen in PATRIC.

figuur 1.

cumulatieve groei van publieke en private genomen in PATRIC.

we zien geen aanwijzingen dat de sequencing van het microbiële genoom en de bijbehorende bioinformatische analyses vertragen. De toename van publiek beschikbare gegevens van de genoomopeenvolging en verwante gestructureerde metadata heeft ook een revolutie teweeggebracht in de soorten experimentele analyses die mogelijk zijn. PATRIC verstrekt bijvoorbeeld gestructureerde en handmatig samengestelde metadata die verbonden zijn aan elk genoom, met inbegrip van laboratorium-afgeleide AMR-fenotypen, gastheerorganismen, isolatiebronnen, gegevens van de plaats van het menselijk lichaam en geografische informatie. Deze collecties van gestructureerde metadata vormen de basis voor het uitvoeren van machine learning en deep learning experimenten (10,11), en voor het verstrekken van voorspellende tools aan gebruikers (9). We verwachten dat het toegenomen gebruik van kunstmatige intelligentie technieken in de bio-informatica experimentele ontwerpbeslissingen zal aandrijven en uiteindelijk de tijd zal verkorten die nodig is voor genetische en andere laboratorium-gebaseerde karakterisatie experimenten.

Ondersteuning van AMR-onderzoek is een belangrijk aandachtsgebied voor gegevensverzameling en-curatie bij PATRIC. We beheren actief zowel AMR-eiwitannotaties als laboratorium-afgeleide AMR-fenotype data geassocieerd met publieke genomen. Het annotatiesysteem kan meer dan 600 hand-curated AMR eiwitfuncties nauwkeurig projecteren. Het bevat ook een grote inzameling van nauw verwante niet-AMR eiwitfuncties die zijn samengesteld om valse voorspellingen van AMR functies te verhinderen. Om een extra middel van vergelijking te bieden, zoekt het annotatiesysteem ook naar genen met een hoge gelijkenis met die gecureerd door de kaart (12) en NCBI AMR gen database projecten (13). De in het laboratorium verkregen AMR-fenotype-verzameling is gegenereerd door het samenstellen van gegevens uit de literatuur, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) en andere openbare bronnen. Het is uitgegroeid tot meer dan 40 000 genoomsequenties en wordt gebruikt door onderzoekers wereldwijd. We hebben ook meer dan 10 000 plasmide-en profagesequenties toegevoegd vanwege hun belang bij het bestuderen en bestrijden van AMR.

diensten

de diensten van PATRIC zijn ontworpen om eenvoudige toegang tot complexe bioinformatische workflows mogelijk te maken. Ze zijn toegankelijk via de PATRIC webinterface en CLI. De meeste diensten hebben de capaciteit om honderden of zelfs duizenden banen per dag af te handelen. Taken worden meestal uitgevoerd op een reeks interne servers, waarbij de piekcapaciteit wordt afgehandeld door een groot computercluster. De PATRIC-diensten zijn sinds 2014 in populariteit gegroeid en sinds September 2019 zijn meer dan 263 000 banen met succes voltooid (Figuur 2).

Figuur 2.

door gebruikers geïnitieerde analysetaken die zijn voltooid door de PATRIC bioinformatic services. De bovenste plot toont het gebruik van high-volume diensten. De onderste plot toont het gebruik van een lager volume en nieuwe diensten. Let op het verschil in schaal tussen de twee percelen.

Figuur 2.

opmerkelijke updates van bestaande diensten

drie van onze reeds bestaande diensten, Genome Assembly, Genome Annotation en RNA-seq analyse, hebben verschillende opmerkelijke updates ondergaan. De Genoomassemblagedienst is herbouwd met een nieuwe job scheduler die een eerlijker job-queuing proces toelaat dat grote banen verhindert bottlenecks te creëren (14). Naast SPAdes (15) hebben we Canu (16) voor langlezen en Unicycler voor hybride lang-en kortlezen (17) toegevoegd. We geven ook een beeld van de assemblagegrafiek met behulp van Verband (18), en assemblages kunnen worden gepolijst met behulp van Racon (19) en Pilon (20) voor respectievelijk lang – en kort-gelezen assemblages. Eindelijk wordt leestoewijzing uitgevoerd om nauwkeurige dekkingsstatistieken te genereren met Bowtie2 (21) of Minimap2 (22) en SAMtools (23). Twee nieuwe toevoegingen aan de dienst Genoomannotatie omvatten de capaciteit om de opeenvolgingen van het genoom van de bacteriofaag te annoteren (24) en de berekening van de statistieken van de genoomkwaliteit die op de CheckM-toepassing (25) en een intern Rast-model worden gebaseerd dat kwaliteit beoordeelt op het voorkomen en de volledigheid van subsysteemrollen in het genoom (26) wordt gebaseerd. De RNA-seq analysedienst is ook bijgewerkt om experimenten toe te laten die gastheerreactie op microbiële besmettingen bestuderen. Om dit te ondersteunen, hebben wij verscheidene gemeenschappelijke eukaryotic gastheer referentie genomen met inbegrip van Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, haan, haan, Homo sapiens, Macaca mulatta, mus spier, Wezel putorius furo, Rattus norvegicus en sus scrofa toegevoegd. Wij hebben ook onlangs hisat2 (hiërarchisch indexeren voor gesplitste uitlijning van afschriften) (27), een hoogst efficiënt systeem toegevoegd voor het uitlijnen van Leest van RNA-Seq experimenten aan gastheer genomen en toegelaten invoer van datasets van SRA in de interface RNA-seq, verder verbeterend het vermogen om gemengde differentiële uitdrukkingsanalyse van openbare en privégegevens uit te voeren.

uitgebreide genoomanalyse

een van de meest voorkomende toepassingen voor de analyse van privé-genomen bij PATRIC is dat onderzoekers hun genoomsequenties samenstellen en vervolgens annoteren met behulp van twee afzonderlijke diensten. In het voorjaar van 2018 lanceerden we een gestroomlijnde uitgebreide genoomanalyse ‘meta-service’ die sequencing leest, de assemblage en annotatie berekent en een gebruiksvriendelijke beschrijving van het genoom geeft. De output omvat een beoordeling van de genoomkwaliteit, AMR genen en fenotype voorspellingen, specialiteitsgenen, subsysteemoverzicht, identificatie van de dichtste genoomopeenvolgingen, een fylogenetic boom en een lijst van eigenschappen die het genoom van zijn dichtsbijzijnde buren onderscheiden. De uitgebreide genoomanalyse dienst is snel gestegen tot een van de meest populaire diensten in PATRIC met meer dan 11 000 banen worden voltooid sinds de lancering in April 2018.

fylogenetische bomen

het vermogen om evolutionaire relaties te reconstrueren en te visualiseren ligt in het hart van de biologie. In 2017, lanceerde PATRIC de Fylogenetic Boomdienst die gebruikers toestaat om fylogenetic bomen van uitstekende kwaliteit voor openbare en privé genoomopeenvolgingen te bouwen. De service biedt momenteel twee workflows aan de gebruiker. De eerste is een op eiwitten gebaseerde Boombouw workflow genaamd ‘All Shared Proteins’, die gebruik maakt van de phylogenomic Estimation with Progressive Refinement (PEPR) pipeline (https://github.com/enordber/pepr). PEPR werkt door gedeelde eiwitfamilies de novo voor een genoomgroep te definiëren die BLAST (28) en HMMER (29) gebruiken om gelijkaardige proteã NEN EN MCL (30) te identificeren om clusters te bouwen. Vervolgens worden uitlijningen gegenereerd met spier (31), en bijgesneden met Gblocks (32). Uiteindelijk, op basis van de voorkeur van de gebruiker, berekent PEPR de boom met behulp van FastTree (33) of RAxML (34). In 2019 lanceerden we een tweede, snellere, fylogenetische boombouwworkflow genaamd ‘Codon bomen.”Het maakt gebruik van vooraf gedefinieerde PATRIC global protein families (pgfams) (35), het selecteren van een door de gebruiker opgegeven aantal families (10-1000) die single-copy (of bijna zo) onder leden van een genoomgroep. Alignments worden geproduceerd voor eiwitopeenvolgingen van elke familie gebruikend spier (31), en hun overeenkomstige nucleotideopeenvolgingen worden aan dit aangepast gebruikend de codonalignfunctie van BioPython (36). Een aaneengeschakelde uitlijning van alle proteã nen en nucleotiden wordt geschreven aan een PHYLIP-geformatteerd dossier (37). Een verdelingsdossier voor RaxML (34) wordt dan gegenereerd, die de uitlijning in termen van proteã nen en nucleotiden in de eerste, tweede, en derde codonposities beschrijft. Ondersteuning waarden worden gegenereerd uit 100 rondes van rapid bootstrapping in RaxML (38).

naast de Newick-geformatteerde boombestanden geeft de Phylogenetic Tree Service een portable document file (PDF), een portable network graphics (PNG) en een scalable vector graphics (SVG) image file terug van de midpoint rooted tree images gegenereerd door FigTree (http://tree.bio.ed.ac.uk/software/figtree/). De fylogenetic boomweergave op de PATRIC website staat onderzoekers toe om knopen en bladeren te selecteren, die de gebruiker toelaten om groepen van specifieke clades voor verdere analyse tot stand te brengen. Het produceert ook een genoomrapport dat een lijst van de genoomopeenvolgingen en eiwitfamilies verstrekt die in de bouw van boom en de tellingen van genen, proteã nen, aminozuren en nucleotiden worden gebruikt om de boom te berekenen. Eindelijk, worden de problematische genoomopeenvolgingen die zouden kunnen worden verwijderd om de genselectie te verhogen en de sterkte van de boom te verbeteren vermeld. Sinds het werd gebouwd, zijn bijna 5000 banen verwerkt door de Fylogenetic Tree Service.

Fastq utilities

het beoordelen van de kwaliteit van sequencing reads is een belangrijke eerste stap om ervoor te zorgen dat latere analyses, zoals assemblage, annotatie, enz. zijn accuraat. De fastq Utilities Service, gelanceerd in Juli 2019, stelt gebruikers in staat om leest uit te lijnen, te meten basis oproep kwaliteit, en trim van lage kwaliteit sequenties uit gelezen bestanden. De service accepteert lang-of kort-gelezen bestanden in single-of gepaarde-end formaat. Het kan ook lezen bestanden rechtstreeks ophalen uit de NCBI Sequence Read Archive (SRA) met behulp van een run identifier als invoer. De service bestaat uit drie componenten, ’trim’, ‘FastQC’ en ‘align’, die onafhankelijk of in elke combinatie kunnen worden gebruikt. De trim-component maakt gebruik van Trim Galore (39), een perl-wikkelaar rond de Cutadapt (40) en FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) gereedschappen. De fastqc-component biedt kwaliteitscontrolecontroles op ruwe sequentiegegevens afkomstig van hoge-doorvoer sequencing pijpleidingen en maakt snelle kwaliteitscontrole mogelijk door problemen aan te geven die van invloed kunnen zijn op downstreamanalyses. De uitlijning functie uitlijnt leest naar een referentie genoomsequentie met behulp van Bowtie2 (21,41), opslaan unmapped leest en het genereren van SamStat (42) rapporten van de hoeveelheid en de kwaliteit van de uitlijningen.

Genome alignment

In November 2018 lanceerde PATRIC de Genome Alignment Service om gebruikers in staat te stellen hele genoomsequentie alignments te berekenen. Deze dienst maakt gebruik van de progressiveMauve-applicatie (43), die positionele homologie construeert meerdere genoomsequentieuitlijningen in een uitbreiding van het originele mauve-algoritme (44). De Dienst stelt onderzoekers in staat om tot twintig genoomopeenvolgingen tegelijk af te stemmen. De output van de dienst omvat een visuele vertoning van het genoom dat gebruikers toestaat om de volledige aanpassing van de genoomopeenvolging te bekijken en te onderzoeken of in te zoomen om individuele gebieden of genen te vergelijken (Figuur 3).

Figuur 3.

een workflow voor gegevensanalyse in PATRIC met behulp van de Genome Alignment Service. (A) de website interface maakt de selectie van genomen; (B) visualisatie van de uitgelijnde genomische regio ‘ s met eventuele deleties, inserties of herschikkingen; (C) inzoomen op de uitlijning Zal de genen op de vooruit en achteruit stands tonen, die kunnen worden geselecteerd; (D) het selecteren van een specifiek gen uit de Genome Alignment viewer opent de PATRIC Feature Page, waar alle beschikbare gegevens voor dat gen worden getoond. (E) het tabblad vergelijk Regio weergave op de PATRIC Gen pagina toont behoud van het geselecteerde gen (weergegeven in rood), en ook de omringende genen. (F) elk gen wordt toegewezen aan een genus-specifieke (PLFam) of globale (PGFam) eiwitfamilie die kan worden geselecteerd uit de functiepagina, en de familieleden kunnen worden vergeleken met behulp van de meervoudige Sequentieuitlijning/Genboom tool.

Figuur 3.

een workflow voor gegevensanalyse in PATRIC met behulp van de Genome Alignment Service. (A) de website interface maakt de selectie van genomen mogelijk; (B) visualisatie van de uitgelijnde genomische regio ‘ s met eventuele deleties, inserties of herschikkingen; (C) door in te zoomen op de uitlijning worden de genen getoond op de vooruit-en achteruitstand, die geselecteerd kunnen worden; (D) door een specifiek gen te selecteren uit de Genome Alignment viewer wordt de PATRIC Feature Page geopend, waar alle beschikbare gegevens voor dat gen getoond worden. (E) het tabblad vergelijk Regio weergave op de PATRIC Gen pagina toont behoud van het geselecteerde gen (weergegeven in rood), en ook de omringende genen. (F) elk gen wordt toegewezen aan een genus-specifieke (PLFam) of globale (PGFam) eiwitfamilie die kan worden geselecteerd uit de functiepagina, en de familieleden kunnen worden vergeleken met behulp van de meervoudige Sequentieuitlijning/Genboom tool.

soortgelijke genoomzoeker

wanneer een onderzoeker een nieuwe genoomsequentie heeft, is een van de eerste dingen die hij wil identificeren de naaste verwanten van het organisme, maar dit kan moeilijk zijn wanneer de publieke collectie zo groot is. PATRIC verstrekt een dienst genoemd de gelijkaardige Genoomvinder om onderzoekers toe te staan om gelijkaardige genoomopeenvolgingen snel te identificeren gebruikend puree (45). De Mash werkt door grote opeenvolgingen tot kleine representatieve schetsen te verminderen, die kunnen worden gebruikt om mutatieafstanden te schatten die op gedeelde k-mers worden gebaseerd. PATRIC staat voor vergelijking toe tegen alle openbare genoomopeenvolgingen of de NCBI-reeks van het verwijzingsgenoom. De tool stelt onderzoekers in staat om de zoekgevoeligheid aan te passen door het maximale aantal K-mers te selecteren dat gemeenschappelijk wordt gehouden, P-waardedrempel of de afstand. De resultaten worden geretourneerd als een lijst van de meest gelijkaardige genoomsequenties met overeenkomstige metadata. Zoals bij alle PATRIC-tabellen, kunnen onderzoekers sequenties selecteren om groepen te maken voor latere analyse, of de resultaten Downloaden.

taxonomische classificatie

sinds maart 2019 identificeert de taxonomische Classificatiedienst de taxonomische samenstelling van gemengde of metagenomische monsters. Deze dienst maakt gebruik van de Kraken2 (46) applicatie, die K-mers identificeert die indicatief zijn voor verschillende taxonomische eenheden. De Kraken database gebruikt door de dienst is een volledige build die is gebaseerd op alle RefSeq genoomsequenties (47), de menselijke genoomsequentie, plasmiden en vectorsequenties. Job output bevat de standaard Kraken rapport formaat, met elk bacterieel taxon hyperlinkt naar de overeenkomende pagina in PATRIC. De dienst geeft ook een Krona plot (48) dat het percentage van de leest dat is toegewezen aan elk taxon toont en stelt de gebruiker in staat om geselecteerde taxa te verkennen.

metagenomische read mapping

onderzoekers die AMR of virulentie bestuderen, kunnen geïnteresseerd zijn in het analyseren van genen in gemengde of metagenomische read sets. De Metagenome gelezen kaartdienst laat onderzoekers toe om deze specifieke genen in een reeks leest te zoeken. Het werkt door reads uit te lijnen tegen een referentiegen met behulp van KMA, die K-mer zaaien en het Needleman–Wunsch algoritme gebruikt om de reads nauwkeurig af te stemmen op de genen van belang (49). Gebruikers kunnen zich momenteel afstemmen op de referentiegensets van de uitgebreide Antibioticaresistentiedatabase (CARD) (50) en de Virulentiefactor-Database (VFDB) (51). De service retourneert html-en tekstversies van het standaard KMA-rapport, dat gedetailleerde mapping-informatie toont, links naar genen in PATRIC met hoge gelijkenis, en een consensusreeks samengesteld uit de uitgelijnde leest.

metagenomic binning

gelanceerd in augustus 2017, verzamelt de metagenomic Binning Service leest van een metagenomic sample in contigs en probeert vervolgens deze contigs te scheiden in bakken die de genomen van individuele soorten vertegenwoordigen. Deze bakken worden dan volledig geannoteerd en gedetailleerde kwaliteitsstatistieken worden berekend voor elke bak. Het binningalgoritme begint met het aftasten van contigs voor specifieke teller proteã nen die bijna altijd afzonderlijk voorkomen in het genoom. De teller-eiwit gelijkenis wordt gebruikt om gelijkaardige genomen van PATRIC aan te werven, die dan worden gebruikt om extra contigs aan te werven die op onderscheidende proteã ne k-mers worden gebaseerd. Gelijkaardig aan enig isolaat genomen, worden de bakken geplaatst in de werkruimte van de gebruiker en geïndexeerd binnen het PATRIC-gegevensbestand als privé genomen, die het volledige gebruik van de Patric vergelijkende analyse en visualisatiehulpmiddelen voor elke bak toestaan.

webgebaseerde analysetools

De PATRIC-website biedt verschillende interactieve visuele analysehulpmiddelen waarmee gebruikers omics-datasets kunnen vergelijken. Deze tools integreren gegevens van verschillende soorten, het uitvoeren van een aantal computationele taken en maken interactieve visualisaties voor de gebruiker. PATRIC ondersteunt momenteel vele op het web gebaseerde analysetools, zoals de Heat Map Viewer voor het vergelijken van gedeelde eiwitinhoud, de Pathway Viewer voor het verkennen van metabolische wegen en de Genoombrowser voor het weergeven van genomische eigenschappen op het chromosoom. We hebben twee nieuwe visualisaties toegevoegd aan de PATRIC-website die oorspronkelijk bestond op de Rast-en SEED-websites, maar vereist aanzienlijke reengineering om functioneel te zijn voor gebruik met honderdduizenden genomen.

regioviewer vergelijken

De Regioviewer vergelijken stelt onderzoekers in staat om genbuurten (genetische loci of chromosomale clusters) over vele soorten te vergelijken. Een gebruiker selecteert een gen van belang, de grootte van het genomic gebied en het aantal genomen voor de vergelijking. De vertoning maakt de ontploffing gelijkenis van het focusgen, en de gelijkenis van de omringende genen binnen het gebied (figuur 3E).

in RAST is deze tool gebaseerd op een vooraf berekende database van all-to-all Blast (28) gelijkenissen om de verzameling genomen te bepalen die overeenkomt met het gen van belang, en berekent een gedetailleerde paarsgewijze vergelijking van genen in het geselecteerde gebied om de gegevens in kleur te coderen. Wegens het aantal genomen in het PATRIC-gegevensbestand, is deze methode te langzaam voor real-time gebruik. De PATRIC versie van dit hulpmiddel baseert de focus gen lookup en kleur codering op of de genus-specifieke (PLFam) of globale (PGFam) eiwitfamilies (35), die voor elk genoom worden berekend, zodat is de onderzoeksruimte meer scoped. Nochtans, is deze visualisatie schaalbaar omdat de ontploffing slechts wordt gebruikt om eiwit gelijkenis voor de nadruk genen binnen de reeks te berekenen.

subsystemen

subsystemen zijn collecties van functioneel gerelateerde eiwitten en zijn een essentieel conceptueel apparaat voor het identificeren en projecteren van eiwitfuncties tussen soorten (7,52). PATRIC berekent en toont nu subsysteemgegevens voor elke openbare en privé geannoteerde genoomsequentie. Subsystemen, die het resultaat zijn van handmatige annotatie door een team van deskundige curatoren, zijn onderverdeeld in superklasse (voorbeeld: metabolisme), Klasse (voorbeeld: stressrespons, afweer en virulentie), subklasse (voorbeeld: resistentie tegen antibiotica en toxische verbindingen), Subsysteemnaam (voorbeeld: Arseenresistentie) en de functionele rol van elk van de meegeleverde genen. Klikken op het tabblad subsystemen voor een genoom biedt drie verschillende weergaven. Het overzicht van subsystemen toont een cirkeldiagram dat het percentage genen weergeeft dat zich in een bepaalde superklasse bevindt. Het tabblad subsystemen bevat het aantal genen dat in een bepaalde superklasse wordt gevonden. De genen tab bevat een lijst van alle genen in alle subsystemen, en bevat de PATRIC en RefSeq locus tags (47). Subsysteeminformatie is niet alleen beschikbaar voor individuele genomen, maar wordt ook opgeteld voor elk taxonomisch niveau, helemaal tot Superkingdom met behulp van de NCBI taxonomie (53). Een heatmap weergave die de aanwezigheid en afwezigheid van specifieke eiwitten per geselecteerd subsysteem in een taxon of een specifieke genoomgroep kan worden gemaakt door de gebruiker.

Command-Line Interface (CLI)

De afgelopen 5 jaar wordt het PATRIC-gegevensarchief beheerd met behulp van een NoSQL Apache Solr-databasestructuur. Om tegemoet te komen aan de snel groeiende dataverzameling en om de voordelen schaalbaarheid en veerkracht te benutten, werd de PATRIC database architectuur in het voorjaar van 2019 omgezet naar een Apache SolrCloud database architectuur. Het solrcloud-gegevensbestand is verdeeld in een reeks SolrCores voor het beheren van verwante Gegevenstypes, zoals genoomeigenschappen, opeenvolgingen en transcriptomic gegevens. Een onderliggende application programming interface (API) maakt programmatische toegang tot deze kernen en de gegevens die ze bevatten mogelijk; echter, data-acquisitie kan complex worden bij het navigeren en samenvoegen van Velden uit de verschillende kernen. We hebben een set opdrachtregelscripts ontwikkeld die de API gebruiken voor toegang tot de gegevensopslag en het uitvoeren van gemeenschappelijke analyses. Deze distributie is beschikbaar voor Mac, Windows en Linux besturingssystemen, inclusief Ubuntu en CentOS 6 en 7, en Fedora 28 en 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Zowel de distributie als de PATRIC website bevatten tutorials over het gebruik van scripts met voorbeelden (https://docs.patricbrc.org/cli_tutorial/). De 482mb distributie bevat veel van de onderliggende scripts van de PATIRC omgeving. Sommige maken het bulk downloaden, samenvoegen en manipuleren van gegevens mogelijk en andere maken complexere analyses mogelijk. De distributie bevat ook nuttige scripts van eerdere SEED (5) en RASTtk (8) projecten. Een bijzonder opmerkelijke functionaliteit aangeboden door de PATRIC CLI distributie is de mogelijkheid om bestanden te beheren in de werkruimte. Gebruikers kunnen inloggen op een privéwerkruimte, submappen maken, bestanden naar of uit de werkruimte verplaatsen en annotatie-en assemblagetaken starten. Deze scripts verstrekken de middelen voor het assembleren en het annoteren van honderden of zelfs duizenden genoomopeenvolgingen. Daarnaast hebben we ook de PATRIC-werkruimte toegankelijk gemaakt via File Transfer Protocol (FTP), dat een alternatief middel biedt om grote hoeveelheden gegevens naar en uit de werkruimte te verplaatsen. Gebruikers kunnen toegang krijgen tot de werkruimte via de opdrachtregel of met behulp van een FTP-bestandsbeheer. We zijn van plan om door te gaan met het ontwikkelen van de command-line tools om meer toegang tot diensten en eenvoudiger data manipulatie mogelijk te maken.

toekomstige richtingen

in 2020 zullen het PATRIC-team van de Universiteit van Chicago, De Universiteit van Virginia en de Fellowship for Interpretation of Genomes gecombineerd worden met het viral BRC-team dat de ViPR-middelen (Virus Pathogen Database and Analysis Resource) en IRD-middelen (Influenza Research Database) van het J. Craig Venter Institute (JCVI) ondersteunt. Het nieuwe bacteriële en virale BRC-team (BV-BRC) zal de PATRIC -, IRD-en ViPR-websites blijven onderhouden en nieuwe transversale functionaliteit toevoegen. We willen ons sterk richten op het verbeteren van het nut van de nieuwe BV-BRC bron voor epidemiologische analyse, het uitbreiden van de data store met andere data en metadata types, het vergroten van de toegang tot gestructureerde data die gebruikt kunnen worden in artificial intelligence applicaties, en het verbeteren van de implementatie architectuur voor de tools en diensten.

financiering

Nationaal Instituut voor Allergie en infectieziekten (NIAID) . Financiering voor open access charge: NIAID.

verklaring inzake belangenconflicten. Geen vermeld.

notities

huidig adres: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 S. Cass Avenue, Argonne, IL 60439, USA.

Snyder

Kampanya

Nordberg

E. K.

Karur

Uur

Shukla

Soneja

Tian

Xue

Yoo

PATRIC: het VBI pathosystems resource integration center

nucleïnezuren res.

2006

;

D401

–

D406

Wattam

A. R.

Abraham

Dalay

Disz

T. L.

Driscoll

Gabbard

J. L.

Gillespie

J. J.

Gough

Hix

Kenyon

PATRIC, the bacterial bioinformatics database and analysis resource

nucleïnezuren res.

2013

;

D581

–

D591

Wattam

A. R.

Davis

J. J.

Assaf

Boisvert

Brettin

Bol

Conrad

Dietrich

E. M.

Disz

Gabbard

J. L.

verbeteringen aan PATRIC, de all-bacterial bioinformatics database and analysis resource center

nucleïnezuren res.

2016

;

D535

–

D542

McNeil

L. K.

Reich

Aziz

R. K.

Bartels

Cohoon

Disz

Edwards

R. A.

Gerdes

Hwang

Kubal

The National Microbial Pathogen Database Resource (NMPDR): een genomicsplatform gebaseerd op subsystem annotation

nucleïnezuren res.

2006

;

D347

–

D353

Overbeek

Olson

Pusch

G. D.

Olsen

G. J.

Davis

J. J.

Disz

Edwards

R. A.

Gerdes

Parrello

Shukla

SEED and the Rapid Annotation of microbial genomes using Subsystems Technology (RAST)

nucleïnezuren res.

2013

;

D206

–

D214

Aziz

R. K.

Bartels

Beste

A. A.

DeJongh

Disz

Edwards

R. A.

Formsma

Gerdes

Glas

E. M.

Kubal

de Rast-Server: snelle annotaties met behulp van subsysteemtechnologie

BMC Genomics

2008

;

Overbeek

Begley

Butler

R. M.

Choudhuri

J. V.

Chuang

H.-J.

Cohoon

de Crécy-Lagard

Diaz

Disz

Edwards

de subsysteembenadering van genoomannotatie en het gebruik ervan in het project om 1000 genomen te annoteren

nucleïnezuren res.

2005

;

5691

–

5702

Brettin

Davis

J. J.

Disz

Edwards

R. A.

Gerdes

Olsen

G. J.

Olson

Overbeek

Parrello

Pusch

G. D.

RASTtk: een modulaire en uitbreidbare implementatie van het Rast-algoritme voor het bouwen van aangepaste annotatiepijpleidingen en het annoteren van batches genomen

Sci. Rapport

2015

;

8365

Antonopoulos

D. A.

Assaf

Aziz

R. K.

Brettin

Bol

Conrad

Davis

J. J.

Dietrich

E. M.

Disz

Gerdes

PATRIC als een unieke bron voor het bestuderen van antimicrobiële resistentie

kort. Bioinform.

2019

;

1094

–

1102

Nguyen

Brettin

Lang

Musser

J. M.

Olsen

R. J.

Olson

Shukla

Stevens

R. L.

Xia

Yoo

ontwikkelen van de in silico minimum inhibitory concentration panel test voor Klebsiella pneumoniae

Sci. Rapport

2018

;

421

Nguyen

Lang

McDermott

P. F.

Olsen

R. J.

Olson

Stevens

R. L.

Tyson

G. H.

Zhao

Davis

J. J.

machine learning gebruiken om antimicrobiële MICs en geassocieerde genoomkenmerken voor niet-tyfoïdale Salmonella

te voorspellen.

J. Blink. Microbiol.

2019

;

e01260-18

Jia

Raphenya

A. R.

Alcock

Waglechner

Guo

Tsang

Lago

B. A.

Dave

B. M.

Pereira

Sharma

A. N.

kaart 2017: uitbreiding en modelgerichte curatie van de uitgebreide antibioticaresistentiedatabase

nucleïnezuren res.

2016

;

D566

–

D573

Feldgarden

Brover

de Steel

D. H.

Prasad

A. B.

Slotta

D. J.

Tolstoj

Tyson

G. H.

Zhao

Hsu

C.-H.

McDermott

P. F.

Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

Antimicrob. Agents Chemother.

2019

;

e00483-19

Yoo

A.B.

Jette

M.A.

Grondona

Slurm: Simple linux utility for resource management

Workshop on Job Scheduling Strategies for Parallel Processing

2003

;

Berlin, Heidelberg

Springer

–

Bankevich

Nurk

Antipov

Gurevich

A. A.

Dvorkin

Kulikov

A. S.

Leucine

V. M.

Nikolenko

S. I.

Pham

Prjibelski

A. D.

Schoppen: een nieuwe genoom montage algoritme en de toepassingen op één cel sequencing

J. computer. Biol.

2012

;

455

–

477

Koren

Walenz

B. P.

Berlin

Miller

J. R.

Bergman

N. H.

Phillippy

A. M.

Canu: schaalbare en mogelijk nauwkeurige lange-lees montage via adaptive k-mer weging en herhaal scheiding

Genome res.

2017

;

722

–

736

Wick

R. R.

Judd

L. M.

Gorrie

C. L.

Holt

K. E.

Unicycler: resolving bacterial genome assemblies from short and long sequencing reads

PLoS berekenen. Biol.

2017

;

e1005595

Wick

R. R.

Schultz

M. B.

Zobel

Holt

K. E.

trussen: interactieve visualisatie van de novo genome Assemblies

Bioinformatica

2015

;

3350

–

3352

Sovic

Nagarajan

Šikić

snelle en mogelijke nauwkeurige DE novo genoom assemblage van lange ongecorrigeerde reads

Genome res.

2017

;

737

–

746

Walker

B. J.

Abeel

Shea

Priester

Abouelliel

Sakthikumar

Cuomo

C. A.

Wortman

div> young

S. K.

Pylon: the integrated tool for comprehensive microbial variants detection and Genome Assembly Improvement

PLoS One

2014

;

e112963

Langmead

Yates

S. L.

Fast gapped-read alignment with Bowtie 2

Nat. Methoden

2012

;

357

–

359

Minimap2: paarsgewijze uitlijning voor nucleotidesequenties

Bioinformatica

2018

;

3094

–

3100

Het

Uur

Handsaker

Wysoker

Fennell

Ruan

Homer

Ook

Abecasis

Durbin

the sequence alignment / map format and SAMtools

Bioinformatica

2009

;

2078

–

2079

McNair

Aziz

R. K.

Pusch

G. D.

Overbeek

Dutilh

B. E.

Edwards

Clokie

MRJ

Kropinski

Lavigne

Faaggenoomannotatie met behulp van de Rast-pijplijn

bacteriofagen methoden en protocollen

2018

;

Humana Press

231

–

238

Parken

D. H.

Imelfort

Skennerton

C. T.

Hugenholtz

Tyson

G. W.

CheckM: beoordeling van de kwaliteit van microbiële genomen teruggevonden in isolaten, enkele cellen en metagenomen

Genome res.

2015

;

1043

–

1055

Parrello

Butler

Chlenski

Olson

Overbeek

Pusch

G. D.

Vonstein

Overbeek

de op machine learning gebaseerde dienst voor het schatten van de kwaliteit van genomen met behulp van PATRIC

BMC Bioinformatica

2019

;

486

Kim

Langmead

Yates

S. L.

HISAT: een snel gesplitste aligner met lage geheugenvereisten

Nat. Methoden

2015

;

357

–

360

Boratyn

G. M.

Camacho

Cooper

P. S.

Coulouris

Fong

, Mat

Madden

T. L.

Matten

W. T.

Wandelen

S. D.

Merezhuk

BLAST: een meer efficiënte rapport met usability verbeteringen

nucleïnezuren res.

2013

;

W29

–

W33

Eddy

S. R.

profiel verborgen Markov modellen

Bioinformatica

1998

;

755

–

763

Enright

A. J.

Van Dongen

Ouzounis

C. A.

het efficiënte algoritme voor grootschalige detectie van eiwitfamilies

nucleïnezuren res.

2002

;

1575

–

1584

Edgar

R. C.

spier: uitlijning van meerdere sequenties met hoge nauwkeurigheid en hoge doorvoer

nucleïnezuren res.

2004

;

1792

–

1797

Talavera

Castresana

verbetering van fylogenieën na het verwijderen van divergente en dubbelzinnig uitgelijnde blokken van eiwitsequentieuitlijningen

Syst. Biol.

2007

;

564

–

577

prijs

M. N.

Dehal

Arkin

A. P.

FastTree 2-bomen met ongeveer maximale waarschijnlijkheid voor grote uitlijningen

PLoS One

2010

;

e9490

Stamatakis

RAxML version 8: a tool for fylogenetic analysis and post-analysis of large fylogenies

Bioinformatica

2014

;

1312

–

1313

Davis

J. J.

Gerdes

Olsen

G. J.

Olson

Pusch

G. D.

Shukla

Vonstein

Wattam

A. R.

Yoo

Uur

PATtyFams: Proteïne voor de families van de microbiële genomen in de PATRIC database

Front. Microbiol.

2016

;

118

Cock

P. J.

Antao

Chang

J. T.

Chapman

B. A.

Cox

C. J.

Dalke

Friedberg

Hamelryck

Kauff

Wilczynski

biopython: vrij beschikbare Python Tools for Computational molecular biology and bioinformatics

Bioinformatica

2009

;

1422

–

1423

Felsenstein

PHYLIP (Fylogeny Inference Package), Versie 3.5 c

1993

; Seattle, Washington Joseph Felsenstein, Washington.

Stamatakis

Hoover

Rougemont

het Rapid bootstrap-algoritme voor de raxml-webservers

Syst. Biol.

2008

;

758

–

771

Krueger

Trim Galore: een wrapper tool rond Cutadapt en FastQC om consequent kwaliteit en adapter trimmen toe te passen op FastQ-bestanden, met wat extra functionaliteit voor mspi-verteerde RRBs-type (Reduced Representation Bisufite-Seq) bibliotheken

2012

;

(28 April 2016, Datum laatst geopend)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin

Cutadapt verwijdert adaptersequenties uit high-throughput sequencing reads

EMBnet J.

2011

;

–

Langmead

Wilks

Antonescu

Charles

read aligners schalen naar honderden threads op algemene processors

Bioinformatica

2018

;

421

–

432

Lassmann

Hayashizaki

Daub

C. O.

SAMStat: monitoring biases in next generation sequencing data

Bioinformatica

2010

;

130

–

131

Darling

A. E.

Mau

Perna

N. T.

progressiveMauve: multiple genome alignment with Gen gain, loss and herschikking

PLoS One

2010

;

e11147

Darling

A. C.

Blattner

F. R.

Perna

N.T.

Mauve: meervoudige uitlijning van geconserveerde genomische sequentie met herschikkingen

Genome res.

2004

;

1394

–

1403

Ondov

B. D.

Treangen

T. J.

Melsted

Mallonee

A. B.

Bergman

N. H.

Koren

Phillippy

A. M.

Mash: snel genoom en metagenoom schatten van de afstand met behulp van MinHash

Genome Biol.

2016

;

132

Wood

D. E.

Yates

S. L.

Kraken: ultrasnelle metagenomische sequentietaxonomie met behulp van exacte uitlijningen

Genome Biol.

2014

;

R46

de Steel

D. H.

DiCuccio

Badretdin

Brover

Chetvernin

O ‘ neill

Het

Chitsaz

Derbyshire

M. K.

Gonzales

N. R.

RefSeq: an update on prokaryotic genome annotation and curation

nucleïnezuren res.

2017

;

D851

–

D860

Ondov

B. D.

Bergman

N. H.

Phillippy

A. M.

interactieve metagenomische visualisatie in een webbrowser

BMC Bioinformatica

2011

;

385

Clausen

P. T.

Aarestrup

F. M.

Lund

snelle en nauwkeurige uitlijning van ruwe reads tegen redundante databases met KMA

BMC Bioinformatica

2018

;

307

McArthur

A. G.

Waglechner

Nizam

Yan

Azad

M. A.

Baylay

A. J.

Bhullar

Canova

M. J.

twee Pascale

Ejim

the comprehensive antibiotic resistance database

Antimicrob. Agenten Chemother.

2013

;

3348

–

3357

Liu

Zheng

Jin

Hond

Yang

VFDB 2019: de vergelijkende pathogenomic platform met het interactieve web interface

nucleïnezuren res.

2018

;

D687

–

D692

Overbeek

Olson

Pusch

G. D.

Olsen

G. J.

Davis

J. J.

Disz

Edwards

R. A.

Gerdes

Parrello

Shukla

Het ZAAD en de Snelle Aantekening van microbiële genomen met behulp van Subsystemen Technologie (RAST)

nucleïnezuren res.

2013

;

D206

–

D214

Federhen

de NCBI-taxonomiedatabase

nucleïnezuren res.

2011

;

D136

–

D143

gepubliceerd door Oxford University Press namens nucleïnezuren onderzoek 2019.

dit werk is geschreven door(een) medewerker (s) van de Amerikaanse overheid en bevindt zich in het publieke domein in de VS.

Company Pride

het PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities

Abstract

introductie

Wat is er nieuw in PATRIC?

gegevensgroei en-verbeteringen

diensten

opmerkelijke updates van bestaande diensten

uitgebreide genoomanalyse

fylogenetische bomen

Fastq utilities

Genome alignment

soortgelijke genoomzoeker

taxonomische classificatie

metagenomische read mapping

metagenomic binning

webgebaseerde analysetools

regioviewer vergelijken

subsystemen

Command-Line Interface (CLI)

toekomstige richtingen

financiering

notities

Geef een antwoord Antwoord annuleren

Archieven

Meta