het PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities
- Abstract
- introductie
- Wat is er nieuw in PATRIC?
- gegevensgroei en-verbeteringen
- diensten
- opmerkelijke updates van bestaande diensten
- uitgebreide genoomanalyse
- fylogenetische bomen
- Fastq utilities
- Genome alignment
- soortgelijke genoomzoeker
- taxonomische classificatie
- metagenomische read mapping
- metagenomic binning
- webgebaseerde analysetools
- regioviewer vergelijken
- subsystemen
- Command-Line Interface (CLI)
- toekomstige richtingen
- financiering
- notities
Abstract
Het PathoSystems Resource Integration Center (PATRIC) is het bacteriële Bioinformatics Resource Center gefinancierd door het National Institute of Allergy and Infectious Diseases (https://www.patricbrc.org). PATRIC ondersteunt bioinformatische analyses van alle bacteriën met een speciale nadruk op pathogenen, die een rijke vergelijkende analyseomgeving aanbieden die gebruikers toegang biedt tot meer dan 250 000 uniform geannoteerde en publiek beschikbare genomen met samengestelde metadata. PATRIC biedt web-based visualisatie en vergelijkende analyse tools, een private werkruimte waarin gebruikers hun eigen gegevens kunnen analyseren in de context van de openbare collecties, diensten die complexe bioinformatische workflows stroomlijnen en command-line tools voor bulk data analyse. In de afgelopen jaren, als genomische en andere omics-gerelateerde experimenten meer kosteneffectief en wijdverbreid zijn geworden, hebben we een aanzienlijke groei waargenomen in het gebruik van en de vraag naar eenvoudig te gebruiken, openbaar beschikbare bioinformatische hulpmiddelen en diensten. Hier rapporteren we de recente updates van de PATRIC resource, waaronder nieuwe web-based vergelijkende analyse tools, acht nieuwe diensten en de release van een command-line interface voor toegang, query en analyseren van gegevens.
introductie
Het Bioinformatics Resource Center (BRC) programma werd in 2004 opgericht door het National Institute of Allergy and Infectious Diseases (NIAID) met een primaire focus op het verschaffen van toegang tot genoomsequentiegegevens en analysetools voor het bestuderen van pathogenen. PathoSystems Resource Integration Center (PATRIC) begon als een van de oorspronkelijke centra belast met het ondersteunen van vergelijkende analyse van bacteriële pathogenen (1-3). In 2009, PATRIC samengevoegd met de National Microbial Pathogen Database Resource (NMPDR) BRC (4), die de succesvolle zaad database en Rast (Rapid Annotation using Subsystem Technology) annotation system voor uniform curating en projecting genoom annotaties over microbiële species (5-8) had ontwikkeld. In de loop der jaren is de PATRIC-bron uitgebreid en aangepast om gelijke tred te houden met de groei in bioinformatische datasets en de behoefte aan bijbehorende analysetools. Vanaf September 2019, PATRIC omvat meer dan 250 000 openbaar beschikbare microbiële genomen en een rijke vergelijkende analyse omgeving.
sinds de lancering in 2008 heeft RAST (http://rast.nmpdr.org) ∼700 000 taken voor genoomannotatie uitgevoerd voor particuliere gebruikers. Door toegang te verlenen tot de identificatiescripts van de genoomeigenschappen die door de academische gemeenschap en consistente projecties van goed-gecureerde eiwitfuncties van het zaad worden ontwikkeld, dient RAST als model voor een succesvolle bioinformatische dienst omdat het de behoefte voor gebruikers verlicht om hun eigen douaneannotatiepijpleidingen te bouwen, en zijn consistentie laat downstream vergelijkende analyses toe. Gebruikend Rast als malplaatje, begon PATRIC in 2014 een verscheidenheid van bioinformatic diensten door de website te implementeren die gebruikers toestaan om genoomopeenvolgingen te assembleren en te annoteren, metabolische modellen te reconstrueren, SNPs en INDELs te analyseren, en RNA-seq experimenten te analyseren en te vergelijken. De resultaten van deze analysebanen kunnen dan worden vergeleken met de publiek beschikbare genomic-en andere omic-gegevensverzamelingen in de bron, terwijl ze privé worden gehouden binnen de werkomgeving van de gebruiker. Tegen het einde van 2016, PATRIC was het verwerken van 1500 1500 service banen per maand, exclusief banen worden ingediend op de RAST website (3).
sinds het laatst beschreven in Nucleïnezuuronderzoek in 2016 (3), heeft PATRIC een reeks updates en verbeteringen ondergaan. De gegevensverzameling is verbeterd, vooral op het gebied van antimicrobiële resistentie (AMR) (9); de webbrowseromgeving is verbeterd met nieuwe tools en visualisaties; en verbeteringen aan de werkruimte hebben het ook gemakkelijker gemaakt om onderzoeksgegevens te vinden en te delen. Een command line interface (CLI) voor bulk data acquisitie en analyse is gebouwd en vrijgegeven voor distributie op Mac, Linux en Windows-systemen. PATRIC heeft ook acht nieuwe bioinformatic diensten gelanceerd, met recente nadruk die op de capaciteit worden geplaatst om gegevens van gemengde culturen of metagenomic steekproeven te analyseren. Eindelijk is er een rijke verzameling tutorials gemaakt om gebruikers te helpen met deze nieuwe tools (https://docs.patricbrc.org/tutorial/). Dit rapport beschrijft veel van de recente niet-gepubliceerde updates van de PATRIC resource.
Wat is er nieuw in PATRIC?
gegevensgroei en-verbeteringen
een van de meest dramatische veranderingen in het ondersteunen van bioinformatisch werk sinds het begin van het BRC-programma was de exponentiële groei van publiek beschikbare microbiële genoomsequenties (figuur 1). De inzameling van particuliere gebruikersnoomsequenties die door PATRIC zijn geannoteerd en geïndexeerd is ook gegroeid sinds de oprichting van de werkruimteomgeving, en kan eigenlijk de grootte van de openbare verzameling van de genoomsequentie binnen het volgende jaar overschrijden (figuur 1). Hoewel de privéverzameling enkele opnieuw geanalyseerde genoomsequenties bevat, is
cumulatieve groei van publieke en private genomen in PATRIC.
cumulatieve groei van publieke en private genomen in PATRIC.
we zien geen aanwijzingen dat de sequencing van het microbiële genoom en de bijbehorende bioinformatische analyses vertragen. De toename van publiek beschikbare gegevens van de genoomopeenvolging en verwante gestructureerde metadata heeft ook een revolutie teweeggebracht in de soorten experimentele analyses die mogelijk zijn. PATRIC verstrekt bijvoorbeeld gestructureerde en handmatig samengestelde metadata die verbonden zijn aan elk genoom, met inbegrip van laboratorium-afgeleide AMR-fenotypen, gastheerorganismen, isolatiebronnen, gegevens van de plaats van het menselijk lichaam en geografische informatie. Deze collecties van gestructureerde metadata vormen de basis voor het uitvoeren van machine learning en deep learning experimenten (10,11), en voor het verstrekken van voorspellende tools aan gebruikers (9). We verwachten dat het toegenomen gebruik van kunstmatige intelligentie technieken in de bio-informatica experimentele ontwerpbeslissingen zal aandrijven en uiteindelijk de tijd zal verkorten die nodig is voor genetische en andere laboratorium-gebaseerde karakterisatie experimenten.
Ondersteuning van AMR-onderzoek is een belangrijk aandachtsgebied voor gegevensverzameling en-curatie bij PATRIC. We beheren actief zowel AMR-eiwitannotaties als laboratorium-afgeleide AMR-fenotype data geassocieerd met publieke genomen. Het annotatiesysteem kan meer dan 600 hand-curated AMR eiwitfuncties nauwkeurig projecteren. Het bevat ook een grote inzameling van nauw verwante niet-AMR eiwitfuncties die zijn samengesteld om valse voorspellingen van AMR functies te verhinderen. Om een extra middel van vergelijking te bieden, zoekt het annotatiesysteem ook naar genen met een hoge gelijkenis met die gecureerd door de kaart (12) en NCBI AMR gen database projecten (13). De in het laboratorium verkregen AMR-fenotype-verzameling is gegenereerd door het samenstellen van gegevens uit de literatuur, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) en andere openbare bronnen. Het is uitgegroeid tot meer dan 40 000 genoomsequenties en wordt gebruikt door onderzoekers wereldwijd. We hebben ook meer dan 10 000 plasmide-en profagesequenties toegevoegd vanwege hun belang bij het bestuderen en bestrijden van AMR.
diensten
de diensten van PATRIC zijn ontworpen om eenvoudige toegang tot complexe bioinformatische workflows mogelijk te maken. Ze zijn toegankelijk via de PATRIC webinterface en CLI. De meeste diensten hebben de capaciteit om honderden of zelfs duizenden banen per dag af te handelen. Taken worden meestal uitgevoerd op een reeks interne servers, waarbij de piekcapaciteit wordt afgehandeld door een groot computercluster. De PATRIC-diensten zijn sinds 2014 in populariteit gegroeid en sinds September 2019 zijn meer dan 263 000 banen met succes voltooid (Figuur 2).
door gebruikers geïnitieerde analysetaken die zijn voltooid door de PATRIC bioinformatic services. De bovenste plot toont het gebruik van high-volume diensten. De onderste plot toont het gebruik van een lager volume en nieuwe diensten. Let op het verschil in schaal tussen de twee percelen.
door gebruikers geïnitieerde analysetaken die zijn voltooid door de PATRIC bioinformatic services. De bovenste plot toont het gebruik van high-volume diensten. De onderste plot toont het gebruik van een lager volume en nieuwe diensten. Let op het verschil in schaal tussen de twee percelen.
opmerkelijke updates van bestaande diensten
drie van onze reeds bestaande diensten, Genome Assembly, Genome Annotation en RNA-seq analyse, hebben verschillende opmerkelijke updates ondergaan. De Genoomassemblagedienst is herbouwd met een nieuwe job scheduler die een eerlijker job-queuing proces toelaat dat grote banen verhindert bottlenecks te creëren (14). Naast SPAdes (15) hebben we Canu (16) voor langlezen en Unicycler voor hybride lang-en kortlezen (17) toegevoegd. We geven ook een beeld van de assemblagegrafiek met behulp van Verband (18), en assemblages kunnen worden gepolijst met behulp van Racon (19) en Pilon (20) voor respectievelijk lang – en kort-gelezen assemblages. Eindelijk wordt leestoewijzing uitgevoerd om nauwkeurige dekkingsstatistieken te genereren met Bowtie2 (21) of Minimap2 (22) en SAMtools (23). Twee nieuwe toevoegingen aan de dienst Genoomannotatie omvatten de capaciteit om de opeenvolgingen van het genoom van de bacteriofaag te annoteren (24) en de berekening van de statistieken van de genoomkwaliteit die op de CheckM-toepassing (25) en een intern Rast-model worden gebaseerd dat kwaliteit beoordeelt op het voorkomen en de volledigheid van subsysteemrollen in het genoom (26) wordt gebaseerd. De RNA-seq analysedienst is ook bijgewerkt om experimenten toe te laten die gastheerreactie op microbiële besmettingen bestuderen. Om dit te ondersteunen, hebben wij verscheidene gemeenschappelijke eukaryotic gastheer referentie genomen met inbegrip van Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, haan, haan, Homo sapiens, Macaca mulatta, mus spier, Wezel putorius furo, Rattus norvegicus en sus scrofa toegevoegd. Wij hebben ook onlangs hisat2 (hiërarchisch indexeren voor gesplitste uitlijning van afschriften) (27), een hoogst efficiënt systeem toegevoegd voor het uitlijnen van Leest van RNA-Seq experimenten aan gastheer genomen en toegelaten invoer van datasets van SRA in de interface RNA-seq, verder verbeterend het vermogen om gemengde differentiële uitdrukkingsanalyse van openbare en privégegevens uit te voeren.
uitgebreide genoomanalyse
een van de meest voorkomende toepassingen voor de analyse van privé-genomen bij PATRIC is dat onderzoekers hun genoomsequenties samenstellen en vervolgens annoteren met behulp van twee afzonderlijke diensten. In het voorjaar van 2018 lanceerden we een gestroomlijnde uitgebreide genoomanalyse ‘meta-service’ die sequencing leest, de assemblage en annotatie berekent en een gebruiksvriendelijke beschrijving van het genoom geeft. De output omvat een beoordeling van de genoomkwaliteit, AMR genen en fenotype voorspellingen, specialiteitsgenen, subsysteemoverzicht, identificatie van de dichtste genoomopeenvolgingen, een fylogenetic boom en een lijst van eigenschappen die het genoom van zijn dichtsbijzijnde buren onderscheiden. De uitgebreide genoomanalyse dienst is snel gestegen tot een van de meest populaire diensten in PATRIC met meer dan 11 000 banen worden voltooid sinds de lancering in April 2018.
fylogenetische bomen
het vermogen om evolutionaire relaties te reconstrueren en te visualiseren ligt in het hart van de biologie. In 2017, lanceerde PATRIC de Fylogenetic Boomdienst die gebruikers toestaat om fylogenetic bomen van uitstekende kwaliteit voor openbare en privé genoomopeenvolgingen te bouwen. De service biedt momenteel twee workflows aan de gebruiker. De eerste is een op eiwitten gebaseerde Boombouw workflow genaamd ‘All Shared Proteins’, die gebruik maakt van de phylogenomic Estimation with Progressive Refinement (PEPR) pipeline (https://github.com/enordber/pepr). PEPR werkt door gedeelde eiwitfamilies de novo voor een genoomgroep te definiëren die BLAST (28) en HMMER (29) gebruiken om gelijkaardige proteã NEN EN MCL (30) te identificeren om clusters te bouwen. Vervolgens worden uitlijningen gegenereerd met spier (31), en bijgesneden met Gblocks (32). Uiteindelijk, op basis van de voorkeur van de gebruiker, berekent PEPR de boom met behulp van FastTree (33) of RAxML (34). In 2019 lanceerden we een tweede, snellere, fylogenetische boombouwworkflow genaamd ‘Codon bomen.”Het maakt gebruik van vooraf gedefinieerde PATRIC global protein families (pgfams) (35), het selecteren van een door de gebruiker opgegeven aantal families (10-1000) die single-copy (of bijna zo) onder leden van een genoomgroep. Alignments worden geproduceerd voor eiwitopeenvolgingen van elke familie gebruikend spier (31), en hun overeenkomstige nucleotideopeenvolgingen worden aan dit aangepast gebruikend de codonalignfunctie van BioPython (36). Een aaneengeschakelde uitlijning van alle proteã nen en nucleotiden wordt geschreven aan een PHYLIP-geformatteerd dossier (37). Een verdelingsdossier voor RaxML (34) wordt dan gegenereerd, die de uitlijning in termen van proteã nen en nucleotiden in de eerste, tweede, en derde codonposities beschrijft. Ondersteuning waarden worden gegenereerd uit 100 rondes van rapid bootstrapping in RaxML (38).
naast de Newick-geformatteerde boombestanden geeft de Phylogenetic Tree Service een portable document file (PDF), een portable network graphics (PNG) en een scalable vector graphics (SVG) image file terug van de midpoint rooted tree images gegenereerd door FigTree (http://tree.bio.ed.ac.uk/software/figtree/). De fylogenetic boomweergave op de PATRIC website staat onderzoekers toe om knopen en bladeren te selecteren, die de gebruiker toelaten om groepen van specifieke clades voor verdere analyse tot stand te brengen. Het produceert ook een genoomrapport dat een lijst van de genoomopeenvolgingen en eiwitfamilies verstrekt die in de bouw van boom en de tellingen van genen, proteã nen, aminozuren en nucleotiden worden gebruikt om de boom te berekenen. Eindelijk, worden de problematische genoomopeenvolgingen die zouden kunnen worden verwijderd om de genselectie te verhogen en de sterkte van de boom te verbeteren vermeld. Sinds het werd gebouwd, zijn bijna 5000 banen verwerkt door de Fylogenetic Tree Service.
Fastq utilities
het beoordelen van de kwaliteit van sequencing reads is een belangrijke eerste stap om ervoor te zorgen dat latere analyses, zoals assemblage, annotatie, enz. zijn accuraat. De fastq Utilities Service, gelanceerd in Juli 2019, stelt gebruikers in staat om leest uit te lijnen, te meten basis oproep kwaliteit, en trim van lage kwaliteit sequenties uit gelezen bestanden. De service accepteert lang-of kort-gelezen bestanden in single-of gepaarde-end formaat. Het kan ook lezen bestanden rechtstreeks ophalen uit de NCBI Sequence Read Archive (SRA) met behulp van een run identifier als invoer. De service bestaat uit drie componenten, ’trim’, ‘FastQC’ en ‘align’, die onafhankelijk of in elke combinatie kunnen worden gebruikt. De trim-component maakt gebruik van Trim Galore (39), een perl-wikkelaar rond de Cutadapt (40) en FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) gereedschappen. De fastqc-component biedt kwaliteitscontrolecontroles op ruwe sequentiegegevens afkomstig van hoge-doorvoer sequencing pijpleidingen en maakt snelle kwaliteitscontrole mogelijk door problemen aan te geven die van invloed kunnen zijn op downstreamanalyses. De uitlijning functie uitlijnt leest naar een referentie genoomsequentie met behulp van Bowtie2 (21,41), opslaan unmapped leest en het genereren van SamStat (42) rapporten van de hoeveelheid en de kwaliteit van de uitlijningen.
Genome alignment
In November 2018 lanceerde PATRIC de Genome Alignment Service om gebruikers in staat te stellen hele genoomsequentie alignments te berekenen. Deze dienst maakt gebruik van de progressiveMauve-applicatie (43), die positionele homologie construeert meerdere genoomsequentieuitlijningen in een uitbreiding van het originele mauve-algoritme (44). De Dienst stelt onderzoekers in staat om tot twintig genoomopeenvolgingen tegelijk af te stemmen. De output van de dienst omvat een visuele vertoning van het genoom dat gebruikers toestaat om de volledige aanpassing van de genoomopeenvolging te bekijken en te onderzoeken of in te zoomen om individuele gebieden of genen te vergelijken (Figuur 3).
een workflow voor gegevensanalyse in PATRIC met behulp van de Genome Alignment Service. (A) de website interface maakt de selectie van genomen; (B) visualisatie van de uitgelijnde genomische regio ‘ s met eventuele deleties, inserties of herschikkingen; (C) inzoomen op de uitlijning Zal de genen op de vooruit en achteruit stands tonen, die kunnen worden geselecteerd; (D) het selecteren van een specifiek gen uit de Genome Alignment viewer opent de PATRIC Feature Page, waar alle beschikbare gegevens voor dat gen worden getoond. (E) het tabblad vergelijk Regio weergave op de PATRIC Gen pagina toont behoud van het geselecteerde gen (weergegeven in rood), en ook de omringende genen. (F) elk gen wordt toegewezen aan een genus-specifieke (PLFam) of globale (PGFam) eiwitfamilie die kan worden geselecteerd uit de functiepagina, en de familieleden kunnen worden vergeleken met behulp van de meervoudige Sequentieuitlijning/Genboom tool.
een workflow voor gegevensanalyse in PATRIC met behulp van de Genome Alignment Service. (A) de website interface maakt de selectie van genomen mogelijk; (B) visualisatie van de uitgelijnde genomische regio ‘ s met eventuele deleties, inserties of herschikkingen; (C) door in te zoomen op de uitlijning worden de genen getoond op de vooruit-en achteruitstand, die geselecteerd kunnen worden; (D) door een specifiek gen te selecteren uit de Genome Alignment viewer wordt de PATRIC Feature Page geopend, waar alle beschikbare gegevens voor dat gen getoond worden. (E) het tabblad vergelijk Regio weergave op de PATRIC Gen pagina toont behoud van het geselecteerde gen (weergegeven in rood), en ook de omringende genen. (F) elk gen wordt toegewezen aan een genus-specifieke (PLFam) of globale (PGFam) eiwitfamilie die kan worden geselecteerd uit de functiepagina, en de familieleden kunnen worden vergeleken met behulp van de meervoudige Sequentieuitlijning/Genboom tool.
soortgelijke genoomzoeker
wanneer een onderzoeker een nieuwe genoomsequentie heeft, is een van de eerste dingen die hij wil identificeren de naaste verwanten van het organisme, maar dit kan moeilijk zijn wanneer de publieke collectie zo groot is. PATRIC verstrekt een dienst genoemd de gelijkaardige Genoomvinder om onderzoekers toe te staan om gelijkaardige genoomopeenvolgingen snel te identificeren gebruikend puree (45). De Mash werkt door grote opeenvolgingen tot kleine representatieve schetsen te verminderen, die kunnen worden gebruikt om mutatieafstanden te schatten die op gedeelde k-mers worden gebaseerd. PATRIC staat voor vergelijking toe tegen alle openbare genoomopeenvolgingen of de NCBI-reeks van het verwijzingsgenoom. De tool stelt onderzoekers in staat om de zoekgevoeligheid aan te passen door het maximale aantal K-mers te selecteren dat gemeenschappelijk wordt gehouden, P-waardedrempel of de afstand. De resultaten worden geretourneerd als een lijst van de meest gelijkaardige genoomsequenties met overeenkomstige metadata. Zoals bij alle PATRIC-tabellen, kunnen onderzoekers sequenties selecteren om groepen te maken voor latere analyse, of de resultaten Downloaden.
taxonomische classificatie
sinds maart 2019 identificeert de taxonomische Classificatiedienst de taxonomische samenstelling van gemengde of metagenomische monsters. Deze dienst maakt gebruik van de Kraken2 (46) applicatie, die K-mers identificeert die indicatief zijn voor verschillende taxonomische eenheden. De Kraken database gebruikt door de dienst is een volledige build die is gebaseerd op alle RefSeq genoomsequenties (47), de menselijke genoomsequentie, plasmiden en vectorsequenties. Job output bevat de standaard Kraken rapport formaat, met elk bacterieel taxon hyperlinkt naar de overeenkomende pagina in PATRIC. De dienst geeft ook een Krona plot (48) dat het percentage van de leest dat is toegewezen aan elk taxon toont en stelt de gebruiker in staat om geselecteerde taxa te verkennen.
metagenomische read mapping
onderzoekers die AMR of virulentie bestuderen, kunnen geïnteresseerd zijn in het analyseren van genen in gemengde of metagenomische read sets. De Metagenome gelezen kaartdienst laat onderzoekers toe om deze specifieke genen in een reeks leest te zoeken. Het werkt door reads uit te lijnen tegen een referentiegen met behulp van KMA, die K-mer zaaien en het Needleman–Wunsch algoritme gebruikt om de reads nauwkeurig af te stemmen op de genen van belang (49). Gebruikers kunnen zich momenteel afstemmen op de referentiegensets van de uitgebreide Antibioticaresistentiedatabase (CARD) (50) en de Virulentiefactor-Database (VFDB) (51). De service retourneert html-en tekstversies van het standaard KMA-rapport, dat gedetailleerde mapping-informatie toont, links naar genen in PATRIC met hoge gelijkenis, en een consensusreeks samengesteld uit de uitgelijnde leest.
metagenomic binning
gelanceerd in augustus 2017, verzamelt de metagenomic Binning Service leest van een metagenomic sample in contigs en probeert vervolgens deze contigs te scheiden in bakken die de genomen van individuele soorten vertegenwoordigen. Deze bakken worden dan volledig geannoteerd en gedetailleerde kwaliteitsstatistieken worden berekend voor elke bak. Het binningalgoritme begint met het aftasten van contigs voor specifieke teller proteã nen die bijna altijd afzonderlijk voorkomen in het genoom. De teller-eiwit gelijkenis wordt gebruikt om gelijkaardige genomen van PATRIC aan te werven, die dan worden gebruikt om extra contigs aan te werven die op onderscheidende proteã ne k-mers worden gebaseerd. Gelijkaardig aan enig isolaat genomen, worden de bakken geplaatst in de werkruimte van de gebruiker en geïndexeerd binnen het PATRIC-gegevensbestand als privé genomen, die het volledige gebruik van de Patric vergelijkende analyse en visualisatiehulpmiddelen voor elke bak toestaan.
webgebaseerde analysetools
De PATRIC-website biedt verschillende interactieve visuele analysehulpmiddelen waarmee gebruikers omics-datasets kunnen vergelijken. Deze tools integreren gegevens van verschillende soorten, het uitvoeren van een aantal computationele taken en maken interactieve visualisaties voor de gebruiker. PATRIC ondersteunt momenteel vele op het web gebaseerde analysetools, zoals de Heat Map Viewer voor het vergelijken van gedeelde eiwitinhoud, de Pathway Viewer voor het verkennen van metabolische wegen en de Genoombrowser voor het weergeven van genomische eigenschappen op het chromosoom. We hebben twee nieuwe visualisaties toegevoegd aan de PATRIC-website die oorspronkelijk bestond op de Rast-en SEED-websites, maar vereist aanzienlijke reengineering om functioneel te zijn voor gebruik met honderdduizenden genomen.
regioviewer vergelijken
De Regioviewer vergelijken stelt onderzoekers in staat om genbuurten (genetische loci of chromosomale clusters) over vele soorten te vergelijken. Een gebruiker selecteert een gen van belang, de grootte van het genomic gebied en het aantal genomen voor de vergelijking. De vertoning maakt de ontploffing gelijkenis van het focusgen, en de gelijkenis van de omringende genen binnen het gebied (figuur 3E).
in RAST is deze tool gebaseerd op een vooraf berekende database van all-to-all Blast (28) gelijkenissen om de verzameling genomen te bepalen die overeenkomt met het gen van belang, en berekent een gedetailleerde paarsgewijze vergelijking van genen in het geselecteerde gebied om de gegevens in kleur te coderen. Wegens het aantal genomen in het PATRIC-gegevensbestand, is deze methode te langzaam voor real-time gebruik. De PATRIC versie van dit hulpmiddel baseert de focus gen lookup en kleur codering op of de genus-specifieke (PLFam) of globale (PGFam) eiwitfamilies (35), die voor elk genoom worden berekend, zodat is de onderzoeksruimte meer scoped. Nochtans, is deze visualisatie schaalbaar omdat de ontploffing slechts wordt gebruikt om eiwit gelijkenis voor de nadruk genen binnen de reeks te berekenen.
subsystemen
subsystemen zijn collecties van functioneel gerelateerde eiwitten en zijn een essentieel conceptueel apparaat voor het identificeren en projecteren van eiwitfuncties tussen soorten (7,52). PATRIC berekent en toont nu subsysteemgegevens voor elke openbare en privé geannoteerde genoomsequentie. Subsystemen, die het resultaat zijn van handmatige annotatie door een team van deskundige curatoren, zijn onderverdeeld in superklasse (voorbeeld: metabolisme), Klasse (voorbeeld: stressrespons, afweer en virulentie), subklasse (voorbeeld: resistentie tegen antibiotica en toxische verbindingen), Subsysteemnaam (voorbeeld: Arseenresistentie) en de functionele rol van elk van de meegeleverde genen. Klikken op het tabblad subsystemen voor een genoom biedt drie verschillende weergaven. Het overzicht van subsystemen toont een cirkeldiagram dat het percentage genen weergeeft dat zich in een bepaalde superklasse bevindt. Het tabblad subsystemen bevat het aantal genen dat in een bepaalde superklasse wordt gevonden. De genen tab bevat een lijst van alle genen in alle subsystemen, en bevat de PATRIC en RefSeq locus tags (47). Subsysteeminformatie is niet alleen beschikbaar voor individuele genomen, maar wordt ook opgeteld voor elk taxonomisch niveau, helemaal tot Superkingdom met behulp van de NCBI taxonomie (53). Een heatmap weergave die de aanwezigheid en afwezigheid van specifieke eiwitten per geselecteerd subsysteem in een taxon of een specifieke genoomgroep kan worden gemaakt door de gebruiker.
Command-Line Interface (CLI)
De afgelopen 5 jaar wordt het PATRIC-gegevensarchief beheerd met behulp van een NoSQL Apache Solr-databasestructuur. Om tegemoet te komen aan de snel groeiende dataverzameling en om de voordelen schaalbaarheid en veerkracht te benutten, werd de PATRIC database architectuur in het voorjaar van 2019 omgezet naar een Apache SolrCloud database architectuur. Het solrcloud-gegevensbestand is verdeeld in een reeks SolrCores voor het beheren van verwante Gegevenstypes, zoals genoomeigenschappen, opeenvolgingen en transcriptomic gegevens. Een onderliggende application programming interface (API) maakt programmatische toegang tot deze kernen en de gegevens die ze bevatten mogelijk; echter, data-acquisitie kan complex worden bij het navigeren en samenvoegen van Velden uit de verschillende kernen. We hebben een set opdrachtregelscripts ontwikkeld die de API gebruiken voor toegang tot de gegevensopslag en het uitvoeren van gemeenschappelijke analyses. Deze distributie is beschikbaar voor Mac, Windows en Linux besturingssystemen, inclusief Ubuntu en CentOS 6 en 7, en Fedora 28 en 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Zowel de distributie als de PATRIC website bevatten tutorials over het gebruik van scripts met voorbeelden (https://docs.patricbrc.org/cli_tutorial/). De 482mb distributie bevat veel van de onderliggende scripts van de PATIRC omgeving. Sommige maken het bulk downloaden, samenvoegen en manipuleren van gegevens mogelijk en andere maken complexere analyses mogelijk. De distributie bevat ook nuttige scripts van eerdere SEED (5) en RASTtk (8) projecten. Een bijzonder opmerkelijke functionaliteit aangeboden door de PATRIC CLI distributie is de mogelijkheid om bestanden te beheren in de werkruimte. Gebruikers kunnen inloggen op een privéwerkruimte, submappen maken, bestanden naar of uit de werkruimte verplaatsen en annotatie-en assemblagetaken starten. Deze scripts verstrekken de middelen voor het assembleren en het annoteren van honderden of zelfs duizenden genoomopeenvolgingen. Daarnaast hebben we ook de PATRIC-werkruimte toegankelijk gemaakt via File Transfer Protocol (FTP), dat een alternatief middel biedt om grote hoeveelheden gegevens naar en uit de werkruimte te verplaatsen. Gebruikers kunnen toegang krijgen tot de werkruimte via de opdrachtregel of met behulp van een FTP-bestandsbeheer. We zijn van plan om door te gaan met het ontwikkelen van de command-line tools om meer toegang tot diensten en eenvoudiger data manipulatie mogelijk te maken.
toekomstige richtingen
in 2020 zullen het PATRIC-team van de Universiteit van Chicago, De Universiteit van Virginia en de Fellowship for Interpretation of Genomes gecombineerd worden met het viral BRC-team dat de ViPR-middelen (Virus Pathogen Database and Analysis Resource) en IRD-middelen (Influenza Research Database) van het J. Craig Venter Institute (JCVI) ondersteunt. Het nieuwe bacteriële en virale BRC-team (BV-BRC) zal de PATRIC -, IRD-en ViPR-websites blijven onderhouden en nieuwe transversale functionaliteit toevoegen. We willen ons sterk richten op het verbeteren van het nut van de nieuwe BV-BRC bron voor epidemiologische analyse, het uitbreiden van de data store met andere data en metadata types, het vergroten van de toegang tot gestructureerde data die gebruikt kunnen worden in artificial intelligence applicaties, en het verbeteren van de implementatie architectuur voor de tools en diensten.
financiering
Nationaal Instituut voor Allergie en infectieziekten (NIAID) . Financiering voor open access charge: NIAID.
verklaring inzake belangenconflicten. Geen vermeld.
notities
huidig adres: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 S. Cass Avenue, Argonne, IL 60439, USA.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
te voorspellen.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
.
.
;
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
.
;
:
–
.
,
,
,
.
;
:
.
,
,
,
.
.
;
:
–
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
.
.
;
:
–
.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
.
.
;
:
.
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
.
;
:
–
.
.
;
:
–
.
,
.
;
:
–
.
,
,
.
.
;
:
.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
.
; Seattle, Washington Joseph Felsenstein, Washington.
,
,
.
;
:
–
.
.
;
http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.
.
;
:
–
.
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
.
.
;
:
.
,
,
.
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
.
;
:
–
.