the PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities
- Abstract
- johdanto
- mitä uutta PATRICISSA on?
- tietojen kasvu ja parannukset
- palvelut
- merkittäviä päivityksiä olemassa oleviin palveluihin
- kattava genomianalyysi
- fylogeneettiset puut
- Fastq utilities
- genomin linjaus
- samantapainen genomin löytäjä
- taksonominen luokitus
- Metagenomien lukukartoitus
- Metagenomic binning
- Web-pohjaiset analyysityökalut
- Compare region viewer
- alijärjestelmät
- Komentoriviliitäntä (CLI)
- FUTURE DIRECTIONS
- rahoitus
- Notes
Abstract
PathoSystems Resource Integration Center (PATRIC) on bakteeri-bioinformatiikan resurssikeskus, jota rahoittaa National Institute of Allergy and Infectious Diseases (https://www.patricbrc.org). PATRIC tukee kaikkien bakteerien bioinformaattisia analyysejä, joissa painotetaan erityisesti taudinaiheuttajia, tarjoten rikkaan vertailevan analysointiympäristön, joka tarjoaa käyttäjille pääsyn yli 250 000 yhdenmukaisesti merkittyyn ja julkisesti saatavilla olevaan genomiin kuratoidulla metatiedolla. PATRIC tarjoaa web – pohjaisia visualisointi-ja vertailutyökaluja, yksityisen työtilan, jossa käyttäjät voivat analysoida omia tietojaan julkisten kokoelmien yhteydessä, palveluita, jotka virtaviivaistavat monimutkaisia bioinformaattisia työnkulkuja, sekä komentorivityökaluja bulkkitietoanalyysiin. Useiden viime vuosien aikana, kun genomiset ja muut omic-kokeet ovat tulleet entistä kustannustehokkaammiksi ja laajemmiksi, olemme havainneet, että helppokäyttöisten, julkisesti saatavilla olevien bioinformaattisten työkalujen ja palvelujen käyttö ja kysyntä ovat lisääntyneet huomattavasti. Tässä raportoimme PATRIC-resurssin viimeaikaisista päivityksistä, mukaan lukien uudet web-pohjaiset vertailevat analyysityökalut, kahdeksan uutta palvelua ja komentorivikäyttöliittymän julkaiseminen tietojen käyttöä, kyselyä ja analysointia varten.
johdanto
National Institute of Allergia and Infectious Diseases (NIAID) perusti vuonna 2004 Bioinformatics Resource Center (BRC) – ohjelman, jonka ensisijaisena tavoitteena on tarjota genomisekvenssitietoja ja analyysityökaluja patogeenien tutkimiseen. PathoSystems Resource Integration Center (PATRIC) aloitti yhtenä alkuperäisistä keskuksista, joiden tehtävänä oli tukea bakteerien patogeenien vertailevaa analyysiä (1-3). Vuonna 2009 PATRIC yhdistyi National Microbial Pathogen Database Resource (Nmpdr) BRC: n (4) kanssa, joka oli kehittänyt menestyksekkään SIEMENTIETOKANNAN ja RAST: n (Rapid Annotation using Subsystem Technology) merkintäjärjestelmän, jolla kuratoidaan ja projisoidaan genomihuomautuksia mikrobilajeille (5-8). Vuosien mittaan PATRIC-resurssi on laajentunut ja sopeutunut bioinformatisten aineistojen kasvun ja niihin liittyvien analyysityökalujen tarpeen mukaiseksi. PATRIC sisältää syyskuusta 2019 alkaen yli 250 000 julkisesti saatavilla olevaa mikrobigenoomaa ja runsaan vertailevan analyysiympäristön.
sen jälkeen, kun RAST (http://rast.nmpdr.org) aloitti toimintansa vuonna 2008, se on tehnyt ∼700 000 genomihuomautustyötä yksityisille käyttäjille. Tarjoamalla pääsyn akateemisen yhteisön kehittämiin genomiominaisuuksien tunnistuskäsikirjoituksiin ja johdonmukaisiin ennusteisiin hyvin kuratoiduista proteiinifunktioista siemenestä, RAST toimii mallina onnistuneelle bioinformaattiselle palvelulle, koska se helpottaa käyttäjien tarvetta rakentaa omia merkintäputkistoja ja sen johdonmukaisuus mahdollistaa vertailevat analyysit. Käyttämällä rastia mallina PATRIC alkoi vuonna 2014 toteuttaa erilaisia bioinformaattisia palveluita sivuston kautta, jonka avulla käyttäjät voivat koota ja merkitä genomisekvenssejä, rekonstruoida metabolisia malleja, analysoida SNP: tä ja Indel: iä sekä analysoida ja vertailla RNA-seq-kokeita. Näiden analyysien tuloksia voitaisiin sitten verrata resurssin julkisesti saatavilla oleviin genomisiin ja muihin omic-tiedonkeruisiin, samalla kun ne pidetään yksityisinä käyttäjän työtilaympäristössä. Vuoden 2016 loppuun mennessä PATRIC käsitteli 1500 palvelutyötä kuukaudessa, kun mukaan ei lasketa Rast: n verkkosivuille ilmoitettuja työpaikkoja (3).
sen jälkeen kun PATRIC Viimeksi kuvattiin Nukleiinihappotutkimuksessa vuonna 2016 (3), sille on tehty useita päivityksiä ja parannuksia. Tiedonkeruuta on parannettu erityisesti mikrobilääkeresistenssin (AMR) alalla (9), verkkoselausympäristöä on parannettu uusilla työkaluilla ja visualisoinneilla, ja työtilan parannukset ovat myös helpottaneet tutkimushankkeen tietojen löytämistä ja jakamista. Massatiedon hankintaan ja analysointiin on rakennettu komentoriviliitäntä (Cli), joka on julkaistu jaettavaksi Mac -, Linux-ja Windows-järjestelmille. PATRIC on myös lanseerannut kahdeksan uutta bioinformatiikkapalvelua, joissa on viime aikoina panostettu kykyyn analysoida dataa sekakulttuureista tai metagenomisista näytteistä. Vihdoin on luotu runsas kokoelma tutoriaaleja, jotka auttavat käyttäjiä näiden uusien työkalujen kanssa (https://docs.patricbrc.org/tutorial/). Tässä raportissa kuvataan monia viime aikoina julkaisemattomia päivityksiä PATRIC resource.
mitä uutta PATRICISSA on?
tietojen kasvu ja parannukset
yksi dramaattisimmista muutoksista bioinformatiikan tukemisessa BRC-ohjelman alusta lähtien on ollut julkisesti saatavilla olevien mikrobien genomisekvenssien eksponentiaalinen kasvu (Kuva 1). PATRIC on merkinnyt ja indeksoinut myös yksityisten käyttäjien genomisekvenssejä, jotka ovat kasvaneet työtilaympäristön perustamisen jälkeen ja saattavat jopa ylittää julkisen genomisekvenssikokoelman koon seuraavan vuoden aikana (kuva 1). Vaikka yksityinen joukko sisältää joitakin uudelleenanalysoituja genomisekvenssejä,
julkisten ja yksityisten genomien kumulatiivinen kasvu PATRICISSA.
julkisten ja yksityisten genomien kumulatiivinen kasvu PATRICISSA.
emme näe viitteitä siitä, että mikrobien genomin sekvensointi ja siihen liittyvät bioinformaattiset analyysit olisivat hidastumassa. Julkisesti saatavilla olevan genomisekvenssitiedon ja siihen liittyvän jäsennellyn metadatan lisääntyminen on mullistanut myös mahdolliset kokeelliset analyysit. Esimerkiksi PATRIC tarjoaa jäsenneltyä ja käsin kuratoitua metatietoa, joka liittyy jokaiseen genomiin, mukaan lukien laboratoriosta johdetut AMR-fenotyypit, isäntäorganismit, eristyslähteet, ihmiskehon sijaintitiedot ja maantieteelliset tiedot. Nämä jäsenneltyjen metatietojen kokoelmat luovat perustan koneoppimisen ja syväoppimisen kokeiluille (10,11) sekä ennakoivien työkalujen tarjoamiselle käyttäjille (9). Ennakoimme, että tekoälytekniikoiden lisääntynyt käyttö bioinformatiikassa ajaa kokeellisia suunnittelupäätöksiä ja lopulta lyhentää geneettisten ja muiden laboratoriopohjaisten karakterisointikokeiden vaatimaa aikaa.
AMR-tutkimuksen tukeminen on patricilla tärkeä tiedonkeruun ja kuratoinnin painopistealue. Kuratoimme aktiivisesti sekä AMR-proteiinihuomautuksia että julkisiin genomeihin liittyviä laboratorioperäisiä AMR-fenotyyppitietoja. Merkintäjärjestelmä pystyy projisoimaan tarkasti yli 600 käsin kuratoitua AMR-proteiinifunktiota. Se sisältää myös laajan kokoelman läheistä sukua olevia ei-AMR-proteiinifunktioita, jotka on kuratoitu estämään AMR-funktioiden vääriä ennusteita. Täydentävän vertailutavan tarjoamiseksi merkintäjärjestelmässä etsitään myös geenejä, jotka muistuttavat suuresti CARD (12) – ja NCBI AMR-geenitietokantahankkeiden (13) kuratoimia geenejä. Laboratoriojohdettu AMR-fenotyyppikokoelma on syntynyt kuratoimalla aineistoa kirjallisuudesta, NCBI: stä (https://www.ncbi.nlm.nih.gov/pathogens) ja muista julkisista lähteistä. Se on kasvanut käsittämään yli 40 000 genomisekvenssiä, ja tutkijat käyttävät sitä maailmanlaajuisesti. Olemme myös lisänneet yli 10 000 plasmidi-ja profage-sekvenssiä, koska ne ovat tärkeitä AMR: n tutkimisessa ja torjunnassa.
palvelut
Patricin tarjoamat palvelut on suunniteltu mahdollistamaan monimutkaisten bioinformaattisten työnkulkujen helppo saatavuus. Niitä voi käyttää PATRIC web-käyttöliittymän ja CLI: n kautta. Useimmat palvelut pystyvät hoitamaan satoja tai jopa tuhansia töitä päivässä. Työt suoritetaan tyypillisesti sarjalla sisäisiä palvelimia, joiden surge-kapasiteetista huolehtii suuri laskentaklusteri. PATRIC-palvelut ovat kasvattaneet suosiotaan vuodesta 2014 lähtien, ja vuoden 2019 syyskuuhun mennessä yli 263 000 työpaikkaa on saatu päätökseen (Kuvio 2).
Käyttäjäaloitteiset analyysityöt, jotka on suorittanut PATRIC bioinformatic services. Ylätontti kertoo suurien palveluiden käytöstä. Pohjatontti kertoo pienempien volyymien käytöstä ja uusista palveluista. Huomaa mittakaavaero kahden kuvaajan välillä.
Käyttäjäaloitteiset analyysityöt, jotka on suorittanut PATRIC bioinformatic services. Ylätontti kertoo suurien palveluiden käytöstä. Pohjatontti kertoo pienempien volyymien käytöstä ja uusista palveluista. Huomaa mittakaavaero kahden kuvaajan välillä.
merkittäviä päivityksiä olemassa oleviin palveluihin
kolme meidän pre=olemassa oleviin palveluihin, genomin kokoaminen, Genomihuomautus ja RNA-seq-analyysi, on tehty useita huomionarvoisia päivityksiä. Genome Assembly-palvelu on uudistettu uudella työaikataululla, joka mahdollistaa oikeudenmukaisemman työn jonotusprosessin, joka estää suuria työpaikkoja luomasta pullonkauloja (14). Patojen (15) lisäksi olemme lisänneet Canu (16) pitkälukuiseen kokoonpanoon ja Unicycler hybridisiin pitkä-ja lyhytlukuisiin kokoonpanoihin (17). Tarjoamme myös kuvan kokoonpanokaaviosta käyttäen sidosta (18), ja kokoonpanot voidaan kiillottaa Racon (19) ja Pilon (20) pitkä – ja lyhyt-lukea kokoonpanot vastaavasti. Vihdoinkin, read mapping suoritetaan tuottaa tarkkoja kattavuus tilastoja käyttäen Bowtie2 (21) tai Minimap2 (22), ja SAMtools (23). Kaksi uutta lisäystä genomin Merkintäpalveluun ovat kyky merkitä bakteriofagien genomisekvenssejä (24) ja genomin laatutilastojen laskenta, jotka perustuvat CheckM-sovellukseen (25), sekä sisäinen RASTIMALLI, joka arvioi laatua genomin osajärjestelmäroolien esiintymisen ja täydellisyyden perusteella (26). RNA-seq-analyysipalvelu on myös päivitetty mahdollistamaan kokeet, joissa tutkitaan isännän vastetta mikrobi-infektioihin. Tämän tueksi olemme lisänneet useita yleisiä eukaryoottisia isäntägenomeja, kuten Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, Cock, cock, Homo sapiens, Macaca mulatta, Mus muscle, Weasel putorius furo, Rattus norvegicus ja Sus scrofa. Olemme myös äskettäin lisänneet HISAT2 (hierarchical indexing for spliced alignment of transkripts) (27), erittäin tehokas järjestelmä yhdenmukaistaa lukee RNA-Seq kokeet isäntä genomit ja mahdollisti tuonti tietojoukkojen Sra RNA-seq käyttöliittymä, edelleen parantaa kykyä suorittaa sekoitettu differentiaali ekspression analyysi julkisten ja yksityisten tietojen.
kattava genomianalyysi
yksi yleisimmistä käyttötapauksista yksityisten genomien analysoinnissa PATRICILLA on se, että tutkijat kokoavat ja liittävät genomisekvenssinsä kahden erillisen palvelun avulla. Keväällä 2018 lanseerasimme virtaviivaisen kattavan Genomianalyysin ”meta-service”, joka hyväksyy sekvensointilukemat, laskee kokoonpanon ja merkintöjen sekä tarjoaa käyttäjäystävällisen kuvauksen genomista. Tuotos sisältää genomin laatuarvioinnin, AMR-geenit ja fenotyyppiennusteet, erikoisgeenit, alijärjestelmän yleiskatsauksen, lähimpien genomisekvenssien tunnistamisen, fylogeneettisen puun sekä luettelon piirteistä, jotka erottavat genomin lähimmistä naapureistaan. Kattava Genomianalyysipalvelu on noussut nopeasti yhdeksi Patricin suosituimmista palveluista yli 11 000 työtehtävän valmistumisen jälkeen huhtikuussa 2018.
fylogeneettiset puut
kyky rekonstruoida ja visualisoida evolutionaarisia suhteita on biologian ytimessä. Vuonna 2017 PATRIC lanseerasi Fylogenetic Tree-palvelun, jonka avulla käyttäjät voivat rakentaa laadukkaita fylogeneettisiä puita julkisiin ja yksityisiin genomisekvensseihin. Tällä hetkellä palvelu tarjoaa käyttäjälle kaksi työnkulkua. Ensimmäinen on proteiinipohjainen puurakentamisen työnkulku nimeltä ”All Shared Proteins”, jossa käytetään Fylogenomista estimointia progressiivisella tarkennuksella (PEPR) (https://github.com/enordber/pepr). PEPR toimii määrittelemällä genomiryhmälle jaetut proteiiniperheet de novo käyttäen BLAST (28) ja HMMER (29) samojen proteiinien tunnistamiseen ja MCL (30) klusterien muodostamiseen. Tämän jälkeen tasaus tehdään lihasvoimalla (31) ja viimeistellään Gblockeilla (32). Lopulta pepr laskee puun käyttäjän mieltymyksen mukaan joko Fasttreen (33) tai RAxML: n (34) avulla. Vuonna 2019 lanseerasimme toisen, nopeamman, fylogeneettisen puunrakennuksen työnkulun nimeltään ’Kodonipuut.”Se hyödyntää ennalta määriteltyjä PATRIC global protein families (pgfams)-perheitä (35) ja valitsee käyttäjän määrittämän määrän perheitä (10-1000), jotka ovat yksittäiskappaleita (tai lähes sellaisia) genomiryhmän jäsenistä. Kunkin perheen proteiinisekvenssit tuotetaan lihaksen (31) avulla, ja niiden vastaavat nukleotidisekvenssit kohdistetaan tähän Biopythonin (36) kodonialign-funktion avulla. Kaikkien proteiinien ja nukleotidien yhtymäkohta kirjoitetaan FYLIP-formatoituun tiedostoon (37). Tämän jälkeen luodaan raxml: lle osiotiedosto (34), joka kuvaa proteiinien ja nukleotidien kohdistumista ensimmäiseen, toiseen ja kolmanteen kodoniasentoon. Tukiarvot syntyvät raxml: n 100 nopean bootstrappingin kierroksesta (38).
Newick-formatoitujen puutiedostojen lisäksi Phylogenetic Tree-palvelu palauttaa figtreen tuottamista midpoint-juuristen puiden kuvista kannettavan dokumenttitiedoston (PDF), kannettavan verkkografiikan (PNG) ja skaalautuvan vektorigrafiikan (SVG) kuvatiedoston (http://tree.bio.ed.ac.uk/software/figtree/). PATRIC-sivuston fylogeneettisen puunäkymän avulla tutkijat voivat valita solmuja ja lehtiä, jolloin käyttäjä voi luoda tietyistä kladeista ryhmiä tarkempaa analyysiä varten. Se tuottaa myös genomiraportin, jossa on luettelo puun rakentamisessa käytetyistä genomisekvensseistä ja proteiiniperheistä sekä puun laskennassa käytettyjen geenien, proteiinien, aminohappojen ja nukleotidien määristä. Vihdoinkin listataan ongelmallisia genomisekvenssejä, jotka voitaisiin poistaa geenivalinnan lisäämiseksi ja puun lujuuden parantamiseksi. Sen rakentamisen jälkeen Fylogenetic Tree Service on käsitellyt lähes 5 000 työpaikkaa.
Fastq utilities
sekvensointilukujen laadun arviointi on tärkeä ensimmäinen askel sen varmistamiseksi, että myöhemmät analyysit, kuten kokoonpano, huomautus jne. ovat tarkkoja. Heinäkuussa 2019 lanseeratun Fastq Utilities-palvelun avulla käyttäjät voivat tasata lukemia, mitata peruspuhelujen laatua ja leikata heikkolaatuisia sekvenssejä luetuista tiedostoista. Palvelu hyväksyy pitkä-tai lyhytlukuisia tiedostoja yksi-tai paripäätteisessä muodossa. Se voi myös hakea luettuja tiedostoja suoraan NCBI Sequence Read Archive (SRA) käyttäen suorita tunniste syötteenä. Palvelussa on kolme komponenttia, ’trim’, ’FastQC’ ja ’align’, joita voidaan käyttää itsenäisesti tai missä tahansa yhdistelmässä. Trimmauskomponentissa käytetään Trim Galore (39), joka on Perl-kääre cutadapt (40) – ja FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) – työkalujen ympärillä. Fastqc-komponentti tarjoaa laadunvalvontatarkastuksia raakasekvenssitietoihin, jotka ovat peräisin suurikapasiteettisista sekvensointiputkistoista, ja mahdollistaa nopean laadunvalvonnan osoittamalla ongelmia, jotka voivat vaikuttaa loppupään analyyseihin. Tasausfunktio aligns lukee viite genomisekvenssiin käyttäen Bowtie2 (21,41), säästää hyödyntämättömät lukee ja tuottaa SamStat (42) raportteja määrän ja laadun kohdistuksia.
genomin linjaus
marraskuussa 2018 PATRIC lanseerasi genomin Linjauspalvelun, jonka avulla käyttäjät voivat laskea koko genomisarjan linjauksia. Tämä palvelu käyttää progressiveMauve-sovellusta (43), joka konstruoi positional homology multiple genome sequence alignments in an extension of the original Mauve algorithm (44). Palvelun avulla tutkijat voivat linjata jopa kahtakymmentä genomisekvenssiä kerrallaan. Palvelun tuotos sisältää genomin visuaalisen näytön, jonka avulla käyttäjät voivat tarkastella ja tutkia koko genomisekvenssin linjausta tai zoomata vertaamaan yksittäisiä alueita tai geenejä (kuva 3).
a data analysis workflow in PATRIC using the Genome Alignment Service. (A) sivuston käyttöliittymä mahdollistaa genomien valinnan; (B) visualisointi kohdistettujen genomialueiden kanssa poistoja, lisäyksiä tai uudelleenjärjestelyjä; (C) zoomaus kohdistus näyttää geenit eteenpäin ja taaksepäin seisoo, joka voidaan valita; (D) valitsemalla tietyn geenin genomin kohdistus katsoja avaa PATRIC-ominaisuussivun, jossa kaikki saatavilla olevat tiedot kyseisen geenin näytetään. (E) Patric-geenin sivun vertaa Aluenäkymä-välilehdellä näkyy valitun geenin (punaisella) ja myös ympäröivien geenien säilyminen. (F) jokainen geeni on osoitettu sukusidonnaiseen (PLFam) tai maailmanlaajuiseen (pgfam) proteiiniperheeseen, joka voidaan valita Ominaisuussivulta, ja perheenjäseniä voidaan verrata käyttämällä Monisekvenssistä linjausta/Geenipuutyökalua.
a data analysis workflow in PATRIC using the Genome Alignment Service. (A) verkkosivuston käyttöliittymä mahdollistaa genomien valinnan; (B) yhtenäisten genomialueiden visualisointi poistoilla, lisäyksillä tai uudelleenjärjestelyillä; (C) zoomaus kohdistuksessa näyttää eteen-ja taaksepäin olevat geenit, jotka voidaan valita; (D) tietyn geenin valitseminen genomin kohdistuksen katselijasta avaa PATRIC-ominaisuussivun, jossa kaikki kyseisen geenin tiedot näytetään. (E) Patric-geenin sivun vertaa Aluenäkymä-välilehdellä näkyy valitun geenin (punaisella) ja myös ympäröivien geenien säilyminen. (F) jokainen geeni on osoitettu sukusidonnaiseen (PLFam) tai maailmanlaajuiseen (pgfam) proteiiniperheeseen, joka voidaan valita Ominaisuussivulta, ja perheenjäseniä voidaan verrata käyttämällä Monisekvenssistä linjausta/Geenipuutyökalua.
samantapainen genomin löytäjä
kun tutkijalla on uusi genomisekvenssi, he haluavat ensin tunnistaa eliön lähimmät sukulaiset, mutta tämä voi olla vaikeaa, kun julkinen kokoelma on niin suuri. PATRIC tarjoaa palvelua nimeltä Similar Genome Finder, jonka avulla tutkijat voivat nopeasti tunnistaa samanlaisia genomisekvenssejä Mash-menetelmällä (45). Mash toimii pelkistämällä suuret sekvenssit pieniksi edustaviksi luonnoksiksi, joiden avulla voidaan arvioida mutaatioetäisyyksiä jaettujen k-merien perusteella. PATRIC mahdollistaa vertailun kaikkiin julkisiin genomisekvensseihin tai NCBI: n referenssigenomijoukkoon. Työkalun avulla tutkijat voivat säätää hakuherkkyyttä valitsemalla yhteisen k-merien enimmäismäärän, P-arvon kynnyksen tai etäisyyden. Tulokset palautetaan listana kaikkein samankaltaisimmista genomisekvensseistä vastaavine metatietoineen. Kuten kaikissa PATRIC-taulukoissa, tutkijat voivat valita sekvenssejä luodakseen ryhmiä myöhempää analyysiä varten tai ladata tulokset.
taksonominen luokitus
maaliskuussa 2019 lanseerattu taksonominen luokittelupalvelu tunnistaa seka-tai metagenomisten näytteiden taksonomisen koostumuksen. Palvelu käyttää kraken2 (46)-sovellusta, joka tunnistaa eri taksonomisista yksiköistä ilmeneviä k-merejä. Palvelun käyttämä Kraken-tietokanta on kokonaisuus, joka perustuu kaikkiin RefSeq-genomisekvensseihin (47), ihmisen genomisekvenssiin, plasmideihin ja vektorisekvensseihin. Job output sisältää standardin Kraken raportin muodossa, jossa jokainen bakteeri taksoni hyperlinkki matching sivun PATRIC. Palvelu palauttaa myös kruunun tontin (48), joka näyttää kuhunkin taksoniin kartoitetun lukuprosentin ja antaa käyttäjälle mahdollisuuden tutustua valittuihin taksoneihin.
Metagenomien lukukartoitus
AMR: ää tai virulenssia tutkivat tutkijat saattavat olla kiinnostuneita analysoimaan geenejä sekalaisissa tai metagenomisissa lukujoukoissa. Metagenome – Lukukartoituspalvelun avulla tutkijat voivat etsiä näitä tiettyjä geenejä lukujoukosta. Se toimii kohdistamalla lukemat referenssigeeniin KMA: n avulla, joka käyttää k-mer kylvöä ja Needleman–Wunsch-algoritmia tarkasti kohdistamaan lukemat kiinnostaviin geeneihin (49). Käyttäjät voivat tällä hetkellä kohdentaa vertailugeenisarjat kattavasta Antibioottiresistenssitietokannasta (CARD) (50) ja Virulenssitekijätietokannasta (Vfdb) (51). Palvelu palauttaa html-ja tekstiversiot standardista KMA-raportista, joka näyttää yksityiskohtaiset kartoitustiedot, linkit Patricin geeneihin, joilla on suuri samankaltaisuus, ja konsensussekvenssi, joka on koottu linjatuista lukemista.
Metagenomic binning
elokuussa 2017 lanseerattu Metagenomic Binning-palvelu kokoaa metagenomisesta näytteestä kontigseja ja yrittää sitten erottaa nämä kontigit lokeroihin, jotka edustavat yksittäisten lajien genomeja. Nämä astiat merkitään sen jälkeen kokonaisuudessaan ja jokaisesta roskakorista lasketaan yksityiskohtaiset laatutilastot. Binning-algoritmi alkaa skannaamalla kontigsilta tiettyjä merkkiproteiineja, joita esiintyy genomissa lähes aina yksittäin. Markkerin ja proteiinin samankaltaisuuden avulla värvätään PATRICISTA samankaltaisia genomeja, joista sitten värvätään lisää kontigeja proteiinin k-mers erottamisen perusteella. Kuten yksittäiset isolaattigenomit, astiat sijoitetaan käyttäjän työtilaan ja indeksoidaan PATRIC-tietokantaan yksityisinä genomeina, jolloin jokaisen lokeron PATRIC-vertaileva analyysi-ja visualisointityökaluja voidaan käyttää täysimääräisesti.
Web-pohjaiset analyysityökalut
PATRIC-sivusto tarjoaa useita interaktiivisia visuaalisia analyysityökaluja, joiden avulla käyttäjät voivat vertailla omics-aineistoja. Nämä työkalut integroida tietoja erityyppisiä, suorittaa joitakin laskennallisia tehtäviä ja tehdä interaktiivisia visualisointeja käyttäjälle. PATRIC tukee tällä hetkellä monia web-pohjaisia analyysityökaluja, kuten Heat Map Viewer-ohjelmaa jaetun proteiinisisällön vertailuun, Pathway Viewer-ohjelmaa aineenvaihduntareittien tutkimiseen ja Genomiselainta genomiominaisuuksien näyttämiseen kromosomissa. Olemme lisänneet kaksi uutta visualisointia Patric-sivustolle, joka alun perin oli olemassa rastin ja Seedin verkkosivuilla, mutta vaati merkittävää uudelleensuunnittelua ollakseen toimiva käytettäväksi satojentuhansien genomien kanssa.
Compare region viewer
The Compare Region Viewer antaa tutkijoille mahdollisuuden vertailla geenilohkoja (geneettisiä lokuksia tai kromosomiklustereita) monien lajien välillä. Käyttäjä valitsee vertailuun kiinnostavan geenin, genomialueen koon ja genomien määrän. Näyttö ilmaisee tarkennusgeenin BLAST-samankaltaisuuden ja ympäröivien geenien samankaltaisuuden alueella (Kuva 3E).
RASTISSA tämä työkalu perustuu precomputed tietokanta all-to-all BLAST (28) yhtäläisyyksiä määrittää joukon genomeja, joilla on vastaavuus kiinnostavan geenin, ja laskee yksityiskohtaisen parivertailun geenien valitulla alueella värikoodiksi tiedot. PATRIC-tietokannan genomien määrän vuoksi tämä menetelmä on liian hidas reaaliaikaiseen käyttöön. Tämän työkalun PATRIC-versio perustaa focus-geenin haun ja värikoodauksen joko sukusidonnaisiin (PLFam) tai maailmanlaajuisiin (pgfam) proteiiniperheisiin (35), jotka on esikäsitelty kullekin genomille, joten hakuavaruus on scopedimpi. Tämä visualisointi on kuitenkin skaalautuva, koska Blastia käytetään vain laskemaan proteiinin samankaltaisuutta joukon sisällä oleville fokusgeeneille.
alijärjestelmät
alijärjestelmät ovat kokoelmia toiminnallisesti samankaltaisista proteiineista, ja ne ovat elintärkeä käsitteellinen laite proteiinifunktioiden tunnistamiseksi ja ulkonemiseksi eri lajien välillä (7,52). PATRIC laskee ja näyttää nyt alijärjestelmän tiedot jokaisesta julkisesta ja yksityisesti merkitystä genomisekvenssistä. Alijärjestelmät, jotka johtuvat asiantuntevien kuraattorien tekemästä manuaalisesta huomautuksesta, jaetaan Superluokkaan (esimerkki: aineenvaihdunta), luokkaan (esimerkki: stressivaste, puolustus ja virulenssi), alaluokkaan (esimerkki: vastustuskyky antibiooteille ja myrkyllisille yhdisteille), alijärjestelmän nimeen (esimerkki: Arseeniresistenssi) ja kunkin mukana olevan geenin toiminnalliseen rooliin. Napsauttamalla alijärjestelmät-välilehteä genomi tarjoaa kolme erilaista näkymää. Alijärjestelmien yleiskatsauksessa on piirakkakaavio, joka näyttää tiettyyn Superluokkaan kuuluvien geenien prosenttiosuudet. Alijärjestelmät-välilehti sisältää tietyn superluokan geenien määrän. Geenit-välilehti sisältää luettelon kaikista geeneistä kaikissa alijärjestelmissä ja sisältää PATRIC – ja RefSeq-lokukset (47). Alijärjestelmätietoja ei ole saatavilla vain yksittäisille genomeille, vaan ne on myös summattu kullekin taksonomiselle tasolle aina Superkingomiaan asti käyttäen NCBI: n taksonomiaa (53). Käyttäjä voi luoda heatmap-näkymän, jossa näkyy tiettyjen proteiinien esiintyminen ja puuttuminen valittua alijärjestelmää kohti taksonissa tai tietyssä genomiryhmässä.
Komentoriviliitäntä (CLI)
viimeisten 5 vuoden ajan PATRIC-tietovarastoa on hallinnoitu NoSQL Apache Solr-tietokantarakenteella. Nopeasti kasvavan tiedonkeruun mukauttamiseksi ja skaalautuvuuden ja joustavuuden hyödyntämiseksi PATRIC database architecture muutettiin Apache Solrocloud database architecture-järjestelmäksi keväällä 2019. SolrCloud-tietokanta on jaettu sarjaan solrcoreja, joilla hallitaan aiheeseen liittyviä tietotyyppejä, kuten genomin ominaisuuksia, sekvenssejä ja transkriptomisia tietoja. Taustalla oleva sovellusrajapinta (API) mahdollistaa ohjelmallisen pääsyn näihin ytimiin ja niiden sisältämään dataan; tiedonhankinta voi kuitenkin muuttua monimutkaiseksi, kun navigoidaan ja yhdistetään eri ytimistä peräisin olevia kenttiä. Olemme kehittäneet joukon komentoriviskriptejä, jotka käyttävät API: a tietojen tallentamiseen ja yhteisten analyysien suorittamiseen. Tämä jakelu on saatavilla Mac -, Windows-ja Linux-käyttöjärjestelmille, mukaan lukien Ubuntu ja CentOS 6 ja 7 sekä Fedora 28 ja 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Sekä jakelussa että Patricin verkkosivuilla on tutorials siitä, miten skriptejä käytetään esimerkkien kanssa (https://docs.patricbrc.org/cli_tutorial/). 482mb jakelu sisältää monia taustalla skriptejä PATIRC ympäristön. Jotkin mahdollistavat tietojen massalatauksen, yhdistämisen ja manipuloinnin, toiset taas monimutkaisemmat analyysit. Jakeluun kuuluu myös hyödyllisiä skriptejä aikaisemmista SEED (5) – ja Rastk (8) – projekteista. Erityisen huomionarvoinen Patric CLI-jakelun tarjoama toiminto on kyky hallita tiedostoja työtilassa. Käyttäjät voivat kirjautua yksityiseen työtilaan, luoda alihakemistoja, siirtää tiedostoja työtilaan tai sieltä pois sekä käynnistää merkintöjä ja kokoonpanotöitä. Nämä skriptit tarjoavat keinot koota ja merkitä satoja tai jopa tuhansia genomisekvenssejä. Lisäksi olemme myös tehneet PATRIC-työtilasta esteettömän File Transfer Protocol (FTP) – protokollan avulla, joka tarjoaa vaihtoehtoisen tavan siirtää suuria määriä dataa työtilaan ja sieltä pois. Käyttäjät voivat käyttää työtilaa komentorivillä tai FTP-tiedostonhallinnan avulla. Aiomme jatkaa komentorivityökalujen kehittämistä mahdollistaaksemme paremman pääsyn palveluihin ja helpomman tietojen manipuloinnin.
FUTURE DIRECTIONS
vuonna 2020 Chicagon yliopiston PATRIC-tiimi, Virginian yliopisto ja Fellowship for Interpretation of Genomes yhdistyvät viruksen BRC-tiimiin, joka tukee ViPR: n (Virus Pathogen Database and Analysis Resource) ja IRD: n (Influenza Research Database) resursseja J. Craig Venter-instituutissa (jcvi). Vastaperustettu bakteerien ja virusten BRC-tiimi (BV-BRC) jatkaa PATRIC -, IRD-ja ViPR-sivustojen ylläpitämistä ja lisää samalla uusia poikkileikkaustoimintoja. Aiomme keskittyä voimakkaasti parantamaan uuden BV-BRC-resurssin hyödyllisyyttä epidemiologisessa analyysissä, laajentamaan tietovarastoa muihin data-ja metatyyppeihin, lisäämään keinoälysovelluksissa käytettävän jäsennellyn datan saatavuutta sekä parantamaan työkalujen ja palveluiden käyttöönottoarkkitehtuuria.
rahoitus
National Institute of Allergia and Infectious Diseases (NIAID) . Avointen käyttömaksujen rahoitus: NIAID.
eturistiriitaselvitys. Ei ilmoitettu.
Notes
nykyinen osoite: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 S. Cass Avenue, Argonne, IL 60439, USA.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
R.
,
,
.
;
:
–
.
,
,
,
,
,
,
,
E. M.
,
.
;
:
–
.
,
,
,
,
M.
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
R. A.
,
K.
,
,
,
.
.
;
:
.
,
,
,
,
,
,
,
N.
,
,
.
;
:
–
.
,
,
,
,
,
,
R.
,
,
.
;
:
.
,
,
,
,
C.
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
M.
,
,
,
– bakteerin pienintä in silico-inhibitorista konsentraatiotestiä kehitetään.
;
:
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
.
.
;
–
.
,
,
,
,
,
,
,
,
.
;
:
–
.
S.
,
,
,
J. R./div>,
,
.
;
:
–
.
,
,
,
.
;
:
.
,
,
,
.
.
;
:
–
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
.
.
;
:
–
.
.
.
;
:
–
.
,
B.
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
talteen otettujen mikrobigenomien laatua.
;
:
–
.
,
R.
,
P.
,
,
,
,
,
-menetelmällä.
.
;
:
.
,
B.
,
S. L.
.
.
;
:
–
.
,
,
,
,
,
N.
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
.
;
:
–
.
.
;
:
–
.
,
.
;
:
–
.
,
,
.
.
;
:
.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
.
;
.
,
,
J.
.
;
:
–
.
.
;
http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.
.
;
:
–
.
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
.
;
:
–
.
,
,
P.
,
,
,
,
.
;
:
.
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
.
.
;
:
.
,
,
.
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
R. A.
,
,
.
;
:
–
.
.
;
:
–
.