Articles

Centrul de resurse pentru bioinformatică PATRIC: extinderea capacităților de date și analiză

septembrie 13, 2021 by admin

rezumat

Centrul de integrare a resurselor PathoSystems (PATRIC) este centrul de resurse pentru bioinformatică bacteriană finanțat de Institutul Național de alergii și Boli Infecțioase (https://www.patricbrc.org). PATRIC sprijină analizele bioinformatice ale tuturor bacteriilor cu un accent deosebit pe agenții patogeni, oferind un mediu bogat de analiză comparativă care oferă utilizatorilor acces la peste 250 000 de genomi adnotați uniform și disponibili publicului cu metadate curate. PATRIC oferă instrumente de vizualizare și analiză comparativă bazate pe web, un spațiu de lucru privat în care utilizatorii își pot analiza propriile date în contextul colecțiilor publice, servicii care eficientizează fluxurile de lucru bioinformatice complexe și instrumente de linie de comandă pentru analiza datelor în bloc. În ultimii ani, pe măsură ce experimentele genomice și alte experimente legate de omics au devenit mai rentabile și mai răspândite, am observat o creștere considerabilă a utilizării și a cererii de instrumente și servicii bioinformatice ușor de utilizat și disponibile publicului. Aici raportăm actualizările recente ale resursei PATRIC, inclusiv noi instrumente de analiză comparativă bazate pe web, opt servicii noi și lansarea unei interfețe de linie de comandă pentru a accesa, interoga și analiza datele.

introducere

Programul Centrului de resurse bioinformatice (BRC) a fost înființat de Institutul Național de alergii și Boli Infecțioase (NIAID) în 2004, cu accent principal pe furnizarea accesului la datele secvenței genomului și la instrumentele de analiză pentru studierea agenților patogeni. PathoSystems Resource Integration Center (PATRIC) a început ca unul dintre centrele originale însărcinate cu sprijinirea analizei comparative a agenților patogeni bacterieni (1-3). În 2009, PATRIC a fuzionat cu resursa Națională a bazei de date a agenților patogeni microbieni (Nmpdr) BRC (4), care a dezvoltat baza de date de semințe de succes și RAST (adnotare rapidă folosind tehnologia subsistemului) sistem de adnotare pentru curățarea și proiectarea uniformă a adnotărilor genomului între speciile microbiene (5-8). De-a lungul anilor, resursa PATRIC s-a extins și s-a adaptat pentru a ține pasul cu creșterea seturilor de date bioinformatice și cu nevoia de instrumente de analiză asociate. Începând din septembrie 2019, PATRIC include peste 250 000 de genomi microbieni disponibili publicului și un mediu bogat de analiză comparativă.

de la lansarea sa în 2008, RAST (http://rast.nmpdr.org) a efectuat 700 000 de locuri de muncă de adnotare a genomului pentru utilizatorii privați. Oferind acces la scripturile de identificare a caracteristicilor genomului dezvoltate de comunitatea academică și proiecții consistente ale funcțiilor proteice bine întreținute din semințe, RAST servește drept model pentru un serviciu bioinformatic de succes, deoarece atenuează nevoia utilizatorilor de a-și construi propriile conducte de adnotare personalizate, iar consistența sa permite analize comparative în aval. Folosind RAST ca șablon, în 2014 PATRIC a început să implementeze o varietate de servicii bioinformatice prin intermediul site-ului web, permițând utilizatorilor să asambleze și să adnoteze secvențe de genom, să reconstruiască modele metabolice, să analizeze SNP-uri și INDELs și să analizeze și să compare experimentele ARN-seq. Rezultatele acestor lucrări de analiză ar putea fi apoi comparate cu colecțiile de date genomice și alte omic disponibile publicului în resursă, în timp ce sunt păstrate private în mediul spațiului de lucru al utilizatorului. Până la sfârșitul anului 2016, PATRIC procesa 1500 de locuri de muncă de serviciu pe lună, fără a include locurile de muncă trimise pe site-ul RAST (3).

de la ultima descriere în cercetarea acizilor nucleici în 2016 (3), PATRIC a suferit o serie de actualizări și îmbunătățiri. Colectarea datelor a fost îmbunătățită, în special în domeniul rezistenței antimicrobiene (AMR) (9); mediul de navigare pe web a fost îmbunătățit cu noi instrumente și vizualizări; iar îmbunătățirile aduse spațiului de lucru au facilitat, de asemenea, găsirea și partajarea datelor proiectului de cercetare. O interfață de linie de comandă (CLI) pentru achiziția și analiza datelor în bloc a fost construită și lansată pentru distribuție pe sistemele Mac, Linux și Windows. PATRIC a lansat, de asemenea, opt noi servicii bioinformatice, cu accent recent pus pe capacitatea de a analiza date din culturi mixte sau probe metagenomice. În sfârșit, a fost creată o bogată colecție de tutoriale pentru a ajuta utilizatorii cu aceste noi instrumente (https://docs.patricbrc.org/tutorial/). Acest raport descrie multe dintre actualizările recente nepublicate ale resursei PATRIC.

ce este nou în PATRIC?

creșterea și îmbunătățirea datelor

una dintre cele mai dramatice schimbări în susținerea activității bioinformatice de la începutul programului BRC a fost creșterea exponențială a secvențelor genomului microbian disponibile publicului (Figura 1). Colecția de secvențe de genom ale utilizatorilor privați care au fost adnotate și indexate de PATRIC a crescut, de asemenea, de la înființarea mediului spațiului de lucru și poate depăși de fapt dimensiunea colecției publice de secvențe de genom în anul următor (Figura 1). Deși setul privat include unele secvențe genomice reanalizate,

Figura 1.

creșterea cumulativă a genomurilor publice și private în PATRIC.

Figura 1.

creșterea cumulativă a genomurilor publice și private în PATRIC.

nu vedem niciun indiciu că secvențierea genomului microbian și analizele bioinformatice aferente încetinesc. Creșterea datelor de secvență a genomului disponibile publicului și a metadatelor structurate conexe a revoluționat, de asemenea, tipurile de analize experimentale care sunt posibile. De exemplu, PATRIC oferă metadate structurate și întreținute manual asociate fiecărui genom, inclusiv fenotipuri AMR derivate din laborator, organisme gazdă, surse de izolare, date despre situl corpului uman și informații geografice. Aceste colecții de metadate structurate oferă fundamentul pentru derularea experimentelor de învățare automată și de învățare profundă (10,11) și pentru furnizarea de instrumente predictive utilizatorilor (9). Anticipăm că utilizarea sporită a tehnicilor de inteligență artificială în bioinformatică va conduce la decizii de proiectare experimentală și, în cele din urmă, va scurta timpul necesar pentru experimentele de caracterizare genetice și alte experimente de laborator.

sprijinirea cercetării AMR este un domeniu major de interes pentru colectarea și Curarea datelor la PATRIC. Organizăm în mod activ atât adnotări de proteine AMR, cât și date de fenotip AMR derivate din laborator asociate genomurilor publice. Sistemul de adnotare este capabil să proiecteze cu precizie peste 600 de funcții de proteine AMR organizate manual. De asemenea, conține o colecție mare de funcții proteice non-AMR strâns legate, care au fost organizate pentru a preveni predicțiile false ale funcțiilor AMR. Pentru a oferi un mijloc suplimentar de comparație, sistemul de adnotare caută, de asemenea, gene cu similitudine ridicată cu cele organizate de CARD (12) și proiectele bazei de date a genelor NCBI AMR (13). Colectarea fenotipului AMR derivat din laborator a fost generată prin curatarea datelor din literatura de specialitate, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) și alte surse publice. Acesta a crescut pentru a include peste 40 000 de secvențe de genom și este utilizat de cercetători din întreaga lume. Am adăugat, de asemenea, peste 10 000 de secvențe de plasmide și profage datorită importanței lor în studierea și combaterea RAM.

servicii

serviciile furnizate de PATRIC sunt concepute pentru a permite accesul facil la fluxuri de lucru bioinformatice complexe. Acestea pot fi accesate prin intermediul interfeței web PATRIC și CLI. Majoritatea serviciilor au capacitatea de a gestiona sute sau chiar mii de locuri de muncă pe zi. Lucrările sunt de obicei rulate pe o serie de servere interne, capacitatea de supratensiune fiind gestionată de un cluster de calcul mare. Serviciile PATRIC au crescut în popularitate din 2014, iar din septembrie 2019, peste 263 000 de locuri de muncă au fost finalizate cu succes (figura 2).

Figura 2.

joburi de analiză inițiate de utilizator completate de serviciile PATRIC bioinformatic. Graficul de sus arată utilizarea serviciilor cu volum mare. Graficul de jos arată utilizarea volumului mai mic și a serviciilor noi. Rețineți diferența de scară dintre cele două parcele.

Figura 2.

actualizări notabile pentru serviciile existente

trei dintre serviciile noastre pre=existente, asamblarea genomului, adnotarea genomului și analiza ARN-seq, au suferit mai multe actualizări notabile. Serviciul de asamblare a genomului a fost reconstruit cu un nou planificator de locuri de muncă care permite un proces mai echitabil de așteptare a locurilor de muncă care împiedică crearea de blocaje mari (14). În plus față de pică (15), am adăugat Canu (16) pentru asamblare lung citit și Unicycler pentru hibrid lung și scurt citit ansambluri (17). De asemenea, oferim o imagine a graficului de asamblare folosind bandaj (18), iar ansamblurile pot fi lustruite folosind Racon (19) și Pilon (20) pentru ansambluri cu citire lungă și, respectiv, scurtă. În cele din urmă, maparea citită este efectuată pentru a genera statistici precise de acoperire folosind Bowtie2 (21) sau Minimap2 (22) și SAMtools (23). Două noi adăugiri la Serviciul de adnotare a genomului includ capacitatea de a adnota secvențele genomului bacteriofag (24) și calculul statisticilor privind calitatea genomului care se bazează pe aplicația CheckM (25) și un model RAST intern care evaluează calitatea pe baza apariției și completitudinii rolurilor subsistemului în genom (26). Serviciul de analiză ARN-seq a fost, de asemenea, actualizat pentru a permite experimente care studiază răspunsul gazdei la infecțiile microbiene. Pentru a susține acest lucru, am adăugat mai multe genomuri comune de referință ale gazdei eucariote, inclusiv Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, cocoș, cocoș, Homo sapiens, Macaca mulatta, mușchi Mus, nevăstuică putorius furo, Rattus norvegicus și Sus scrofa. De asemenea, am adăugat recent HISAT2 (indexare ierarhică pentru alinierea splicată a transcrierilor) (27), Un sistem extrem de eficient pentru alinierea citirilor din experimentele ARN-Seq la genomii gazdă și a permis importul seturilor de date din SRA în interfața ARN-seq, sporind în continuare capacitatea de a efectua analiza expresiei diferențiale mixte a datelor publice și private.

analiza cuprinzătoare a genomului

unul dintre cele mai frecvente cazuri de utilizare pentru analiza genomurilor private la PATRIC este ca cercetătorii să asambleze și apoi să adnoteze secvențele genomului lor folosind două servicii separate. În primăvara anului 2018, am lansat un meta-serviciu cuprinzător de analiză a genomului, care acceptă citirea secvențială, calculează asamblarea și adnotarea și oferă o descriere ușor de utilizat a genomului. Rezultatul include o evaluare a calității genomului, gene AMR și predicții fenotipice, gene de specialitate, prezentare generală a subsistemului, identificarea celor mai apropiate secvențe de genom, un arbore filogenetic și o listă de caracteristici care disting genomul de cei mai apropiați vecini. Serviciul cuprinzător de analiză a genomului a devenit rapid unul dintre cele mai populare servicii din PATRIC, cu peste 11 000 de locuri de muncă finalizate de la lansarea sa în aprilie 2018.

arbori filogenetici

capacitatea de a reconstrui și vizualiza relațiile evolutive se află în centrul biologiei. În 2017, PATRIC a lansat serviciul arbore filogenetic care permite utilizatorilor să construiască arbori filogenetici de înaltă calitate pentru secvențele genomului public și privat. Serviciul oferă în prezent două fluxuri de lucru utilizatorului. Primul este un flux de lucru bazat pe proteine numit”toate proteinele partajate”, care utilizează conducta de estimare Filogenomică cu rafinament progresiv (PEPR) (https://github.com/enordber/pepr). PEPR funcționează prin definirea familiilor de proteine comune de novo pentru un grup de genom folosind BLAST (28) și HMMER (29) pentru a identifica proteine similare și MCL (30) pentru a construi clustere. Apoi, aliniamentele sunt generate folosind mușchi (31) și tăiate cu Gblocks (32). În cele din urmă, pe baza preferințelor utilizatorului, PEPR calculează arborele folosind fie FastTree (33), fie RAxML (34). În 2019, am lansat un al doilea flux de lucru, mai rapid, filogenetic, numit Codon Trees. Folosește familii de proteine Patrice globale predefinite (PGFAM) (35), selectând un număr specificat de utilizator de familii (10-1000) care sunt o singură copie (sau aproape așa) între membrii unui grup de genom. Aliniamentele sunt generate pentru secvențele de proteine ale fiecărei familii folosind mușchi (31), iar secvențele lor nucleotidice corespunzătoare sunt aliniate la aceasta folosind funcția codonalign a Biopitonului (36). O aliniere concatenată a tuturor proteinelor și nucleotidelor este scrisă într-un fișier formatat cu Filip (37). Apoi este generat un fișier de partiții pentru RaxML (34), care descrie alinierea în termeni de proteine și nucleotide în prima, a doua și a treia poziție a codonului. Valorile de sprijin sunt generate de 100 de runde de bootstrapping rapidă în RaxML (38).

În plus față de fișierele arborescente formatate Newick, serviciul arbore filogenetic returnează un fișier document portabil (PDF), o grafică de rețea portabilă (PNG) și un fișier imagine grafică vectorială scalabilă (SVG) a imaginilor arborescente înrădăcinate din punctul de mijloc generate de FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Vizualizarea arborelui filogenetic de pe site-ul PATRIC permite cercetătorilor să selecteze noduri și frunze, permițând utilizatorului să creeze grupuri din clade specifice pentru analize suplimentare. De asemenea, generează un raport al genomului care oferă o listă a secvențelor genomului și a familiilor de proteine utilizate în construcția arborelui și a numărului de gene, proteine, aminoacizi și nucleotide utilizate pentru a calcula arborele. În cele din urmă, sunt enumerate secvențe problematice ale genomului care ar putea fi eliminate pentru a crește selecția genei și pentru a îmbunătăți puterea arborelui. De când a fost construit, aproape 5000 de locuri de muncă au fost procesate de serviciul arborelui filogenetic.

fastq utilities

Evaluarea calității secvențiere Citește este un prim pas important pentru a se asigura că analizele ulterioare, cum ar fi asamblare, adnotare, etc. sunt corecte. Serviciul Fastq Utilities, lansat în iulie 2019, permite utilizatorilor să alinieze citirile, să măsoare calitatea apelurilor de bază și să decupeze secvențe de calitate scăzută din fișierele citite. Serviciul acceptă fișiere cu citire lungă sau scurtă în format unic sau pereche. De asemenea, poate prelua fișiere citite direct din arhiva de citire a secvenței NCBI (SRA) folosind un identificator de rulare ca intrare. Serviciul are trei componente, ‘trim, ”FastQC,’ și ‘align,’ care pot fi utilizate independent sau în orice combinație. Componenta de tundere utilizează Trim Galore (39), care este un înveliș Perl în jurul Cutadapt (40) și FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) instrumente. Componenta FastQC oferă verificări de control al calității datelor de secvență brută provenite de la conductele de secvențiere cu randament ridicat și permite controlul rapid al calității prin indicarea problemelor care ar putea avea impact asupra analizelor din aval. Funcția de aliniere aliniază citirile la o secvență de genom de referință folosind Bowtie2 (21,41), salvând citirile nemapate și generând rapoarte SamStat (42) despre cantitatea și calitatea aliniamentelor.

alinierea genomului

în noiembrie 2018, PATRIC a lansat serviciul de aliniere a genomului pentru a permite utilizatorilor să calculeze alinierile secvenței genomului întreg. Acest serviciu utilizează aplicația progressiveMauve (43), care construiește omologie pozițională alinieri multiple ale secvenței genomului într-o extensie a algoritmului original Mauve (44). Serviciul permite cercetătorilor să alinieze până la douăzeci de secvențe de genom la un moment dat. Rezultatul serviciului include o afișare vizuală a genomului care permite utilizatorilor să vizualizeze și să exploreze întreaga aliniere a secvenței genomului sau să mărească pentru a compara regiuni sau gene individuale (Figura 3).

Figura 3.

un flux de lucru de analiză a datelor în PATRIC folosind serviciul de aliniere a genomului. (A) interfața site-ului web permite selectarea genomilor; (B) vizualizarea regiunilor genomice aliniate cu orice ștergeri, inserții sau rearanjări; (c) mărirea alinierii va arăta genele de pe standurile înainte și înapoi, care pot fi selectate; (D) selectarea unei gene specifice din vizualizatorul de aliniere a genomului deschide pagina caracteristică PATRICĂ, unde sunt afișate toate datele disponibile pentru acea genă. (E) fila Vizualizare comparare regiune de pe pagina genei Patrice arată conservarea genei selectate (prezentată în roșu) și, de asemenea, genele înconjurătoare. (F) fiecare genă este atribuită unei familii de proteine specifice genului (PLFam) sau globale (pgfam) care poate fi selectată din pagina de caracteristici, iar membrii familiei pot fi comparați folosind instrumentul de aliniere a secvențelor Multiple/Arborele genei.

Figura 3.

un flux de lucru de analiză a datelor în PATRIC folosind serviciul de aliniere a genomului. (A) interfața site-ului permite selectarea genomilor; (B) vizualizarea regiunilor genomice aliniate cu orice ștergeri, inserții sau rearanjări; (C) mărirea alinierii va afișa genele de pe standurile înainte și înapoi, care pot fi selectate; (D) selectarea unei gene specifice din vizualizatorul de aliniere a genomului deschide pagina caracteristică PATRICĂ, unde sunt afișate toate datele disponibile pentru acea genă. (E) fila Vizualizare comparare regiune de pe pagina genei Patrice arată conservarea genei selectate (prezentată în roșu) și, de asemenea, genele înconjurătoare. (F) fiecare genă este atribuită unei familii de proteine specifice genului (PLFam) sau globale (pgfam) care poate fi selectată din pagina de caracteristici, iar membrii familiei pot fi comparați folosind instrumentul de aliniere a secvențelor Multiple/Arborele genei.

căutare similară a genomului

când un cercetător are o nouă secvență de genom, unul dintre primele lucruri pe care doresc să le identifice sunt rudele cele mai apropiate pentru organism, dar acest lucru poate fi dificil atunci când colecția publică este atât de mare. PATRIC oferă un serviciu numit Similar Genome Finder pentru a permite cercetătorilor să identifice rapid secvențe similare de genom folosind Mash (45). Mash funcționează prin reducerea secvențelor mari la schițe reprezentative mici, care pot fi utilizate pentru a estima distanțele de mutație pe baza k-mersului comun. PATRIC permite compararea cu toate secvențele genomului public sau setul genomului de referință NCBI. Instrumentul permite cercetătorilor să ajusteze sensibilitatea de căutare selectând numărul maxim de K-mers deținute în comun, pragul de valoare P sau distanța. Rezultatele sunt returnate ca o listă a celor mai similare secvențe de genom cu metadate corespunzătoare. Ca și în cazul tuturor tabelelor Patrice, cercetătorii pot selecta secvențe pentru a crea grupuri pentru analize ulterioare sau pentru a descărca rezultatele.

clasificare taxonomică

lansat în martie 2019, serviciul de clasificare taxonomică identifică compoziția taxonomică a probelor mixte sau metagenomice. Acest serviciu utilizează aplicația Kraken2 (46), care identifică k-mers care indică diferite unități taxonomice. Baza de date Kraken utilizată de serviciu este o construcție completă care se bazează pe toate secvențele genomului RefSeq (47), secvența genomului uman, plasmidele și secvențele vectoriale. Ieșire de locuri de muncă include formatul standard de raport Kraken, cu fiecare taxon bacterian hyperlink la pagina de potrivire în PATRIC. Serviciul returnează, de asemenea, un complot Krona (48) care arată procentul de citiri mapate la fiecare taxon și permite utilizatorului să exploreze taxonii selectați.

metagenomic read mapping

cercetătorii care studiază AMR sau virulența pot fi interesați să analizeze genele în seturi de citire mixte sau metagenomice. Serviciul de cartografiere a citirii Metagenome permite cercetătorilor să caute aceste gene specifice într-un set de lecturi. Funcționează prin alinierea citirilor împotriva unei gene de referință folosind KMA, care folosește însămânțarea k-mer și algoritmul Needleman–Wunsch pentru a alinia cu exactitate citirile la genele de interes (49). Utilizatorii se pot alinia în prezent împotriva seturilor de gene de referință din Baza de date cuprinzătoare a rezistenței la antibiotice (CARD) (50) și baza de date a factorului de virulență (VFDB) (51). Serviciul returnează versiunile html și text ale raportului standard KMA, care prezintă informații detaliate de cartografiere, legături către gene în PATRIC cu similitudine ridicată și o secvență de consens asamblată din citirile aliniate.

binning Metagenomic

lansat în August 2017, Serviciul de Binning Metagenomic asamblează citiri dintr-o probă metagenomică în contiguri și apoi încearcă să separe aceste contiguri în coșuri care reprezintă genomii speciilor individuale. Aceste coșuri sunt apoi complet adnotate și statistici detaliate de calitate sunt calculate pentru fiecare coș. Algoritmul de binning începe prin scanarea contigilor pentru proteine marker specifice care apar aproape întotdeauna individual în genom. Similitudinea marker-proteină este utilizată pentru a recruta genomi similari din PATRIC, care sunt apoi utilizați pentru a recruta contiguri suplimentare pe baza diferențierii proteinei k-mers. Similar cu genomii izolați singuri, coșurile sunt plasate în spațiul de lucru al utilizatorului și indexate în baza de date PATRIC ca genomi privați, permițând utilizarea completă a instrumentelor de analiză comparativă PATRICĂ și vizualizare pentru fiecare coș.

instrumente de analiză bazate pe Web

site-ul web PATRIC oferă mai multe instrumente interactive de analiză vizuală care permit utilizatorilor să compare seturile de date omics. Aceste instrumente integrează date de diferite tipuri, efectuează unele sarcini de calcul și redă vizualizări interactive pentru utilizator. PATRIC acceptă în prezent multe instrumente de analiză bazate pe web, cum ar fi Heat Map Viewer pentru compararea conținutului de proteine partajat, Pathway Viewer pentru explorarea căilor metabolice și browserul genomului pentru afișarea caracteristicilor genomice pe cromozom. Am adăugat două noi vizualizări pe site-ul PATRIC care a existat inițial pe site-urile RAST și SEED, dar a necesitat o reinginerie semnificativă pentru a fi funcțională pentru utilizarea cu sute de mii de genomi.

comparați vizualizatorul de regiuni

vizualizatorul de regiuni comparați permite cercetătorilor să compare cartierele genetice (loci genetici sau clustere cromozomiale) în multe specii. Un utilizator selectează o genă de interes, dimensiunea regiunii genomice și numărul de genomi pentru comparație. Afișajul face similitudinea blastică a genei de focalizare și similitudinea genelor înconjurătoare din regiune (figura 3e).

în RAST, acest instrument se bazează pe o bază de date precomputată a tuturor asemănărilor BLAST (28) pentru a determina setul de genomi care se potrivesc cu gena de interes și calculează o comparație detaliată în perechi a genelor din regiunea selectată pentru a codifica datele. Datorită numărului de genomi din Baza de date PATRIC, această metodă este prea lentă pentru utilizarea în timp real. Versiunea PATRICĂ a acestui instrument bazează căutarea genei de focalizare și codarea culorilor fie pe familii de proteine specifice genului (PLFam), fie globale (PGFam) (35), care sunt precomputate pentru fiecare genom, astfel încât spațiul de căutare este mai mult scopat. Cu toate acestea, această vizualizare este scalabilă, deoarece BLAST este utilizat doar pentru a calcula similitudinea proteinelor pentru genele de focalizare din set.subsistemele

sunt colecții de proteine legate funcțional și sunt un dispozitiv conceptual vital pentru identificarea și proiectarea funcțiilor proteice între specii (7,52). PATRIC calculează acum și afișează datele subsistemului pentru fiecare secvență de genom public și privat adnotat. Subsistemele, care rezultă din adnotarea manuală de către o echipă de curatori experți, sunt împărțite în superclasă (exemplu: Metabolism), clasă (exemplu: răspuns la stres, apărare și virulență), subclasă (exemplu: rezistență la antibiotice și compuși toxici), numele subsistemului (exemplu: rezistență la Arsenic) și rolul funcțional al fiecăreia dintre genele incluse. Făcând clic pe fila subsisteme pentru orice genom oferă trei vizualizări diferite. Prezentarea generală a subsistemelor arată o diagramă circulară care afișează procentul genelor care se află într-o anumită superclasă. Fila subsisteme include numărul de gene găsite într-o anumită superclasă. Fila gene include o listă a tuturor genelor din toate subsistemele și include etichetele Locus PATRIC și RefSeq (47). Informațiile subsistemului nu sunt disponibile numai pentru genomii individuali, ci sunt însumate și pentru fiecare nivel taxonomic, până la Superregat folosind taxonomia NCBI (53). O vizualizare heatmap care arată prezența și absența proteinelor specifice per subsistem selectat pe un taxon sau un grup genom specific poate fi creat de către utilizator.

Command-Line Interface (CLI)

În ultimii 5 ani, magazinul de date PATRIC a fost gestionat folosind o structură de baze de date NoSQL Apache Solr. Pentru a se adapta colectării de date în creștere rapidă și pentru a profita de scalabilitate și rezistență, arhitectura bazei de date PATRIC a fost transformată într-o arhitectură de baze de date Apache SolrCloud în primăvara anului 2019. Baza de date SolrCloud este împărțită într-o serie de SolrCores pentru gestionarea tipurilor de date conexe, cum ar fi caracteristicile genomului, secvențele și datele transcriptomice. O interfață de programare a aplicațiilor de bază (API) permite accesul programatic la aceste nuclee și la datele pe care le conțin; cu toate acestea, achiziția de date poate deveni complexă atunci când navigați și fuzionați câmpuri din diferitele nuclee. Am dezvoltat un set de scripturi de linie de comandă care utilizează API-ul pentru accesarea Magazinului de date și efectuarea de analize comune. Această distribuție este disponibilă pentru sistemele de operare Mac, Windows și Linux, inclusiv Ubuntu și CentOS 6 și 7 și Fedora 28 și 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Atât distribuția, cât și site-ul PATRIC conțin tutoriale despre modul de utilizare a scripturilor cu exemple (https://docs.patricbrc.org/cli_tutorial/). Distribuția 482MB conține multe dintre scripturile care stau la baza mediului PATIRC. Unele permit descărcarea în masă, fuzionarea și manipularea datelor, iar altele permit analize mai complexe. Distribuția include, de asemenea, scripturi utile din proiectele anterioare SEED (5) și RASTtk (8). O funcționalitate deosebit de remarcabilă oferită de distribuția PATRIC CLI este capacitatea de a gestiona fișierele în spațiul de lucru. Utilizatorii se pot conecta la un spațiu de lucru privat, pot crea subdirectoare, pot muta fișiere în sau din spațiul de lucru și pot lansa lucrări de adnotare și asamblare. Aceste scripturi oferă mijloacele pentru asamblarea și adnotarea a sute sau chiar mii de secvențe de genom. În plus, am făcut, de asemenea, spațiul de lucru Patric accesibil prin File Transfer Protocol (FTP), care oferă un mijloc alternativ de a muta cantități mari de date în și din spațiul de lucru. Utilizatorii pot accesa spațiul de lucru utilizând linia de comandă sau utilizând un manager de fișiere FTP. Planificăm să continuăm dezvoltarea instrumentelor de linie de comandă pentru a permite un acces mai mare la servicii și o manipulare mai ușoară a datelor.

direcții viitoare

în 2020, echipa PATRIC de la Universitatea din Chicago, Universitatea din Virginia și Fellowship for Interpretation of Genomes se vor combina cu echipa BRC virală care susține resursele ViPR (Virus Pathogen Database and Analysis Resource) și IRD (Influenza Research Database) la Institutul J. Craig Venter (JCVI). Echipa BRC bacteriană și virală nou formată (BV-BRC) va continua să mențină site-urile PATRIC, IRD și ViPR, adăugând în același timp noi funcționalități de tăiere încrucișată. Intenționăm să ne concentrăm foarte mult pe îmbunătățirea utilității noii resurse BV-BRC pentru analiza epidemiologică, extinderea depozitului de date pentru a include alte tipuri de date și metadate, creșterea accesului la date structurate care pot fi utilizate în aplicațiile de inteligență artificială și îmbunătățirea arhitecturii de implementare a instrumentelor și serviciilor.

finanțare

Institutul Național de alergii și Boli Infecțioase (NIAID) . Finanțare pentru taxa de acces deschis: NIAID.

Declarație privind conflictul de interese. Nici unul a declarat.

Note

adresa actuală: James J. Davis, Laboratorul Național Argonne, Informatică, mediu și științe ale vieții, 9700 S. Cass Avenue, Argonne, IL 60439, SUA.

Snyder

Kampanya

Nordberg

E. K.

Karur

Shukla

soneja

Tian

Xue

Yoo

PATRIC: Centrul de integrare a resurselor VBI pathosystems

acizi nucleici Res.

2006

;

D401

–

D406

Wattam

A. R.

Abraham

Dalay

Disz

T. L.

Driscoll

Gabbard

J. L.

Gillespie

J. J.

Gough

Hix

Kenyon

PATRIC, baza de date de bioinformatică bacteriană și resursa de analiză

acizi nucleici Res.

2013

;

D581

–

D591

Wattam

A. R.

Davis

J. J.

Assaf

Boisvert

brettin

bun

Conrad

Dietrich

E. M.

disz

Gabbard

J. L.

îmbunătățiri aduse PATRIC, baza de date bioinformatică all-bacterian și Centrul de resurse de analiză

acizi nucleici Res.

2016

;

D535

–

D542

McNeil

L. K.

Reich

Aziz

R. K.

Bartels

cohoon

disz

Edwards

R. A.

Gerdes

Hwang

Kubal

resursa Națională a bazei de date a agenților patogeni microbieni (Nmpdr): o platformă genomică bazată pe adnotarea subsistemului

acizi nucleici Res.

2006

;

D347

–

D353

Overbeek

Olson

Pusch

G. D.

Olsen

G. J.

Davis

J. J.

disz

Edwards

R. A.

Gerdes

parrello

Shukla

sămânța și adnotarea rapidă a genomurilor microbiene folosind tehnologia subsistemelor (RAST)

acizi nucleici Res.

2013

;

D206

–

D214

Aziz

R. K.

Bartels

Best

A. A.

DeJongh

disz

Edwards

R. A.

formsma

Gerdes

glass

E. M.

Kubal

serverul RAST: adnotări rapide folosind tehnologia subsistemelor

BMC Genomics

2008

;

Overbeek

Begley

Butler

R. M.

Choudhuri

J. V.

Chuang

H.-Y.

cohoon

de Cr Inktictcy-Lagard

Diaz

Disz

Edwards

abordarea subsistemelor pentru adnotarea genomului și utilizarea acestuia în proiect pentru a adnota 1000 de genomi

acizi nucleici Res.

2005

;

5691

–

5702

Brettin

Davis

J. J.

Disz

Edwards

R. A.

Gerdes

Olsen

G. J.

Olson

Overbeek

parrello

Pusch

G. D.

RASTtk: o implementare modulară și extensibilă a algoritmului RAST pentru construirea conductelor de adnotare personalizate și adnotarea loturilor de genomi

Sci. Rep.

2015

;

8365

Antonopoulos

D. A.

Assaf

Aziz

R. K.

Brettin

iv T.

bun

Conrad

Davis

J. J.

Dietrich

E. M.

disz

Gerdes

PATRIC ca resursă unică pentru studierea rezistenței antimicrobiene

scurt. Bioinformă.

2019

;

1094

–

1102

Nguyen

Brettin

lung

S. W.

Musser

J. M.

Olsen

R. J.

Olson

Shukla

Stevens

R. L.

Xia

Yoo

dezvoltarea testului in silico minim inhibitor de concentrație pentru Klebsiella pneumoniae

Sci. Rep.

2018

;

421

Nguyen

lung

S. W.

McDermott

P. F.

Olsen

R. J.

Olson

Stevens

R. L.

Tyson

G. H.

Zhao

Davis

J. J.

utilizarea învățării automate pentru a prezice Microfoane antimicrobiene și caracteristicile genomului asociate pentru Salmonella nontifoidală

. J. Blink. Microbiol.

2019

;

e01260-18

Jia

Rafenya

A. R.

Alcock

Waglechner

Guo

Tsang

K. K.

Lago

B. A.

Dave

B. M.

Pereira

Sharma

A. N.

CARD 2017: extinderea și Curarea centrată pe model a bazei de date cuprinzătoare privind rezistența la antibiotice

acizi nucleici Res.

2016

;

D566

–

D573

Feldgarden

Brover

Haft

D. H.

Prasad

A. B.

Slotta

D. J.

Tolstoi

Tyson

G. H.

Zhao

Hsu

C.-H.

McDermott

P. F.

Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

Antimicrob. Agents Chemother.

2019

;

e00483-19

Yoo

A.B.

Jette

M.A.

Grondona

Slurm: Simple linux utility for resource management

Workshop on Job Scheduling Strategies for Parallel Processing

2003

;

Berlin, Heidelberg

Springer

–

Bankevich

Nurk

Antipov

Gurevich

A. A.

Dvorkin

Kulikov

A. S.

leucină

V. M.

Nikolenko

S. I.

Pham

prjibelski

A. D.

Spades: un nou algoritm de asamblare a genomului și aplicațiile sale la secvențierea cu o singură celulă

J. Comput. Biol.

2012

;

455

–

477

Koren

Walenz

B. P.

Berlin

Miller

J. R.

Bergman

N. H.

phillippy

A. M.

canu: ansamblu scalabil și posibil precis de citire lungă prin ponderare adaptivă k-Mer și separare repetată

Genome Res.

2017

;

722

–

736

fitil

R. R.

Judd

L. M.

Gorrie

C. L.

Holt

K. E.

Unicycler: rezolvarea ansamblurilor genomului bacterian din secvențierea scurtă și lungă citește

PLoS Comput. Biol.

2017

;

e1005595

fitil

R. R.

Schultz

M. B.

Zobel

Holt

K. E.

ferme: vizualizare interactivă a ansamblurilor genomului de novo

bioinformatică

2015

;

3350

–

3352

Vaser

Sovi XV

Nagarajan

asamblare rapidă și posibilă a genomului de novo precis din citiri lungi necorectate

Genome Res.

2017

;

737

–

746

Walker

B. J.

Abeel

Shea

preot

Abouelliel

Sakthikumar

Cuomo

C. A.

Wortman

young

S. K.

pilon: instrumentul integrat pentru detectarea completă a variantelor microbiene și îmbunătățirea ansamblului genomului

PLoS Unul

2014

;

e112963

Langmead

Yates

S. L.

aliniere rapidă cu papion 2

Nat. Metode

2012

;

357

–

359

Minimap2: alinierea perechilor pentru secvențele de nucleotide

bioinformatică

2018

;

3094

–

3100

Handsaker

Wysoker

Fennell

Ruan

Homer

Marth

Abecasis

Durbin

alinierea secvenței/formatul hărții și SAMtools

bioinformatică

2009

;

2078

–

2079

McNair

Aziz

R. K.

Pusch

G. D.

Overbeek

Dutilh

B. E.

Edwards

Clokie

MRJ

Kropinski

Lavigne

adnotarea genomului Fagului folosind conducta RAST

metode și protocoale bacteriofage

2018

;

Humana Press

231

–

238

parcuri

D. H.

Imelfort

Skennerton

C. T.

Hugenholtz

Tyson

G. W.

checkm: evaluarea calității genomilor microbieni recuperați din izolate, celule unice și metagenomi

Genome Res.

2015

;

1043

–

1055

Parrello

Butler

Chlenski

Olson

Overbeek

Pusch

G. D.

vonstein

Overbeek

serviciul bazat pe învățarea automată pentru estimarea calității genomurilor folosind PATRIC

Bioinformatica BMC

2019

;

486

Kim

Langmead

Yates

S. L.

HISAT: o aliniere rapidă îmbinată cu cerințe de memorie reduse

div>.

Nat. Metode

2015

;

357

–

360

Boratyn

G. M.

Camacho

Cooper

P. S.

Coulouris

Fong

Mat

Madden

T. L.

Matten

W. T.

walk

S. D.

merezhuk

explozie: un raport mai eficient cu îmbunătățiri de utilizare

acizi nucleici Res.

2013

;

W29

–

W33

Eddy

S. R.

profil ascuns Markov modele

bioinformatică

1998

;

755

–

763

Enright

A. J.

Van Dongen

Ouzounis

C. A.

algoritmul eficient pentru detectarea pe scară largă a familiilor de proteine

acizi nucleici Res.

2002

;

1575

–

1584

Edgar

R. C.

musculare: aliniere secvență multiplă cu mare precizie și debit mare

acizi nucleici Res.

2004

;

1792

–

1797

Talavera

Castresana

îmbunătățirea filogeniilor după îndepărtarea blocurilor divergente și ambigue aliniate din aliniamentele secvenței proteice

Syst. Biol.

2007

;

564

–

577

Preț

M. N.

Dehal

P. S.

Arkin

A. P.

FastTree 2-aproximativ arbori cu probabilitate maximă pentru alinieri mari

PLoS Unul

2010

;

e9490

Stamatakis

raxml versiunea 8: un instrument pentru analiza filogenetică și post-Analiza filogeniilor mari

bioinformatică

2014

;

1312

–

1313

Davis

J. J.

Gerdes

Olsen

G. J.

Olson

Pusch

G. D.

Shukla

Vonstein

Wattam

A. R.

Yoo

pattyfams: familii de proteine pentru genomii microbieni din Baza de date patrică

față. Microbiol.

2016

;

118

Cock

P. J.

Antao

Chang

J. T.

Chapman

B. A.

Cox

C. J.

Dalke

Friedberg

Hamelryck

Kauff

Wilczynski

biopython: instrumente Python disponibile gratuit pentru biologie moleculară computațională și bioinformatică

bioinformatică

2009

;

1422

–

1423

Felsenstein

PHYLIP (pachetul de inferență filogenie), versiunea 3.5 C

1993

;

Seattle, Washington

Joseph Felsenstein

Stamatakis

Hoover

Rougemont

algoritmul rapid de bootstrap pentru serverele web RAxML

Syst. Biol.

2008

;

758

–

771

Krueger

Trim Galore: un instrument de înveliș în jurul Cutadapt și FastQC pentru a aplica în mod constant de calitate și adaptor tunderea fișierelor FastQ, cu unele funcționalități suplimentare pentru mspi-digerate RRBs-tip (reprezentare redusă Bisufite-Seq) biblioteci

2012

;

(28 aprilie 2016, data ultimei accesări)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin

Cutadapt elimină secvențele adaptorului din secvențierea cu randament ridicat citește

EMBnet J.

2011

;

–

Langmead

Wilks

Antonescu

Charles

scalarea citește aliniatori la sute de fire pe procesoare de uz general

bioinformatică

2018

;

421

–

432

Lassmann

Hayashizaki

Daub

C. O.

SAMStat: monitorizarea prejudecăților în următoarea generație de date secvențiere

bioinformatică

2010

;

130

–

131

Darling

A. E.

Mau

Perna

N. T.

progressiveMauve: alinierea genomului multiplu cu câștigul, pierderea genei și rearanjare

PLoS Unul

2010

;

e11147

Darling

A. C.

Mau

Blattner

F. R.

Perna

N. T.

mov: alinierea multiplă a secvenței genomice conservate cu rearanjări

Genome Res.

2004

;

1394

–

1403

Ondov

B. D.

Treangen

T. J.

Melsted

Mallonee

iv A. B.

Bergman

N. H.

Koren

phillippy

A. M.

mash: estimarea rapidă a genomului și a distanței Metagenomului folosind minhash

genomul Biol.

2016

;

132

Lemn

D. E.

Yates

S. L.

Kraken: taxonomia secvenței metagenomice ultrarapide folosind aliniamente exacte

genomul Biol.

2014

;

R46

Haft

D. H.

DiCuccio

Badretdin

Brover

chetvernin

O ‘ Neill

Chitsaz

Derbyshire

M. K.

Gonzales

N. R.

RefSeq: o actualizare privind adnotarea și Curarea genomului procariot

acizi nucleici Res.

2017

;

D851

–

D860

Ondov

B. D.

Bergman

N. H.

Phillippy

A. M.

vizualizare Metagenomică interactivă într-un browser web

Bioinformatica BMC

2011

;

385

Clausen

P. T.

Aarestrup

F. M.

Lund

alinierea rapidă și precisă a citirilor brute împotriva bazelor de date redundante cu KMA

Bioinformatica BMC

2018

;

307

McArthur

A. G.

Waglechner

Nizam

Yan

Azad

M. A.

baylay

A. J.

Bhullar

Canova

M. J.

două Pascale

Ejim

baza de date cuprinzătoare de rezistență la antibiotice

. Antimicrob. Agenți Chemother.

2013

;

3348

–

3357

Liu

Zheng

Jin

câine

yang

vfdb 2019: platforma patogenomică comparativă cu interfața web interactivă

acizi nucleici Res.

2018

;

D687

–

D692

Overbeek

Olson

Pusch

G. D.

Olsen

G. J.

Davis

J. J.

disz

Edwards

R. A.

Gerdes

parrello

Shukla

sămânța și adnotarea rapidă a genomurilor microbiene folosind tehnologia subsistemelor (rast)

acizi nucleici Res.

2013

;

D206

–

D214

Federhen

baza de date NCBI taxonomie

acizi nucleici Res.

2011

;

D136

–

D143

publicat de Oxford University Press în numele Nucleic Acids Research 2019.

această lucrare este scrisă de (a) angajat al Guvernului SUA și este în domeniul public în SUA.

Company Pride

Centrul de resurse pentru bioinformatică PATRIC: extinderea capacităților de date și analiză

rezumat

introducere

ce este nou în PATRIC?

creșterea și îmbunătățirea datelor

servicii

actualizări notabile pentru serviciile existente

analiza cuprinzătoare a genomului

arbori filogenetici

fastq utilities

alinierea genomului

căutare similară a genomului

clasificare taxonomică

metagenomic read mapping

binning Metagenomic

instrumente de analiză bazate pe Web

comparați vizualizatorul de regiuni

Command-Line Interface (CLI)

direcții viitoare

finanțare

Note

Lasă un răspuns Anulează răspunsul

Arhive

Meta