Articles

Centrul de resurse pentru bioinformatică PATRIC: extinderea capacităților de date și analiză

rezumat

Centrul de integrare a resurselor PathoSystems (PATRIC) este centrul de resurse pentru bioinformatică bacteriană finanțat de Institutul Național de alergii și Boli Infecțioase (https://www.patricbrc.org). PATRIC sprijină analizele bioinformatice ale tuturor bacteriilor cu un accent deosebit pe agenții patogeni, oferind un mediu bogat de analiză comparativă care oferă utilizatorilor acces la peste 250 000 de genomi adnotați uniform și disponibili publicului cu metadate curate. PATRIC oferă instrumente de vizualizare și analiză comparativă bazate pe web, un spațiu de lucru privat în care utilizatorii își pot analiza propriile date în contextul colecțiilor publice, servicii care eficientizează fluxurile de lucru bioinformatice complexe și instrumente de linie de comandă pentru analiza datelor în bloc. În ultimii ani, pe măsură ce experimentele genomice și alte experimente legate de omics au devenit mai rentabile și mai răspândite, am observat o creștere considerabilă a utilizării și a cererii de instrumente și servicii bioinformatice ușor de utilizat și disponibile publicului. Aici raportăm actualizările recente ale resursei PATRIC, inclusiv noi instrumente de analiză comparativă bazate pe web, opt servicii noi și lansarea unei interfețe de linie de comandă pentru a accesa, interoga și analiza datele.

introducere

Programul Centrului de resurse bioinformatice (BRC) a fost înființat de Institutul Național de alergii și Boli Infecțioase (NIAID) în 2004, cu accent principal pe furnizarea accesului la datele secvenței genomului și la instrumentele de analiză pentru studierea agenților patogeni. PathoSystems Resource Integration Center (PATRIC) a început ca unul dintre centrele originale însărcinate cu sprijinirea analizei comparative a agenților patogeni bacterieni (1-3). În 2009, PATRIC a fuzionat cu resursa Națională a bazei de date a agenților patogeni microbieni (Nmpdr) BRC (4), care a dezvoltat baza de date de semințe de succes și RAST (adnotare rapidă folosind tehnologia subsistemului) sistem de adnotare pentru curățarea și proiectarea uniformă a adnotărilor genomului între speciile microbiene (5-8). De-a lungul anilor, resursa PATRIC s-a extins și s-a adaptat pentru a ține pasul cu creșterea seturilor de date bioinformatice și cu nevoia de instrumente de analiză asociate. Începând din septembrie 2019, PATRIC include peste 250 000 de genomi microbieni disponibili publicului și un mediu bogat de analiză comparativă.

de la lansarea sa în 2008, RAST (http://rast.nmpdr.org) a efectuat 700 000 de locuri de muncă de adnotare a genomului pentru utilizatorii privați. Oferind acces la scripturile de identificare a caracteristicilor genomului dezvoltate de comunitatea academică și proiecții consistente ale funcțiilor proteice bine întreținute din semințe, RAST servește drept model pentru un serviciu bioinformatic de succes, deoarece atenuează nevoia utilizatorilor de a-și construi propriile conducte de adnotare personalizate, iar consistența sa permite analize comparative în aval. Folosind RAST ca șablon, în 2014 PATRIC a început să implementeze o varietate de servicii bioinformatice prin intermediul site-ului web, permițând utilizatorilor să asambleze și să adnoteze secvențe de genom, să reconstruiască modele metabolice, să analizeze SNP-uri și INDELs și să analizeze și să compare experimentele ARN-seq. Rezultatele acestor lucrări de analiză ar putea fi apoi comparate cu colecțiile de date genomice și alte omic disponibile publicului în resursă, în timp ce sunt păstrate private în mediul spațiului de lucru al utilizatorului. Până la sfârșitul anului 2016, PATRIC procesa 1500 de locuri de muncă de serviciu pe lună, fără a include locurile de muncă trimise pe site-ul RAST (3).

de la ultima descriere în cercetarea acizilor nucleici în 2016 (3), PATRIC a suferit o serie de actualizări și îmbunătățiri. Colectarea datelor a fost îmbunătățită, în special în domeniul rezistenței antimicrobiene (AMR) (9); mediul de navigare pe web a fost îmbunătățit cu noi instrumente și vizualizări; iar îmbunătățirile aduse spațiului de lucru au facilitat, de asemenea, găsirea și partajarea datelor proiectului de cercetare. O interfață de linie de comandă (CLI) pentru achiziția și analiza datelor în bloc a fost construită și lansată pentru distribuție pe sistemele Mac, Linux și Windows. PATRIC a lansat, de asemenea, opt noi servicii bioinformatice, cu accent recent pus pe capacitatea de a analiza date din culturi mixte sau probe metagenomice. În sfârșit, a fost creată o bogată colecție de tutoriale pentru a ajuta utilizatorii cu aceste noi instrumente (https://docs.patricbrc.org/tutorial/). Acest raport descrie multe dintre actualizările recente nepublicate ale resursei PATRIC.

ce este nou în PATRIC?

creșterea și îmbunătățirea datelor

una dintre cele mai dramatice schimbări în susținerea activității bioinformatice de la începutul programului BRC a fost creșterea exponențială a secvențelor genomului microbian disponibile publicului (Figura 1). Colecția de secvențe de genom ale utilizatorilor privați care au fost adnotate și indexate de PATRIC a crescut, de asemenea, de la înființarea mediului spațiului de lucru și poate depăși de fapt dimensiunea colecției publice de secvențe de genom în anul următor (Figura 1). Deși setul privat include unele secvențe genomice reanalizate,

Figura 1.

creșterea cumulativă a genomurilor publice și private în PATRIC.

Figura 1.

creșterea cumulativă a genomurilor publice și private în PATRIC.

nu vedem niciun indiciu că secvențierea genomului microbian și analizele bioinformatice aferente încetinesc. Creșterea datelor de secvență a genomului disponibile publicului și a metadatelor structurate conexe a revoluționat, de asemenea, tipurile de analize experimentale care sunt posibile. De exemplu, PATRIC oferă metadate structurate și întreținute manual asociate fiecărui genom, inclusiv fenotipuri AMR derivate din laborator, organisme gazdă, surse de izolare, date despre situl corpului uman și informații geografice. Aceste colecții de metadate structurate oferă fundamentul pentru derularea experimentelor de învățare automată și de învățare profundă (10,11) și pentru furnizarea de instrumente predictive utilizatorilor (9). Anticipăm că utilizarea sporită a tehnicilor de inteligență artificială în bioinformatică va conduce la decizii de proiectare experimentală și, în cele din urmă, va scurta timpul necesar pentru experimentele de caracterizare genetice și alte experimente de laborator.

sprijinirea cercetării AMR este un domeniu major de interes pentru colectarea și Curarea datelor la PATRIC. Organizăm în mod activ atât adnotări de proteine AMR, cât și date de fenotip AMR derivate din laborator asociate genomurilor publice. Sistemul de adnotare este capabil să proiecteze cu precizie peste 600 de funcții de proteine AMR organizate manual. De asemenea, conține o colecție mare de funcții proteice non-AMR strâns legate, care au fost organizate pentru a preveni predicțiile false ale funcțiilor AMR. Pentru a oferi un mijloc suplimentar de comparație, sistemul de adnotare caută, de asemenea, gene cu similitudine ridicată cu cele organizate de CARD (12) și proiectele bazei de date a genelor NCBI AMR (13). Colectarea fenotipului AMR derivat din laborator a fost generată prin curatarea datelor din literatura de specialitate, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) și alte surse publice. Acesta a crescut pentru a include peste 40 000 de secvențe de genom și este utilizat de cercetători din întreaga lume. Am adăugat, de asemenea, peste 10 000 de secvențe de plasmide și profage datorită importanței lor în studierea și combaterea RAM.

servicii

serviciile furnizate de PATRIC sunt concepute pentru a permite accesul facil la fluxuri de lucru bioinformatice complexe. Acestea pot fi accesate prin intermediul interfeței web PATRIC și CLI. Majoritatea serviciilor au capacitatea de a gestiona sute sau chiar mii de locuri de muncă pe zi. Lucrările sunt de obicei rulate pe o serie de servere interne, capacitatea de supratensiune fiind gestionată de un cluster de calcul mare. Serviciile PATRIC au crescut în popularitate din 2014, iar din septembrie 2019, peste 263 000 de locuri de muncă au fost finalizate cu succes (figura 2).

Figura 2.

joburi de analiză inițiate de utilizator completate de serviciile PATRIC bioinformatic. Graficul de sus arată utilizarea serviciilor cu volum mare. Graficul de jos arată utilizarea volumului mai mic și a serviciilor noi. Rețineți diferența de scară dintre cele două parcele.

Figura 2.

joburi de analiză inițiate de utilizator completate de serviciile PATRIC bioinformatic. Graficul de sus arată utilizarea serviciilor cu volum mare. Graficul de jos arată utilizarea volumului mai mic și a serviciilor noi. Rețineți diferența de scară dintre cele două parcele.

actualizări notabile pentru serviciile existente

trei dintre serviciile noastre pre=existente, asamblarea genomului, adnotarea genomului și analiza ARN-seq, au suferit mai multe actualizări notabile. Serviciul de asamblare a genomului a fost reconstruit cu un nou planificator de locuri de muncă care permite un proces mai echitabil de așteptare a locurilor de muncă care împiedică crearea de blocaje mari (14). În plus față de pică (15), am adăugat Canu (16) pentru asamblare lung citit și Unicycler pentru hibrid lung și scurt citit ansambluri (17). De asemenea, oferim o imagine a graficului de asamblare folosind bandaj (18), iar ansamblurile pot fi lustruite folosind Racon (19) și Pilon (20) pentru ansambluri cu citire lungă și, respectiv, scurtă. În cele din urmă, maparea citită este efectuată pentru a genera statistici precise de acoperire folosind Bowtie2 (21) sau Minimap2 (22) și SAMtools (23). Două noi adăugiri la Serviciul de adnotare a genomului includ capacitatea de a adnota secvențele genomului bacteriofag (24) și calculul statisticilor privind calitatea genomului care se bazează pe aplicația CheckM (25) și un model RAST intern care evaluează calitatea pe baza apariției și completitudinii rolurilor subsistemului în genom (26). Serviciul de analiză ARN-seq a fost, de asemenea, actualizat pentru a permite experimente care studiază răspunsul gazdei la infecțiile microbiene. Pentru a susține acest lucru, am adăugat mai multe genomuri comune de referință ale gazdei eucariote, inclusiv Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, cocoș, cocoș, Homo sapiens, Macaca mulatta, mușchi Mus, nevăstuică putorius furo, Rattus norvegicus și Sus scrofa. De asemenea, am adăugat recent HISAT2 (indexare ierarhică pentru alinierea splicată a transcrierilor) (27), Un sistem extrem de eficient pentru alinierea citirilor din experimentele ARN-Seq la genomii gazdă și a permis importul seturilor de date din SRA în interfața ARN-seq, sporind în continuare capacitatea de a efectua analiza expresiei diferențiale mixte a datelor publice și private.

analiza cuprinzătoare a genomului

unul dintre cele mai frecvente cazuri de utilizare pentru analiza genomurilor private la PATRIC este ca cercetătorii să asambleze și apoi să adnoteze secvențele genomului lor folosind două servicii separate. În primăvara anului 2018, am lansat un meta-serviciu cuprinzător de analiză a genomului, care acceptă citirea secvențială, calculează asamblarea și adnotarea și oferă o descriere ușor de utilizat a genomului. Rezultatul include o evaluare a calității genomului, gene AMR și predicții fenotipice, gene de specialitate, prezentare generală a subsistemului, identificarea celor mai apropiate secvențe de genom, un arbore filogenetic și o listă de caracteristici care disting genomul de cei mai apropiați vecini. Serviciul cuprinzător de analiză a genomului a devenit rapid unul dintre cele mai populare servicii din PATRIC, cu peste 11 000 de locuri de muncă finalizate de la lansarea sa în aprilie 2018.

arbori filogenetici

capacitatea de a reconstrui și vizualiza relațiile evolutive se află în centrul biologiei. În 2017, PATRIC a lansat serviciul arbore filogenetic care permite utilizatorilor să construiască arbori filogenetici de înaltă calitate pentru secvențele genomului public și privat. Serviciul oferă în prezent două fluxuri de lucru utilizatorului. Primul este un flux de lucru bazat pe proteine numit”toate proteinele partajate”, care utilizează conducta de estimare Filogenomică cu rafinament progresiv (PEPR) (https://github.com/enordber/pepr). PEPR funcționează prin definirea familiilor de proteine comune de novo pentru un grup de genom folosind BLAST (28) și HMMER (29) pentru a identifica proteine similare și MCL (30) pentru a construi clustere. Apoi, aliniamentele sunt generate folosind mușchi (31) și tăiate cu Gblocks (32). În cele din urmă, pe baza preferințelor utilizatorului, PEPR calculează arborele folosind fie FastTree (33), fie RAxML (34). În 2019, am lansat un al doilea flux de lucru, mai rapid, filogenetic, numit Codon Trees. Folosește familii de proteine Patrice globale predefinite (PGFAM) (35), selectând un număr specificat de utilizator de familii (10-1000) care sunt o singură copie (sau aproape așa) între membrii unui grup de genom. Aliniamentele sunt generate pentru secvențele de proteine ale fiecărei familii folosind mușchi (31), iar secvențele lor nucleotidice corespunzătoare sunt aliniate la aceasta folosind funcția codonalign a Biopitonului (36). O aliniere concatenată a tuturor proteinelor și nucleotidelor este scrisă într-un fișier formatat cu Filip (37). Apoi este generat un fișier de partiții pentru RaxML (34), care descrie alinierea în termeni de proteine și nucleotide în prima, a doua și a treia poziție a codonului. Valorile de sprijin sunt generate de 100 de runde de bootstrapping rapidă în RaxML (38).

În plus față de fișierele arborescente formatate Newick, serviciul arbore filogenetic returnează un fișier document portabil (PDF), o grafică de rețea portabilă (PNG) și un fișier imagine grafică vectorială scalabilă (SVG) a imaginilor arborescente înrădăcinate din punctul de mijloc generate de FigTree (http://tree.bio.ed.ac.uk/software/figtree/). Vizualizarea arborelui filogenetic de pe site-ul PATRIC permite cercetătorilor să selecteze noduri și frunze, permițând utilizatorului să creeze grupuri din clade specifice pentru analize suplimentare. De asemenea, generează un raport al genomului care oferă o listă a secvențelor genomului și a familiilor de proteine utilizate în construcția arborelui și a numărului de gene, proteine, aminoacizi și nucleotide utilizate pentru a calcula arborele. În cele din urmă, sunt enumerate secvențe problematice ale genomului care ar putea fi eliminate pentru a crește selecția genei și pentru a îmbunătăți puterea arborelui. De când a fost construit, aproape 5000 de locuri de muncă au fost procesate de serviciul arborelui filogenetic.

fastq utilities

Evaluarea calității secvențiere Citește este un prim pas important pentru a se asigura că analizele ulterioare, cum ar fi asamblare, adnotare, etc. sunt corecte. Serviciul Fastq Utilities, lansat în iulie 2019, permite utilizatorilor să alinieze citirile, să măsoare calitatea apelurilor de bază și să decupeze secvențe de calitate scăzută din fișierele citite. Serviciul acceptă fișiere cu citire lungă sau scurtă în format unic sau pereche. De asemenea, poate prelua fișiere citite direct din arhiva de citire a secvenței NCBI (SRA) folosind un identificator de rulare ca intrare. Serviciul are trei componente, ‘trim, ”FastQC,’ și ‘align,’ care pot fi utilizate independent sau în orice combinație. Componenta de tundere utilizează Trim Galore (39), care este un înveliș Perl în jurul Cutadapt (40) și FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) instrumente. Componenta FastQC oferă verificări de control al calității datelor de secvență brută provenite de la conductele de secvențiere cu randament ridicat și permite controlul rapid al calității prin indicarea problemelor care ar putea avea impact asupra analizelor din aval. Funcția de aliniere aliniază citirile la o secvență de genom de referință folosind Bowtie2 (21,41), salvând citirile nemapate și generând rapoarte SamStat (42) despre cantitatea și calitatea aliniamentelor.

alinierea genomului

în noiembrie 2018, PATRIC a lansat serviciul de aliniere a genomului pentru a permite utilizatorilor să calculeze alinierile secvenței genomului întreg. Acest serviciu utilizează aplicația progressiveMauve (43), care construiește omologie pozițională alinieri multiple ale secvenței genomului într-o extensie a algoritmului original Mauve (44). Serviciul permite cercetătorilor să alinieze până la douăzeci de secvențe de genom la un moment dat. Rezultatul serviciului include o afișare vizuală a genomului care permite utilizatorilor să vizualizeze și să exploreze întreaga aliniere a secvenței genomului sau să mărească pentru a compara regiuni sau gene individuale (Figura 3).

Figura 3.

un flux de lucru de analiză a datelor în PATRIC folosind serviciul de aliniere a genomului. (A) interfața site-ului web permite selectarea genomilor; (B) vizualizarea regiunilor genomice aliniate cu orice ștergeri, inserții sau rearanjări; (c) mărirea alinierii va arăta genele de pe standurile înainte și înapoi, care pot fi selectate; (D) selectarea unei gene specifice din vizualizatorul de aliniere a genomului deschide pagina caracteristică PATRICĂ, unde sunt afișate toate datele disponibile pentru acea genă. (E) fila Vizualizare comparare regiune de pe pagina genei Patrice arată conservarea genei selectate (prezentată în roșu) și, de asemenea, genele înconjurătoare. (F) fiecare genă este atribuită unei familii de proteine specifice genului (PLFam) sau globale (pgfam) care poate fi selectată din pagina de caracteristici, iar membrii familiei pot fi comparați folosind instrumentul de aliniere a secvențelor Multiple/Arborele genei.

Figura 3.

un flux de lucru de analiză a datelor în PATRIC folosind serviciul de aliniere a genomului. (A) interfața site-ului permite selectarea genomilor; (B) vizualizarea regiunilor genomice aliniate cu orice ștergeri, inserții sau rearanjări; (C) mărirea alinierii va afișa genele de pe standurile înainte și înapoi, care pot fi selectate; (D) selectarea unei gene specifice din vizualizatorul de aliniere a genomului deschide pagina caracteristică PATRICĂ, unde sunt afișate toate datele disponibile pentru acea genă. (E) fila Vizualizare comparare regiune de pe pagina genei Patrice arată conservarea genei selectate (prezentată în roșu) și, de asemenea, genele înconjurătoare. (F) fiecare genă este atribuită unei familii de proteine specifice genului (PLFam) sau globale (pgfam) care poate fi selectată din pagina de caracteristici, iar membrii familiei pot fi comparați folosind instrumentul de aliniere a secvențelor Multiple/Arborele genei.

căutare similară a genomului

când un cercetător are o nouă secvență de genom, unul dintre primele lucruri pe care doresc să le identifice sunt rudele cele mai apropiate pentru organism, dar acest lucru poate fi dificil atunci când colecția publică este atât de mare. PATRIC oferă un serviciu numit Similar Genome Finder pentru a permite cercetătorilor să identifice rapid secvențe similare de genom folosind Mash (45). Mash funcționează prin reducerea secvențelor mari la schițe reprezentative mici, care pot fi utilizate pentru a estima distanțele de mutație pe baza k-mersului comun. PATRIC permite compararea cu toate secvențele genomului public sau setul genomului de referință NCBI. Instrumentul permite cercetătorilor să ajusteze sensibilitatea de căutare selectând numărul maxim de K-mers deținute în comun, pragul de valoare P sau distanța. Rezultatele sunt returnate ca o listă a celor mai similare secvențe de genom cu metadate corespunzătoare. Ca și în cazul tuturor tabelelor Patrice, cercetătorii pot selecta secvențe pentru a crea grupuri pentru analize ulterioare sau pentru a descărca rezultatele.

clasificare taxonomică

lansat în martie 2019, serviciul de clasificare taxonomică identifică compoziția taxonomică a probelor mixte sau metagenomice. Acest serviciu utilizează aplicația Kraken2 (46), care identifică k-mers care indică diferite unități taxonomice. Baza de date Kraken utilizată de serviciu este o construcție completă care se bazează pe toate secvențele genomului RefSeq (47), secvența genomului uman, plasmidele și secvențele vectoriale. Ieșire de locuri de muncă include formatul standard de raport Kraken, cu fiecare taxon bacterian hyperlink la pagina de potrivire în PATRIC. Serviciul returnează, de asemenea, un complot Krona (48) care arată procentul de citiri mapate la fiecare taxon și permite utilizatorului să exploreze taxonii selectați.

metagenomic read mapping

cercetătorii care studiază AMR sau virulența pot fi interesați să analizeze genele în seturi de citire mixte sau metagenomice. Serviciul de cartografiere a citirii Metagenome permite cercetătorilor să caute aceste gene specifice într-un set de lecturi. Funcționează prin alinierea citirilor împotriva unei gene de referință folosind KMA, care folosește însămânțarea k-mer și algoritmul Needleman–Wunsch pentru a alinia cu exactitate citirile la genele de interes (49). Utilizatorii se pot alinia în prezent împotriva seturilor de gene de referință din Baza de date cuprinzătoare a rezistenței la antibiotice (CARD) (50) și baza de date a factorului de virulență (VFDB) (51). Serviciul returnează versiunile html și text ale raportului standard KMA, care prezintă informații detaliate de cartografiere, legături către gene în PATRIC cu similitudine ridicată și o secvență de consens asamblată din citirile aliniate.

binning Metagenomic

lansat în August 2017, Serviciul de Binning Metagenomic asamblează citiri dintr-o probă metagenomică în contiguri și apoi încearcă să separe aceste contiguri în coșuri care reprezintă genomii speciilor individuale. Aceste coșuri sunt apoi complet adnotate și statistici detaliate de calitate sunt calculate pentru fiecare coș. Algoritmul de binning începe prin scanarea contigilor pentru proteine marker specifice care apar aproape întotdeauna individual în genom. Similitudinea marker-proteină este utilizată pentru a recruta genomi similari din PATRIC, care sunt apoi utilizați pentru a recruta contiguri suplimentare pe baza diferențierii proteinei k-mers. Similar cu genomii izolați singuri, coșurile sunt plasate în spațiul de lucru al utilizatorului și indexate în baza de date PATRIC ca genomi privați, permițând utilizarea completă a instrumentelor de analiză comparativă PATRICĂ și vizualizare pentru fiecare coș.

instrumente de analiză bazate pe Web

site-ul web PATRIC oferă mai multe instrumente interactive de analiză vizuală care permit utilizatorilor să compare seturile de date omics. Aceste instrumente integrează date de diferite tipuri, efectuează unele sarcini de calcul și redă vizualizări interactive pentru utilizator. PATRIC acceptă în prezent multe instrumente de analiză bazate pe web, cum ar fi Heat Map Viewer pentru compararea conținutului de proteine partajat, Pathway Viewer pentru explorarea căilor metabolice și browserul genomului pentru afișarea caracteristicilor genomice pe cromozom. Am adăugat două noi vizualizări pe site-ul PATRIC care a existat inițial pe site-urile RAST și SEED, dar a necesitat o reinginerie semnificativă pentru a fi funcțională pentru utilizarea cu sute de mii de genomi.

comparați vizualizatorul de regiuni

vizualizatorul de regiuni comparați permite cercetătorilor să compare cartierele genetice (loci genetici sau clustere cromozomiale) în multe specii. Un utilizator selectează o genă de interes, dimensiunea regiunii genomice și numărul de genomi pentru comparație. Afișajul face similitudinea blastică a genei de focalizare și similitudinea genelor înconjurătoare din regiune (figura 3e).

în RAST, acest instrument se bazează pe o bază de date precomputată a tuturor asemănărilor BLAST (28) pentru a determina setul de genomi care se potrivesc cu gena de interes și calculează o comparație detaliată în perechi a genelor din regiunea selectată pentru a codifica datele. Datorită numărului de genomi din Baza de date PATRIC, această metodă este prea lentă pentru utilizarea în timp real. Versiunea PATRICĂ a acestui instrument bazează căutarea genei de focalizare și codarea culorilor fie pe familii de proteine specifice genului (PLFam), fie globale (PGFam) (35), care sunt precomputate pentru fiecare genom, astfel încât spațiul de căutare este mai mult scopat. Cu toate acestea, această vizualizare este scalabilă, deoarece BLAST este utilizat doar pentru a calcula similitudinea proteinelor pentru genele de focalizare din set.subsistemele

sunt colecții de proteine legate funcțional și sunt un dispozitiv conceptual vital pentru identificarea și proiectarea funcțiilor proteice între specii (7,52). PATRIC calculează acum și afișează datele subsistemului pentru fiecare secvență de genom public și privat adnotat. Subsistemele, care rezultă din adnotarea manuală de către o echipă de curatori experți, sunt împărțite în superclasă (exemplu: Metabolism), clasă (exemplu: răspuns la stres, apărare și virulență), subclasă (exemplu: rezistență la antibiotice și compuși toxici), numele subsistemului (exemplu: rezistență la Arsenic) și rolul funcțional al fiecăreia dintre genele incluse. Făcând clic pe fila subsisteme pentru orice genom oferă trei vizualizări diferite. Prezentarea generală a subsistemelor arată o diagramă circulară care afișează procentul genelor care se află într-o anumită superclasă. Fila subsisteme include numărul de gene găsite într-o anumită superclasă. Fila gene include o listă a tuturor genelor din toate subsistemele și include etichetele Locus PATRIC și RefSeq (47). Informațiile subsistemului nu sunt disponibile numai pentru genomii individuali, ci sunt însumate și pentru fiecare nivel taxonomic, până la Superregat folosind taxonomia NCBI (53). O vizualizare heatmap care arată prezența și absența proteinelor specifice per subsistem selectat pe un taxon sau un grup genom specific poate fi creat de către utilizator.

Command-Line Interface (CLI)

În ultimii 5 ani, magazinul de date PATRIC a fost gestionat folosind o structură de baze de date NoSQL Apache Solr. Pentru a se adapta colectării de date în creștere rapidă și pentru a profita de scalabilitate și rezistență, arhitectura bazei de date PATRIC a fost transformată într-o arhitectură de baze de date Apache SolrCloud în primăvara anului 2019. Baza de date SolrCloud este împărțită într-o serie de SolrCores pentru gestionarea tipurilor de date conexe, cum ar fi caracteristicile genomului, secvențele și datele transcriptomice. O interfață de programare a aplicațiilor de bază (API) permite accesul programatic la aceste nuclee și la datele pe care le conțin; cu toate acestea, achiziția de date poate deveni complexă atunci când navigați și fuzionați câmpuri din diferitele nuclee. Am dezvoltat un set de scripturi de linie de comandă care utilizează API-ul pentru accesarea Magazinului de date și efectuarea de analize comune. Această distribuție este disponibilă pentru sistemele de operare Mac, Windows și Linux, inclusiv Ubuntu și CentOS 6 și 7 și Fedora 28 și 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Atât distribuția, cât și site-ul PATRIC conțin tutoriale despre modul de utilizare a scripturilor cu exemple (https://docs.patricbrc.org/cli_tutorial/). Distribuția 482MB conține multe dintre scripturile care stau la baza mediului PATIRC. Unele permit descărcarea în masă, fuzionarea și manipularea datelor, iar altele permit analize mai complexe. Distribuția include, de asemenea, scripturi utile din proiectele anterioare SEED (5) și RASTtk (8). O funcționalitate deosebit de remarcabilă oferită de distribuția PATRIC CLI este capacitatea de a gestiona fișierele în spațiul de lucru. Utilizatorii se pot conecta la un spațiu de lucru privat, pot crea subdirectoare, pot muta fișiere în sau din spațiul de lucru și pot lansa lucrări de adnotare și asamblare. Aceste scripturi oferă mijloacele pentru asamblarea și adnotarea a sute sau chiar mii de secvențe de genom. În plus, am făcut, de asemenea, spațiul de lucru Patric accesibil prin File Transfer Protocol (FTP), care oferă un mijloc alternativ de a muta cantități mari de date în și din spațiul de lucru. Utilizatorii pot accesa spațiul de lucru utilizând linia de comandă sau utilizând un manager de fișiere FTP. Planificăm să continuăm dezvoltarea instrumentelor de linie de comandă pentru a permite un acces mai mare la servicii și o manipulare mai ușoară a datelor.

direcții viitoare

în 2020, echipa PATRIC de la Universitatea din Chicago, Universitatea din Virginia și Fellowship for Interpretation of Genomes se vor combina cu echipa BRC virală care susține resursele ViPR (Virus Pathogen Database and Analysis Resource) și IRD (Influenza Research Database) la Institutul J. Craig Venter (JCVI). Echipa BRC bacteriană și virală nou formată (BV-BRC) va continua să mențină site-urile PATRIC, IRD și ViPR, adăugând în același timp noi funcționalități de tăiere încrucișată. Intenționăm să ne concentrăm foarte mult pe îmbunătățirea utilității noii resurse BV-BRC pentru analiza epidemiologică, extinderea depozitului de date pentru a include alte tipuri de date și metadate, creșterea accesului la date structurate care pot fi utilizate în aplicațiile de inteligență artificială și îmbunătățirea arhitecturii de implementare a instrumentelor și serviciilor.

finanțare

Institutul Național de alergii și Boli Infecțioase (NIAID) . Finanțare pentru taxa de acces deschis: NIAID.

Declarație privind conflictul de interese. Nici unul a declarat.

Note

adresa actuală: James J. Davis, Laboratorul Național Argonne, Informatică, mediu și științe ale vieții, 9700 S. Cass Avenue, Argonne, IL 60439, SUA.

Snyder
E.

,

Kampanya
N.

,

Lu
J.

,

Nordberg
E. K.

,

Karur
H.

,

Shukla
M.

,

soneja
J.

,

Tian
Y.

,

Xue
T.

,

Yoo
H.
PATRIC: Centrul de integrare a resurselor VBI pathosystems

.

acizi nucleici Res.
2006

;

35

:

D401

D406

.

Wattam
A. R.

,

Abraham
D.

,

Dalay
O.

,

Disz
T. L.

,

Driscoll
T.

,

Gabbard
J. L.

,

Gillespie
J. J.

,

Gough
R.

,

Hix
D.

,

Kenyon
R.
PATRIC, baza de date de bioinformatică bacteriană și resursa de analiză

.

acizi nucleici Res.
2013

;

42

:

D581

D591

.

Wattam
A. R.

,

Davis
J. J.

,

Assaf
R.

,

Boisvert
S.

,

brettin
T.

,

bun
C.

,

Conrad
N.

,

Dietrich
E. M.

,

disz
T.

,

Gabbard
J. L.
îmbunătățiri aduse PATRIC, baza de date bioinformatică all-bacterian și Centrul de resurse de analiză

.

acizi nucleici Res.
2016

;

45

:

D535

D542

.

McNeil
L. K.

,

Reich
C.

,

Aziz
R. K.

,

Bartels
D.

,

cohoon
M.

,

disz
T.

,

Edwards
R. A.

,

Gerdes
S.

,

Hwang
K.

,

Kubal
M.
resursa Națională a bazei de date a agenților patogeni microbieni (Nmpdr): o platformă genomică bazată pe adnotarea subsistemului

.

acizi nucleici Res.
2006

;

35

:

D347

D353

.

Overbeek
R.

,

Olson
R.

,

Pusch
G. D.

,

Olsen
G. J.

,

Davis
J. J.

,

disz
T.

,

Edwards
R. A.

,

Gerdes
S.

,

parrello
B.

,

Shukla
M.
sămânța și adnotarea rapidă a genomurilor microbiene folosind tehnologia subsistemelor (RAST)

.

acizi nucleici Res.
2013

;

42

:

D206

D214

.

Aziz
R. K.

,

Bartels
D.

,

Best
A. A.

,

DeJongh
M.

,

disz
T.

,

Edwards
R. A.

,

formsma
K.

,

Gerdes
S.

,

glass
E. M.

,

Kubal
M.
serverul RAST: adnotări rapide folosind tehnologia subsistemelor

.

BMC Genomics

.

2008

;

9

:

75

.

Overbeek
R.

,

Begley
T.

,

Butler
R. M.

,

Choudhuri
J. V.

,

Chuang
H.-Y.

,

cohoon
M.

,

de Cr Inktictcy-Lagard
V.

,

Diaz
N.

,

Disz
T.

,

Edwards
R.
abordarea subsistemelor pentru adnotarea genomului și utilizarea acestuia în proiect pentru a adnota 1000 de genomi

.

acizi nucleici Res.
2005

;

33

:

5691

5702

.

Brettin
T.

,

Davis
J. J.

,

Disz
T.

,

Edwards
R. A.

,

Gerdes
S.

,

Olsen
G. J.

,

Olson
R.

,

Overbeek
R.

,

parrello
B.

,

Pusch
G. D.
RASTtk: o implementare modulară și extensibilă a algoritmului RAST pentru construirea conductelor de adnotare personalizate și adnotarea loturilor de genomi

.

Sci. Rep.
2015

;

5

:

8365

.

Antonopoulos
D. A.

,

Assaf
R.

,

Aziz
R. K.

,

Brettin

iv T.

,

bun
C.

,

Conrad
N.

,

Davis
J. J.

,

Dietrich
E. M.

,

disz
T.

,

Gerdes
S.
PATRIC ca resursă unică pentru studierea rezistenței antimicrobiene

.

scurt. Bioinformă.
2019

;

20

:

1094

1102

.

Nguyen
M.

,

Brettin
T.

,

lung
S. W.

,

Musser
J. M.

,

Olsen
R. J.

,

Olson
R.

,

Shukla
M.

,

Stevens
R. L.

,

Xia
F.

,

Yoo
H.
dezvoltarea testului in silico minim inhibitor de concentrație pentru Klebsiella pneumoniae

.

Sci. Rep.
2018

;

8

:

421

.

Nguyen
M.

,

lung
S. W.

,

McDermott
P. F.

,

Olsen
R. J.

,

Olson
R.

,

Stevens
R. L.

,

Tyson
G. H.

,

Zhao
S.

,

Davis
J. J.
utilizarea învățării automate pentru a prezice Microfoane antimicrobiene și caracteristicile genomului asociate pentru Salmonella nontifoidală

. J. Blink. Microbiol.

2019

;

57

:

e01260-18

.

Jia
B.

,

Rafenya
A. R.

,

Alcock
B.

,

Waglechner
N.

,

Guo
P.

,

Tsang
K. K.

,

Lago
B. A.

,

Dave
B. M.

,

Pereira
S.

,

Sharma
A. N.
CARD 2017: extinderea și Curarea centrată pe model a bazei de date cuprinzătoare privind rezistența la antibiotice

.

acizi nucleici Res.
2016

;

45

:

D566

D573

.

Feldgarden
M.

,

Brover
V.

,

Haft
D. H.

,

Prasad
A. B.

,

Slotta
D. J.

,

Tolstoi
I.

,

Tyson
G. H.

,

Zhao
S.

,

Hsu
C.-H.

,

McDermott
P. F.
Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

.

Antimicrob. Agents Chemother.
2019

;

63

:

e00483-19

.

Yoo
A.B.

,

Jette
M.A.

,

Grondona
M.
Slurm: Simple linux utility for resource management

.

Workshop on Job Scheduling Strategies for Parallel Processing

.

2003

;

Berlin, Heidelberg
Springer
44

60

.

Bankevich
A.

,

Nurk
S.

,

Antipov
D.

,

Gurevich
A. A.

,

Dvorkin
M.

,

Kulikov
A. S.

,

leucină
V. M.

,

Nikolenko
S. I.

,

Pham
S.

,

prjibelski
A. D.
Spades: un nou algoritm de asamblare a genomului și aplicațiile sale la secvențierea cu o singură celulă

.

J. Comput. Biol.
2012

;

19

:

455

477

.

Koren
S.

Walenz

B. P.

,

Berlin
K.

,

Miller
J. R.

,

Bergman
N. H.

,

phillippy
A. M.
canu: ansamblu scalabil și posibil precis de citire lungă prin ponderare adaptivă k-Mer și separare repetată

.

Genome Res.
2017

;

27

:

722

736

.

fitil
R. R.

,

Judd
L. M.

,

Gorrie
C. L.

,

Holt
K. E.
Unicycler: rezolvarea ansamblurilor genomului bacterian din secvențierea scurtă și lungă citește

.

PLoS Comput. Biol.
2017

;

13

:

e1005595

.

fitil
R. R.

,

Schultz
M. B.

,

Zobel
J.

,

Holt
K. E.
ferme: vizualizare interactivă a ansamblurilor genomului de novo

.

bioinformatică

.

2015

;

31

:

3350

3352

.

Vaser
R.

,

Sovi XV
I.

,

Nagarajan
N.

,

M.
asamblare rapidă și posibilă a genomului de novo precis din citiri lungi necorectate

.

Genome Res.
2017

;

27

:

737

746

.

Walker
B. J.

,

Abeel
T.

,

Shea
T.

,

preot
M.

,

Abouelliel
A.

,

Sakthikumar
S.

,

Cuomo
C. A.

,

Zn
Q.

,

Wortman
J.

,

young
S. K.
pilon: instrumentul integrat pentru detectarea completă a variantelor microbiene și îmbunătățirea ansamblului genomului

.

PLoS Unul

.

2014

;

9

:

e112963

.

Langmead
B.

,

Yates
S. L.
aliniere rapidă cu papion 2

.

Nat. Metode

.

2012

;

9

:

357

359

.

It
H.
Minimap2: alinierea perechilor pentru secvențele de nucleotide

.

bioinformatică

.

2018

;

34

:

3094

3100

.

It
H.

,

Handsaker
B.

,

Wysoker
A.

,

Fennell
T.

,

Ruan
J.

,

Homer
N.

,

Marth
G.

,

Abecasis
G.

,

Durbin
R.
alinierea secvenței/formatul hărții și SAMtools

.

bioinformatică

.

2009

;

25

:

2078

2079

.

McNair
K.

,

Aziz
R. K.

,

Pusch
G. D.

,

Overbeek
R.

,

Dutilh
B. E.

,

Edwards
R.
Clokie
MRJ

,

Kropinski
AM

,

Lavigne
R
adnotarea genomului Fagului folosind conducta RAST

.

metode și protocoale bacteriofage

.

2018

;

3

:

NY
Humana Press
231

238

.

parcuri
D. H.

,

Imelfort
M.

,

Skennerton
C. T.

,

Hugenholtz
P.

,

Tyson
G. W.
checkm: evaluarea calității genomilor microbieni recuperați din izolate, celule unice și metagenomi

.

Genome Res.
2015

;

25

:

1043

1055

.

Parrello
B.

,

Butler
R.

,

Chlenski
P.

,

Olson
R.

,

Overbeek
J.

,

Pusch
G. D.

,

vonstein
V.

,

Overbeek
R.
serviciul bazat pe învățarea automată pentru estimarea calității genomurilor folosind PATRIC

.

Bioinformatica BMC

.

2019

;

20

:

486

.

Kim
D.

,

Langmead
B.

,

Yates
S. L.
HISAT: o aliniere rapidă îmbinată cu cerințe de memorie reduse

div>.

Nat. Metode

.

2015

;

12

:

357

360

.

Boratyn
G. M.

,

Camacho
C.

,

Cooper
P. S.

,

Coulouris
G.

,

Fong
A.

,

Mat
N.

,

Madden
T. L.

,

Matten
W. T.

,

walk
S. D.

,

merezhuk
Y.
explozie: un raport mai eficient cu îmbunătățiri de utilizare

.

acizi nucleici Res.
2013

;

41

:

W29

W33

.

Eddy
S. R.
profil ascuns Markov modele

.

bioinformatică

.

1998

;

14

:

755

763

.

Enright
A. J.

,

Van Dongen
S.

,

Ouzounis
C. A.
algoritmul eficient pentru detectarea pe scară largă a familiilor de proteine

.

acizi nucleici Res.
2002

;

30

:

1575

1584

.

Edgar
R. C.
musculare: aliniere secvență multiplă cu mare precizie și debit mare

.

acizi nucleici Res.
2004

;

32

:

1792

1797

.

Talavera
G.

,

Castresana
J.
îmbunătățirea filogeniilor după îndepărtarea blocurilor divergente și ambigue aliniate din aliniamentele secvenței proteice

.

Syst. Biol.
2007

;

56

:

564

577

.

Preț
M. N.

,

Dehal
P. S.

,

Arkin
A. P.
FastTree 2-aproximativ arbori cu probabilitate maximă pentru alinieri mari

.

PLoS Unul

.

2010

;

5

:

e9490

.

Stamatakis
A.
raxml versiunea 8: un instrument pentru analiza filogenetică și post-Analiza filogeniilor mari

.

bioinformatică

.

2014

;

30

:

1312

1313

.

Davis
J. J.

,

Gerdes
S.

,

Olsen
G. J.

,

Olson
R.

,

Pusch
G. D.

,

Shukla
M.

,

Vonstein
V.

,

Wattam
A. R.

,

Yoo
H.
pattyfams: familii de proteine pentru genomii microbieni din Baza de date patrică

.

față. Microbiol.
2016

;

7

:

118

.

Cock
P. J.

,

Antao
T.

,

Chang
J. T.

,

Chapman
B. A.

,

Cox
C. J.

,

Dalke
A.

,

Friedberg
I.

,

Hamelryck
T.

,

Kauff
F.

,

Wilczynski
B.
biopython: instrumente Python disponibile gratuit pentru biologie moleculară computațională și bioinformatică

.

bioinformatică

.

2009

;

25

:

1422

1423

.

Felsenstein
J.
PHYLIP (pachetul de inferență filogenie), versiunea 3.5 C

.

1993

;

Seattle, Washington
Joseph Felsenstein

.

Stamatakis
A.

,

Hoover
P.

,

Rougemont
J.
algoritmul rapid de bootstrap pentru serverele web RAxML

.

Syst. Biol.
2008

;

57

:

758

771

.

Krueger
F.
Trim Galore: un instrument de înveliș în jurul Cutadapt și FastQC pentru a aplica în mod constant de calitate și adaptor tunderea fișierelor FastQ, cu unele funcționalități suplimentare pentru mspi-digerate RRBs-tip (reprezentare redusă Bisufite-Seq) biblioteci

.

2012

;

(28 aprilie 2016, data ultimei accesări)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin
M.
Cutadapt elimină secvențele adaptorului din secvențierea cu randament ridicat citește

.

EMBnet J.
2011

;

17

:

10

12

.

Langmead
B.

,

Wilks
C.

,

Antonescu
V.

,

Charles
R.
scalarea citește aliniatori la sute de fire pe procesoare de uz general

.

bioinformatică

.

2018

;

35

:

421

432

.

Lassmann
T.

,

Hayashizaki
Y.

,

Daub
C. O.
SAMStat: monitorizarea prejudecăților în următoarea generație de date secvențiere

.

bioinformatică

.

2010

;

27

:

130

131

.

Darling
A. E.

,

Mau
B.

,

Perna
N. T.
progressiveMauve: alinierea genomului multiplu cu câștigul, pierderea genei și rearanjare

.

PLoS Unul

.

2010

;

5

:

e11147

.

Darling
A. C.

,

Mau
B.

,

Blattner
F. R.

,

Perna
N. T.
mov: alinierea multiplă a secvenței genomice conservate cu rearanjări

.

Genome Res.
2004

;

14

:

1394

1403

.

Ondov
B. D.

,

Treangen
T. J.

,

Melsted
P.

,

Mallonee

iv A. B.

,

Bergman
N. H.

,

Koren
S.

,

phillippy
A. M.
mash: estimarea rapidă a genomului și a distanței Metagenomului folosind minhash

.

genomul Biol.
2016

;

17

:

132

.

Lemn
D. E.

,

Yates
S. L.
Kraken: taxonomia secvenței metagenomice ultrarapide folosind aliniamente exacte

.

genomul Biol.
2014

;

15

:

R46

.

Haft
D. H.

,

DiCuccio
M.

,

Badretdin
A.

,

Brover
V.

,

chetvernin
v.

,

O ‘ Neill
K.

,

it
W.

,

Chitsaz
F.

,

Derbyshire
M. K.

,

Gonzales
N. R.
RefSeq: o actualizare privind adnotarea și Curarea genomului procariot

.

acizi nucleici Res.
2017

;

46

:

D851

D860

.

Ondov
B. D.

,

Bergman
N. H.

,

Phillippy
A. M.
vizualizare Metagenomică interactivă într-un browser web

.

Bioinformatica BMC

.

2011

;

12

:

385

.

Clausen
P. T.

,

Aarestrup
F. M.

,

Lund
O.
alinierea rapidă și precisă a citirilor brute împotriva bazelor de date redundante cu KMA

.

Bioinformatica BMC

.

2018

;

19

:

307

.

McArthur
A. G.

,

Waglechner
N.

,

Nizam
F.

,

Yan
A.

,

Azad
M. A.

,

baylay
A. J.

,

Bhullar
K.

,

Canova
M. J.

,

două Pascale
G.

,

Ejim
L.
baza de date cuprinzătoare de rezistență la antibiotice

. Antimicrob. Agenți Chemother.

2013

;

57

:

3348

3357

.

Liu
B.

,

Zheng
D.

,

Jin
Q.

,

câine
L.

,

yang
J.
vfdb 2019: platforma patogenomică comparativă cu interfața web interactivă

.

acizi nucleici Res.
2018

;

47

:

D687

D692

.

Overbeek
R.

,

Olson
R.

,

Pusch
G. D.

,

Olsen
G. J.

,

Davis
J. J.

,

disz
T.

,

Edwards
R. A.

,

Gerdes
S.

,

parrello
B.

,

Shukla
m
sămânța și adnotarea rapidă a genomurilor microbiene folosind tehnologia subsistemelor (rast)

.

acizi nucleici Res.
2013

;

42

:

D206

D214

.

Federhen
S.
baza de date NCBI taxonomie

.

acizi nucleici Res.
2011

;

40

:

D136

D143

.

publicat de Oxford University Press în numele Nucleic Acids Research 2019.
această lucrare este scrisă de (a) angajat al Guvernului SUA și este în domeniul public în SUA.