Il PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities
- Abstract
- INTRODUZIONE
- COSA C’È DI NUOVO IN PATRIC?
- Crescita e miglioramenti dei dati
- Servizi
- Aggiornamenti degni di nota ai servizi esistenti
- Analisi completa del genoma
- Alberi filogenetici
- Fastq utilities
- Genome alignment
- Simile genome finder
- Classificazione tassonomica
- Metagenomic read mapping
- Metagenomic binning
- Strumenti di analisi basati sul Web
- Compare region viewer
- Sottosistemi
- Command-Line Interface (CLI)
- DIREZIONI FUTURE
- FINANZIAMENTO
- Note
Abstract
Il PathoSystems Resource Integration Center (PATRIC) è il centro di risorse di Bioinformatica batterica finanziato dal National Institute of Allergy and Infectious Diseases (https://www.patricbrc.org). PATRIC supporta le analisi bioinformatiche di tutti i batteri con particolare attenzione agli agenti patogeni, offrendo un ricco ambiente di analisi comparativa che fornisce agli utenti l’accesso a oltre 250 000 genomi uniformemente annotati e disponibili al pubblico con metadati curati. PATRIC offre strumenti di visualizzazione e analisi comparativa basati sul Web, uno spazio di lavoro privato in cui gli utenti possono analizzare i propri dati nel contesto delle collezioni pubbliche, servizi che semplificano i flussi di lavoro bioinformatici complessi e strumenti da riga di comando per l’analisi dei dati di massa. Negli ultimi anni, poiché gli esperimenti genomici e altri esperimenti omici sono diventati più convenienti e diffusi, abbiamo osservato una notevole crescita nell’uso e nella domanda di strumenti e servizi bioinformatici facili da usare e disponibili al pubblico. Qui riportiamo i recenti aggiornamenti alla risorsa PATRIC, inclusi nuovi strumenti di analisi comparativa basati sul Web, otto nuovi servizi e il rilascio di un’interfaccia a riga di comando per accedere, interrogare e analizzare i dati.
INTRODUZIONE
Il programma Bioinformatics Resource Center (BRC) è stato istituito dal National Institute of Allergy and Infectious Diseases (NIAID) nel 2004 con un obiettivo primario sulla fornitura di accesso ai dati di sequenza del genoma e strumenti di analisi per lo studio degli agenti patogeni. PathoSystems Resource Integration Center (PATRIC) è iniziato come uno dei centri originali incaricati di supportare l’analisi comparativa dei patogeni batterici (1-3). Nel 2009, PATRIC si è fusa con il National Microbial Pathogen Database Resource (NMPDR) BRC (4), che aveva sviluppato il successo SEED database e il sistema di annotazione RAST (Rapid Annotation using Subsystem Technology) per curare e proiettare in modo uniforme le annotazioni del genoma tra le specie microbiche (5-8). Nel corso degli anni, la risorsa PATRIC si è ampliata e adattata per tenere il passo con la crescita dei set di dati bioinformatici e la necessità di strumenti di analisi associati. A partire da settembre 2019, PATRIC include oltre 250 000 genomi microbici disponibili al pubblico e un ricco ambiente di analisi comparativa.
Dal suo lancio nel 2008, RAST (http://rast.nmpdr.org) ha eseguito jobs 700 000 posti di lavoro di annotazione del genoma per gli utenti privati. Fornendo l’accesso agli script di identificazione delle funzionalità del genoma sviluppati dalla comunità accademica e proiezioni coerenti di funzioni proteiche ben curate dal SEME, RAST funge da modello per un servizio bioinformatico di successo perché allevia la necessità per gli utenti di costruire le proprie pipeline di annotazione personalizzate e la sua coerenza consente analisi comparative a valle. Utilizzando RAST come modello, in 2014 PATRIC ha iniziato a implementare una varietà di servizi bioinformatici attraverso il sito web che consente agli utenti di assemblare e annotare sequenze del genoma, ricostruire modelli metabolici, analizzare SNP e INDEL e analizzare e confrontare esperimenti RNA-seq. I risultati di questi processi di analisi potrebbero quindi essere confrontati con le raccolte di dati genomici e altri omici disponibili pubblicamente nella risorsa, pur rimanendo privati nell’ambiente di lavoro dell’utente. Entro la fine del 2016, PATRIC stava elaborando jobs 1500 lavori di servizio al mese, esclusi i lavori inviati al sito Web RAST (3).
Dall’ultimo descritto in Nucleic Acids Research nel 2016 (3), PATRIC ha subito una serie di aggiornamenti e miglioramenti. La raccolta dei dati è stata migliorata, in particolare nell’area della resistenza antimicrobica (AMR) (9); l’ambiente di navigazione web è stato migliorato con nuovi strumenti e visualizzazioni; e i miglioramenti all’area di lavoro hanno anche reso più facile trovare e condividere i dati dei progetti di ricerca. Un’interfaccia a riga di comando (CLI) per l’acquisizione e l’analisi di dati di massa è stata creata e rilasciata per la distribuzione su sistemi Mac, Linux e Windows. PATRIC ha anche lanciato otto nuovi servizi bioinformatici, con recente enfasi posta sulla capacità di analizzare i dati provenienti da colture miste o campioni metagenomici. Infine, è stata creata una ricca collezione di tutorial per aiutare gli utenti con questi nuovi strumenti (https://docs.patricbrc.org/tutorial/). Questo rapporto descrive molti dei recenti aggiornamenti non pubblicati alla risorsa PATRIC.
COSA C’È DI NUOVO IN PATRIC?
Crescita e miglioramenti dei dati
Uno dei cambiamenti più drammatici nel sostenere il lavoro bioinformatico dall’inizio del programma BRC è stata la crescita esponenziale nelle sequenze del genoma microbico pubblicamente disponibili (Figura 1). Anche la raccolta di sequenze di genoma di utenti privati che sono state annotate e indicizzate da PATRIC è cresciuta dall’istituzione dell’ambiente di lavoro e potrebbe effettivamente superare le dimensioni della raccolta di sequenze di genoma pubblico entro il prossimo anno (Figura 1). Sebbene il set privato includa alcune sequenze del genoma rianalizzate,
Crescita cumulativa di genomi pubblici e privati in PATRIC.
Crescita cumulativa di genomi pubblici e privati in PATRIC.
non vediamo alcuna indicazione che il sequenziamento del genoma microbico e le relative analisi bioinformatiche stiano rallentando. L’aumento dei dati di sequenza del genoma disponibili al pubblico e relativi metadati strutturati ha anche rivoluzionato i tipi di analisi sperimentali che sono possibili. Ad esempio, PATRIC fornisce metadati strutturati e curati manualmente associati a ciascun genoma, inclusi fenotipi AMR derivati da laboratorio, organismi ospiti, fonti di isolamento, dati del sito del corpo umano e informazioni geografiche. Queste raccolte di metadati strutturati forniscono le basi per l’esecuzione di esperimenti di apprendimento automatico e deep learning (10,11) e per fornire strumenti predittivi agli utenti (9). Prevediamo che il maggiore uso di tecniche di intelligenza artificiale in bioinformatica guiderà le decisioni di progettazione sperimentale e, infine, abbreviare il tempo necessario per esperimenti di caratterizzazione genetica e di altri laboratori.
Sostenere la ricerca AMR è una delle principali aree di interesse per la raccolta e la cura dei dati presso PATRIC. Curiamo attivamente sia le annotazioni di proteine AMR che i dati di fenotipo AMR derivati da laboratorio associati ai genomi pubblici. Il sistema di annotazione è in grado di proiettare con precisione oltre 600 funzioni di proteine AMR curate a mano. Contiene anche una vasta collezione di funzioni proteiche non AMR strettamente correlate che sono state curate per prevenire false previsioni delle funzioni AMR. Per fornire un ulteriore mezzo di confronto, il sistema di annotazione cerca anche geni con elevata somiglianza con quelli curati dai progetti CARD (12) e NCBI AMR gene database (13). La collezione di fenotipi AMR derivata dal laboratorio è stata generata curando i dati della letteratura, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) e altre fonti pubbliche. È cresciuto fino a includere oltre 40 000 sequenze del genoma ed è utilizzato dai ricercatori di tutto il mondo. Abbiamo anche aggiunto oltre 10 000 sequenze plasmidiche e profagiche a causa della loro importanza nello studio e nella lotta contro l’AMR.
Servizi
I servizi forniti da PATRIC sono progettati per consentire un facile accesso a flussi di lavoro bioinformatici complessi. È possibile accedervi tramite l’interfaccia web PATRIC e CLI. La maggior parte dei servizi ha la capacità di gestire centinaia o addirittura migliaia di posti di lavoro al giorno. I lavori vengono in genere eseguiti su una serie di server interni, con una capacità di picco gestita da un cluster di elaborazione di grandi dimensioni. I servizi PATRIC sono cresciuti in popolarità dal 2014, e a partire da settembre di 2019, oltre 263 000 posti di lavoro sono stati completati con successo (Figura 2).
Lavori di analisi avviati dall’utente completati dai servizi PATRIC bioinformatic. La trama in alto mostra l’uso di servizi ad alto volume. Il grafico in basso mostra l’utilizzo di volumi inferiori e nuovi servizi. Si noti la differenza di scala tra i due grafici.
Lavori di analisi avviati dall’utente completati dai servizi PATRIC bioinformatic. La trama in alto mostra l’uso di servizi ad alto volume. Il grafico in basso mostra l’utilizzo di volumi inferiori e nuovi servizi. Si noti la differenza di scala tra i due grafici.
Aggiornamenti degni di nota ai servizi esistenti
Tre dei nostri servizi pre=esistenti, Genome Assembly, Genome Annotation e RNA-seq analysis, hanno subito diversi aggiornamenti degni di nota. Il servizio di assemblaggio del genoma è stato ricostruito con un nuovo job scheduler che consente un processo di accodamento del lavoro più equo che impedisce ai lavori di grandi dimensioni di creare colli di bottiglia (14). Oltre a SPAdes (15), abbiamo aggiunto Canu (16) per l’assemblaggio a lettura lunga e Unicycler per assemblaggi ibridi a lettura lunga e corta (17). Forniamo anche un’immagine del grafico di assemblaggio utilizzando Bendaggio (18) e gli assiemi possono essere lucidati utilizzando Racon (19) e Pilon (20) rispettivamente per assiemi a lettura lunga e breve. Infine, la mappatura di lettura viene eseguita per generare statistiche di copertura accurate utilizzando Bowtie2 (21) o Minimap2 (22) e SAMtools (23). Due nuove aggiunte al servizio di annotazione del genoma includono la capacità di annotare le sequenze del genoma dei batteriofagi (24) e il calcolo delle statistiche sulla qualità del genoma basate sull’applicazione CheckM (25) e un modello RAST interno che valuta la qualità in base all’occorrenza e alla completezza dei ruoli del sottosistema nel genoma (26). Anche il servizio di analisi RNA-seq è stato aggiornato per consentire esperimenti che studiano la risposta dell’ospite alle infezioni microbiche. Per supportare questo, abbiamo aggiunto diversi genomi di riferimento dell’ospite eucariotico comuni tra cui Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, Cock, cock, Homo sapiens, Macaca mulatta, Mus muscle, Weasel putorius furo, Rattus norvegicus e Sus scrofa. Recentemente abbiamo anche aggiunto HISAT2 (hierarchical indexing for spliced alignment of transcripts) (27), un sistema altamente efficiente per allineare le letture da esperimenti RNA-Seq per ospitare genomi e abilitato l’importazione di set di dati da SRA nell’interfaccia RNA-seq, migliorando ulteriormente la capacità di eseguire analisi di espressione differenziale mista di dati pubblici e privati.
Analisi completa del genoma
Uno dei casi d’uso più comune per l’analisi di genomi privati a PATRIC è per i ricercatori di assemblare e poi annotare le loro sequenze genomiche utilizzando due servizi separati. Nella primavera del 2018, abbiamo lanciato un “meta-servizio” di analisi completa del genoma semplificato che accetta letture di sequenziamento, calcola l’assemblaggio e l’annotazione e fornisce una descrizione user-friendly del genoma. L’output include una valutazione della qualità del genoma, geni AMR e previsioni fenotipo, geni speciali, panoramica sottosistema, identificazione delle sequenze del genoma più vicini, un albero filogenetico e un elenco di caratteristiche che distinguono il genoma dai suoi vicini più vicini. Il servizio completo di analisi del genoma è rapidamente diventato uno dei servizi più popolari a PATRIC con oltre 11 000 lavori completati dal suo lancio ad aprile 2018.
Alberi filogenetici
La capacità di ricostruire e visualizzare le relazioni evolutive è al centro della biologia. Nel 2017, PATRIC ha lanciato il servizio Albero filogenetico che consente agli utenti di costruire alberi filogenetici di alta qualità per sequenze di genoma pubbliche e private. Il servizio offre attualmente due flussi di lavoro per l’utente. Il primo è un flusso di lavoro ad albero basato su proteine chiamato ‘All Shared Proteins’, che utilizza la stima filogenomica con pipeline di perfezionamento progressivo (PEPR) (https://github.com/enordber/pepr). PEPR funziona definendo famiglie proteiche condivise de novo per un gruppo genoma utilizzando BLAST (28) e HMMER (29) per identificare proteine simili e MCL (30) per costruire cluster. Quindi gli allineamenti vengono generati usando il Muscolo (31) e tagliati con Gblocks (32). Infine, in base alle preferenze dell’utente, PEPR calcola l’albero utilizzando FastTree (33) o RAxML (34). In 2019, abbiamo lanciato un secondo flusso di lavoro di costruzione di alberi filogenetici più veloce chiamato “Codon Trees”.”Sfrutta famiglie di proteine globali PATRIC predefinite (PGFams) (35), selezionando un numero specificato dall’utente di famiglie (10-1000) che sono in copia singola (o quasi) tra i membri di un gruppo di genoma. Gli allineamenti sono generati per le sequenze proteiche di ogni famiglia usando il muscolo (31) e le loro corrispondenti sequenze nucleotidiche sono allineate a questo usando la funzione codonalign di BioPython (36). Un allineamento concatenato di tutte le proteine e nucleotidi è scritto in un file formattato da PHYLIP (37). Viene quindi generato un file di partizioni per RaxML (34), che descrive l’allineamento in termini di proteine e nucleotidi nella prima, seconda e terza posizione del codone. I valori di supporto vengono generati da 100 round di bootstrap rapido in RaxML (38).
Oltre ai file ad albero formattati Newick, il servizio Albero filogenetico restituisce un file di documento portatile (PDF), un portable network graphics (PNG) e un file di immagine scalable vector graphics (SVG) delle immagini ad albero radicate del punto medio generate da FigTree (http://tree.bio.ed.ac.uk/software/figtree/). La vista ad albero filogenetica sul sito Web PATRIC consente ai ricercatori di selezionare nodi e foglie, consentendo all’utente di creare gruppi da cladi specifici per ulteriori analisi. Genera anche un rapporto sul genoma che fornisce un elenco delle sequenze del genoma e delle famiglie proteiche utilizzate nella costruzione dell’albero e dei conteggi di geni, proteine, amminoacidi e nucleotidi utilizzati per calcolare l’albero. Infine, sequenze di genoma problematici che potrebbero essere rimossi per aumentare la selezione del gene e migliorare la forza dell’albero sono elencati. Da quando è stato costruito, quasi 5000 posti di lavoro sono stati elaborati dal servizio albero filogenetico.
Fastq utilities
Valutare la qualità delle letture di sequenziamento è un primo passo importante per garantire che le analisi successive, come assemblaggio, annotazione, ecc. sono precisi. Il servizio Fastq Utilities, lanciato a luglio 2019, consente agli utenti di allineare le letture, misurare la qualità delle chiamate di base e tagliare sequenze di bassa qualità dai file letti. Il servizio accetta file di lettura lunga o breve in formato singolo o accoppiato. Può anche recuperare i file di lettura direttamente dal NCBI Sequence Read Archive (SRA) utilizzando un identificatore di esecuzione come input. Il servizio ha tre componenti, ‘trim’, ‘FastQC’ e ‘align’, che possono essere utilizzati indipendentemente o in qualsiasi combinazione. Il componente trimming utilizza Trim Galore (39), che è un wrapper Perl attorno agli strumenti Cutadapt (40) e FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc). Il componente FastQC fornisce controlli di qualità sui dati di sequenza grezzi provenienti da pipeline di sequenziamento ad alto throughput e consente un controllo di qualità rapido indicando problemi che potrebbero influire sulle analisi a valle. La funzione di allineamento allinea le letture a una sequenza genomica di riferimento utilizzando Bowtie2 (21,41), salvando le letture non mappate e generando rapporti SamStat (42) della quantità e della qualità degli allineamenti.
Genome alignment
Nel novembre 2018, PATRIC ha lanciato il servizio Genome Alignment per consentire agli utenti di calcolare gli allineamenti di sequenze dell’intero genoma. Questo servizio utilizza l’applicazione progressiveMauve (43), che costruisce allineamenti di sequenza di genoma multipli di omologia posizionale in un’estensione dell’algoritmo originale di Malva (44). Il servizio consente ai ricercatori di allineare fino a venti sequenze genomiche alla volta. L’output del servizio include una visualizzazione del genoma che consente agli utenti di visualizzare ed esplorare l’intero allineamento sequenza del genoma o per ingrandire per confrontare singole regioni o geni (Figura 3).
Un flusso di lavoro di analisi dei dati in PATRIC utilizzando il servizio di allineamento del genoma. (A) L’interfaccia del sito web consente la selezione dei genomi; (B) visualizzazione del allineati regioni genomiche con qualsiasi delezioni, inserzioni o riarrangiamenti; (C) a ingrandire l’allineamento mostrerà i geni in avanti e retromarcia stand, che può essere selezionata; (D) la selezione di un gene specifico, dal Genoma di Allineamento si apre il visualizzatore di la PATRIC Pagina, dove tutti i dati disponibili per il gene che vengono mostrati. (E) La scheda Confronta Region View nella pagina PATRIC Gene mostra la conservazione del gene selezionato (mostrato in rosso), e anche i geni circostanti. (F) Ogni gene è assegnato a una famiglia di proteine genus-specific (PLFam) o global (PGFam) che può essere selezionata dalla pagina Feature e i membri della famiglia possono essere confrontati utilizzando lo strumento Multiple Sequence Alignment/Gene Tree.
Un flusso di lavoro di analisi dei dati in PATRIC utilizzando il servizio di allineamento del genoma. (A) L’interfaccia del sito web consente la selezione dei genomi; (B) la visualizzazione delle regioni genomiche allineate con eventuali eliminazioni, inserimenti o riarrangiamenti; (C) lo zoom sull’allineamento mostrerà i geni sui supporti avanti e indietro, che possono essere selezionati; (D) selezionando un gene specifico dal visualizzatore di allineamento del genoma si apre la pagina delle funzionalità PATRIC, dove vengono mostrati tutti i dati disponibili per quel gene. (E) La scheda Confronta Region View nella pagina PATRIC Gene mostra la conservazione del gene selezionato (mostrato in rosso), e anche i geni circostanti. (F) Ogni gene è assegnato a una famiglia di proteine genus-specific (PLFam) o global (PGFam) che può essere selezionata dalla pagina Feature e i membri della famiglia possono essere confrontati utilizzando lo strumento Multiple Sequence Alignment/Gene Tree.
Simile genome finder
Quando un ricercatore ha una nuova sequenza del genoma, una delle prime cose che vogliono identificare è i parenti più stretti per l’organismo, ma questo può essere difficile quando la raccolta pubblica è così grande. PATRIC fornisce un servizio chiamato Similar Genome Finder per consentire ai ricercatori di identificare rapidamente sequenze di genoma simili utilizzando Mash (45). Mash funziona riducendo le grandi sequenze a piccoli schizzi rappresentativi, che possono essere utilizzati per stimare le distanze di mutazione in base a k-mer condivisi. PATRIC consente il confronto con tutte le sequenze del genoma pubblico o il set del genoma di riferimento NCBI. Lo strumento consente ai ricercatori di regolare la sensibilità di ricerca selezionando il numero massimo di k-mer tenuti in comune, soglia P-valore o la distanza. I risultati vengono restituiti come un elenco delle sequenze del genoma più simili con metadati corrispondenti. Come con tutte le tabelle PATRIC, i ricercatori possono selezionare sequenze per creare gruppi per l’analisi successiva, o scaricare i risultati.
Classificazione tassonomica
Lanciato a marzo di 2019, il Servizio di classificazione tassonomica identifica la composizione tassonomica di campioni misti o metagenomici. Questo servizio utilizza l’applicazione Kraken2 (46), che identifica k-mer che sono indicativi di varie unità tassonomiche. Il database Kraken utilizzato dal servizio è una build completa che si basa su tutte le sequenze del genoma RefSeq (47), la sequenza del genoma umano, plasmidi e sequenze vettoriali. L’output del lavoro include il formato di report Kraken standard, con ogni taxon batterico collegato alla pagina corrispondente in PATRIC. Il servizio restituisce anche un grafico Krona (48) che mostra la percentuale di letture mappate a ciascun taxon e consente all’utente di esplorare i taxa selezionati.
Metagenomic read mapping
I ricercatori che studiano AMR o virulenza possono essere interessati ad analizzare i geni in insiemi di lettura misti o metagenomici. Il servizio di mappatura lettura Metagenome consente ai ricercatori di cercare questi geni specifici in una serie di letture. Funziona allineando le letture contro un gene di riferimento utilizzando KMA, che utilizza la semina k-mer e l’algoritmo Needleman–Wunsch per allineare accuratamente le letture ai geni di interesse (49). Gli utenti possono attualmente allinearsi ai set di geni di riferimento del database di resistenza agli antibiotici (CARD) (50) e del database del fattore di virulenza (VFDB) (51). Il servizio restituisce le versioni html e testuali del rapporto KMA standard, che mostra informazioni dettagliate sulla mappatura, collegamenti a geni in PATRIC con elevata somiglianza e una sequenza di consenso assemblata dalle letture allineate.
Metagenomic binning
Lanciato nell’agosto 2017, il servizio Metagenomic Binning assembla le letture da un campione metagenomico in contigs e quindi tenta di separare questi contigs in bin che rappresentano i genomi delle singole specie. Questi contenitori vengono quindi completamente annotati e vengono calcolate statistiche di qualità dettagliate per ciascun contenitore. L’algoritmo di binning inizia scansionando i contig per specifiche proteine marker che si verificano quasi sempre singolarmente nel genoma. La somiglianza marker-proteina viene utilizzata per reclutare genomi simili da PATRIC, che vengono poi utilizzati per reclutare contig aggiuntivi basati sulla distinzione di proteine k-mers. Analogamente ai singoli genomi isolati, i bidoni sono collocati nell’area di lavoro dell’utente e indicizzati all’interno del database PATRIC come genomi privati, consentendo il pieno utilizzo degli strumenti di analisi comparativa e visualizzazione PATRIC per ciascun bidone.
Strumenti di analisi basati sul Web
Il sito PATRIC offre diversi strumenti di analisi visiva interattiva che consentono agli utenti di confrontare i set di dati omics. Questi strumenti integrano dati di vario tipo, eseguono alcune attività computazionali e rendono visualizzazioni interattive per l’utente. PATRIC attualmente supporta molti strumenti di analisi basati sul Web, come il visualizzatore di mappe di calore per confrontare il contenuto proteico condiviso, il visualizzatore di percorsi per esplorare le vie metaboliche e il Browser del genoma per visualizzare le caratteristiche genomiche sul cromosoma. Abbiamo aggiunto due nuove visualizzazioni al sito PATRIC che originariamente esisteva sui siti Web RAST e SEED, ma richiedeva una reingegnerizzazione significativa per essere funzionale per l’uso con centinaia di migliaia di genomi.
Compare region viewer
Il Compare Region Viewer consente ai ricercatori di confrontare i quartieri dei geni (loci genetici o cluster cromosomici) in molte specie. Un utente seleziona un gene di interesse, la dimensione della regione genomica e il numero di genomi per il confronto. Il display rende la somiglianza ESPLOSIONE del gene di messa a fuoco, e la somiglianza dei geni circostanti all’interno della regione (Figura 3E).
In RAST, questo strumento si basa su un database precalcolato di somiglianze all-to-all BLAST (28) per determinare l’insieme di genomi che corrispondono al gene di interesse e calcola un confronto dettagliato a coppie di geni nella regione selezionata per codificare i dati. A causa del numero di genomi nel database PATRIC, questo metodo è troppo lento per l’uso in tempo reale. La versione PATRIC di questo strumento basa la ricerca del gene focus e la codifica dei colori sulle famiglie proteiche genus-specific (PLFam) o global (PGFam) (35), che sono precalcolate per ciascun genoma, quindi lo spazio di ricerca è più ambito. Tuttavia, questa visualizzazione è scalabile perché BLAST viene utilizzato solo per calcolare la somiglianza proteica per i geni di messa a fuoco all’interno del set.
Sottosistemi
I sottosistemi sono raccolte di proteine funzionalmente correlate e sono un dispositivo concettuale vitale per identificare e proiettare le funzioni proteiche tra le specie (7,52). PATRIC ora calcola e visualizza i dati del sottosistema per ogni sequenza del genoma annotata pubblica e privata. I sottosistemi, che derivano dall’annotazione manuale da parte di un team di curatori esperti, sono suddivisi in Superclasse (esempio: Metabolismo), Classe (esempio: Risposta allo stress, Difesa e Virulenza), Sottoclasse (esempio: Resistenza agli antibiotici e ai composti tossici), Nome del sottosistema (esempio: Resistenza all’arsenico) e ruolo funzionale di ciascuno dei geni inclusi. Facendo clic sulla scheda sottosistemi per qualsiasi genoma fornisce tre diversi punti di vista. La panoramica Sottosistemi mostra un grafico a torta che visualizza la percentuale dei geni che si trovano in una particolare superclasse. La scheda Sottosistemi include il numero di geni trovati in una particolare Superclasse. La scheda Geni include un elenco di tutti i geni in tutti i sottosistemi e include i tag PATRIC e RefSeq locus (47). Le informazioni del sottosistema non sono disponibili solo per i singoli genomi, ma sono anche sommate per ogni livello tassonomico, fino a Superkingdom usando la tassonomia NCBI (53). Una vista heatmap che mostra la presenza e l’assenza di proteine specifiche per sottosistema selezionato attraverso un taxon o un gruppo genoma specifico può essere creato dall’utente.
Command-Line Interface (CLI)
Negli ultimi 5 anni, l’archivio dati PATRIC è stato gestito utilizzando una struttura di database NoSQL Apache Solr. Per soddisfare la raccolta di dati in rapida crescita e per sfruttare la scalabilità e la resilienza, l’architettura del database PATRIC è stata convertita in un’architettura di database Apache SolrCloud nella primavera del 2019. Il database SolrCloud è diviso in una serie di SOLRCORE per la gestione di tipi di dati correlati, come caratteristiche del genoma, sequenze e dati trascrittomici. Un’API (Application Programming Interface) sottostante consente l’accesso programmatico a questi core e ai dati che contengono; tuttavia, l’acquisizione dei dati può diventare complessa quando si naviga e si uniscono i campi dai vari core. Abbiamo sviluppato una serie di script da riga di comando che utilizzano l’API per accedere all’archivio dati ed eseguire analisi comuni. Questa distribuzione è disponibile per i sistemi operativi Mac, Windows e Linux, tra cui Ubuntu e CentOS 6 e 7, e Fedora 28 e 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Sia la distribuzione che il sito web PATRIC contengono tutorial su come utilizzare gli script con esempi (https://docs.patricbrc.org/cli_tutorial/). La distribuzione 482MB contiene molti degli script sottostanti dell’ambiente PATIRC. Alcuni consentono il download di massa, l’unione e la manipolazione dei dati e altri consentono analisi più complesse. La distribuzione include anche script utili dai precedenti progetti SEED (5) e RASTtk (8). Una funzionalità particolarmente degna di nota offerta dalla distribuzione PATRIC CLI è la possibilità di gestire i file nell’area di lavoro. Gli utenti possono accedere a un’area di lavoro privata, creare sottodirectory, spostare file all’interno o all’esterno dell’area di lavoro e avviare processi di annotazione e assemblaggio. Questi script forniscono i mezzi per assemblare e annotare centinaia o addirittura migliaia di sequenze del genoma. Inoltre, abbiamo anche reso l’area di lavoro PATRIC accessibile tramite File Transfer Protocol (FTP), che fornisce un mezzo alternativo per spostare grandi quantità di dati dentro e fuori l’area di lavoro. Gli utenti possono accedere all’area di lavoro utilizzando la riga di comando o utilizzando un file manager FTP. Abbiamo in programma di continuare a sviluppare gli strumenti della riga di comando per consentire un maggiore accesso ai servizi e una più facile manipolazione dei dati.
DIREZIONI FUTURE
Nel 2020, il team PATRIC presso l’Università di Chicago, l’Università della Virginia e la Fellowship for Interpretation of Genomes si combineranno con il team BRC virale che supporta le risorse ViPR (Virus Pathogen Database and Analysis Resource) e IRD (Influenza Research Database) presso il J. Craig Venter Institute (JCVI). Il team BRC batterico e virale di nuova formazione (BV-BRC) continuerà a mantenere i siti Web PATRIC, IRD e ViPR aggiungendo nuove funzionalità di crosscutting. Intendiamo concentrarci fortemente sul miglioramento dell’utilità della nuova risorsa BV-BRC per l’analisi epidemiologica, espandendo l’archivio dati per includere altri tipi di dati e metadati, aumentando l’accesso a dati strutturati che possono essere utilizzati in applicazioni di intelligenza artificiale e migliorando l’architettura di distribuzione per gli strumenti e i servizi.
FINANZIAMENTO
Istituto Nazionale di Allergia e malattie infettive (NIAID) . Finanziamento per la carica di accesso aperto: NIAID.
Dichiarazione sul conflitto di interessi. Nessuno dichiarato.
Note
Indirizzo attuale: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 S. Cass Avenue, Argonne, IL 60439, USA.
,
.
;
:
–
.
.
;
:
–
.
.
;
:
–
.
.
;
:
–
.
,
.
;
:
–
.
,
.
.
;
:
.
.
;
:
–
.
.
;
:
.
,
.
;
:
–
.
.
;
:
.
.
;
:
.
.
;
:
–
.
.
;
:
.
,
,
.
.
;
–
.
.
;
:
–
.
.
;
:
–
.
,
,
,
.
;
:
.
.
.
;
:
–
.
.
;
:
–
.
.
.
;
:
.
,
.
.
;
:
–
.
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
.
;
:
–
.
.
.
;
:
.
.
.
;
:
–
.
.
;
:
–
.
.
.
;
:
–
.
.
;
:
–
.
.
;
:
–
.
,
.
;
:
–
.
.
.
;
:
.
.
.
;
:
–
.
.
;
:
.
.
.
;
:
–
.
.
;
.
.
;
:
–
.
.
;
http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.
.
;
:
–
.
.
.
;
:
–
.
.
.
;
:
–
.
,
,
.
.
;
:
.
.
;
:
–
.
.
;
:
.
,
.
;
:
.
,
,
,
.
;
:
–
.
.
.
;
:
.
.
.
;
:
.
,
,
,
.
;
:
–
.
.
;
:
–
.
.
;
:
–
.
.
;
:
–
.