Le PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities
- Résumé
- INTRODUCTION
- QUOI DE NEUF DANS PATRIC ?
- Croissance et améliorations des données
- Services
- Mises à jour remarquables des services existants
- Analyse complète du génome
- Arbres phylogénétiques
- Fastq utilities
- Alignement du génome
- Chercheur de génome similaire
- Classification taxonomique
- Cartographie de lecture métagénomique
- Binning métagénomique
- Outils d’analyse web
- Comparateur de régions
- Sous-systèmes
- Interface de ligne de commande (CLI)
- ORIENTATIONS FUTURES
- FINANCEMENT
- Notes
Résumé
Le PathoSystems Resource Integration Center (PATRIC) est le Centre de Ressources bactériennes en Bioinformatique financé par l’Institut National des Allergies et des Maladies infectieuses (https://www.patricbrc.org). PATRIC prend en charge les analyses bioinformatiques de toutes les bactéries avec un accent particulier sur les agents pathogènes, offrant un environnement d’analyse comparative riche qui donne aux utilisateurs l’accès à plus de 250 000 génomes uniformément annotés et accessibles au public avec des métadonnées organisées. PATRIC propose des outils de visualisation et d’analyse comparative basés sur le Web, un espace de travail privé dans lequel les utilisateurs peuvent analyser leurs propres données dans le contexte des collections publiques, des services qui rationalisent les flux de travail bioinformatiques complexes et des outils de ligne de commande pour l’analyse de données en masse. Au cours des dernières années, à mesure que les expériences en génomique et autres expériences liées à l’omique sont devenues plus rentables et plus répandues, nous avons observé une croissance considérable de l’utilisation et de la demande d’outils et de services bioinformatiques faciles à utiliser et accessibles au public. Nous présentons ici les récentes mises à jour de la ressource PATRIC, y compris de nouveaux outils d’analyse comparative basés sur le Web, huit nouveaux services et la sortie d’une interface en ligne de commande pour accéder, interroger et analyser les données.
INTRODUCTION
Le programme du Centre de ressources en bioinformatique (BRC) a été créé par l’Institut National des allergies et des maladies infectieuses (NIAID) en 2004 et vise principalement à fournir un accès aux données de séquences génomiques et aux outils d’analyse pour l’étude des agents pathogènes. Le Centre d’intégration des ressources de PathoSystems (PATRIC) a commencé comme l’un des centres originaux chargés de soutenir l’analyse comparative des agents pathogènes bactériens (1-3). En 2009, PATRIC a fusionné avec la National Microbial Pathogen Database Resource (NMPDR) BRC (4), qui avait développé la base de données sur les SEMENCES et le système d’annotation RAST (Rapid Annotation using Subsystem Technology) pour organiser et projeter uniformément les annotations du génome entre les espèces microbiennes (5-8). Au fil des ans, la ressource PATRIC s’est développée et adaptée pour suivre le rythme de la croissance des ensembles de données bioinformatiques et du besoin d’outils d’analyse associés. En septembre 2019, PATRIC comprend plus de 250 000 génomes microbiens accessibles au public et un environnement d’analyse comparative riche.
Depuis son lancement en 2008, RAST (http://rast.nmpdr.org) a effectué 700 000 travaux d’annotation du génome pour des utilisateurs privés. En donnant accès à des scripts d’identification de caractéristiques génomiques développés par la communauté universitaire et à des projections cohérentes de fonctions protéiques bien organisées à partir de la GRAINE, RAST sert de modèle pour un service bioinformatique réussi, car il allège le besoin pour les utilisateurs de construire leurs propres pipelines d’annotation personnalisés, et sa cohérence permet des analyses comparatives en aval. En utilisant RAST comme modèle, PATRIC a commencé en 2014 à mettre en œuvre une variété de services bioinformatiques via le site Web permettant aux utilisateurs d’assembler et d’annoter des séquences génomiques, de reconstruire des modèles métaboliques, d’analyser des SNP et des INDELs, et d’analyser et de comparer des expériences ARN-seq. Les résultats de ces travaux d’analyse pourraient ensuite être comparés aux collections de données génomiques et autres données omiques accessibles au public dans la ressource, tout en restant privées dans l’environnement de travail de l’utilisateur. À la fin de 2016, PATRIC traitait des emplois de service de 1 500 ∼ par mois, sans compter les emplois soumis sur le site Web de RAST (3).
Depuis sa dernière description dans Nucleic Acids Research en 2016 (3), PATRIC a subi une série de mises à jour et d’améliorations. La collecte de données a été améliorée, en particulier dans le domaine de la résistance aux antimicrobiens (RAM) (9); l’environnement de navigation Web a été amélioré avec de nouveaux outils et visualisations; et les améliorations apportées à l’espace de travail ont également facilité la recherche et le partage des données des projets de recherche. Une interface de ligne de commande (CLI) pour l’acquisition et l’analyse de données en masse a été créée et publiée pour une distribution sur les systèmes Mac, Linux et Windows. PATRIC a également lancé huit nouveaux services bioinformatiques, l’accent étant récemment mis sur la capacité d’analyser des données provenant de cultures mixtes ou d’échantillons métagénomiques. Enfin, une riche collection de tutoriels a été créée pour aider les utilisateurs avec ces nouveaux outils (https://docs.patricbrc.org/tutorial/). Ce rapport décrit bon nombre des mises à jour récentes non publiées de la ressource PATRIC.
QUOI DE NEUF DANS PATRIC ?
Croissance et améliorations des données
L’un des changements les plus spectaculaires dans le soutien des travaux bioinformatiques depuis le début du programme BRC a été la croissance exponentielle des séquences de génome microbien accessibles au public (figure 1). La collection de séquences génomiques d’utilisateurs privés qui ont été annotées et indexées par PATRIC a également augmenté depuis la création de l’environnement de travail et pourrait en fait dépasser la taille de la collection publique de séquences génomiques au cours de la prochaine année (figure 1). Bien que l’ensemble privé comprenne des séquences de génome réanalysées,
Croissance cumulative des génomes publics et privés chez PATRIC.
Croissance cumulative des génomes publics et privés chez PATRIC.
nous ne voyons aucune indication que le séquençage du génome microbien et ses analyses bioinformatiques connexes ralentissent. L’augmentation des données de séquences génomiques accessibles au public et des métadonnées structurées connexes a également révolutionné les types d’analyses expérimentales possibles. Par exemple, PATRIC fournit des métadonnées structurées et organisées manuellement associées à chaque génome, y compris des phénotypes de RAM dérivés en laboratoire, des organismes hôtes, des sources d’isolement, des données sur le site du corps humain et des informations géographiques. Ces collections de métadonnées structurées constituent la base pour exécuter des expériences d’apprentissage automatique et d’apprentissage profond (10,11) et pour fournir des outils prédictifs aux utilisateurs (9). Nous prévoyons que l’utilisation accrue des techniques d’intelligence artificielle en bioinformatique stimulera les décisions de conception expérimentale et, en fin de compte, réduira le temps nécessaire aux expériences de caractérisation génétique et autres en laboratoire.
Soutenir la recherche sur la RAM est un domaine d’intérêt majeur pour la collecte et la conservation des données chez PATRIC. Nous organisons activement des annotations de protéines AMR et des données de phénotype AMR dérivées en laboratoire associées à des génomes publics. Le système d’annotation est capable de projeter avec précision plus de 600 fonctions de protéines AMR organisées à la main. Il contient également une grande collection de fonctions protéiques non AMR étroitement liées qui ont été organisées pour empêcher les fausses prédictions des fonctions AMR. Pour fournir un moyen supplémentaire de comparaison, le système d’annotation recherche également des gènes présentant une forte similitude avec ceux sélectionnés par les projets CARD (12) et NCBI AMR gene database (13). La collection de phénotypes de RAM dérivés en laboratoire a été générée par la conservation de données provenant de la littérature, du NCBI (https://www.ncbi.nlm.nih.gov/pathogens) et d’autres sources publiques. Il s’est développé pour inclure plus de 40 000 séquences de génome et est utilisé par des chercheurs du monde entier. Nous avons également ajouté plus de 10 000 séquences de plasmides et de prophages en raison de leur importance dans l’étude et la lutte contre la RAM.
Services
Les services fournis par PATRIC sont conçus pour permettre un accès facile à des flux de travail bioinformatiques complexes. Ils sont accessibles via l’interface web PATRIC et l’interface de ligne de commande. La plupart des services ont la capacité de gérer des centaines, voire des milliers d’emplois par jour. Les tâches sont généralement exécutées sur une série de serveurs internes, la capacité de surtension étant gérée par un grand cluster informatique. Les services PATRIC ont gagné en popularité depuis 2014 et, en septembre 2019, plus de 263 000 emplois avaient été achevés avec succès (figure 2).
Travaux d’analyse initiés par l’utilisateur réalisés par les services bioinformatiques PATRIC. Le graphique du haut montre l’utilisation de services à volume élevé. Le graphique du bas montre l’utilisation de volumes réduits et de nouveaux services. Notez la différence d’échelle entre les deux graphiques.
Travaux d’analyse initiés par l’utilisateur réalisés par les services bioinformatiques PATRIC. Le graphique du haut montre l’utilisation de services à volume élevé. Le graphique du bas montre l’utilisation de volumes réduits et de nouveaux services. Notez la différence d’échelle entre les deux graphiques.
Mises à jour remarquables des services existants
Trois de nos services préexistants, l’Assemblage du génome, l’Annotation du génome et l’analyse ARN-seq, ont fait l’objet de plusieurs mises à jour remarquables. Le service d’assemblage du génome a été reconstruit avec un nouveau planificateur de tâches qui permet un processus de mise en file d’attente des tâches plus équitable qui empêche les gros travaux de créer des goulots d’étranglement (14). En plus de SPAdes (15), nous avons ajouté Canu (16) pour l’assemblage à lecture longue et Unicycler pour les assemblages hybrides à lecture longue et courte (17). Nous fournissons également une image du graphique d’assemblage à l’aide du bandage (18), et les assemblages peuvent être polis à l’aide de Racon (19) et de Pilon (20) pour les assemblages à lecture longue et courte respectivement. Enfin, un mappage de lecture est effectué pour générer des statistiques de couverture précises en utilisant Bowtie2(21) ou Minicap2(22) et SAMtools (23). Deux nouveaux ajouts au Service d’annotation du génome comprennent la possibilité d’annoter des séquences du génome des bactériophages (24) et le calcul de statistiques de qualité du génome basées sur l’application CheckM (25) et un modèle interne RAST qui évalue la qualité en fonction de l’occurrence et de l’exhaustivité des rôles de sous-systèmes dans le génome (26). Le service d’analyse ARN-seq a également été mis à jour pour permettre des expériences étudiant la réponse de l’hôte aux infections microbiennes. Pour étayer cela, nous avons ajouté plusieurs génomes de référence d’hôtes eucaryotes communs, notamment Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, Cock, cock, Homo sapiens, Macaca mulatta, Muscle Mus, Belette putorius furo, Rattus norvegicus et Sus scrofa. Nous avons également récemment ajouté HISAT2 (indexation hiérarchique pour l’alignement épissé des transcriptions) (27), un système très efficace pour aligner les lectures des expériences ARN-Seq aux génomes hôtes et a permis l’importation d’ensembles de données de SRA dans l’interface ARN-seq, améliorant encore la capacité d’effectuer une analyse d’expression différentielle mixte de données publiques et privées.
Analyse complète du génome
L’un des cas d’utilisation les plus courants pour l’analyse de génomes privés chez PATRIC consiste à permettre aux chercheurs d’assembler puis d’annoter leurs séquences génomiques à l’aide de deux services distincts. Au printemps 2018, nous avons lancé un méta-service d’analyse du génome complet et simplifié qui accepte les lectures de séquençage, calcule l’assemblage et l’annotation et fournit une description conviviale du génome. La sortie comprend une évaluation de la qualité du génome, des gènes de RAM et des prédictions de phénotype, des gènes de spécialité, une vue d’ensemble du sous-système, l’identification des séquences génomiques les plus proches, un arbre phylogénétique et une liste de caractéristiques qui distinguent le génome de ses plus proches voisins. Le service complet d’analyse du génome est rapidement devenu l’un des services les plus populaires de PATRIC avec plus de 11 000 emplois en cours de réalisation depuis son lancement en avril 2018.
Arbres phylogénétiques
La capacité de reconstruire et de visualiser les relations évolutives est au cœur de la biologie. En 2017, PATRIC a lancé le Service d’arbres phylogénétiques qui permet aux utilisateurs de construire des arbres phylogénétiques de haute qualité pour des séquences de génome publiques et privées. Le service propose actuellement deux flux de travail à l’utilisateur. Le premier est un flux de travail de construction d’arbres à base de protéines appelé « Toutes les protéines partagées », qui utilise le pipeline d’Estimation Phylogénomique avec raffinement Progressif (PEPR) (https://github.com/enordber/pepr). PEPR fonctionne en définissant des familles de protéines partagées de novo pour un groupe de génome en utilisant BLAST (28) et HMMER (29) pour identifier des protéines similaires et MCL (30) pour construire des clusters. Ensuite, des alignements sont générés à l’aide du Muscle (31), et garnis de Gblocks (32). Enfin, en fonction des préférences de l’utilisateur, PEPR calcule l’arborescence en utilisant FastTree(33) ou RAxML(34). En 2019, nous avons lancé un deuxième workflow de construction d’arbres phylogénétiques plus rapide appelé » Arbres à codon « . »Il exploite des familles de protéines globales PATRIC prédéfinies (PGFAM) (35), en sélectionnant un nombre spécifié par l’utilisateur de familles (10-1000) qui sont en une seule copie (ou presque) parmi les membres d’un groupe de génomes. Des alignements sont générés pour les séquences protéiques de chaque famille à l’aide du muscle (31), et leurs séquences nucléotidiques correspondantes sont alignées sur cela à l’aide de la fonction codonalign du BioPython (36). Un alignement concaténé de toutes les protéines et nucléotides est écrit dans un fichier au format PHYLIP (37). Un fichier de partitions pour RaxML (34) est ensuite généré, qui décrit l’alignement en termes de protéines et de nucléotides dans les première, deuxième et troisième positions de codon. Les valeurs de support sont générées à partir de 100 cycles d’amorçage rapide dans RaxML (38).
En plus des fichiers d’arborescence au format Newick, le Service d’arborescence phylogénétique renvoie un fichier de document portable (PDF), un fichier graphique réseau portable (PNG) et un fichier image graphique vectoriel évolutif (SVG) des images d’arborescence enracinées au point milieu générées par FigTree (http://tree.bio.ed.ac.uk/software/figtree/). La vue de l’arbre phylogénétique sur le site Web de PATRIC permet aux chercheurs de sélectionner des nœuds et des feuilles, ce qui permet à l’utilisateur de créer des groupes à partir de clades spécifiques pour une analyse plus approfondie. Il génère également un rapport sur le génome qui fournit une liste des séquences génomiques et des familles de protéines utilisées dans la construction de l’arbre et le nombre de gènes, de protéines, d’acides aminés et de nucléotides utilisés pour calculer l’arbre. Enfin, des séquences génomiques problématiques qui pourraient être supprimées pour augmenter la sélection des gènes et améliorer la force de l’arbre sont répertoriées. Depuis sa construction, près de 5000 emplois ont été traités par le Service des arbres phylogénétiques.
Fastq utilities
L’évaluation de la qualité des lectures de séquençage est une première étape importante pour garantir que les analyses ultérieures, telles que l’assemblage, l’annotation, etc. sont précis. Le service Fastq Utilities, lancé en juillet 2019, permet aux utilisateurs d’aligner les lectures, de mesurer la qualité des appels de base et de découper des séquences de mauvaise qualité à partir de fichiers lus. Le service accepte les fichiers à lecture longue ou courte au format à extrémité unique ou appariée. Il peut également récupérer des fichiers lus directement à partir de l’archive de lecture de séquence NCBI (SRA) en utilisant un identifiant d’exécution comme entrée. Le service comprend trois composants, ‘trim’, ‘FastQC’ et ‘align’, qui peuvent être utilisés indépendamment ou dans n’importe quelle combinaison. Le composant de découpage utilise Trim Galore(39), qui est un wrapper Perl autour des outils Cutadapt(40) et FastQC(https://www.bioinformatics.babraham.ac.uk/projects/fastqc). Le composant FastQC fournit des contrôles de contrôle qualité sur les données de séquence brutes provenant de pipelines de séquençage à haut débit et permet un contrôle qualité rapide en indiquant les problèmes qui pourraient avoir un impact sur les analyses en aval. La fonction d’alignement aligne les lectures sur une séquence de génome de référence à l’aide de Bowtie2 (21, 41), enregistre les lectures non mappées et génère des rapports SamStat (42) de la quantité et de la qualité des alignements.
Alignement du génome
En novembre 2018, PATRIC a lancé le Service d’alignement du génome pour permettre aux utilisateurs de calculer des alignements de séquences entières du génome. Ce service utilise l’application progressiveMauve (43), qui construit des alignements de séquences de génome multiples d’homologie positionnelle dans une extension de l’algorithme Mauve d’origine (44). Le service permet aux chercheurs d’aligner jusqu’à vingt séquences de génome à la fois. La sortie du service comprend un affichage visuel du génome qui permet aux utilisateurs de visualiser et d’explorer l’alignement complet de la séquence du génome ou de zoomer pour comparer des régions ou des gènes individuels (figure 3).
Un flux de travail d’analyse de données dans PATRIC à l’aide du Service d’alignement du génome. (A) L’interface du site Web permet la sélection des génomes; (B) la visualisation des régions génomiques alignées avec les suppressions, insertions ou réarrangements éventuels; (C) un zoom avant sur l’alignement montrera les gènes sur les peuplements avant et arrière, qui peuvent être sélectionnés; (D) la sélection d’un gène spécifique dans le visualiseur d’alignement du génome ouvre la page de fonctionnalité PATRIC, où toutes les données disponibles pour ce gène sont affichées. (E) L’onglet Comparer la vue de la région sur la page du gène PATRIC montre la conservation du gène sélectionné (indiqué en rouge), ainsi que des gènes environnants. (F) Chaque gène est affecté à une famille de protéines spécifique au genre (PLFam) ou globale (PGFam) qui peut être sélectionnée à partir de la Page de fonctionnalités, et les membres de la famille peuvent être comparés à l’aide de l’outil Alignement de séquences multiples / Arbre de gènes.
Un flux de travail d’analyse de données dans PATRIC à l’aide du Service d’alignement du génome. (A) L’interface du site Web permet la sélection des génomes; (B) la visualisation des régions génomiques alignées avec les suppressions, insertions ou réarrangements éventuels; (C) un zoom avant sur l’alignement montrera les gènes sur les peuplements avant et arrière, qui peuvent être sélectionnés; (D) la sélection d’un gène spécifique dans le visualiseur d’alignement du génome ouvre la page de fonctionnalité PATRIC, où toutes les données disponibles pour ce gène sont affichées. (E) L’onglet Comparer la vue de la région sur la page du gène PATRIC montre la conservation du gène sélectionné (indiqué en rouge), ainsi que des gènes environnants. (F) Chaque gène est affecté à une famille de protéines spécifique au genre (PLFam) ou globale (PGFam) qui peut être sélectionnée à partir de la Page de fonctionnalités, et les membres de la famille peuvent être comparés à l’aide de l’outil Alignement de séquences multiples / Arbre de gènes.
Chercheur de génome similaire
Lorsqu’un chercheur a une nouvelle séquence de génome, l’une des premières choses qu’il veut identifier est les parents les plus proches de l’organisme, mais cela peut être difficile lorsque la collection publique est si importante. PATRIC fournit un service appelé Similar Genome Finder pour permettre aux chercheurs d’identifier rapidement des séquences génomiques similaires à l’aide de Mash (45). Mash fonctionne en réduisant les grandes séquences à de petites esquisses représentatives, qui peuvent être utilisées pour estimer les distances de mutation en fonction des k-mers partagées. PATRIC permet la comparaison avec toutes les séquences génomiques publiques ou l’ensemble de génomes de référence NCBI. L’outil permet aux chercheurs d’ajuster la sensibilité de la recherche en sélectionnant le nombre maximum de k-mers maintenus en commun, le seuil de valeur P ou la distance. Les résultats sont renvoyés sous la forme d’une liste des séquences génomiques les plus similaires avec les métadonnées correspondantes. Comme pour toutes les tables PATRIC, les chercheurs peuvent sélectionner des séquences pour créer des groupes pour une analyse ultérieure ou télécharger les résultats.
Classification taxonomique
Lancé en mars 2019, le Service de Classification Taxonomique identifie la composition taxonomique d’échantillons mixtes ou métagénomiques. Ce service utilise l’application Kraken2(46), qui identifie les k-mers indicatives de diverses unités taxonomiques. La base de données Kraken utilisée par le service est une construction complète basée sur toutes les séquences du génome RefSeq (47), la séquence du génome humain, les plasmides et les séquences vectorielles. La sortie du travail comprend le format de rapport Kraken standard, chaque taxon bactérien étant relié par un lien hypertexte à la page correspondante dans PATRIC. Le service renvoie également un tracé en couronnes (48) qui indique le pourcentage de lectures mappées à chaque taxon et permet à l’utilisateur d’explorer les taxons sélectionnés.
Cartographie de lecture métagénomique
Les chercheurs qui étudient la RAM ou la virulence peuvent être intéressés par l’analyse de gènes dans des ensembles de lecture mixtes ou métagénomiques. Le service de cartographie de lecture des métagénomes permet aux chercheurs de rechercher ces gènes spécifiques dans un ensemble de lectures. Il fonctionne en alignant les lectures sur un gène de référence en utilisant KMA, qui utilise l’ensemencement k-mer et l’algorithme Needleman–Wunsch pour aligner avec précision les lectures sur les gènes d’intérêt (49). Les utilisateurs peuvent actuellement s’aligner sur les ensembles de gènes de référence de la Base de données complète sur la résistance aux antibiotiques (CARD) (50) et de la Base de données sur les facteurs de virulence (VFDB) (51). Le service renvoie des versions HTML et textuelles du rapport KMA standard, qui montre des informations cartographiques détaillées, des liens vers des gènes dans PATRIC avec une similitude élevée et une séquence de consensus assemblée à partir des lectures alignées.
Binning métagénomique
Lancé en août 2017, le Service de Binning métagénomique assemble les lectures d’un échantillon métagénomique en contigs, puis tente de séparer ces contigs en bacs qui représentent les génomes des espèces individuelles. Ces bacs sont ensuite entièrement annotés et des statistiques de qualité détaillées sont calculées pour chaque bac. L’algorithme de binning commence par balayer les contigs à la recherche de protéines marqueurs spécifiques qui se produisent presque toujours individuellement dans le génome. La similarité marqueur-protéine est utilisée pour recruter des génomes similaires à partir de PATRIC, qui sont ensuite utilisés pour recruter des contigs supplémentaires en fonction de la distinction des protéines k-mers. Comme pour les génomes à isolat unique, les bacs sont placés dans l’espace de travail de l’utilisateur et indexés dans la base de données PATRIC en tant que génomes privés, ce qui permet d’utiliser pleinement les outils d’analyse comparative et de visualisation PATRIC pour chaque bac.
Outils d’analyse web
Le site PATRIC propose plusieurs outils d’analyse visuelle interactifs qui permettent aux utilisateurs de comparer des ensembles de données omiques. Ces outils intègrent des données de différents types, effectuent des tâches de calcul et rendent des visualisations interactives pour l’utilisateur. PATRIC prend actuellement en charge de nombreux outils d’analyse en ligne, tels que le visualiseur de carte thermique pour comparer la teneur en protéines partagée, le Visualiseur de voies pour explorer les voies métaboliques et le navigateur Génomique pour afficher les caractéristiques génomiques sur le chromosome. Nous avons ajouté deux nouvelles visualisations au site Web PATRIC qui existaient à l’origine sur les sites Web de RAST et de SEED, mais qui nécessitaient une réingénierie importante pour pouvoir être utilisées avec des centaines de milliers de génomes.
Comparateur de régions
Le Comparateur de régions permet aux chercheurs de comparer les quartiers de gènes (loci génétiques ou amas chromosomiques) de nombreuses espèces. Un utilisateur sélectionne un gène d’intérêt, la taille de la région génomique et le nombre de génomes pour la comparaison. L’affichage rend la similitude BLAST du gène focus et la similitude des gènes environnants dans la région (Figure 3E).
Dans RAST, cet outil s’appuie sur une base de données précalculée de similitudes BLAST(28) pour déterminer l’ensemble des génomes ayant une correspondance avec le gène d’intérêt, et calcule une comparaison détaillée par paires de gènes dans la région sélectionnée pour coder les données. En raison du nombre de génomes dans la base de données PATRIC, cette méthode est trop lente pour une utilisation en temps réel. La version PATRIC de cet outil base la recherche de gènes et le codage couleur sur les familles de protéines spécifiques au genre (PLFam) ou globales (PGFam) (35), qui sont précalculées pour chaque génome, de sorte que l’espace de recherche est plus étendu. Cependant, cette visualisation est évolutive car BLAST n’est utilisé que pour calculer la similarité des protéines pour les gènes de foyer au sein de l’ensemble.
Sous-systèmes
Les sous-systèmes sont des collections de protéines fonctionnellement liées et constituent un dispositif conceptuel essentiel pour identifier et projeter des fonctions protéiques entre les espèces (7,52). PATRIC calcule et affiche maintenant des données de sous-système pour chaque séquence de génome annotée publique et privée. Les sous-systèmes, qui résultent d’une annotation manuelle par une équipe de conservateurs experts, sont divisés en Superclasse (exemple: Métabolisme), Classe (exemple: Réponse au stress, Défense et Virulence), Sous-Classe (exemple: Résistance aux antibiotiques et aux composés toxiques), Nom de sous-système (exemple: Résistance à l’arsenic) et rôle fonctionnel de chacun des gènes inclus. Cliquer sur l’onglet sous-systèmes pour n’importe quel génome fournit trois vues différentes. La vue d’ensemble des sous-systèmes affiche un graphique à secteurs qui affiche le pourcentage de gènes appartenant à une Superclasse particulière. L’onglet Sous-systèmes comprend le nombre de gènes trouvés dans une Superclasse particulière. L’onglet Gènes comprend une liste de tous les gènes de tous les sous-systèmes et comprend les étiquettes de locus PATRIC et RefSeq (47). Les informations sur les sous-systèmes ne sont pas seulement disponibles pour les génomes individuels, mais sont également additionnées pour chaque niveau taxonomique, jusqu’au Superkingdom en utilisant la taxonomie NCBI (53). Une vue de carte thermique montrant la présence et l’absence de protéines spécifiques par sous-système sélectionné à travers un taxon ou un groupe de génome spécifique peut être créée par l’utilisateur.
Interface de ligne de commande (CLI)
Depuis 5 ans, le magasin de données PATRIC est géré à l’aide d’une structure de base de données NoSQL Apache Solr. Pour s’adapter à la collecte de données en croissance rapide et pour tirer parti de l’évolutivité et de la résilience, l’architecture de base de données PATRIC a été convertie en une architecture de base de données Apache SolrCloud au printemps 2019. La base de données SolrCloud est divisée en une série de SolrCores pour gérer les types de données connexes, tels que les caractéristiques du génome, les séquences et les données transcriptomiques. Une interface de programmation d’application (API) sous-jacente permet un accès programmatique à ces cœurs et aux données qu’ils contiennent ; cependant, l’acquisition de données peut devenir complexe lors de la navigation et de la fusion de champs à partir des différents cœurs. Nous avons développé un ensemble de scripts en ligne de commande qui utilisent l’API pour accéder au magasin de données et effectuer des analyses communes. Cette distribution est disponible pour les systèmes d’exploitation Mac, Windows et Linux, y compris Ubuntu et CentOS 6 et 7, et Fedora 28 et 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). La distribution et le site Web PATRIC contiennent tous deux des tutoriels sur l’utilisation des scripts avec des exemples (https://docs.patricbrc.org/cli_tutorial/). La distribution de 482 Mo contient de nombreux scripts sous-jacents de l’environnement PATIRC. Certaines permettent le téléchargement, la fusion et la manipulation de données en masse et d’autres permettent des analyses plus complexes. La distribution inclut également des scripts utiles des projets précédents SEED(5) et RASTtk(8). Une fonctionnalité particulièrement remarquable offerte par la distribution PATRIC CLI est la possibilité de gérer des fichiers dans l’espace de travail. Les utilisateurs peuvent se connecter à un espace de travail privé, créer des sous-répertoires, déplacer des fichiers vers ou hors de l’espace de travail et lancer des tâches d’annotation et d’assemblage. Ces scripts fournissent les moyens d’assembler et d’annoter des centaines, voire des milliers de séquences génomiques. De plus, nous avons également rendu l’espace de travail PATRIC accessible via le protocole FTP (File Transfer Protocol), qui fournit un moyen alternatif de déplacer de grandes quantités de données vers et hors de l’espace de travail. Les utilisateurs peuvent accéder à l’espace de travail à l’aide de la ligne de commande ou à l’aide d’un gestionnaire de fichiers FTP. Nous prévoyons de continuer à développer les outils de ligne de commande pour permettre un meilleur accès aux services et une manipulation plus facile des données.
ORIENTATIONS FUTURES
En 2020, l’équipe PATRIC de l’Université de Chicago, de l’Université de Virginie et la Fellowship for Interpretation of Genomes se combineront avec l’équipe BRC virale qui prend en charge les ressources ViPR (Virus Pathogen Database and Analysis Resource) et IRD (Base de données de recherche sur la grippe) de l’Institut J. Craig Venter (JCVI). La nouvelle équipe BRC bactérienne et virale (BV-BRC) continuera de maintenir les sites Web PATRIC, IRD et ViPR tout en ajoutant de nouvelles fonctionnalités transversales. Nous avons l’intention de nous concentrer fortement sur l’amélioration de l’utilité de la nouvelle ressource BV-BRC pour l’analyse épidémiologique, l’extension du magasin de données pour inclure d’autres types de données et de métadonnées, l’accès accru aux données structurées pouvant être utilisées dans des applications d’intelligence artificielle et l’amélioration de l’architecture de déploiement des outils et des services.
FINANCEMENT
Institut National des Allergies et des Maladies Infectieuses (NIAID). Financement des frais d’accès libre : NIAID.
Déclaration de conflit d’intérêts. Aucun n’a été déclaré.
Notes
Adresse actuelle: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 S. Cass Avenue, Argonne, IL 60439, États-Unis.
,
,
,
,
div>
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
,
,
,
,
,
,
,
div>,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
.
.
;
–
.
,
,
,
,
,
,
,
,
div>,
.
;
:
–
.
,
,
,
div>,
,
.
;
:
–
.
,
,
,
.
;
:
.
,
,
,
.
.
;
:
–
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
div>,
.
.
;
:
.
,
.
.
;
:
–
.
.
.
;
:
–
.
,
,
,
div>,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
.
;
:
–
.
,
,
,
/div>,
,
,
,
.
.
;
:
.
,
,
div>.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
.
;
:
–
.
.
;
:
–
.
,
.
;
:
–
.
,
,
.
.
;
:
.
.
.
;
:
–
.
,
,
,
,
,
,
,
div>,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
.
;
.
,
,
div>.
;
:
–
.
.
;
http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.
.
;
:
–
.
,
,
,
>
.
.
;
:
–
.
,
,
div>.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
.
;
:
.
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
.
.
;
:
.
,
,
.
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
.
;
:
–
.