Articles

El Centro de Recursos de Bioinformática PATRIC: ampliación de las capacidades de análisis y datos

Resumen

El Centro de Integración de Recursos de PatosIstemas (PATRIC) es el Centro de Recursos de Bioinformática bacteriana financiado por el Instituto Nacional de Alergias y Enfermedades Infecciosas (https://www.patricbrc.org). PATRIC admite análisis bioinformáticos de todas las bacterias con especial énfasis en los patógenos, ofreciendo un rico entorno de análisis comparativo que proporciona a los usuarios acceso a más de 250 000 genomas uniformemente anotados y disponibles públicamente con metadatos curados. PATRIC ofrece herramientas de visualización y análisis comparativo basadas en la web, un espacio de trabajo privado en el que los usuarios pueden analizar sus propios datos en el contexto de las colecciones públicas, servicios que optimizan flujos de trabajo bioinformáticos complejos y herramientas de línea de comandos para el análisis de datos masivos. En los últimos años, a medida que los experimentos genómicos y otros experimentos omicos se han vuelto más rentables y generalizados, hemos observado un crecimiento considerable en el uso y la demanda de herramientas y servicios bioinformáticos fáciles de usar y disponibles al público. Aquí presentamos las actualizaciones recientes del recurso PATRIC, incluidas las nuevas herramientas de análisis comparativo basadas en la web, ocho nuevos servicios y el lanzamiento de una interfaz de línea de comandos para acceder, consultar y analizar datos.

INTRODUCCIÓN

El programa del Centro de Recursos Bioinformáticos (BRC, por sus siglas en inglés) fue establecido por el Instituto Nacional de Alergias y Enfermedades Infecciosas (NIAID, por sus siglas en inglés) en 2004 con un enfoque principal en proporcionar acceso a datos de secuencias genómicas y herramientas de análisis para estudiar patógenos. PathoSystems Resource Integration Center (PATRIC) comenzó como uno de los centros originales encargados de apoyar el análisis comparativo de patógenos bacterianos (1-3). En 2009, PATRIC se fusionó con el National Microbial Pathogen Database Resource (NMPDR) BRC (4), que había desarrollado la exitosa base de datos de SEMILLAS y el sistema de anotación RAST (Anotación Rápida utilizando Tecnología de Subsistemas) para curar y proyectar de manera uniforme anotaciones genómicas entre especies microbianas (5-8). A lo largo de los años, el recurso PATRIC se ha expandido y adaptado para mantenerse al ritmo del crecimiento de los conjuntos de datos bioinformáticos y la necesidad de herramientas de análisis asociadas. A partir de septiembre de 2019, PATRIC incluye más de 250 000 genomas microbianos disponibles públicamente y un rico entorno de análisis comparativo.

Desde su lanzamiento en 2008, RAST (http://rast.nmpdr.org) ha realizado ∼700 000 trabajos de anotación de genoma para usuarios privados. Al proporcionar acceso a scripts de identificación de características genómicas desarrollados por la comunidad académica y proyecciones consistentes de funciones proteicas bien curadas de la SEMILLA, RAST sirve como modelo para un servicio bioinformático exitoso porque alivia la necesidad de que los usuarios construyan sus propias tuberías de anotación personalizadas, y su consistencia permite análisis comparativos descendentes. Utilizando RAST como plantilla, en 2014 PATRIC comenzó a implementar una variedad de servicios bioinformáticos a través del sitio web, lo que permite a los usuarios ensamblar y anotar secuencias genómicas, reconstruir modelos metabólicos, analizar SNP e INDEL, y analizar y comparar experimentos de RNA-seq. Los resultados de estos trabajos de análisis podrían compararse con las colecciones de datos genómicos y otros datosicicos disponibles públicamente en el recurso, mientras se mantienen privados dentro del entorno de trabajo del usuario. A finales de 2016, PATRIC estaba procesando trabajos de servicio de ∼1500 por mes, sin incluir los trabajos que se enviaban al sitio web de RAST (3).

Desde su última descripción en la Investigación de Ácidos nucleicos en 2016 (3), PATRIC se ha sometido a una serie de actualizaciones y mejoras. Se ha mejorado la recopilación de datos, especialmente en el ámbito de la resistencia a los antimicrobianos (9); se ha mejorado el entorno de navegación web con nuevas herramientas y visualizaciones; y las mejoras en el espacio de trabajo también han facilitado la búsqueda y el intercambio de datos de proyectos de investigación. Se ha creado y lanzado una interfaz de línea de comandos (CLI) para la adquisición y el análisis de datos masivos para su distribución en sistemas Mac, Linux y Windows. PATRIC también ha lanzado ocho nuevos servicios bioinformáticos, con énfasis reciente en la capacidad de analizar datos de cultivos mixtos o muestras metagenómicas. Por fin, se ha creado una rica colección de tutoriales para ayudar a los usuarios con estas nuevas herramientas (https://docs.patricbrc.org/tutorial/). Este informe describe muchas de las actualizaciones recientes no publicadas del recurso PATRIC.

¿QUÉ HAY DE NUEVO EN PATRIC?

Crecimiento y mejoras de los datos

Uno de los cambios más dramáticos en el apoyo al trabajo bioinformático desde el comienzo del programa BRC ha sido el crecimiento exponencial en las secuencias de genoma microbiano disponibles públicamente (Figura 1). La colección de secuencias genómicas de usuarios privados que PATRIC ha anotado e indexado también ha crecido desde el establecimiento del entorno de trabajo, y en realidad puede exceder el tamaño de la colección pública de secuencias genómicas en el próximo año (Figura 1). Aunque el conjunto privado incluye algunas secuencias genómicas reanalizadas,

Figura 1.

Crecimiento acumulativo de genomas públicos y privados en PATRIC.

Figura 1.

Crecimiento acumulativo de genomas públicos y privados en PATRIC.

no vemos indicios de que la secuenciación del genoma microbiano y sus análisis bioinformáticos relacionados se estén ralentizando. El aumento de los datos de secuencias genómicas disponibles al público y de los metadatos estructurados conexos también ha revolucionado los tipos de análisis experimentales posibles. Por ejemplo, PATRIC proporciona metadatos estructurados y curados manualmente asociados con cada genoma, incluidos fenotipos de RAM derivados de laboratorio, organismos huéspedes, fuentes de aislamiento, datos de sitios del cuerpo humano e información geográfica. Estas colecciones de metadatos estructurados proporcionan la base para ejecutar experimentos de aprendizaje automático y aprendizaje profundo (10,11) y para proporcionar herramientas predictivas a los usuarios (9). Anticipamos que el mayor uso de técnicas de inteligencia artificial en bioinformática impulsará las decisiones de diseño experimental y, en última instancia, acortará el tiempo requerido para los experimentos de caracterización genética y otros basados en laboratorio.

El apoyo a la investigación de la RMA es un área de enfoque principal para la recopilación y curación de datos en PATRIC. Curamos activamente tanto anotaciones de proteínas AMR como datos de fenotipo de AMR derivados de laboratorio asociados con genomas públicos. El sistema de anotación es capaz de proyectar con precisión más de 600 funciones de proteína AMR seleccionadas a mano. También contiene una gran colección de funciones de proteínas no AMR estrechamente relacionadas que se han curado para evitar predicciones falsas de funciones de AMR. Para proporcionar un medio adicional de comparación, el sistema de anotación también busca genes con alta similitud a los curados por los proyectos CARD (12) y NCBI AMR gene database (13). La colección de fenotipos de RMA derivados de laboratorio se ha generado mediante la selección de datos de la literatura, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) y otras fuentes públicas. Ha crecido hasta incluir más de 40 000 secuencias genómicas y está siendo utilizado por investigadores de todo el mundo. También hemos agregado más de 10 000 secuencias de plásmidos y profagos debido a su importancia en el estudio y combate de la RAM.

Servicios

Los servicios proporcionados por PATRIC están diseñados para permitir un fácil acceso a flujos de trabajo bioinformáticos complejos. Se puede acceder a ellos a través de la interfaz web PATRIC y la interfaz de línea de comandos. La mayoría de los servicios tienen la capacidad de manejar cientos o incluso miles de trabajos por día. Por lo general, los trabajos se ejecutan en una serie de servidores internos, y un gran clúster informático gestiona la capacidad de sobretensión. Los servicios PATRIC han crecido en popularidad desde 2014 y, a septiembre de 2019, se han completado con éxito más de 263 000 empleos (Figura 2).

Figura 2.

Trabajos de análisis iniciados por el usuario completados por los servicios bioinformáticos PATRIC. La gráfica superior muestra el uso de servicios de gran volumen. La gráfica inferior muestra el uso de servicios nuevos y de menor volumen. Observe la diferencia de escala entre las dos gráficas.

Figura 2.

Trabajos de análisis iniciados por el usuario completados por los servicios bioinformáticos PATRIC. La gráfica superior muestra el uso de servicios de gran volumen. La gráfica inferior muestra el uso de servicios nuevos y de menor volumen. Observe la diferencia de escala entre las dos gráficas.

Actualizaciones dignas de mención de los servicios existentes

Tres de nuestros servicios pre-existentes, Ensamblaje del Genoma, Anotación del Genoma y análisis de ARN-seq, han sido objeto de varias actualizaciones dignas de mención. El Servicio de Ensamblaje del Genoma se ha reconstruido con un nuevo planificador de trabajos que permite un proceso de cola de trabajos más justo que evita que los grandes trabajos creen cuellos de botella (14). Además de Picas (15), hemos añadido Canu (16) para ensamblajes de larga lectura y Unicycler para ensamblajes híbridos de larga y corta lectura (17). También proporcionamos una imagen del gráfico de ensamblaje con Vendaje (18), y los ensamblajes se pueden pulir con Racon (19) y Pilon (20) para ensamblajes de lectura larga y corta, respectivamente. Por último, se realiza un mapeo de lectura para generar estadísticas de cobertura precisas utilizando Bowtie2 (21) o Minimap2 (22) y SAMtools (23). Dos nuevas adiciones al Servicio de Anotación del Genoma incluyen la capacidad de anotar secuencias del genoma de bacteriófagos (24) y el cálculo de estadísticas de calidad del genoma que se basan en la aplicación CheckM (25) y un modelo RAST interno que evalúa la calidad en función de la ocurrencia y la integridad de los roles del subsistema en el genoma (26). El Servicio de análisis de ARN-seq también se ha actualizado para permitir experimentos que estudien la respuesta del huésped a infecciones microbianas. Para apoyar esto, hemos agregado varios genomas de referencia de hospedadores eucariotas comunes, incluidos Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, Cock, cock, Homo sapiens, Macaca mulatta, Mus muscle, Comadreja putorius furo, Rattus norvegicus y Sus scrofa. También hemos agregado recientemente HISAT2 (indexación jerárquica para alineación empalmada de transcripciones) (27), un sistema altamente eficiente para alinear lecturas de experimentos de RNA-Seq para hospedar genomas y permitir la importación de conjuntos de datos de SRA en la interfaz de RNA-seq, mejorando aún más la capacidad de realizar análisis de expresión diferencial mixta de datos públicos y privados.

Análisis genómico completo

Uno de los casos de uso más comunes para el análisis de genomas privados en PATRIC es que los investigadores ensamblen y luego anoten sus secuencias genómicas utilizando dos servicios separados. En la primavera de 2018, lanzamos un metaservicio de Análisis Genómico Integral simplificado que acepta lecturas de secuenciación, calcula el ensamblaje y la anotación, y proporciona una descripción fácil de usar del genoma. El resultado incluye una evaluación de la calidad del genoma, genes AMR y predicciones de fenotipos, genes especializados, visión general del subsistema, identificación de las secuencias genómicas más cercanas, un árbol filogenético y una lista de características que distinguen el genoma de sus vecinos más cercanos. El Servicio de Análisis Integral del Genoma se ha convertido rápidamente en uno de los servicios más populares en PATRIC, con más de 11 000 puestos de trabajo completados desde su lanzamiento en abril de 2018.

Árboles filogenéticos

La capacidad de reconstruir y visualizar las relaciones evolutivas se encuentra en el corazón de la biología. En 2017, PATRIC lanzó el Servicio de Árboles Filogenéticos que permite a los usuarios construir árboles filogenéticos de alta calidad para secuencias genómicas públicas y privadas. El servicio ofrece actualmente dos flujos de trabajo para el usuario. El primero es un flujo de trabajo de construcción de árboles basado en proteínas llamado ‘Todas las proteínas compartidas’, que utiliza la tubería de Estimación Filogenómica con Refinamiento Progresivo (PEPR) (https://github.com/enordber/pepr). PEPR trabaja definiendo familias de proteínas compartidas de novo para un grupo de genoma usando BLAST (28) y HMMER (29) para identificar proteínas similares y MCL (30) para construir grupos. A continuación, se generan alineaciones utilizando Músculo (31) y se recortan con bloques G (32). Por último, en función de las preferencias del usuario, PEPR calcula el árbol utilizando FastTree (33) o RAxML (34). En 2019, lanzamos un segundo flujo de trabajo de construcción de árboles filogenéticos más rápido llamado «Árboles de codones».’Aprovecha las familias de proteínas globales PATRIC predefinidas (PGFams) (35), seleccionando un número especificado por el usuario de familias (10-1000) que son de una sola copia (o casi) entre los miembros de un grupo de genoma. Se generan alineaciones para secuencias de proteínas de cada familia utilizando Músculo (31), y sus secuencias de nucleótidos correspondientes se alinean con esto utilizando la función codonalign de BioPython (36). Una alineación concatenada de todas las proteínas y nucleótidos se escribe en un archivo con formato PHYLIP (37). A continuación, se genera un archivo de particiones para RaxML (34), que describe la alineación en términos de proteínas y nucleótidos en la primera, segunda y tercera posición del codón. Los valores de soporte se generan a partir de 100 rondas de arranque rápido en RaxML (38).

Además de los archivos de árbol con formato Newick, el Servicio de árbol Filogenético devuelve un archivo de documento portátil (PDF), un archivo de imagen de gráficos de red portátiles (PNG) y un archivo de imagen de gráficos vectoriales escalables (SVG) de las imágenes de árbol con raíz de punto medio generadas por FigTree (http://tree.bio.ed.ac.uk/software/figtree/). La vista de árbol filogenético en el sitio web de PATRIC permite a los investigadores seleccionar nodos y hojas, lo que permite al usuario crear grupos a partir de clados específicos para un análisis posterior. También genera un informe del genoma que proporciona una lista de las secuencias del genoma y las familias de proteínas utilizadas en la construcción del árbol y los recuentos de genes, proteínas, aminoácidos y nucleótidos utilizados para calcular el árbol. Por último, se enumeran secuencias genómicas problemáticas que podrían eliminarse para aumentar la selección de genes y mejorar la fuerza del árbol. Desde su construcción, casi 5000 trabajos han sido procesados por el Servicio de Árboles Filogenéticos.

Fastq utilities

Evaluar la calidad de las lecturas de secuenciación es un primer paso importante para garantizar que los análisis posteriores, como el ensamblaje, la anotación, etc. son precisos. El servicio Fastq Utilities, lanzado en julio de 2019, permite a los usuarios alinear lecturas, medir la calidad de las llamadas básicas y recortar secuencias de baja calidad de los archivos de lectura. El servicio acepta archivos de lectura larga o corta en formato de extremo único o emparejado. También puede recuperar archivos de lectura directamente desde el Archivo de Lectura de secuencia NCBI (SRA) utilizando un identificador de ejecución como entrada. El servicio tiene tres componentes, ‘trim’, ‘FastQC’ y ‘align’, que se pueden usar de forma independiente o en cualquier combinación. El componente de recorte utiliza Trim Galore (39), que es un envoltorio Perl alrededor de las herramientas Cutadapt (40) y FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc). El componente FastQC proporciona comprobaciones de control de calidad en datos de secuencia sin procesar procedentes de tuberías de secuenciación de alto rendimiento y permite un control de calidad rápido al indicar problemas que podrían afectar los análisis posteriores. La función de alineación alinea las lecturas con una secuencia de genoma de referencia utilizando Bowtie2 (21,41), ahorrando lecturas sin mapear y generando informes SamStat (42) de la cantidad y calidad de las alineaciones.

Alineación del genoma

En noviembre de 2018, PATRIC lanzó el Servicio de Alineación del Genoma para permitir a los usuarios calcular alineaciones de secuencias de genoma completo. Este servicio utiliza la aplicación progressiveMauve (43), que construye alineaciones de secuencia de genoma múltiple de homología posicional en una extensión del algoritmo malva original (44). El servicio permite a los investigadores alinear hasta veinte secuencias genómicas a la vez. La salida del servicio incluye una visualización visual del genoma que permite a los usuarios ver y explorar la alineación completa de la secuencia del genoma o hacer zoom para comparar regiones o genes individuales (Figura 3).

Figura 3.

Un flujo de trabajo de análisis de datos en PATRIC utilizando el Servicio de Alineación del Genoma. A) La interfaz del sitio web permite la selección de genomas; B) la visualización de las regiones genómicas alineadas con supresiones, inserciones o reordenamientos; C) el zoom en la alineación mostrará los genes en los soportes hacia adelante y hacia atrás, que se pueden seleccionar; D) la selección de un gen específico del visor de Alineación del genoma abre la Página de características PATRIC, donde se muestran todos los datos disponibles para ese gen. (E) La pestaña Comparar Región de la Página del Gen PATRIC muestra la conservación del gen seleccionado (en rojo) y también de los genes circundantes. F) Cada gen se asigna a una familia de proteínas de género específico (PLFam) o global (PGFam) que se puede seleccionar en la Página de Características, y los miembros de la familia se pueden comparar utilizando la herramienta Alineación de Secuencias Múltiples/Árbol Genético.

Figura 3.

Un flujo de trabajo de análisis de datos en PATRIC utilizando el Servicio de Alineación del Genoma. (A) La interfaz del sitio web permite la selección de genomas; (B) visualización de las regiones genómicas alineadas con eliminaciones, inserciones o reordenamientos; (C) al hacer zoom en la alineación, se mostrarán los genes en los soportes hacia adelante y hacia atrás, que se pueden seleccionar; (D) al seleccionar un gen específico del visor de Alineación del genoma, se abre la Página de características PATRIC, donde se muestran todos los datos disponibles para ese gen. (E) La pestaña Comparar Región de la Página del Gen PATRIC muestra la conservación del gen seleccionado (en rojo) y también de los genes circundantes. F) Cada gen se asigna a una familia de proteínas de género específico (PLFam) o global (PGFam) que se puede seleccionar en la Página de Características, y los miembros de la familia se pueden comparar utilizando la herramienta Alineación de Secuencias Múltiples/Árbol Genético.

Buscador de genoma similar

Cuando un investigador tiene una nueva secuencia de genoma, una de las primeras cosas que desea identificar es los parientes más cercanos del organismo, pero esto puede ser difícil cuando la colección pública es tan grande. PATRIC proporciona un servicio llamado Buscador de Genomas Similares para permitir a los investigadores identificar rápidamente secuencias genómicas similares utilizando Mash (45). Mash funciona reduciendo secuencias grandes a pequeños bocetos representativos, que se pueden usar para estimar distancias de mutación basadas en k-mers compartidos. PATRIC permite la comparación con todas las secuencias genómicas públicas o el conjunto genómico de referencia NCBI. La herramienta permite a los investigadores ajustar la sensibilidad de búsqueda seleccionando el número máximo de k-mers en común, el umbral de valor P o la distancia. Los resultados se devuelven como una lista de las secuencias genómicas más similares con los metadatos correspondientes. Al igual que con todas las tablas PATRIC, los investigadores pueden seleccionar secuencias para crear grupos para un análisis posterior o descargar los resultados.

Clasificación taxonómica

Lanzado en marzo de 2019, el Servicio de Clasificación Taxonómica identifica la composición taxonómica de muestras mixtas o metagenómicas. Este servicio utiliza la aplicación Kraken2 (46), que identifica k-mers que son indicativos de varias unidades taxonómicas. La base de datos de Kraken utilizada por el servicio es una compilación completa que se basa en todas las secuencias genómicas de RefSeq (47), la secuencia del genoma humano, plásmidos y secuencias vectoriales. La salida del trabajo incluye el formato de informe Kraken estándar, con cada taxón bacteriano hipervinculado a la página correspondiente en PATRIC. El servicio también devuelve un gráfico de coronas (48) que muestra el porcentaje de lecturas asignadas a cada taxón y permite al usuario explorar taxones seleccionados.

Mapeo de lectura metagenómica

Los investigadores que estudian la RAM o la virulencia pueden estar interesados en analizar genes en conjuntos de lectura metagenómica o mixta. El Servicio de Mapas de Lectura de Metagenomas permite a los investigadores buscar estos genes específicos en un conjunto de lecturas. Funciona alineando las lecturas con un gen de referencia utilizando KMA, que utiliza la siembra k-mer y el algoritmo Needleman–Wunsch para alinear con precisión las lecturas con los genes de interés (49). Actualmente, los usuarios pueden alinearse con los conjuntos de genes de referencia de la Base de Datos Exhaustiva de Resistencia a los Antibióticos (CARD) (50) y la Base de Datos de Factores de Virulencia (VFDB) (51). El servicio devuelve versiones html y de texto del informe KMA estándar, que muestra información de mapeo detallada, enlaces a genes en PATRIC con alta similitud y una secuencia de consenso ensamblada a partir de las lecturas alineadas.

Binning metagenómico

Lanzado en agosto de 2017, el Servicio de Binning Metagenómico reúne lecturas de una muestra metagenómica en contigs y luego intenta separar estos contigs en contenedores que representan los genomas de especies individuales. Estos contenedores se anotan completamente y se calculan estadísticas de calidad detalladas para cada contenedor. El algoritmo de binning comienza escaneando contiguos en busca de proteínas marcadoras específicas que casi siempre se encuentran de forma aislada en el genoma. La similitud marcador-proteína se utiliza para reclutar genomas similares de PATRIC, que luego se utilizan para reclutar contigs adicionales basados en la distinción de proteínas k-mers. Al igual que los genomas aislados individuales, los contenedores se colocan en el espacio de trabajo del usuario y se indexan dentro de la base de datos PATRIC como genomas privados, lo que permite el uso completo de las herramientas de análisis comparativo y visualización PATRIC para cada contenedor.

Herramientas de análisis basadas en la web

El sitio web de PATRIC ofrece varias herramientas de análisis visual interactivas que permiten a los usuarios comparar conjuntos de datos omics. Estas herramientas integran datos de varios tipos, realizan algunas tareas computacionales y renderizan visualizaciones interactivas para el usuario. PATRIC actualmente admite muchas herramientas de análisis basadas en la web, como el Visor de mapas de calor para comparar el contenido de proteínas compartidas, el Visor de vías para explorar las vías metabólicas y el Navegador del Genoma para mostrar características genómicas en el cromosoma. Hemos agregado dos nuevas visualizaciones al sitio web de PATRIC que originalmente existían en los sitios web de RAST y SEED, pero que requerían una reingeniería significativa para ser funcionales y usarse con cientos de miles de genomas.

Visor de regiones de comparación

El Visor de regiones de comparación permite a los investigadores comparar vecindarios genéticos (loci genéticos o grupos cromosómicos) en muchas especies. Un usuario selecciona un gen de interés, el tamaño de la región genómica y el número de genomas para la comparación. La pantalla muestra la similitud de la explosión del gen de enfoque y la similitud de los genes circundantes dentro de la región (Figura 3E).

En RAST, esta herramienta se basa en una base de datos precalculada de similitudes de BLAST todo a todo (28) para determinar el conjunto de genomas que coinciden con el gen de interés, y calcula una comparación detallada de pares de genes en la región seleccionada para codificar los datos con colores. Debido al número de genomas en la base de datos PATRIC, este método es demasiado lento para su uso en tiempo real. La versión PATRIC de esta herramienta basa la búsqueda de genes de enfoque y la codificación de colores en las familias de proteínas específicas de género (PLFam) o globales (PGFam) (35), que se calculan previamente para cada genoma, por lo que el espacio de búsqueda es más amplio. Sin embargo, esta visualización es escalable porque BLAST solo se usa para calcular la similitud de proteínas para los genes de enfoque dentro del conjunto.Subsistemas

Los subsistemas

son colecciones de proteínas funcionalmente relacionadas y son un dispositivo conceptual vital para identificar y proyectar funciones proteicas a través de especies (7,52). PATRIC ahora calcula y muestra los datos del subsistema para cada secuencia de genoma anotada pública y privada. Los subsistemas, que resultan de la anotación manual por un equipo de curadores expertos, se dividen en Superclase (ejemplo: Metabolismo), Clase (ejemplo: Respuesta al Estrés, Defensa y Virulencia), Subclase (ejemplo: Resistencia a antibióticos y compuestos tóxicos), Nombre del Subsistema (ejemplo: Resistencia al arsénico) y el papel funcional de cada uno de los genes incluidos. Al hacer clic en la pestaña subsistemas para cualquier genoma, se ofrecen tres vistas diferentes. La Vista general de subsistemas muestra un gráfico circular que muestra el porcentaje de genes que están en una Superclase en particular. La pestaña Subsistemas incluye el número de genes que se encuentran en una Superclase en particular. La pestaña Genes incluye una lista de todos los genes de todos los subsistemas, e incluye las etiquetas locus PATRIC y RefSeq (47). La información del subsistema no solo está disponible para genomas individuales, sino que también se suma para cada nivel taxonómico, hasta el Superdominio utilizando la taxonomía NCBI (53). Una vista de mapa de calor que muestra la presencia y ausencia de proteínas específicas por subsistema seleccionado a través de un taxón o un grupo de genoma específico puede ser creada por el usuario.

Interfaz de línea de comandos (CLI)

Durante los últimos 5 años, el almacén de datos PATRIC se ha administrado utilizando una estructura de base de datos NoSQL Apache Solr. Para adaptarse al rápido crecimiento de la recopilación de datos y aprovechar las ventajas de escalabilidad y resiliencia, la arquitectura de base de datos PATRIC se convirtió en una arquitectura de base de datos Apache SolrCloud en la primavera de 2019. La base de datos SolrCloud se divide en una serie de SolrCores para administrar tipos de datos relacionados, como características genómicas, secuencias y datos transcriptómicos. Una interfaz de programación de aplicaciones (API) subyacente permite el acceso programático a estos núcleos y a los datos que contienen; sin embargo, la adquisición de datos puede volverse compleja al navegar y fusionar campos desde los diversos núcleos. Hemos desarrollado un conjunto de scripts de línea de comandos que utilizan la API para acceder al almacén de datos y realizar análisis comunes. Esta distribución está disponible para sistemas operativos Mac, Windows y Linux, incluidos Ubuntu y CentOS 6 y 7, y Fedora 28 y 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Tanto la distribución como el sitio web de PATRIC contienen tutoriales sobre cómo usar los scripts con ejemplos (https://docs.patricbrc.org/cli_tutorial/). La distribución de 482 MB contiene muchos de los scripts subyacentes del entorno PATIRC. Algunos permiten la descarga, fusión y manipulación masiva de datos y otros permiten análisis más complejos. La distribución también incluye scripts útiles de proyectos SEED (5) y RASTtk (8) anteriores. Una funcionalidad particularmente notable que ofrece la distribución CLI de PATRIC es la capacidad de administrar archivos en el espacio de trabajo. Los usuarios pueden iniciar sesión en un espacio de trabajo privado, crear subdirectorios, mover archivos dentro o fuera del espacio de trabajo e iniciar trabajos de anotación y ensamblaje. Estos scripts proporcionan los medios para ensamblar y anotar cientos o incluso miles de secuencias genómicas. Además, también hemos hecho que el espacio de trabajo PATRIC sea accesible a través del Protocolo de Transferencia de archivos (FTP), que proporciona un medio alternativo para mover grandes cantidades de datos dentro y fuera del espacio de trabajo. Los usuarios pueden acceder al espacio de trabajo mediante la línea de comandos o mediante un administrador de archivos FTP. Planeamos continuar desarrollando las herramientas de línea de comandos para permitir un mayor acceso a los servicios y una manipulación de datos más fácil.

DIRECCIONES FUTURAS

En 2020, el equipo PATRIC de la Universidad de Chicago, la Universidad de Virginia y la Fellowship for Interpretation of Genomes se combinarán con el equipo de BRC viral que apoya los recursos de ViPR (Base de Datos y Análisis de Patógenos de Virus) e IRD (Base de Datos de Investigación de Influenza) en el Instituto J. Craig Venter (JCVI). El recién formado equipo de BRC bacteriano y viral (BV-BRC) continuará manteniendo los sitios web PATRIC, IRD y ViPR al tiempo que agrega una nueva funcionalidad transversal. Tenemos la intención de centrarnos en mejorar la utilidad del nuevo recurso BV-BRC para el análisis epidemiológico, ampliar el almacén de datos para incluir otros tipos de datos y metadatos, aumentar el acceso a datos estructurados que se pueden usar en aplicaciones de inteligencia artificial y mejorar la arquitectura de implementación de las herramientas y servicios.

FINANCIACIÓN

Instituto Nacional de Alergias y Enfermedades Infecciosas (NIAID) . Financiación de la tarifa de acceso abierto: NIAID.Declaración de conflicto de intereses. No se ha indicado.

Notas

Dirección actual: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 S. Cass Avenue, Argonne, IL 60439, EE.

Snyder
E.

,

Kampanya
N.

,

Lu
J.

,

Nordberg
E. K.

,

Karur
H.

,

Shukla
M.

,

Soneja
J.

,

Tian
Y.

,

Xue
T.

,

Yoo
H.
PATRIC: el VBI patosistemas de integración de los recursos del centro

.

Nucleic Acids Res.
2006

;

35

:

D401
D406

.

Wattam
A. R.

,

Abraham
D.

,

Dalay
O.

,

Disz
T. L.

,

Driscoll
T.

,

Gabbard
J. L.

,

Gillespie
J. J.

,

Gough
R.

,

Hix
D.

,

Kenyon
R.
PATRIC, la base de datos bioinformática bacteriana y el recurso de análisis

.

Nucleic Acids Res.
2013

;

42

:

D581
D591

.

Wattam
A. R.

,

Davis
J. J.

,

Assaf
R.

,

Boisvert
S.

,

Brettin
T.

,

Bun
C.

,

Conrad
N.

,

Dietrich
E. M.

,

Disz
T.

,

Gabbard
J. L.
Mejoras en PATRIC, la base de datos bioinformática totalmente bacteriana y el centro de recursos de análisis

.

Nucleic Acids Res.
2016

;

45

:

D535
D542

.

McNeil
L. K.

,

Reich
C.

,

Aziz
R. K.

,

Bartels
D.

,

Cohoon
M.

,

Disz
T.

,

Edwards
R. A.

,

Gerdes
S.

,

Hwang
K.

,

Kubal
M.
The National Microbial Pathogen Database Resource (NMPDR): una plataforma de genómica basada en anotaciones de subsistemas

.

Nucleic Acids Res.
2006

;

35

:

D347
D353

.

Overbeek
R.

,

Olson
R.

,

Pusch
G. D.

,

Olsen
G. J.

,

Davis
J. J.

,

Disz
T.

,

Edwards
R. A.

,

Gerdes
S.

,

Parrello
B.

,

Shukla
M.
La SEMILLA y la Rápida Anotación de genomas microbianos utilizando Tecnología de Subsistemas (RAST)

.

Nucleic Acids Res.
2013

;

42

:

D206
D214

.

Aziz
R. K.

,

Bartels
D.

,

Mejores
A.

,

DeJongh
M.

,

Disz
T.

,

Edwards
R. A.

,

Formsma
K.

,

Gerdes
S.

,

de Vidrio
E. M.

,

Kubal
M.
El Servidor de RAST: rápido anotaciones utilizando tecnología de subsistemas

.

BMC Genomics

.

2008

;

9

:

75

.

Overbeek
R.

,

Begley
T.

,

Butler
R. M.

,

Choudhuri
J. V.

,

Chuang
H. Y.

,

Cohoon
M.

,

de Crécy-Lagard
V.

,

Díaz
N.

,

Disz
T.

,

Edwards
R.
El enfoque de subsistemas para la anotación del genoma y su uso en el proyecto para anotar 1000 genomas

.

Nucleic Acids Res.
2005

;

33

:

5691
5702

.

Brettin
T.

,

Davis
J. J.

,

Disz
T.

,

Edwards
R. A.

,

Gerdes
S.

,

Olsen
G. J.

,

Olson
R.

,

Overbeek
R.

,

Parrello
B.

,

Pusch
G. D.
RASTtk: una implementación modular y extensible del algoritmo RAST para crear canalizaciones de anotación personalizadas y anotar lotes de genomas

.

Sci. El representante.
2015

;

5

:

8365

.

Antonopoulos
D. A.

,

Assaf
R.

,

Aziz
R. K.

,

Brettin
T.

,

Bun
C.

,

Conrad
N.

,

Davis
J. J.

,

Dietrich
E. M.

,

Disz
T.

,

Gerdes
S.
PATRIC como recurso único para estudiar la resistencia a los antimicrobianos

.

Breve. Bioinform.
2019

;

20

:

1094
1102

.

Nguyen
M.

,

Brettin
T.

,

Long
SW

,

Musser
J. M.

,

Olsen
R. J.

,

Olson
R.

,

Shukla
M.

,

Stevens
R. L.

,

Xia
F.

,

Yoo
H.
Desarrollo de la prueba de panel de concentración inhibitoria mínima in silico para Klebsiella pneumoniae

.

Sci. El representante.
2018

;

8

:

421

.

Nguyen
M.

,

Long
SW

,

McDermott
P. F.

,

Olsen
R. J.

,

Olson
R.

,

Stevens
R. L.

,

Tyson
G. H.

,

Zhao
S.

,

Davis
J. J.
Uso de aprendizaje automático para predecir los MICROS antimicrobianos y las características del genoma asociadas para la Salmonella no tifoidea

. J. Blink. Microbiol.

2019

;

57

:

e01260-18

.

Jia
B.

,

Raphenya
A. R.

,

Alcock
B.

,

Waglechner
N.

,

Guo
P.

,

Tsang
K. K.

,

Lago
B. A.

,

Dave
B. M.

,

Pereira
S.

,

Sharma
A. N.
TARJETA 2017: expansión y curación centrada en modelos de la base de datos integral de resistencia a antibióticos

.

Nucleic Acids Res.
2016

;

45

:

D566
D573

.

Feldgarden
M.

,

Brover
V.

,

Haft
D. H.

,

Prasad
A. B.

,

Slotta
D. J.

,

Tolstoi
I.

,

Tyson
G. H.

,

Zhao
S.

,

Hsu
C.-H.

,

McDermott
P. F.
Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

.

Antimicrob. Agents Chemother.
2019

;

63

:

e00483-19

.

Yoo
A.B.

,

Jette
M.A.

,

Grondona
M.
Slurm: Simple linux utility for resource management

.

Workshop on Job Scheduling Strategies for Parallel Processing

.

2003

;

Berlín, Heidelberg
Springer
44
60

.

Bankevich
A.

,

Nurk
S.

,

Antipov
D.

,

Gurevich
A.

,

Dvorkin
M.

,

Kulikov
A. S.

,

Leucina
V. M.

,

Nikolenko
S. I.

,

Pham
S.

,

Prjibelski
A. D.
Picas: un nuevo genoma de la asamblea algoritmo y sus aplicaciones a una sola célula de secuenciación

. J. Comput. Biol.

2012

;

19

:

455
477

.

Koren
S.

,

Walenz
B. P.

,

Berlín
K.

,

Miller
J. R.

,

Bergman
N. H.

,

Phillippy
A. M.
Canu: escalable y precisa posible de largo leer la asamblea a través de la adaptación de k-mer de la ponderación y la repetición de separación

.

el Genoma Res.
2017

;

27

:

722
736

.

Mecha
R. R.

,

Judd
L. M.

,

Gorrie
C. L.

,

Holt
K. E.
Unicycler: resolución de genoma bacteriano asambleas de corto y largo secuenciación lee

.

PLoS Comput. Biol.
2017

;

13

:

e1005595

.

Mecha
R. R.

,

Schultz
M. B.

,

Zobel
J.

,

Holt
K. E.
Cerchas: visualización interactiva de novo de las asambleas del genoma

.

Bioinformática

.

2015

;

31

:

3350
3352

.

Vaser
R.

,

Sović
I.

,

Nagarajan
N.

,

Šikić
M.
Rápida y precisa posible del genoma de novo de la asamblea de largo sin corregir lee

.

el Genoma Res.
2017

;

27

:

737
746

.

Walker
B. J.

,

Abeel
T.

,

Shea
T.

,

Sacerdote
M.

,

Abouelliel
A.

,

Sakthikumar
S.

,

Cuomo
C. A.

,

Zn
P.

,

Wortman
J.

,

Joven
S. K.
Pilón: la herramienta integrada para la integral microbiana variante de la detección del genoma y de la asamblea de mejora

.

PLoS One

.

2014

;

9

:

e112963

.

Langmead
B.

,

Yates
S. L.
Rápido aumento de leer la alineación con Pajarita 2

.

Nat. Métodos

.

2012

;

9

:

357
359

.

Se
H.
Minimap2: pares de alineación de secuencias de nucleótidos

.

Bioinformática

.

2018

;

34

:

3094
3100

.

Se
H.

,

Handsaker
B.

,

Wysoker
A.

,

Fennell
T.

,

Ruan
J.

,

Homer
N.

,

Marth
G.

,

Abecasis
G.

,

Durbin
R.
La alineación de secuencias/formato de mapa y SAMtools

.

Bioinformática

.

2009

;

25

:

2078
2079

.

McNair
K.

,

Aziz
R. K.

,

Pusch
G. D.

,

Overbeek
R.

,

Dutilh
B. E.

,

Edwards
R.
Clokie
MRJ

,

Kropinski
SOY

,

Lavigne
R
Genoma del Fago Anotación Mediante el RAST Tubería

.

Métodos y Protocolos de Bacteriófagos

.

2018

;

3

:

NY
Humana Press
231
238

.

Parques
D. H.

,

Imelfort
M.

,

Skennerton
C. T.

,

Hugenholtz
P.

,

Tyson
G. W.
CheckM: evaluar la calidad de los genomas microbianos recuperados de aislados, células individuales y metagenomas

.

el Genoma Res.
2015

;

25

:

1043
1055

.

Parrello
B.

,

Butler
R.

,

Chlenski
P.

,

Olson
R.

,

Overbeek
J.

,

Pusch
G. D.

,

Vonstein
V.

,

Overbeek
R.
El servicio basado en aprendizaje automático para estimar la calidad de los genomas utilizando PATRIC

.

Bioinformática BMC

.

2019

;

20

:

486

.

Kim
D.

,

Langmead
B.

,

Yates
S. L.
HISAT: una rápida empalmados alineador con bajos requerimientos de memoria

.

Nat. Métodos

.

2015

;

12

:

357
360

.

Boratyn
G. M.

,

Camacho
C.

,

Cooper
P. S.

,

Coulouris
G.

,

Fong
A.

,

Mate
N.

,

Madden
T. L.

,

Matten
W. T.

,

Pie
S. D.

,

Merezhuk
Y.
EXPLOSIÓN: una más eficiente informe con mejoras en la usabilidad

.

Nucleic Acids Res.
2013

;

41

:

W29
W33

.

Eddy
S. R.
Perfil de modelos ocultos de Markov

.

Bioinformática

.

1998

;

14

:

755
763

.

Enright
A. J.

,

Van Dongen
S.

,

Ouzounis
C. A.
El algoritmo eficiente a gran escala para la detección de las familias de proteínas

.

Nucleic Acids Res.
2002

;

30

:

1575
1584

.

Edgar
HA
en el MÚSCULO: alineamiento múltiple de secuencias con alta precisión y alto rendimiento

.

Ácidos nucleicos Res.
2004

;

32

:

1792
1797

.

Talavera
G.

,

Castresana
J.
Mejora de filogenias después de la eliminación de divergente y ambiguamente alineados bloques de la secuencia de la proteína alineaciones

.

Syst. Biol.
2007

;

56

:

564
577

.

Precio
M. N.

,

Dehal
P. S.

,

Arkin
A. P.
FastTree 2-árboles de probabilidad máxima aproximada para alineaciones grandes

.

PLoS One

.

2010

;

5

:

e9490

.

Stamatakis
A.
RAxML versión de 8: una herramienta para el análisis filogenético y post-análisis de grandes filogenias

.

Bioinformática

.

2014

;

30

:

1312
1313

.

Davis
J. J.

,

Gerdes
S.

,

Olsen
G. J.

,

Olson
R.

,

Pusch
G. D.

,

Shukla
M.

,

Vonstein
V.

,

Wattam
A. R.

,

Yoo
H.
PATtyFams: familias de Proteínas para los genomas microbianos en la PATRIC base de datos

.

Frente. Microbiol.
2016

;

7

:

118

.

la Polla
P. J.

,

Antao
T.

,

Chang
J. T.

,

Chapman
B. A.

,

Cox
C. J.

,

Dalke
A.

,

Friedberg
I.

,

Hamelryck
T.

,

Kauff
F.

,

Wilczynski
B.
Biopython: disponible libremente Python herramientas de biología molecular computacional y bioinformática

.

Bioinformática

.

2009

;

25

:

1422
1423

.

Felsenstein
J.
PHYLIP (Filogenia de Inferencia Paquete), la Versión 3.5 c

.

1993

;

Seattle, Washington
Joseph Felsenstein

.

Stamatakis
A.

,

Hoover
P.

,

Rougemont
J.
El rápido bootstrap algoritmo para la RAxML servidores web

.

Syst. Biol.
2008

;

57

:

758
771

.

Krueger
F.
Recortar en Abundancia: una herramienta de envoltura alrededor de Cutadapt y FastQC para aplicar de forma consistente la calidad y el recorte del adaptador a los archivos FastQ, con algunas funciones adicionales para bibliotecas de tipo RRBS (Representación reducida Bisufite-Seq) digeridas MspI

.

2012

;

(28 de abril de 2016, fecha de último acceso)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.

Martin
M.
Cutadapt quita el adaptador de secuencias de secuenciación de alto rendimiento lee

.

EMBnet J.
2011

;

17

:

10
12

.

Langmead
B.

,

Wilks
C.

,

Antonescu
V.

,

Carlos
R.
Escala de lectura alineadores a cientos de hilos en procesadores de propósito general

.

Bioinformática

.

2018

;

35

:

421
432

.

Lassmann
T.

,

Hayashizaki
Y.

,

Cañas
C. O.
SAMStat: monitoreo de los sesgos en la próxima generación de la secuencia de datos

.

Bioinformática

.

2010

;

27

:

130
131

.

Darling
A. E.

,

Mau
B.

,

Perna
n. t.
progressiveMauve: múltiples genoma de la alineación con el gen de la ganancia, pérdida y reordenamiento

.

PLoS One

.

2010

;

5

:

e11147

.

Darling
A. C.

,

Mau
B.

,

Blattner
F. R.

,

Perna
n. t.
Malva: alineación múltiple de la secuencia genómica conservada con reordenamientos

.

el Genoma Res.
2004

;

14

:

1394
1403

.

Ondov
D.

,

Treangen
T. J.

,

Melsted
P.

,

Mallonee
A. B.

,

Bergman
N. H.

,

Koren
S.

,

Phillippy
A. M.
Mash: rápida del genoma y metagenoma distancia estimar usando MinHash

.

Genome Biol.
2016

;

17

:

132

.

Madera
D. E.

,

Yates
S. L.
Kraken: ultrarrápida de metagenómica de la secuencia de la taxonomía uso exacto de las alineaciones

.

Genome Biol.
2014

;

15

:

R46

.

Haft
D. H.

,

DiCuccio
M.

,

Badretdin
A.

,

Brover
V.

,

Chetvernin
V.

,

O’neill
K.

,

Se
W.

,

Chitsaz
F.

,

Derbyshire
M. K.

,

González
N. R.
RefSeq: una actualización en procariotas la anotación del genoma y la preservación

.

Nucleic Acids Res.
2017

;

46

:

D851
D860

.

Ondov
D.

,

Bergman
N. H.

,

Phillippy
A. M.
Interactivo de metagenómica de visualización en un navegador Web

.

Bioinformática BMC

.

2011

;

12

:

385

.

Clausen
P. T.

,

Aarestrup
F. M.

,

Lund
O.
de forma Rápida y precisa alineación de lecturas en contra de bases de datos redundantes con KMA

.

Bioinformática BMC

.

2018

;

19

:

307

.

McArthur
A. G.

,

Waglechner
N.

,

Nizam
F.

,

Yan
A.

,

Azad
M. A.

,

Baylay
A. J.

,

Bhullar
K.

,

Canova
M. J.

,

Dos Pascale
G.

,

Ejim
L.
La integral de la resistencia a los antibióticos de la base de datos

.

Antimicrob. Agentes Chemother.
2013

;

57

:

3348
3357

.

Liu
B.

,

Zheng
D.

,

Jin
P.

,

Perro
L.

,

Yang
J.
VFDB 2019: el comparativo pathogenomic con la plataforma de interfaz web interactiva

.

Ácidos nucleicos Res.
2018

;

47

:

D687
D692

.

Overbeek
R.

,

Olson
R.

,

Pusch
G. D.

,

Olsen
G. J.

,

Davis
J. J.

,

Disz
T.

,

Edwards
R. A.

,

Gerdes
S.

,

Parrello
B.

,

Shukla
M
La SEMILLA y la Rápida Anotación de genomas microbianos utilizando Tecnología de Subsistemas (RAST)

.

Ácidos nucleicos Res.
2013

;

42

:

D206
D214

.

Federhen
S.
El NCBI taxonomía de la base de datos

.

Nucleic Acids Res.
2011

;

40

:

D136
D143

.

Publicado por Oxford University Press en nombre de Nucleic Acids Research 2019.
Este trabajo está escrito por(a) empleado (s) del Gobierno de los Estados Unidos y es de dominio público en los Estados Unidos.