The PATRIC Bioinformatics Resource Center: expanding data and analysis capabilities
- Abstract
- introdução
- crescimento de dados e melhorias
- Serviços
- noteworthy updates to existing services
- análise abrangente do genoma
- árvores filogenéticas
- utilitários Fastq
- Localizador Similar do genoma
- classificação taxonómica
- mapeamento de leitura Metagenómica
- Metagenomic binning
- ferramentas de análise Web
- Compare o visualizador da região
- os subsistemas
- interface de linha de comando (CLI)
- Future DIRECTIONS
- financiamento
- Notes
Abstract
The PathoSystems Resource Integration Center (PATRIC) is the bacterian Bioinformatics Resource Center funded by the National Institute of Allergy and Infectious Diseases (https://www.patricbrc.org). PATRIC suporta análises bioinformáticas de todas as bactérias com uma ênfase especial em patógenos, oferecendo um rico ambiente de análise comparativa que fornece aos usuários acesso a mais de 250 000 genomas uniformemente anotados e publicamente disponíveis com metadados curados. A PATRIC oferece ferramentas de visualização e análise comparativa baseadas na web, um espaço de trabalho privado no qual os usuários podem analisar seus próprios dados no contexto das coleções públicas, serviços que simplificam fluxos de trabalho bioinformáticos complexos e ferramentas de linha de comando para a análise de dados em massa. Ao longo dos últimos anos, à medida que as experiências relacionadas com a genómica e outras omics se tornaram mais eficazes em termos de custos e difundidas, observámos um crescimento considerável na utilização e procura de ferramentas e serviços bioinformáticos de fácil utilização e acessíveis ao público. Aqui relatamos as atualizações recentes ao recurso PATRIC, incluindo novas ferramentas de análise comparativa baseadas na web, oito novos serviços e o lançamento de uma interface de linha de comando para acessar, consultar e analisar dados.
introdução
o programa centro de recursos Bioinformáticos (BRC) foi estabelecido pelo Instituto Nacional de Alergia e doenças infecciosas (NIAID) em 2004 com um foco primário no fornecimento de acesso aos dados da sequência do genoma e ferramentas de análise para o estudo de patógenos. PathoSystems Resource Integration Center (PATRIC) começou como um dos centros originais encarregados de apoiar a análise comparativa de patógenos bacterianos (1-3). Em 2009, PATRIC fundiu-se com o National Microbial Pathogen Database Resource (NMPDR) BRC (4), que tinha desenvolvido o bem sucedido SEED database e RAST (Rapid Annotation using subsistema Technology) annotation system for uniformely curating and projecting genome annotations across microbial species (5-8). Ao longo dos anos, o recurso PATRIC expandiu-se e adaptou-se para acompanhar o crescimento dos conjuntos de dados bioinformáticos e a necessidade de ferramentas de análise associadas. A partir de setembro de 2019, a PATRIC inclui mais de 250 000 genomas microbianos disponíveis ao público e um rico ambiente de análise comparativa.
desde o seu lançamento em 2008, RAST (http://rast.nmpdr.org) realizou ∼700 000 trabalhos de anotação do genoma para usuários privados. Proporcionando o acesso ao genoma do recurso de identificação de scripts desenvolvidos pela comunidade acadêmica e consistente projeções de bem-curadoria funções das proteínas da SEMENTE, RAST serve como um modelo para o sucesso de um bioinformatic serviço, pois alivia a necessidade de que os usuários criem suas próprias anotação de condutas, e sua consistência permite a jusante de análises comparativas. Usando RAST como modelo, em 2014 PATRIC começou a implementar uma variedade de serviços bioinformáticos através do site, permitindo aos usuários montar e anotar sequências de genoma, reconstruir modelos metabólicos, analisar SNPs e INDELs, e analisar e comparar experimentos RNA-seq. Os resultados destes trabalhos de análise poderiam então ser comparados com as coleções de dados genômicos e outros omic disponíveis ao público no recurso, mantendo-se ao mesmo tempo privados dentro do ambiente de trabalho do Usuário. Até o final de 2016, A PATRIC estava processando 1.500 postos de trabalho por mês, não incluindo postos de trabalho que estavam sendo submetidos ao site da RAST (3).
desde a última descrição em pesquisa de ácidos nucleicos em 2016 (3), PATRIC passou por uma série de atualizações e melhorias. A coleta de dados foi melhorada, especialmente na área de resistência antimicrobiana (AMR) (9); o ambiente de navegação na web foi melhorado com novas ferramentas e visualizações; e melhorias no espaço de trabalho também tornaram mais fácil encontrar e compartilhar dados de projetos de pesquisa. Uma interface de linha de comando (CLI) para a aquisição e análise de dados em massa foi construída e lançada para distribuição em sistemas Mac, Linux e Windows. PATRIC também lançou oito novos serviços bioinformáticos, com ênfase recente na capacidade de analisar dados de culturas mistas ou amostras metagenômicas. Finalmente, uma rica coleção de tutoriais foi criada para ajudar os usuários com essas novas ferramentas (https://docs.patricbrc.org/tutorial/). Este relatório descreve muitas das recentes actualizações não publicadas do recurso PATRIC.o que há de novo em PATRIC?
crescimento de dados e melhorias
uma das mudanças mais dramáticas no apoio ao trabalho bioinformático desde o início do programa BRC tem sido o crescimento exponencial em sequências de genoma microbiano publicamente disponíveis (Figura 1). A coleção de sequências do genoma do Usuário privado que foram anotadas e indexadas pela PATRIC também cresceu desde o estabelecimento do ambiente do espaço de trabalho, e pode realmente exceder o tamanho da coleção da sequência do genoma público no próximo ano (Figura 1). Embora o conjunto privado inclua algumas sequências de genoma reanalisados,
crescimento cumulativo de genomas públicos e privados em PATRIC.
crescimento cumulativo de genomas públicos e privados em PATRIC.
não vemos qualquer indicação de que a sequenciação do genoma microbiano e as respectivas análises bioinformáticas estejam a abrandar. O aumento dos dados de sequência do genoma publicamente disponíveis e metadados estruturados relacionados também revolucionou os tipos de análises experimentais que são possíveis. Por exemplo, a PATRIC fornece metadados estruturados e curados manualmente associados a cada genoma, incluindo fenótipos AMR derivados de laboratório, organismos hospedeiros, fontes de isolamento, dados do corpo humano e informações geográficas. Essas coleções de metadados estruturados fornecem a base para a execução de aprendizado de máquina e experiências de aprendizagem profunda (10,11), e para fornecer ferramentas preditivas para os usuários (9). Prevemos que o aumento do uso de técnicas de inteligência artificial na Bioinformática irá impulsionar decisões experimentais de design e, em última análise, encurtar o tempo necessário para experiências genéticas e outras experiências de caracterização baseadas em laboratório.o apoio à investigação AMR é uma das principais áreas de foco para a recolha e Curação de dados na PATRIC. Curamos ativamente tanto as anotações de proteínas AMR como os dados de fenótipo AMR derivados de laboratório associados aos genomas públicos. O sistema de anotações é capaz de projetar com precisão mais de 600 funções de proteína AMR curada à mão. Ele também contém uma grande coleção de funções proteicas não-AMR estreitamente relacionadas que foram curadas para evitar falsas previsões de funções AMR. Para fornecer um meio adicional de comparação, o sistema de anotação também Busca por genes com alta semelhança com aqueles curados pelo CARD (12) e NCBI AMR gene database projects (13). A coleção de fenótipos de AMR derivados de laboratório tem sido gerada pela cura de dados da literatura, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) e outras fontes públicas. Cresceu para incluir mais de 40 000 sequências genómicas e está a ser utilizado por investigadores em todo o mundo. Acrescentámos também mais de 10 000 sequências de plasmídeos e profecias devido à sua importância no estudo e combate à RAM.
Serviços
os Serviços fornecidos pela PATRIC são concebidos para permitir um fácil acesso a fluxos de trabalho bioinformáticos complexos. Eles podem ser acessados através da interface web PATRIC e CLI. A maioria dos serviços tem a capacidade de lidar com centenas ou mesmo milhares de empregos por dia. Jobs são normalmente executados em uma série de servidores internos, com a capacidade de onda sendo tratada por um grande cluster de computação. Os Serviços PATRIC têm crescido em popularidade desde 2014, e a partir de setembro de 2019, mais de 263 000 empregos foram concluídos com sucesso (Figura 2).
noteworthy updates to existing services
Three of our pre-existing services, Genome Assembly, Genome Annotation and RNA-seq analysis, have sufferently noteworthy updates. O serviço de montagem do genoma foi reconstruído com um novo programador de postos de trabalho que permite um processo mais justo de Fila de trabalho que impede que os grandes postos de trabalho criem estrangulamentos (14). Além de Espadas (15), nós adicionamos Canu (16) para montagem de leitura longa e Unicicler para conjuntos híbridos de leitura longa e curta (17). Nós também fornecemos uma imagem do grafo de montagem usando ligadura (18), e conjuntos podem ser polidos usando Racon (19) e Pilon (20) para conjuntos de leitura longa e curta respectivamente. Finalmente, o mapeamento de leitura é realizado para gerar estatísticas de cobertura precisas usando Bowtie2 (21) ou Minimap2 (22), e SAMtools (23). Dois novos aditamentos ao Serviço de anotação do genoma incluem a capacidade de anotar sequências de genoma bacteriofágico (24) e o cálculo de estatísticas de qualidade do genoma que se baseiam na aplicação CheckM (25) e um modelo RAST interno que avalia a qualidade com base na ocorrência e exaustividade dos papéis do subsistema no genoma (26). O serviço de análise RNA-seq também foi atualizado para permitir experimentos que estudam a resposta do hospedeiro a infecções microbianas. Para apoiar isso, adicionamos vários genomas de referência comuns eucarióticos, incluindo Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, galo, galo, Homo sapiens, Macaca mulatta, músculo Mus, Weasel putorius furo, Rattus norvegicus e Sus scrofa. Nós também adicionamos recentemente HISAT2 (indexação hierárquica para alinhamento esplicado de transcrições) (27), um sistema altamente eficiente para alinhar leituras de experimentos RNA-Seq para hospedar genomas e permitiu a importação de conjuntos de dados da SRA na interface RNA-seq, aumentando ainda mais a capacidade de realizar a análise de expressão diferencial mista de dados públicos e privados.
análise abrangente do genoma
um dos casos de uso mais comuns para a análise de genomas privados em PATRIC é para os pesquisadores para montar e, em seguida, anotar suas sequências de genoma usando dois serviços separados. Na primavera de 2018, lançámos uma análise abrangente e simplificada do genoma “meta-service” que aceita leituras sequenciais, computa a montagem e anotação, e fornece uma descrição fácil de usar do genoma. A produção inclui uma avaliação da qualidade do genoma, genes AMR e previsões fenotípicas, genes especiais, visão geral do subsistema, identificação das sequências mais próximas do genoma, uma árvore filogenética e uma lista de características que distinguem o genoma de seus vizinhos mais próximos. O serviço de análise global do genoma tornou-se rapidamente um dos serviços mais populares em PATRIC, com mais de 11 000 postos de trabalho concluídos desde o seu lançamento em abril de 2018.
árvores filogenéticas
a capacidade de reconstruir e visualizar as relações evolutivas encontra-se no coração da biologia. Em 2017, PATRIC lançou o serviço filogenético da árvore que permite aos usuários construir árvores filogenéticas de alta qualidade para sequências de genoma público e privado. O serviço atualmente oferece dois fluxos de trabalho para o usuário. O primeiro é um fluxo de trabalho de construção de árvores baseado em proteínas chamado ‘todas as proteínas compartilhadas’ , que usa a estimativa Filogenômica com o refinamento progressivo (PEPR) pipeline (https://github.com/enordber/pepr). PEPR funciona definindo famílias de proteínas compartilhadas de novo para um grupo genoma usando BLAST (28) e HMMER (29) para identificar proteínas similares e MCL (30) para construir aglomerados. Em seguida, os alinhamentos são gerados usando músculo (31), e aparados com Gblocks (32). Finalmente, baseado na preferência do usuário, o PEPR calcula a árvore usando FastTree (33) ou RAxML (34). Em 2019, lançamos um segundo, mais rápido, fluxo de trabalho filogenético de construção de árvores chamado ‘ Codon Trees.”Utiliza famílias de proteínas globais PATRIC pré-definidas (PGFams) (35), seleccionando um número especificado pelo utilizador de famílias (10-1000) que são de cópia única (ou quase) entre os membros de um grupo genoma. Os alinhamentos são gerados para sequências proteicas de cada família usando o músculo (31), e suas sequências nucleotídicas correspondentes são alinhadas a este usando a função codonalign do BioPython (36). Um alinhamento concatenado de todas as proteínas e nucleótidos é escrito para um arquivo formatado de PHYLIP (37). A partitions file for RaxML (34) is then generated, which describes the alignment in terms of the proteins and nucleotides in the first, second, and third codon positions. Os valores de suporte são gerados a partir de 100 Rodadas de inicialização rápida em RaxML (38).
além do Newick-formatado árvore de ficheiros, a Árvore Filogenética Serviço retorna um arquivo de documento portátil (PDF), portable network graphics (PNG) e SVG (scalable vector graphics) arquivo de imagem do seu ponto médio da árvore imagens geradas por FigTree (http://tree.bio.ed.ac.uk/software/figtree/). A árvore filogenética no site PATRIC permite aos pesquisadores selecionar nós e folhas, permitindo ao usuário criar grupos de clados específicos para uma análise mais aprofundada. Ele também gera um relatório do genoma que fornece uma lista das sequências do genoma e das famílias de proteínas usadas na construção da árvore e as contagens de genes, proteínas, aminoácidos e nucleótidos usados para computar a árvore. Finalmente, sequências genômicas problemáticas que poderiam ser removidas para aumentar a seleção de genes e melhorar a força da árvore são listadas. Desde a sua construção, cerca de 5000 postos de trabalho foram processados pelo Serviço filogenético da árvore.
utilitários Fastq
avaliar a qualidade da leitura sequenciada é um primeiro passo importante para garantir que análises subsequentes, tais como montagem, anotação, etc. são precisos. O serviço de utilitários Fastq, lançado em julho de 2019, permite aos usuários alinhar as leituras, medir a qualidade das chamadas de base e aparar sequências de baixa qualidade de arquivos de leitura. O serviço Aceita ficheiros de leitura longa ou curta em formato único ou emparelhado. Ele também pode recuperar arquivos de leitura diretamente do NCBI Sequence Read Archive (SRA) usando um identificador de execução como entrada. O serviço tem três componentes, “trim”, “FastQC” e “align”, que podem ser usados independentemente ou em qualquer combinação. O componente de aparamento usa ferramentas Trim Galore (39), que é um invólucro Perl em torno do Cutadapt (40) e FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc). O componente FastQC fornece verificações de controle de qualidade de dados de sequência bruta provenientes de dutos de sequenciamento de alta produção e permite um rápido controle de qualidade, indicando problemas que podem impactar análises a jusante. A função alinhada alinha-se a uma sequência de genoma de referência usando Bowtie2 (21,41), poupando leituras não mapeadas e gerando relatórios SamStat (42) da quantidade e qualidade dos alinhamentos.em novembro de 2018, PATRIC lançou o serviço de alinhamento do genoma para permitir que os usuários computassem alinhamentos de sequência inteira do genoma. Este serviço usa a aplicação progressiveMauve (43), que constrói alinhamentos de sequências múltiplas de homologia posicional em uma extensão do algoritmo Mauve original (44). O serviço permite aos pesquisadores alinhar até vinte sequências de genoma de cada vez. A saída do serviço inclui uma exibição visual do genoma que permite aos usuários ver e explorar todo o alinhamento da sequência do genoma ou ampliar para comparar regiões ou genes individuais (Figura 3).
a data analysis workflow in PATRIC using the Genome Alignment Service. (A) A interface do site permite a seleção de genomas; (B) visualização da alinhado regiões genômicas com qualquer deleções, inserções ou rearranjos; (C) ampliar o alinhamento vai mostrar os genes para frente e reverso arquibancadas, que pode ser selecionado; (D) selecionar um determinado gene do Genoma Alinhamento viewer abre o PATRIC Recurso de Página, onde todos os dados disponíveis para esse gene são mostrados. (E) a página Compare Region View na página do Gene PATRIC mostra a conservação do gene selecionado (mostrado em vermelho), e também dos genes circundantes. (F) cada gene é atribuído a uma família de proteína específica de um género (PLFam) ou global (PGFam) que pode ser selecionada a partir da Página de recursos, e os membros da família podem ser comparados usando a Ferramenta de alinhamento de sequência múltipla/Árvore de genes.
a data analysis workflow in PATRIC using the Genome Alignment Service. (A) a interface do site permite a seleção de genomas; (B) visualização das regiões genômicas alinhadas com quaisquer deleções, inserções ou rearranjos; (C) a ampliação do alinhamento irá mostrar os genes nos suportes dianteiros e invertidos, que podem ser seleccionados; (D) A selecção de um gene específico do visualizador de alinhamento do genoma abre a Página de características PATRIC, onde todos os dados disponíveis para esse gene são mostrados. (E) a página Compare Region View na página do Gene PATRIC mostra a conservação do gene selecionado (mostrado em vermelho), e também dos genes circundantes. (F) cada gene é atribuído a uma família de proteína específica de um género (PLFam) ou global (PGFam) que pode ser selecionada a partir da Página de recursos, e os membros da família podem ser comparados usando a Ferramenta de alinhamento de sequência múltipla/Árvore de genes.
Localizador Similar do genoma
quando um pesquisador tem uma nova sequência do genoma, uma das primeiras coisas que eles querem identificar são os parentes mais próximos do organismo, mas isso pode ser difícil quando a coleção pública é tão grande. PATRIC fornece um serviço chamado Similar Genome Finder para permitir que pesquisadores identifiquem rapidamente sequências genómicas semelhantes usando Mash (45). Mash funciona reduzindo grandes sequências a pequenos esboços representativos, que podem ser usados para estimar distâncias de mutação com base em K-Mer compartilhados. PATRIC permite a comparação com todas as sequências de genoma público ou o conjunto de genoma de referência NCBI. A ferramenta permite aos pesquisadores ajustar a sensibilidade da pesquisa, selecionando o número máximo de K-Mer mantidos em comum, limiar de Valor P ou a distância. Os resultados são retornados como uma lista das sequências genômicas mais semelhantes com metadados correspondentes. Tal como acontece com todas as tabelas PATRIC, os pesquisadores podem selecionar sequências para criar grupos para análise posterior, ou baixar os resultados.
classificação taxonómica
lançado em Março de 2019, o serviço de classificação taxonómica identifica a composição taxonómica de amostras mistas ou metagenómicas. Este serviço utiliza a aplicação Kraken2 (46), que identifica K-mers que são indicativos de várias unidades taxonômicas. O banco de dados Kraken usado pelo serviço é uma construção completa que é baseada em todas as sequências do genoma RefSeq (47), a sequência do genoma humano, plasmídeos e sequências vetoriais. A saída de trabalho inclui o formato Padrão de relatório Kraken, com cada táxon bacteriano hiperlinked para a página correspondente em PATRIC. O serviço também devolve um gráfico de Krona (48) que mostra a percentagem de leituras mapeadas para cada táxon e permite ao utilizador explorar os taxa seleccionados.
mapeamento de leitura Metagenómica
investigadores que estudam AMR ou virulência podem estar interessados em analisar genes em conjuntos de leitura mistos ou metagenómicos. O Metagenome Read Mapping Service permite aos pesquisadores procurar por esses genes específicos em um conjunto de leituras. Ele funciona alinhando leituras com um gene de referência usando KMA, que usa a semeadura k-mer e o algoritmo Needleman–Wunsch para alinhar com precisão as leituras com os genes de interesse (49). Os usuários podem atualmente alinhar-se com os conjuntos de genes de referência da Base de dados abrangente de Resistência a antibióticos (CARD) (50) e da Base de dados de fatores de virulência (VFDB) (51). The service returns html and text versions of the standard KMA report, which shows detailed mapping information, links to genes in PATRIC with high similarity, and a consensus sequence assembled from the aligned reads.
Metagenomic binning
foi Lançado em agosto de 2017, o Metagenomic Binning Serviço de monta lê a partir de um metagenomic exemplo em contigs e, em seguida, tenta separar estes contigs em posições que representam os genomas de espécies individuais. Estas caixas são então totalmente anotadas e estatísticas de qualidade detalhadas são computadas para cada caixa. O algoritmo de binning começa digitalizando contigs para proteínas marcadores específicas que estão quase sempre ocorrendo isoladamente no genoma. A semelhança de proteína marcador é usada para recrutar genomas similares de PATRIC, que são então usados para recrutar contigs adicionais com base na proteína K-Mer distintiva. Similar a genomas isolados, os caixotes são colocados no espaço de trabalho do Usuário e indexados dentro do banco de dados PATRIC como genomas privados, permitindo o uso integral das ferramentas de análise comparativa e visualização PATRIC para cada caixa.
ferramentas de análise Web
o site PATRIC oferece várias ferramentas interativas de análise visual que permitem aos usuários comparar conjuntos de dados omics. Estas ferramentas integram dados de vários tipos, executam algumas tarefas computacionais e tornam visualizações interativas para o usuário. PATRIC atualmente suporta muitas ferramentas de análise baseadas na web, tais como o Visualizador de mapas de calor para comparar conteúdo proteico compartilhado, O Visualizador de vias para explorar vias metabólicas e o navegador do genoma para exibir características genômicas no cromossomo. Nós adicionamos duas novas visualizações ao site PATRIC que originalmente existia nos sites RAST e SEED, mas requeremos que a reengenharia significativa seja funcional para uso com centenas de milhares de genomas.
Compare o visualizador da região
o Visualizador da região Compare permite aos investigadores comparar bairros genéticos (loci genético ou aglomerados cromossómicos) em muitas espécies. Um usuário seleciona um gene de interesse, o tamanho da região genômica e o número de genomas para a comparação. A exibição torna a similaridade blástica do gene focal, e a similaridade dos genes circundantes dentro da região (figura 3E).
em RAST, esta ferramenta baseia-se em uma base de dados pré-complicada de todas as semelhanças de explosão (28) para determinar o conjunto de genomas tendo uma correspondência com o gene de interesse, e calcula uma comparação detalhada em pares de genes na região selecionada para codificar os dados. Devido ao número de genomas na base de dados PATRIC, este método é muito lento para uso em tempo real. A versão PATRIC desta ferramenta baseia a pesquisa do gene focus e a codificação de cores tanto nas famílias de proteínas específicas do gênero (PLFam) ou globais (pgfam) (35), que são pré-compostos para cada genoma, de modo que o espaço de busca é mais escopado. No entanto, esta visualização é escalável porque BLAST é usado apenas para computar similaridade de proteínas para os genes de foco dentro do conjunto.os subsistemas
os subsistemas
São colecções de proteínas funcionalmente relacionadas e são um dispositivo conceptual vital para identificar e projectar funções proteicas através das espécies (7,52). PATRIC agora calcula e exibe dados do subsistema para cada sequência de genoma pública e privada anotada. Os subsistemas, que resultam da anotação manual por uma equipe de curadores especialistas, são divididos em superclasse (exemplo: metabolismo), Classe (exemplo: resposta ao estresse, defesa e virulência), subclasse (exemplo: resistência a antibióticos e compostos tóxicos), nome do subsistema (exemplo: resistência ao arsênico) e o papel funcional de cada um dos genes incluídos. Se carregar na página de sub-sistemas para qualquer genoma, irá obter três visualizações diferentes. A visão geral dos subsistemas mostra um gráfico circular que mostra a porcentagem dos genes que estão em uma superclasse particular. A página de subsistemas inclui o número de genes encontrados em uma superclasse particular. A página de Genes inclui uma lista de todos os genes em todos os subsistemas, e inclui as tags PATRIC e RefSeq locus (47). A informação do subsistema não está disponível apenas para os genomas individuais, mas também é resumida para cada nível taxonômico, até o Superkingdom usando a taxonomia NCBI (53). Uma visão heatmap mostrando presença e ausência de proteínas específicas por subsistema selecionado através de um táxon ou um grupo genoma específico pode ser criado pelo Usuário.
interface de linha de comando (CLI)
nos últimos 5 anos, a loja de dados PATRIC foi gerenciada usando uma estrutura de banco de dados NoSQL Apache Solr. Para acomodar a coleta de dados em rápido crescimento e para tirar vantagens de escalabilidade e resiliência, a arquitetura de banco de dados PATRIC foi convertida em uma arquitetura de banco de dados Apache SolrCloud na primavera de 2019. O banco de dados SolrCloud é dividido em uma série de SolrCores para a gestão de tipos de dados relacionados, tais como características do genoma, sequências e dados transcriptômicos. Uma interface de programação de aplicação subjacente (API) permite o acesso programático a estes núcleos e aos dados que eles contêm; no entanto, a aquisição de dados pode tornar-se complexa ao navegar e fundir Campos dos vários núcleos. Desenvolvemos um conjunto de scripts de linha de comando que usam a API para acessar a data store e realizar análises comuns. Esta distribuição está disponível para sistemas operacionais Mac, Windows e Linux, incluindo Ubuntu e CentOS 6 e 7, e Fedora 28 e 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Tanto a distribuição como o site PATRIC contêm tutoriais sobre como usar os scripts com exemplos (https://docs.patricbrc.org/cli_tutorial/). A distribuição 482MB contém muitos dos scripts subjacentes do ambiente PATIRC. Alguns permitem o download em massa, fusão e manipulação de dados e outros permitem análises mais complexas. A distribuição também inclui scripts úteis de projetos anteriores do SEED (5) e RASTtk (8). Uma funcionalidade particularmente notável oferecida pela distribuição PATRIC CLI é a capacidade de gerenciar arquivos no espaço de trabalho. Os usuários podem entrar em um espaço de trabalho privado, criar subdiretórios, mover arquivos para dentro ou para fora do espaço de trabalho e lançar anotações e trabalhos de montagem. Estes scripts fornecem os meios para a montagem e anotação de centenas ou mesmo milhares de sequências do genoma. Além disso, também fizemos o espaço de trabalho PATRIC acessível através do File Transfer Protocol (FTP), que fornece um meio alternativo de mover grandes quantidades de dados para dentro e para fora do espaço de trabalho. Os usuários podem acessar o espaço de trabalho usando a linha de comando ou usando um gerenciador de arquivos FTP. Planeamos continuar a desenvolver as ferramentas da linha de comando para permitir um maior acesso aos serviços e uma manipulação de dados mais fácil.
Future DIRECTIONS
In 2020, the PATRIC team at the University of Chicago, University of Virginia and The Fellowship for Interpretation of Genomes will combine with the viral BRC team that supports the ViPR (Virus Pathogen Database and Analysis Resource) and IRD (Influenza Research Database) resources at the J. Craig Venter Institute (JCVI). A recém-formada equipe bacteriana e viral BRC (BV-BRC) continuará a manter os sites PATRIC, IRD e ViPR, enquanto adiciona novas funcionalidades de cruzamento. Pretendemos nos concentrar fortemente em melhorar a utilidade do novo recurso BV-BRC para a análise epidemiológica, expandindo a data store para incluir outros tipos de dados e metadados, aumentando o acesso a dados estruturados que podem ser usados em aplicações de inteligência artificial, e melhorando a arquitetura de implantação para as ferramentas e serviços.
financiamento
Instituto Nacional de Alergia e doenças infecciosas (NIAID) . Financiamento da taxa de Acesso Aberto: NIAID.declaração de conflito de interesses. Nenhuma.
Notes
Present address: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 S. Cass Avenue, Argonne, IL 60439, USA.
,
.
;
:
–
.
.
;
:
–
.
.
;
:
–
.
.
;
:
–
.
,
.
;
:
–
.
,
.
.
;
:
.
.
;
:
–
.
. SIC. Rep.
;
:
.
,
PATRIC como um recurso único para o estudo da resistência antimicrobiana
.
;
:
–
.
. SIC. Rep.
;
:
.
.
;
:
.
.
;
:
–
.
.
;
:
.
,
,
.
.
; Berlin, Heidelberg
44
–
.
.
;
:
–
.
.
;
:
–
.
. PLoS Comput. Biol.
;
:
.
. Bioinformática.
;
:
–
.
.
;
:
–
.
.
.
;
:
.
. Nat. Métodos
.
;
:
–
.
. Bioinformática.
;
:
–
.
. Bioinformática.
;
:
–
.
. métodos e protocolos bacteriófagos
.
;
:
–
.
.
;
:
–
.
.
.
;
:
.
. Nat. Métodos
.
;
:
–
.
.
;
:
–
.
. Bioinformática.
;
:
–
.
.
;
:
–
.
.
;
:
–
.
. Syst. Biol.
;
:
–
.
.
.
;
:
.
. Bioinformática.
;
:
–
.
. frente. Microbiol.
;
:
.
. Bioinformática.
;
:
–
.
. 1993; Seattle, Washington Joseph Felsenstein.
. Syst. Biol.
;
:
–
.
.
;
http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.
.
;
:
–
.
. Bioinformática.
;
:
–
.
. Bioinformática.
;
:
–
.
.
.
;
:
.
.
;
:
–
.
.
;
:
.
.
;
:
.
.
;
:
–
.
.
.
;
:
.
.
.
;
:
.
.
;
:
–
.
.
;
:
–
.
.
;
:
–
.
.
;
:
–
.