Das PATRIC Bioinformatics Resource Center: Erweiterung der Daten- und Analysefähigkeiten
- Abstract
- EINLEITUNG
- WAS IST NEU IN PATRIC?
- Datenwachstum und Verbesserungen
- Services
- Bemerkenswerte Aktualisierungen bestehender Dienste
- Umfassende Genomanalyse
- Phylogenetische Bäume
- Fastq utilities
- Genome alignment
- Similar genome Finder
- Taxonomische Klassifikation
- Metagenomische Lesekartierung
- Metagenomic Binning
- Webbasierte Analysetools
- Compare region viewer
- Subsysteme
- Befehlszeilenschnittstelle (CLI)
- ZUKÜNFTIGE RICHTUNGEN
- FINANZIERUNG
- Anmerkungen
Abstract
Das PathoSystems Resource Integration Center (PATRIC) ist das vom National Institute of Allergy and Infectious Diseases (https://www.patricbrc.org) finanzierte bakterielle Bioinformatik-Ressourcenzentrum. PATRIC unterstützt bioinformatische Analysen aller Bakterien mit besonderem Schwerpunkt auf Krankheitserregern und bietet eine umfangreiche vergleichende Analyseumgebung, die Benutzern Zugriff auf über 250 000 einheitlich kommentierte und öffentlich verfügbare Genome mit kuratierten Metadaten bietet. PATRIC bietet webbasierte Visualisierungs- und vergleichende Analysetools, einen privaten Arbeitsbereich, in dem Benutzer ihre eigenen Daten im Kontext der öffentlichen Sammlungen analysieren können, Dienste, die komplexe bioinformatische Workflows rationalisieren, und Befehlszeilentools für die Massendatenanalyse. In den letzten Jahren, als genomische und andere Omics-bezogene Experimente kostengünstiger und verbreiteter geworden sind, haben wir ein beträchtliches Wachstum bei der Nutzung und Nachfrage nach benutzerfreundlichen, öffentlich zugänglichen bioinformatischen Tools und Diensten beobachtet. Hier berichten wir über die jüngsten Aktualisierungen der PATRIC-Ressource, einschließlich neuer webbasierter vergleichender Analysetools, acht neuer Dienste und der Veröffentlichung einer Befehlszeilenschnittstelle für den Zugriff, die Abfrage und Analyse von Daten.
EINLEITUNG
Das Bioinformatics Resource Center (BRC) -Programm wurde 2004 vom National Institute of Allergy and Infectious Diseases (NIAID) mit dem Hauptaugenmerk auf den Zugang zu Genomsequenzdaten und Analysetools zur Untersuchung von Krankheitserregern eingerichtet. Das PathoSystems Resource Integration Center (PATRIC) begann als eines der ursprünglichen Zentren mit der Unterstützung der vergleichenden Analyse bakterieller Krankheitserreger (1-3). Im Jahr 2009 fusionierte PATRIC mit der National Microbial Pathogen Database Resource (NMPDR) BRC (4), die die erfolgreiche SEED-Datenbank und das Annotationssystem RAST (Rapid Annotation using Subsystem Technology) zur einheitlichen Kuratierung und Projektion von Genomanmerkungen über mikrobielle Arten hinweg entwickelt hatte (5-8). Im Laufe der Jahre wurde die PATRIC-Ressource erweitert und angepasst, um mit dem Wachstum bioinformatischer Datensätze und dem Bedarf an zugehörigen Analysetools Schritt zu halten. Ab September 2019 umfasst PATRIC über 250 000 öffentlich verfügbare mikrobielle Genome und eine umfangreiche vergleichende Analyseumgebung.
Seit seiner Einführung im Jahr 2008 hat RAST (http://rast.nmpdr.org) ∼700 000 Genom-Annotationsjobs für private Benutzer durchgeführt. Durch die Bereitstellung von Zugriff auf Genommerkmal-Identifikationsskripte, die von der akademischen Gemeinschaft entwickelt wurden, und konsistente Projektionen von gut kuratierten Proteinfunktionen aus dem SAATGUT, RAST dient als Modell für einen erfolgreichen bioinformatischen Service, da Benutzer nicht mehr ihre eigenen benutzerdefinierten Annotationspipelines erstellen müssen, und seine Konsistenz ermöglicht nachgelagerte vergleichende Analysen. Unter Verwendung von RAST als Vorlage begann PATRIC 2014 mit der Implementierung einer Vielzahl von bioinformatischen Diensten über die Website, mit denen Benutzer Genomsequenzen zusammenstellen und kommentieren, Stoffwechselmodelle rekonstruieren, SNPs und InDels analysieren sowie RNA-seq-Experimente analysieren und vergleichen können. Die Ergebnisse dieser Analyseaufträge könnten dann mit den öffentlich verfügbaren genomischen und anderen Omic-Datensammlungen in der Ressource verglichen werden, während sie in der Arbeitsbereichsumgebung des Benutzers privat gehalten werden. Bis Ende 2016 bearbeitete PATRIC ∼ 1500 Servicejobs pro Monat, ohne Jobs, die auf der RAST-Website eingereicht wurden (3).
Seit der letzten Beschreibung in Nucleic Acids Research im Jahr 2016 (3) hat PATRIC eine Reihe von Aktualisierungen und Verbesserungen erfahren. Die Datenerfassung wurde verbessert, insbesondere im Bereich der Antibiotikaresistenz (AMR) (9); Die Web-Browsing-Umgebung wurde mit neuen Tools und Visualisierungen erweitert; und Verbesserungen am Arbeitsbereich haben es auch einfacher gemacht, Forschungsprojektdaten zu finden und zu teilen. Eine Befehlszeilenschnittstelle (CLI) für die Erfassung und Analyse von Massendaten wurde erstellt und für die Verteilung auf Mac-, Linux- und Windows-Systemen freigegeben. PATRIC hat außerdem acht neue bioinformatische Dienste eingeführt, wobei der Schwerpunkt in jüngster Zeit auf der Analyse von Daten aus Mischkulturen oder metagenomischen Proben liegt. Endlich wurde eine umfangreiche Sammlung von Tutorials erstellt, um Benutzern mit diesen neuen Tools zu helfen (https://docs.patricbrc.org/tutorial/). Dieser Bericht beschreibt viele der jüngsten unveröffentlichten Aktualisierungen der PATRIC-Ressource.
WAS IST NEU IN PATRIC?
Datenwachstum und Verbesserungen
Eine der dramatischsten Veränderungen bei der Unterstützung bioinformatischer Arbeiten seit Beginn des BRC-Programms war das exponentielle Wachstum öffentlich verfügbarer mikrobieller Genomsequenzen (Abbildung 1). Die Sammlung privater Genomsequenzen, die von PATRIC annotiert und indexiert wurden, ist seit der Einrichtung der Workspace-Umgebung ebenfalls gewachsen und könnte innerhalb des nächsten Jahres die Größe der öffentlichen Genomsequenzsammlung überschreiten (Abbildung 1). Obwohl der private Satz einige reanalysierte Genomsequenzen enthält,
Kumulatives Wachstum von öffentlichen und privaten Genomen in PATRIC.
Kumulatives Wachstum von öffentlichen und privaten Genomen in PATRIC.
Wir sehen keinen Hinweis darauf, dass sich die mikrobielle Genomsequenzierung und die damit verbundenen bioinformatischen Analysen verlangsamen. Die Zunahme öffentlich zugänglicher Genomsequenzdaten und zugehöriger strukturierter Metadaten hat auch die Arten experimenteller Analysen revolutioniert, die möglich sind. PATRIC bietet beispielsweise strukturierte und manuell kuratierte Metadaten, die mit jedem Genom verknüpft sind, einschließlich im Labor abgeleiteter AMR-Phänotypen, Wirtsorganismen, Isolationsquellen, Daten zum menschlichen Körper und geografische Informationen. Diese Sammlungen strukturierter Metadaten bilden die Grundlage für die Durchführung von Machine Learning- und Deep Learning-Experimenten (10,11) und für die Bereitstellung von Vorhersagewerkzeugen für Benutzer (9). Wir gehen davon aus, dass der verstärkte Einsatz von Techniken der künstlichen Intelligenz in der Bioinformatik experimentelle Designentscheidungen vorantreiben und letztendlich die Zeit verkürzen wird, die für genetische und andere laborbasierte Charakterisierungsexperimente erforderlich ist.
Die Unterstützung der AMR-Forschung ist ein Schwerpunkt der Datenerhebung und -pflege bei PATRIC. Wir kuratieren aktiv sowohl AMR-Proteinanmerkungen als auch im Labor abgeleitete AMR-Phänotypdaten, die mit öffentlichen Genomen assoziiert sind. Das Annotationssystem ist in der Lage, über 600 von Hand kuratierte AMR-Proteinfunktionen genau zu projizieren. Es enthält auch eine große Sammlung eng verwandter Nicht-AMR-Proteinfunktionen, die kuratiert wurden, um falsche Vorhersagen von AMR-Funktionen zu verhindern. Um ein zusätzliches Vergleichsmittel bereitzustellen, sucht das Annotationssystem auch nach Genen mit hoher Ähnlichkeit zu denen, die von den CARD (12) und NCBI AMR Gene database Projects (13) kuratiert wurden. Die vom Labor abgeleitete AMR-Phänotypsammlung wurde durch Kuratieren von Daten aus der Literatur, NCBI (https://www.ncbi.nlm.nih.gov/pathogens) und anderen öffentlichen Quellen generiert. Es ist auf über 40 000 Genomsequenzen angewachsen und wird von Forschern weltweit verwendet. Wir haben auch über 10 000 Plasmid- und Prophagensequenzen hinzugefügt, da sie für die Untersuchung und Bekämpfung von AMR von Bedeutung sind.
Services
Die von PATRIC angebotenen Services ermöglichen einen einfachen Zugang zu komplexen bioinformatischen Workflows. Sie können über das PATRIC-Webinterface und die CLI aufgerufen werden. Die meisten Dienste können Hunderte oder sogar Tausende von Jobs pro Tag abwickeln. Jobs werden normalerweise auf einer Reihe interner Server ausgeführt, wobei die Kapazität von einem großen Computercluster verwaltet wird. Die PATRIC-Dienste erfreuen sich seit 2014 wachsender Beliebtheit, und im September 2019 wurden über 263 000 Arbeitsplätze erfolgreich abgeschlossen (Abbildung 2).
Vom Benutzer initiierte Analyseaufträge, die von den PATRIC Bioinformatic Services ausgeführt werden. Das obere Diagramm zeigt die Verwendung von Diensten mit hohem Volumen. Das untere Diagramm zeigt die Nutzung von geringerem Volumen und neuen Diensten. Beachten Sie den Unterschied im Maßstab zwischen den beiden Plots.
Vom Benutzer initiierte Analyseaufträge, die von den PATRIC Bioinformatic Services ausgeführt werden. Das obere Diagramm zeigt die Verwendung von Diensten mit hohem Volumen. Das untere Diagramm zeigt die Nutzung von geringerem Volumen und neuen Diensten. Beachten Sie den Unterschied im Maßstab zwischen den beiden Plots.
Bemerkenswerte Aktualisierungen bestehender Dienste
Drei unserer bereits bestehenden Dienste, Genomassemblierung, Genomannotation und RNA-seq-Analyse, wurden mehreren bemerkenswerten Aktualisierungen unterzogen. Der Genome Assembly-Dienst wurde mit einem neuen Job-Scheduler neu aufgebaut, der einen faireren Job-Queuing-Prozess ermöglicht, der verhindert, dass große Jobs Engpässe verursachen (14). Zusätzlich zu SPAdes (15) haben wir Canu (16) für Long-Read-Assemblys und Unicycler für hybride Long- und Short-Read-Assemblys (17) hinzugefügt. Wir stellen auch ein Bild des Montagediagramms mit Bandage (18) zur Verfügung, und Baugruppen können mit Racon (19) und Pilon (20) für Lang- bzw. Zuletzt wird eine Lesezuordnung durchgeführt, um genaue Abdeckungsstatistiken mit Bowtie2 (21) oder Minimap2 (22) und SAMtools (23) zu generieren. Zwei neue Ergänzungen des Genome Annotation Service umfassen die Möglichkeit, Bakteriophagen-Genomsequenzen zu kommentieren (24) und die Berechnung von Genomqualitätsstatistiken, die auf der CheckM-Anwendung basieren (25) und ein internes RAST-Modell, das die Qualität basierend auf dem Auftreten und der Vollständigkeit von Subsystemrollen im Genom bewertet (26). Der RNA-seq-Analysedienst wurde ebenfalls aktualisiert, um Experimente zur Untersuchung der Wirtsantwort auf mikrobielle Infektionen zu ermöglichen. Um dies zu unterstützen, haben wir mehrere gängige eukaryotische Wirtsreferenzgenome hinzugefügt, darunter Caenorhabditis elegant, Danio rerio, Drosophila melanogaster, Cock, Cock, Homo sapiens, Macaca mulatta, Mus muscle, Weasel putorius furo, Rattus norvegicus und Sus scrofa. Wir haben vor kurzem auch HISAT2 (Hierarchical Indexing for spliced Alignment of transcripts) (27) hinzugefügt, ein hocheffizientes System zur Ausrichtung von Lesevorgängen aus RNA-Seq-Experimenten auf Hostgenome und zum Import von Datensätzen aus SRA in die RNA-seq-Schnittstelle, wodurch die Fähigkeit zur Durchführung einer gemischten differentiellen Expressionsanalyse von öffentlichen und privaten Daten weiter verbessert wird.
Umfassende Genomanalyse
Einer der häufigsten Anwendungsfälle für die Analyse privater Genome bei PATRIC besteht darin, dass Forscher ihre Genomsequenzen mithilfe von zwei separaten Diensten zusammenstellen und dann kommentieren. Im Frühjahr 2018 haben wir einen optimierten umfassenden Genomanalyse-Meta-Service eingeführt, der Sequenzierungslesungen akzeptiert, die Assemblierung und Annotation berechnet und eine benutzerfreundliche Beschreibung des Genoms bietet. Die Ausgabe umfasst eine Genomqualitätsbewertung, AMR-Gene und Phänotypvorhersagen, Spezialgene, Subsystemübersicht, Identifizierung der nächsten Genomsequenzen, einen phylogenetischen Baum und eine Liste von Merkmalen, die das Genom von seinen nächsten Nachbarn unterscheiden. Der umfassende Genomanalysedienst hat sich seit seiner Einführung im April 2018 mit über 11 000 abgeschlossenen Arbeitsplätzen schnell zu einem der beliebtesten Dienste in PATRIC entwickelt.
Phylogenetische Bäume
Die Fähigkeit, evolutionäre Zusammenhänge zu rekonstruieren und zu visualisieren, steht im Mittelpunkt der Biologie. Im Jahr 2017 startete PATRIC den Phylogenetic Tree Service, mit dem Benutzer hochwertige phylogenetische Bäume für öffentliche und private Genomsequenzen erstellen können. Der Dienst bietet dem Benutzer derzeit zwei Workflows. Der erste ist ein proteinbasierter Baumbildungs-Workflow namens „All Shared Proteins“, der die PEPR-Pipeline (Phylogenomic Estimation with Progressive Refinement) verwendet (https://github.com/enordber/pepr). PEPR definiert gemeinsame Proteinfamilien de novo für eine Genomgruppe unter Verwendung von BLAST (28) und HMMER (29), um ähnliche Proteine zu identifizieren, und MCL (30), um Cluster aufzubauen. Anschließend werden Alignments mit Muscle (31) erzeugt und mit Gblocks (32) getrimmt. Schließlich berechnet PEPR den Baum basierend auf den Vorlieben des Benutzers entweder mit FastTree (33) oder RAxML (34). Im Jahr 2019 haben wir einen zweiten, schnelleren, phylogenetischen Baumbildungs-Workflow namens ‚Codon Trees‘ eingeführt. Es nutzt vordefinierte PATRIC Global Protein Families (PGFams) (35) und wählt eine benutzerdefinierte Anzahl von Familien (10-1000) aus, die unter Mitgliedern einer Genomgruppe eine Einzelkopie (oder fast so) sind. Alignments werden für Proteinsequenzen jeder Familie unter Verwendung von Muskel (31) erzeugt, und ihre entsprechenden Nukleotidsequenzen werden unter Verwendung der Codonalign-Funktion von BioPython (36) darauf ausgerichtet. Eine verkettete Ausrichtung aller Proteine und Nukleotide wird in eine PHYLIP-formatierte Datei geschrieben (37). Anschließend wird eine Alignment-Datei für RaxML (34) erzeugt, die die Ausrichtung der Proteine und Nukleotide in der ersten, zweiten und dritten Codonposition beschreibt. Unterstützungswerte werden aus 100 Runden Rapid Bootstrapping in RaxML (38) generiert.
Zusätzlich zu den neuen vorformatierten Baumdateien gibt der Phylogenetic Tree-Dienst eine portable Document-Datei (PDF), eine Portable Network Graphics (PNG) und eine Scalable Vector Graphics (SVG) -Bilddatei der von FigTree erzeugten Midpoint Rooted Tree-Bilder zurück (http://tree.bio.ed.ac.uk/software/figtree/). Die phylogenetische Baumansicht auf der PATRIC-Website ermöglicht es Forschern, Knoten und Blätter auszuwählen, sodass der Benutzer Gruppen aus bestimmten Kladen zur weiteren Analyse erstellen kann. Es erzeugt auch ein Genom-Bericht, der eine Liste der Genomsequenzen und Proteinfamilien in der Konstruktion des Baumes und die Zählungen der Gene, Proteine, Aminosäuren und Nukleotide verwendet, um den Baum zu berechnen verwendet werden. Schließlich werden problematische Genomsequenzen aufgelistet, die entfernt werden könnten, um die Genauswahl zu erhöhen und die Stärke des Baumes zu verbessern. Seit dem Bau wurden fast 5000 Arbeitsplätze vom phylogenetischen Baumdienst bearbeitet.
Fastq utilities
Die Bewertung der Qualität von Sequenzierungslesungen ist ein wichtiger erster Schritt, um sicherzustellen, dass nachfolgende Analysen wie Assemblierung, Annotation usw. sind genau. Mit dem im Juli 2019 eingeführten Dienst Fastq Utilities können Benutzer Lesevorgänge ausrichten, die Basisaufrufqualität messen und Sequenzen mit geringer Qualität aus gelesenen Dateien trimmen. Der Dienst akzeptiert lang- oder kurz gelesene Dateien im Single- oder Paired-End-Format. Es kann gelesene Dateien auch direkt aus dem NCBI Sequence Read Archive (SRA) abrufen, wobei eine Laufkennung als Eingabe verwendet wird. Der Dienst besteht aus drei Komponenten, ‚trim‘, ‚FastQC‘ und ‚align‘, die unabhängig voneinander oder in beliebiger Kombination verwendet werden können. Die Trimming-Komponente verwendet Trim Galore (39), einen Perl-Wrapper um die Tools Cutadapt (40) und FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc). Die FastQC-Komponente bietet Qualitätskontrollen für Rohsequenzdaten aus Hochdurchsatz-Sequenzierungspipelines und ermöglicht eine schnelle Qualitätskontrolle, indem Probleme angezeigt werden, die sich auf nachgelagerte Analysen auswirken könnten. Die Aligning-Funktion richtet Lesevorgänge unter Verwendung von Bowtie2 (21,41) an einer Referenzgenomsequenz aus, speichert nicht zugeordnete Lesevorgänge und generiert SamStat (42) -Berichte über die Menge und Qualität der Ausrichtungen.
Genome alignment
Im November 2018 startete PATRIC den Genome Alignment Service, mit dem Benutzer Alignments ganzer Genomsequenzen berechnen können. Dieser Dienst verwendet die progressiveMauve-Anwendung (43), die Positionshomologie-Multiple-Genomsequenzausrichtungen in einer Erweiterung des ursprünglichen Mauve-Algorithmus (44) konstruiert. Der Dienst ermöglicht es Forschern, bis zu zwanzig Genomsequenzen gleichzeitig auszurichten. Die Ausgabe des Dienstes umfasst eine visuelle Anzeige des Genoms, mit der Benutzer die gesamte Genomsequenz anzeigen und erkunden oder einzelne Regionen oder Gene vergleichen können (Abbildung 3).
Ein Datenanalyse-Workflow in PATRIC mit dem Genome Alignment Service. (A) Die Website-Oberfläche ermöglicht die Auswahl von Genomen; (B) Visualisierung der ausgerichteten genomischen Regionen mit beliebigen Deletionen, Insertionen oder Umlagerungen; (C) Zoomen auf die Ausrichtung zeigt die Gene auf den Vorwärts- und Rückwärtsständen, die ausgewählt werden können; (D) Auswahl eines bestimmten Gens aus dem Genome Alignment Viewer öffnet die PATRIC-Feature-Seite, auf der alle für dieses Gen verfügbaren Daten angezeigt werden. (E) Die Registerkarte Compare Region View auf der Seite PATRIC Gene zeigt die Erhaltung des ausgewählten Gens (rot dargestellt) sowie der umgebenden Gene. (F) Jedes Gen wird einer gattungsspezifischen (PLFam) oder globalen (PGFam) Proteinfamilie zugeordnet, die auf der Merkmalsseite ausgewählt werden kann, und die Familienmitglieder können mit dem Werkzeug Multiple Sequence Alignment / Gene Tree verglichen werden.
Ein Datenanalyse-Workflow in PATRIC mit dem Genome Alignment Service. (A) Die Website-Schnittstelle ermöglicht die Auswahl von Genomen; (B) Visualisierung der ausgerichteten genomischen Regionen mit beliebigen Deletionen, Insertionen oder Umlagerungen; (C) Wenn Sie auf die Ausrichtung zoomen, werden die Gene auf den Vorwärts- und Rückwärtsständen angezeigt, die ausgewählt werden können; (D) Wenn Sie ein bestimmtes Gen aus dem Genome Alignment Viewer auswählen, wird die PATRIC-Feature-Seite geöffnet, auf der alle für dieses Gen verfügbaren Daten angezeigt werden. (E) Die Registerkarte Compare Region View auf der Seite PATRIC Gene zeigt die Erhaltung des ausgewählten Gens (rot dargestellt) sowie der umgebenden Gene. (F) Jedes Gen wird einer gattungsspezifischen (PLFam) oder globalen (PGFam) Proteinfamilie zugeordnet, die auf der Merkmalsseite ausgewählt werden kann, und die Familienmitglieder können mit dem Werkzeug Multiple Sequence Alignment / Gene Tree verglichen werden.
Similar genome Finder
Wenn ein Forscher eine neue Genomsequenz hat, ist eines der ersten Dinge, die er identifizieren möchte, die nächsten Verwandten für den Organismus, aber das kann schwierig sein, wenn die öffentliche Sammlung so groß ist. PATRIC bietet einen Dienst namens Similar Genome Finder an, mit dem Forscher ähnliche Genomsequenzen mithilfe von Mash schnell identifizieren können (45). Mash reduziert große Sequenzen auf kleine repräsentative Skizzen, mit denen Mutationsabstände basierend auf gemeinsamen k-mers geschätzt werden können. PATRIC ermöglicht den Vergleich mit allen öffentlichen Genomsequenzen oder dem NCBI-Referenzgenomsatz. Mit dem Tool können Forscher die Suchempfindlichkeit anpassen, indem sie die maximale Anzahl der gemeinsam gehaltenen k-Mer, den P-Wert-Schwellenwert oder die Entfernung auswählen. Die Ergebnisse werden als Liste der ähnlichsten Genomsequenzen mit entsprechenden Metadaten zurückgegeben. Wie bei allen PATRIC-Tabellen können Forscher Sequenzen auswählen, um Gruppen für spätere Analysen zu erstellen, oder die Ergebnisse herunterladen.
Taxonomische Klassifikation
Der im März 2019 eingeführte Taxonomische Klassifizierungsdienst identifiziert die taxonomische Zusammensetzung gemischter oder metagenomischer Proben. Dieser Dienst verwendet die Anwendung Kraken2 (46), die K-Mers identifiziert, die auf verschiedene taxonomische Einheiten hinweisen. Die vom Dienst verwendete Kraken-Datenbank ist ein vollständiger Build, der auf allen RefSeq-Genomsequenzen (47), der menschlichen Genomsequenz, Plasmiden und Vektorsequenzen basiert. Die Jobausgabe enthält das standardmäßige Kraken-Berichtsformat, wobei jedes bakterielle Taxon mit der passenden Seite in PATRIC verlinkt ist. Der Dienst gibt auch ein Krona-Diagramm (48) zurück, das den Prozentsatz der Lesevorgänge anzeigt, die jedem Taxon zugeordnet sind, und es dem Benutzer ermöglicht, ausgewählte Taxa zu erkunden.
Metagenomische Lesekartierung
Forscher, die AMR oder Virulenz untersuchen, könnten daran interessiert sein, Gene in gemischten oder metagenomischen Lesesätzen zu analysieren. Mit dem Metagenome Read Mapping Service können Forscher in einer Reihe von Lesevorgängen nach diesen spezifischen Genen suchen. Es funktioniert, indem es liest gegen ein Referenzgen mit KMA ausrichtet, das k-mer–Seeding und den Needleman-Wunsch-Algorithmus verwendet, um die Lesevorgänge genau an den Genen von Interesse auszurichten (49). Benutzer können sich derzeit gegen die Referenzgensätze aus der Comprehensive Antibiotic Resistance Database (CARD) (50) und der Virulenzfaktor-Datenbank (VFDB) (51) ausrichten. Der Dienst gibt HTML- und Textversionen des Standard-KMA-Berichts zurück, der detaillierte Zuordnungsinformationen, Links zu Genen in PATRIC mit hoher Ähnlichkeit und eine Konsensussequenz enthält, die aus den ausgerichteten Lesevorgängen zusammengestellt wurde.
Metagenomic Binning
Der im August 2017 gestartete Metagenomic Binning-Dienst sammelt Lesevorgänge aus einer metagenomischen Probe in Contigs und versucht dann, diese Contigs in Bins zu trennen, die die Genome einzelner Arten darstellen. Diese Behälter werden dann vollständig mit Anmerkungen versehen und detaillierte Qualitätsstatistiken werden für jeden Behälter berechnet. Der Binning-Algorithmus beginnt mit dem Scannen von Contigs nach spezifischen Markerproteinen, die fast immer einzeln im Genom vorkommen. Die Marker-Protein-Ähnlichkeit wird verwendet, um ähnliche Genome aus PATRIC zu rekrutieren, die dann verwendet werden, um zusätzliche Contigs basierend auf der Unterscheidung von Protein-k-mers zu rekrutieren. Ähnlich wie einzelne Isolatgenome werden die Behälter im Arbeitsbereich des Benutzers platziert und in der PATRIC-Datenbank als private Genome indiziert, sodass die PATRIC-vergleichenden Analyse- und Visualisierungstools für jeden Behälter vollständig genutzt werden können.
Webbasierte Analysetools
Die PATRIC-Website bietet mehrere interaktive visuelle Analysetools, mit denen Benutzer omics-Datensätze vergleichen können. Diese Tools integrieren Daten verschiedener Typen, führen einige Rechenaufgaben aus und rendern interaktive Visualisierungen für den Benutzer. PATRIC unterstützt derzeit viele webbasierte Analysetools, wie den Heatmap Viewer zum Vergleich des gemeinsamen Proteingehalts, den Pathway Viewer zum Erkunden von Stoffwechselwegen und den Genome Browser zum Anzeigen genomischer Merkmale auf dem Chromosom. Wir haben der PATRIC-Website zwei neue Visualisierungen hinzugefügt, die ursprünglich auf den RAST- und SEED-Websites vorhanden waren, die jedoch erheblich überarbeitet werden mussten, um für die Verwendung mit Hunderttausenden von Genomen funktionsfähig zu sein.
Compare region viewer
Mit dem Compare Region Viewer können Forscher Gennachbarschaften (genetische Loci oder Chromosomencluster) über viele Arten hinweg vergleichen. Ein Benutzer wählt ein interessierendes Gen, die Größe der genomischen Region und die Anzahl der Genome für den Vergleich aus. Die Anzeige zeigt die Blastenähnlichkeit des Fokusgens und die Ähnlichkeit der umgebenden Gene innerhalb der Region (Abbildung 3E).
In RAST stützt sich dieses Tool auf eine vorberechnete Datenbank mit allen BLAST (28) -Ähnlichkeiten, um den Satz von Genomen zu bestimmen, die mit dem interessierenden Gen übereinstimmen, und berechnet einen detaillierten paarweisen Vergleich von Genen in der ausgewählten Region, um die Daten farblich zu kennzeichnen. Aufgrund der Anzahl der Genome in der PATRIC-Datenbank ist diese Methode für die Echtzeitnutzung zu langsam. Die PATRIC-Version dieses Tools basiert die Fokus-Gensuche und Farbcodierung entweder auf den gattungsspezifischen (PLFam) oder globalen (PGFam) Proteinfamilien (35), die für jedes Genom vorberechnet werden, so dass der Suchraum umfangreicher ist. Diese Visualisierung ist jedoch skalierbar, da BLAST nur zur Berechnung der Proteinähnlichkeit für die Fokusgene innerhalb des Sets verwendet wird.
Subsysteme
Subsysteme sind Sammlungen funktionell verwandter Proteine und ein wichtiges konzeptionelles Instrument zur Identifizierung und Projektion von Proteinfunktionen über Spezies hinweg (7,52). PATRIC berechnet und zeigt nun Subsystemdaten für jede öffentliche und privat kommentierte Genomsequenz an. Subsysteme, die sich aus der manuellen Annotation durch ein Team erfahrener Kuratoren ergeben, werden in Superklasse (Beispiel: Stoffwechsel), Klasse (Beispiel: Stressreaktion, Abwehr und Virulenz), Unterklasse (Beispiel: Resistenz gegen Antibiotika und toxische Verbindungen), Subsystemname (Beispiel: Arsenresistenz) und die funktionelle Rolle jedes der eingeschlossenen Gene. Ein Klick auf die Registerkarte Subsysteme für jedes Genom bietet drei verschiedene Ansichten. Die Subsystemübersicht zeigt ein Kreisdiagramm, das den Prozentsatz der Gene anzeigt, die sich in einer bestimmten Oberklasse befinden. Die Registerkarte Subsysteme enthält die Anzahl der Gene, die in einer bestimmten Superklasse gefunden wurden. Die Registerkarte Gene enthält eine Liste aller Gene in allen Subsystemen und enthält die Locus-Tags PATRIC und RefSeq (47). Subsysteminformationen sind nicht nur für einzelne Genome verfügbar, sondern werden auch für jede taxonomische Ebene summiert, bis hin zum Superkönigreich mit der NCBI-Taxonomie (53). Eine Heatmap-Ansicht, die das Vorhandensein und Fehlen spezifischer Proteine pro ausgewähltem Subsystem über ein Taxon oder eine bestimmte Genomgruppe zeigt, kann vom Benutzer erstellt werden.
Befehlszeilenschnittstelle (CLI)
In den letzten 5 Jahren wurde der PATRIC-Datenspeicher mit einer NoSQL Apache Solr-Datenbankstruktur verwaltet. Um der schnell wachsenden Datensammlung gerecht zu werden und die Skalierbarkeit und Ausfallsicherheit zu erhöhen, wurde die PATRIC-Datenbankarchitektur im Frühjahr 2019 auf eine Apache SolrCloud-Datenbankarchitektur umgestellt. Die SolrCloud-Datenbank ist in eine Reihe von SolrCores unterteilt, um verwandte Datentypen wie Genommerkmale, Sequenzen und Transkriptomdaten zu verwalten. Eine zugrunde liegende Anwendungsprogrammierschnittstelle (API) ermöglicht den programmatischen Zugriff auf diese Kerne und die darin enthaltenen Daten. Die Datenerfassung kann jedoch beim Navigieren und Zusammenführen von Feldern aus den verschiedenen Kernen komplex werden. Wir haben eine Reihe von Befehlszeilenskripten entwickelt, die die API für den Zugriff auf den Datenspeicher und die Durchführung allgemeiner Analysen verwenden. Diese Distribution ist für Mac-, Windows- und Linux-Betriebssysteme verfügbar, einschließlich Ubuntu und CentOS 6 und 7 sowie Fedora 28 und 29 (https://github.com/PATRIC3/PATRIC-distribution/releases). Sowohl die Distribution als auch die PATRIC-Website enthalten Tutorials zur Verwendung der Skripte mit Beispielen (https://docs.patricbrc.org/cli_tutorial/). Die 482-MB-Distribution enthält viele der zugrunde liegenden Skripte der JRC-Umgebung. Einige ermöglichen das Herunterladen, Zusammenführen und Bearbeiten von Daten in großen Mengen, andere ermöglichen komplexere Analysen. Die Distribution enthält auch nützliche Skripte aus früheren SEED (5)- und RASTtk (8)-Projekten. Eine besonders bemerkenswerte Funktionalität der PATRIC CLI-Distribution ist die Möglichkeit, Dateien im Arbeitsbereich zu verwalten. Benutzer können sich in einem privaten Arbeitsbereich anmelden, Unterverzeichnisse erstellen, Dateien in den Arbeitsbereich verschieben oder aus dem Arbeitsbereich entfernen und Annotations- und Assemblierungsaufträge starten. Diese Skripte bieten die Möglichkeit, Hunderte oder sogar Tausende von Genomsequenzen zusammenzustellen und zu kommentieren. Darüber hinaus haben wir den PATRIC-Arbeitsbereich über das File Transfer Protocol (FTP) zugänglich gemacht, das eine alternative Möglichkeit bietet, große Datenmengen in den Arbeitsbereich hinein und aus ihm heraus zu verschieben. Benutzer können über die Befehlszeile oder einen FTP-Dateimanager auf den Arbeitsbereich zugreifen. Wir planen, die Befehlszeilentools weiterzuentwickeln, um einen besseren Zugriff auf Dienste und eine einfachere Datenmanipulation zu ermöglichen.
ZUKÜNFTIGE RICHTUNGEN
Im Jahr 2020 wird das PATRIC-Team an der University of Chicago, der University of Virginia und dem Fellowship for Interpretation of Genomes mit dem viralen BRC-Team zusammenarbeiten, das die Ressourcen ViPR (Virus Pathogen Database and Analysis Resource) und IRD (Influenza Research Database) am J. Craig Venter Institute (JCVI) unterstützt. Das neu gebildete bakterielle und virale BRC-Team (BV-BRC) wird weiterhin die PATRIC-, IRD- und ViPR-Websites pflegen und gleichzeitig neue Crosscutting-Funktionen hinzufügen. Wir beabsichtigen, uns stark auf die Verbesserung der Nützlichkeit der neuen BV-BRC-Ressource für die epidemiologische Analyse zu konzentrieren, den Datenspeicher um andere Daten- und Metadatentypen zu erweitern, den Zugriff auf strukturierte Daten zu verbessern, die in Anwendungen der künstlichen Intelligenz verwendet werden können, und die Bereitstellungsarchitektur für die Tools und Dienste zu verbessern.
FINANZIERUNG
Nationales Institut für Allergie und Infektionskrankheiten (NIAID) . Finanzierung für Open Access Gebühr: NIAID.
Erklärung zum Interessenkonflikt. Keine angegeben.
Anmerkungen
Gegenwärtige Adresse: James J. Davis, Argonne National Laboratory, Computing, Environment and Life Sciences, 9700 S. Cass Avenue, Argonne, IL 60439, USA.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
. In: BMC Genomics.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
.
,
,
.
.
;
–
.
,
,
,
,
,
,
,
,
,
. In:J. Comput. Biol.
;
:
–
.
,
,
,
,
,
.
;
:
–
.
,
,
,
.
;
:
.
,
,
,
.
.
;
:
–
.
,
,
,
;
:
–
.
,
,
,
,
,
,
,
,
,
.
.
;
:
.
,
.
.
;
:
–
.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
.
.
;
:
–
.
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
. In: BMC Bioinformatics.
;
:
.
,
,
.
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
.
.
;
:
–
.
,
,
.
;
:
–
.
.
;
:
–
.
,
.
;
:
–
.
,
,
.
.
;
:
.
.
.
;
:
–
.
,
,
,
,
,
,
,
,
.
;
:
.
,
,
,
,
,
,
,
,
,
.
.
;
:
–
.
.
; In:
,
,
.
;
:
–
.
.
;
http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/.
.
;
:
–
.
,
,
,
.
.
;
:
–
.
,
,
.
.
;
:
–
.
,
,
.
.
;
:
.
,
,
,
.
;
:
–
.
,
,
,
,
,
,
. In:Genome Biol.
;
:
.
,
. In:Genome Biol.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
. In: BMC Bioinformatics.
;
:
.
,
,
. In: BMC Bioinformatics.
;
:
.
,
,
,
,
,
,
,
,
,
.
;
:
–
.
,
,
,
,
.
;
:
–
.
,
,
,
,
,
,
,
,
,
.
;
:
–
. Die NCBI taxonomy database (NCBI-Taxonomy database) ist eine Datenbank, in der die NCBI taxonomy database (NCBI-Taxonomy Database (NCBI-Taxonomy Database (NCBI-Taxonomy Database (NCBI-Taxonomy Database (NCBI-Taxonomy Database)) beschrieben wird.
;
:
–
.