Articles

PATRIC Bioinformatics Resource Center:expanding data and analysis capabilities

Abstract

Patosystems Resource Integration Center(PATRIC)は、国立アレルギー感染症研究所(https://www.patricbrc.org)が資金を提供する細菌バイオインフォマティクスリソースセンターです。 PATRICは、病原体に特に重点を置いてすべての細菌のバイオインフォマティック分析をサポートし、キュレーションされたメタデータを持つ250 000以上の均一に注釈 PATRICは、webベースの可視化と比較分析ツール、ユーザーが公開コレクションのコンテキストで自分のデータを分析できるプライベートワークスペース、複雑なバイオインフォマティックワークフローを合理化するサービス、および一括データ分析のためのコマンドラインツールを提供しています。 過去数年間、ゲノムやその他のオミクス関連の実験がより費用対効果が高く、普及しているように、私たちは使いやすく、公に利用可能なバイオインフォマティックツールやサービスの使用と需要がかなり増加していることを観察してきました。 ここでは、新しいwebベースの比較分析ツール、8つの新しいサービス、データにアクセス、クエリ、分析するためのコマンドラインインターフェイスのリリースなど、PATRICリソー

はじめに

バイオインフォマティクスリソースセンター(BRC)プログラムは、病原体を研究するためのゲノム配列データと分析ツールへのアクセスを提供することに主な焦点を当てて、2004年に国立アレルギー感染症研究所(NIAID)によって設立されました。 PathoSystems Resource Integration Center(PATRIC)は、細菌病原体の比較分析を支援することを任務とする元のセンターの1つとして始まりました(1-3)。 2009年、PATRICはnational Microbial Pathogen Database Resource(NMPDR)BRC(4)と合併し、微生物種間でゲノムアノテーションを均一にキュレーションして投影するためのシードデータベースとRAST(Rapid Annotation using Subsystem Technology)アノテーションシステムを開発した(5-8)。 長年にわたり、PATRICリソースは、バイオインフォマティックデータセットの成長と関連する分析ツールの必要性に合わせて拡大し、適応してきました。 2019年9月現在、PATRICには250,000以上の公に利用可能な微生物ゲノムと豊富な比較分析環境が含まれています。

2008年の発売以来、RAST(http://rast.nmpdr.org)は、プライベートユーザーのために∼700 000ゲノムアノテーションジョブを実行しています。 RASTは、学術コミュニティによって開発されたゲノム特徴同定スクリプトへのアクセスと、シードからのよくキュレーションされたタンパク質機能の一貫した予測を提供することにより、ユーザーが独自のカスタムアノテーションパイプラインを構築する必要性を軽減し、その一貫性が下流の比較分析を可能にするため、バイオインフォマティックサービスの成功のモデルとして機能します。 2014年、PATRICはrastをテンプレートとして、ゲノム配列の組み立てと注釈、代謝モデルの再構築、SnpとINDELsの分析、RNA-seq実験の分析と比較を可能にするさまざまなバイオインフォマティックサービスの実装を開始しました。 これらの分析ジョブの結果は、ユーザーのワークスペース環境内で非公開にしながら、リソース内の公開されているゲノムおよび他のomicデータコレクションと比較 2016年末までに、PATRICはRASTのウェブサイト(3)に提出されているジョブを含まず、月額∼1500のサービスジョブを処理していました。

2016年3月にNucleic Acids Researchに最後に記載されて以来、PATRICは一連の更新と改善を受けています。 データ収集は、特に抗菌耐性(AMR)(9)の分野で改善されており、webブラウジング環境は、新しいツールと視覚化で強化されており、ワークスペースの改善はまた、研究プロ 一括データ収集と分析のためのコマンドラインインターフェイス(CLI)が構築され、Mac、Linux、およびWindowsシステム上で配布するためにリリースされました。 PATRICはまた、混合培養またはメタゲノムサンプルからのデータを分析する能力に重点を置いて、最近の重点を置いて、八つの新しいバイオインフォマ 最後に、これらの新しいツール(https://docs.patricbrc.org/tutorial/)を使用するユーザーを支援するためのチュートリアルの豊富なコレクションが作成されました。 このレポートでは、PATRICリソースに対する最近の未公開の更新の多くについて説明します。

何の新機能ですか?

データの成長と拡張

BRCプログラムの開始以来、バイオインフォマティック作業をサポートする上で最も劇的な変化の一つは、公に利用可能な微生物ゲノム配列の指数関数的な成長であった(図1)。 PATRICによってアノテーションとインデックスが付けられた個人ゲノム配列のコレクションも、ワークスペース環境の確立以来増加しており、実際には来年中に公開ゲノム配列のコレクションのサイズを超える可能性があります(図1)。 プライベートセットにはいくつかの再解析されたゲノム配列が含まれていますが、

図1。

PATRICにおけるパブリックおよびプライベートゲノムの累積成長。

図1を参照してください。

PATRICにおけるパブリックおよびプライベートゲノムの累積成長。

私たちは、微生物ゲノム配列決定とその関連バイオインフォマティック解析が減速していることを示すものは見られません。 公に利用可能なゲノム配列データおよび関連する構造化メタデータの増加は、可能な実験解析の種類にも革命をもたらしました。 例えば、PATRICは、実験室由来のAMR表現型、宿主生物、分離源、人体サイトデータ、地理情報など、各ゲノムに関連する構造化された手動でキュレーションされたメタデータを提供しています。 構造化されたメタデータのこれらのコレクションは、機械学習と深層学習の実験(10,11)を実行し、ユーザーに予測ツールを提供するための基盤を提供します(9)。 私たちは、バイオインフォマティクスにおける人工知能技術の使用の増加は、実験設計の決定を駆動し、最終的に遺伝的および他の実験室ベースの特性

AMR研究を支援することは、PATRICでのデータ収集とキュレーションのための主要な焦点領域です。 我々は積極的にAMRタンパク質注釈と公共のゲノムに関連付けられている実験室由来のAMR表現型データの両方をキュレーションします。 注釈システムは600の手キュレーションされたAMR蛋白質機能に正確に写し出せます。 また、AMR機能の誤った予測を防ぐためにキュレーションされている密接に関連する非AMRタンパク質機能の大規模なコレクションが含まれています。 比較の追加の手段を提供するために、注釈システムはまた、CARD(1 2)およびNCBI AMR遺伝子データベースプロジェクト(1 3)によってキュレーションされたものと高い相 実験室由来のAMR表現型コレクションは、文献、NCBI(https://www.ncbi.nlm.nih.gov/pathogens)およびその他の公開情報源からのデータをキュレーションすることによっ これは、40以上の000ゲノム配列を含むように成長しており、世界中の研究者によって使用されています。 また、AMRの研究と戦闘における重要性のために、10 000以上のプラスミドとプロファージ配列を追加しました。

サービス

PATRICが提供するサービスは、複雑なバイオインフォマティックワークフローに簡単にアクセスできるように設計されています。 それらはPATRIC webインターフェイスおよびCLIによってアクセスすることができます。 ほとんどのサービスは、一日あたりのジョブの数百、あるいは数千を処理する能力を持っています。 ジョブは通常、一連の内部サーバー上で実行され、サージ容量は大規模なコンピューティングクラスターによって処理されます。 PATRICサービスの人気は2014年以来増加しており、2019年9月現在、263,000以上のジョブが正常に完了しています(図2)。

図2.

PATRIC bioinformaticサービスによって完了したユーザーが開始した分析ジョブ。 上の図は、大量のサービスの使用を示しています。 下の図は、より少ないボリュームと新しいサービスの使用状況を示しています。 2つのプロット間のスケールの違いに注意してください。

図2を参照してください。

PATRIC bioinformaticサービスによって完了したユーザーが開始した分析ジョブ。 上の図は、大量のサービスの使用を示しています。 下の図は、より少ないボリュームと新しいサービスの使用状況を示しています。 2つのプロット間のスケールの違いに注意してください。

既存のサービスへの注目すべきアップデート

私たちのpre=既存のサービス、ゲノムアセンブリ、ゲノムアノテーションとRNA-seq解析の三つは、いくつかの注目すべきアップデートを受けています。 Genome Assembly Serviceは、より公平なジョブキュープロセスを可能にする新しいジョブスケジューラで再構築され、大きなジョブがボトルネックを作成するのを防ぎます(14)。 スペード(15)に加えて、長読み取りアセンブリ用のCanu(16)と、ハイブリッド長読み取りおよび短読み取りアセンブリ用のUnicycler(17)を追加しました。 また、包帯(18)を使用してアセンブリグラフの画像を提供し、アセンブリはそれぞれ長い読み取りアセンブリと短い読み取りアセンブリのためのRacon(19)とPilon(20)を使用して研磨することができます。 最後に、bowtie2(21)またはMinimap2(22)、およびSAMtools(23)を使用して、正確なカバレッジ統計を生成するために読み取りマッピングが実行されます。 ゲノムアノテーションサービスには、バクテリオファージのゲノム配列に注釈を付ける機能(24)と、CheckMアプリケーションに基づくゲノム品質統計の計算(25)と、ゲノム内のサブシステムの役割の発生と完全性に基づいて品質を評価する内部RASTモデル(26)が追加されました。 RNA-seq analysis Serviceも更新され、微生物感染に対する宿主の応答を研究する実験が可能になりました。 これをサポートするために、Caenorhabditis elegant、Danio rerio、Drosophila melanogaster、Cock、cock、Homo sapiens、Macaca mulatta、Mus muscle、イタチputorius furo、Rattus norvegicus、Sus scrofaを含むいくつかの一般的な真核生物宿主参照ゲノムを追加しました。 また、最近では、RNA-Seq実験からの読み取りをホストゲノムに整列させるための高効率なシステムであるHISAT2(hierarchical indexing for spliced alignment of transcripts)(27)を追加し、RNA-seqインターフェイスにSRAからのデータセットのインポートを可能にし、パブリックデータとプライベートデータの混合差分発現解析を行う能力をさらに向上させた。

包括的なゲノム解析

PATRICでのプライベートゲノムの分析のための最も一般的なユースケースの一つは、研究者が二つの別々のサービスを使用してゲノ 2018年春には、シーケンシング読み取りを受け入れ、アセンブリとアノテーションを計算し、ゲノムのユーザーフレンドリーな説明を提供する合理化された包括的なゲノム解析”メタサービス”を開始しました。 出力には、ゲノム品質評価、AMR遺伝子と表現型予測、特殊遺伝子、サブシステムの概要、最も近いゲノム配列の同定、系統樹、ゲノムとその最も近い近傍とを区別する特徴のリストが含まれています。 包括的なゲノム解析サービスは、2018年4月に開始されて以来、11,000以上のジョブが完了し、PATRICで最も人気のあるサービスの1つに急速に上昇しています。

系統樹

進化の関係を再構築し、視覚化する能力は生物学の中心にあります。 2017年、PATRICは、ユーザーが公的および私的ゲノム配列のための高品質の系統樹を構築できるPhylogenetic Treeサービスを開始しました。 このサービスは現在、ユーザーに2つのワークフローを提供しています。 最初のワークフローは、’All Shared Proteins’と呼ばれるタンパク質ベースのツリー構築ワークフローで、Progressive Refinement(PEPR)パイプラインを使用したPhylogenomic Estimation(https://github.com/enordber/pepr)を使用します。 PEPRは、クラスターを構築するために同様のタンパク質とMCL(30)を識別するためにBLAST(28)とHMMER(29)を使用してゲノムグループの共有タンパク質ファミリー de novoを定義す 次に、筋肉(31)を使用して整列が生成され、Gblocks(32)でトリミングされます。 最後に、ユーザーの好みに基づいて、PEPRはFastTree(33)またはRAxML(34)のいずれかを使用してツリーを計算します。 2019年には、「コドン木」と呼ばれる2番目の、より高速な系統樹構築ワークフローを開始しました。”これは、ゲノムグループのメンバー間でシングルコピー(またはほぼそう)であるファミリー(10-1000)のユーザーが指定した数を選択し、事前に定義されたPATRIC global protein families(PGFams)(35)を活用しています。 アラインメントは、筋肉(31)を使用して各ファミリーのタンパク質配列のために生成され、それらの対応するヌクレオチド配列は、BioPython(36)のcodonalign機能を使用してこれ すべてのタンパク質とヌクレオチドの連結アライメントは、PHYLIP形式のファイル(37)に書き込まれます。 次に、第一、第二、および第三のコドン位置のタンパク質およびヌクレオチドの観点からの整列を記述するRaxML(34)のためのパーティションファイルが生成さ サポート値は、RaxML(38)で100ラウンドのrapid bootstrappingから生成されます。

新しい形式のツリーファイルに加えて、Phylogenetic Treeサービスは、figtreeによって生成された中点ルートツリー画像のポータブルドキュメントファイル(PDF)、ポータブルネットワークグラフィックス(PNG)、およびスケーラブルベクターグラフィックス(SVG)画像ファイルを返します(http://tree.bio.ed.ac.uk/software/figtree/)。 PATRICのウェブサイト上の系統樹ビューは、研究者がさらなる分析のために特定のクレードからグループを作成するために、ユーザーを可能にする、ノードと葉を選択 また、ツリーの構築に使用されるゲノム配列とタンパク質ファミリーのリスト、およびツリーの計算に使用される遺伝子、タンパク質、アミノ酸、ヌクレオチドの数を提供するゲノムレポートを生成します。 最後に、遺伝子選択を増加させ、ツリーの強度を向上させるために除去することができる問題のあるゲノム配列が列挙されている。 それが建設されて以来、ほぼ5000の仕事が系統樹サービスによって処理されています。

Fastq utilities

シーケンス読み取りの品質を評価することは、アセンブリ、注釈などの後続の分析を確実にするための重要な最初のステップです。 正確です。 2019年7月に開始されたFastq Utilitiesサービスにより、ユーザーは読み取りの整列、基本通話品質の測定、および読み取りファイルからの低品質のシーケンスのトリムを このサービスは、シングルエンド形式またはペアエンド形式の長読み取りファイルまたは短読み取りファイルを受け入れます。 また、実行識別子を入力として使用して、NCBI Sequence Read Archive(SRA)から読み取りファイルを直接取得することもできます。 このサービスには、「trim」、「FastQC」、および「align」の3つのコンポーネントがあり、これらは独立して、または任意の組み合わせで使用できます。 これはCutadapt(40)とFastQC(https://www.bioinformatics.babraham.ac.uk/projects/fastqc)ツールのPerlラッパーです。 FastQCコンポーネントは、ハイスループットシーケンスパイプラインからの生のシーケンスデータの品質管理チェックを提供し、下流の分析に影響を与える可能性のある問題を示すことによって迅速な品質管理を可能にします。 Aligning関数は、bowtie2(21,41)を使用して読み取りを参照ゲノム配列に整列させ、マップされていない読み取りを保存し、整列の量と質のSamStat(42)レポートを生成します。

Genome alignment

2018年11月、PATRICは全ゲノム配列のアラインメントを計算できるゲノムアラインメントサービスを開始しました。 このサービスは、progressiveMauveアプリケーション(43)を使用して、元のMauveアルゴリズム(44)の拡張で位置相同性複数のゲノム配列アラインメントを構築します。 このサービスにより、研究者は一度に最大20個のゲノム配列を整列させることができます。 このサービスの出力には、ゲノムの視覚的な表示が含まれており、ユーザーはゲノム配列全体のアライメントを表示および探索したり、個々の領域または遺伝子を比較するためにズームインしたりすることができます(図3)。

図3.

Genome Alignment Serviceを使用したPATRICのデータ分析ワークフロー。 (A)ウェブサイトインターフェイスにより、ゲノムの選択が可能になります。(B)欠失、挿入、再配置を伴う整列されたゲノム領域の可視化。(C)アライメントをズームインすると、選択可能な順方向および逆方向のスタンドに遺伝子が表示されます。(D)ゲノムアライメントビューアから特定の遺伝子を選択すると、その遺伝子で利用可能なすべてのデータが表示されるPATRIC機能ページが開きます。 (E)PATRIC GeneページのCompare Regionビュータブには、選択された遺伝子(赤で示されている)の保存と周囲の遺伝子も表示されます。 (F)各遺伝子は、特徴ページから選択することができる属特異的(Plfam)またはグローバル(pgfam)タンパク質ファミリーに割り当てられ、Multiple Sequence Alignment/Gene Tree toolを使用してファミ

図3.

Genome Alignment Serviceを使用したPATRICのデータ分析ワークフロー。 (A)ウェブサイトインターフェイスは、ゲノムの選択を可能にする;(B)任意の欠失、挿入または再配列と整列したゲノム領域の可視化; (C)アライメントをズームインすると、順方向スタンドと逆方向スタンドの遺伝子が表示され、選択できます。(D)ゲノムアライメントビューアから特定の遺伝子を選択すると、PATRIC機能ページが開き、その遺伝子で利用可能なすべてのデータが表示されます。 (E)PATRIC GeneページのCompare Regionビュータブには、選択された遺伝子(赤で示されている)の保存と周囲の遺伝子も表示されます。 (F)各遺伝子は、特徴ページから選択することができる属特異的(Plfam)またはグローバル(pgfam)タンパク質ファミリーに割り当てられ、Multiple Sequence Alignment/Gene Tree toolを使用してファミ

Similar genome finder

研究者が新しいゲノム配列を持っているとき、彼らが識別したい最初のものの一つは、生物の最も近い親戚ですが、公共のコレク PATRICは、研究者がMash(45)を使用して類似ゲノム配列を迅速に同定できるように、Similar Genome Finderと呼ばれるサービスを提供しています。 Mashは、共有k-mersに基づいて突然変異距離を推定するために使用することができる小さな代表的なスケッチに大きな配列を低減することによっ PATRICは、すべての公開ゲノム配列またはNCBI参照ゲノムセットとの比較を可能にします。 このツールは、研究者が共通、P値のしきい値または距離で保持されているk-mersの最大数を選択することにより、検索感度を調整することができます。 結果は、対応するメタデータを持つ最も類似したゲノム配列のリストとして返されます。 すべてのPATRICテーブルと同様に、研究者はシーケンスを選択して、後で分析するためのグループを作成したり、結果をダウンロードしたりすることができます。

分類学的分類

2019年3月に開始された分類学的分類サービスは、混合またはメタゲノム試料の分類学的組成を識別します。 このサービスは、さまざまな分類単位を示すk-mersを識別するKraken2(46)アプリケーションを使用しています。 このサービスで使用されるKrakenデータベースは、すべてのRefSeqゲノム配列(47)、ヒトゲノム配列、プラスミドおよびベクター配列に基づいたフルビルドです。 ジョブ出力には標準のKrakenレポート形式が含まれており、各細菌分類群はPATRICの一致するページにハイパーリンクされています。 また、このサービスは、各分類群にマップされた読み取りの割合を示し、ユーザーが選択した分類群を探索できるようにするクローナプロット(48)を返します。

メタゲノム読み取りマッピング

AMRまたは病原性を研究している研究者は、混合またはメタゲノム読み取りセット内の遺伝子を分析することに興味があるかもしれません。 メタゲノム読み取りマッピングサービスは、一連の読み取りでこれらの特定の遺伝子を検索する研究者を可能にします。 これは、k-mer播種とNeedleman–Wunschアルゴリズムを使用して読み取りを目的の遺伝子に正確に整列させるkmaを使用して参照遺伝子に対して読み取りを整列させるこ 現在、ユーザは、包括的抗生物質耐性データベース(CARD)(5 0)および病原性因子データベース(VFDB)(5 1)からの参照遺伝子セットに対して整列させることができる。 このサービスは、詳細なマッピング情報、類似性の高いPATRICの遺伝子へのリンク、整列された読み取りから組み立てられたコンセンサス配列を示す標準KMAレポー

Metagenomic binning

2017年に開始されたMetagenomic Binningサービスは、metagenomicサンプルからの読み取りを連続体に組み立て、これらの連続体を個々の種のゲノムを表すビンに分離 その後、これらのビンに完全に注釈が付けられ、各ビンについて詳細な品質統計が計算されます。 ビニングアルゴリズムは、ほとんどの場合、ゲノム内で単独で発生している特定のマーカータンパク質の連続をスキャンすること マーカー-タンパク質類似性は、PATRICから同様のゲノムを募集するために使用され、その後、タンパク質k-mersの区別に基づいて追加の連続を募集するために使用さ 単一単離ゲノムと同様に、ビンはユーザーのワークスペースに配置され、PATRICデータベース内でプライベートゲノムとして索引付けされ、各ビンのPATRIC比較分析および可視化ツールをフルに使用することができます。

Webベースの分析ツール

PATRICのwebサイトでは、ユーザーがomicsデータセットを比較できるインタラクティブな視覚分析ツールがいくつか提供されています。 これらのツールは、様々なタイプのデータを統合し、いくつかの計算タスクを実行し、ユーザーのための対話型の視覚化をレンダーします。 PATRICは現在、共有タンパク質含有量を比較するためのヒートマップビューア、代謝経路を探索するための経路ビューア、染色体上のゲノム機能を表示するためのゲノムブラウザなど、多くのwebベースの解析ツールをサポートしています。 私たちは、もともとRASTとSEEDのウェブサイトに存在していたPATRICのウェブサイトに二つの新しい視覚化を追加しましたが、数十万のゲノムで使用するために機能的であるために重要な再エンジニアリングを必要としました。

比較領域ビューア

比較領域ビューアは、研究者が多くの種にわたって遺伝子近傍(遺伝子座または染色体クラスター)を比較することができます。 ユーザーは、関心のある遺伝子、ゲノム領域のサイズ、および比較のためのゲノムの数を選択する。 このディスプレイは、焦点遺伝子のBLAST類似性、および領域内の周囲の遺伝子の類似性をレンダリングします(図3E)。

RASTでは、このツールは、目的の遺伝子に一致するゲノムのセットを決定するために、全対全BLAST(28)類似性の事前計算されたデータベースに依存しており、選択された領域内の遺伝子の詳細なペアワイズ比較を計算してデータをカラーコード化します。 PATRICデータベース内のゲノムの数のために、この方法はリアルタイムで使用するには遅すぎます。 このツールのPATRICバージョンは、各ゲノムのために事前計算されている属特異的(PLFam)またはグローバル(PGFam)タンパク質ファミリー(35)のいずれかにフォーカス遺伝子ルックア しかし、BLASTはセット内の焦点遺伝子のタンパク質類似性を計算するためにのみ使用されるため、この可視化はスケーラブルです。

サブシステム

サブシステムは、機能的に関連するタンパク質のコレクションであり、種(7,52)全体のタンパク質機能を識別し、投影するた PATRICは現在、公開および非公開の注釈付きゲノム配列ごとにサブシステムデータを計算して表示します。 専門家のキュレーターのチームによる手動注釈から生じるサブシステムは、スーパークラス(例:代謝)、クラス(例:ストレス応答、防御および病原性)、サブクラス(例:抗生物質および毒性化合物に対する耐性)、サブシステム名(例:ヒ素耐性)および含まれる各遺伝子の機能的役割に分けられる。 任意のゲノムのsubsystemタブをクリックすると、3つの異なるビューが表示されます。 サブシステムの概要には、特定のスーパークラスにある遺伝子の割合を表示する円グラフが表示されます。 Subsystemsタブには、特定のスーパークラスで見つかった遺伝子の数が含まれています。 遺伝子タブには、すべてのサブシステム全体のすべての遺伝子のリストが含まれ、PATRICおよびRefSeq遺伝子座タグが含まれています(47)。 サブシステム情報は、個々のゲノムに対して利用可能であるだけでなく、NCBIタクソノミ(53)を使用してSuperkingdomまで、各分類学レベルについても合計されます。 分類群または特定のゲノムグループ全体で選択したサブシステムごとに特定のタンパク質の有無を示すヒートマップビューをユーザーが作成できます。

コマンドラインインターフェイス(CLI)

過去5年間、PATRICデータストアはNoSQL Apache Solrデータベース構造を使用して管理されてきました。 急速に成長するデータ収集に対応し、スケーラビリティとレジリエンスを活用するために、PATRICデータベースアーキテクチャは2019年春にApache SolrCloudデータベースアーキテクチャに変換されました。 SolrCloudデータベースは、ゲノムの特徴、配列、トランスクリプトミックデータなどの関連するデータ型を管理するための一連のSolrCoresに分かれています。 基になるapplication programming interface(API)を使用すると、これらのコアとそのコアに含まれるデータにプログラムでアクセスできますが、さまざまなコアからフィールドを移動 私たちは、データストアにアクセスし、一般的な分析を実行するためのAPIを使用するコマンドラインスクリプトのセットを開発しました。 このディストリビューションは、UbuntuとCentOS6と7、Fedora28と29(https://github.com/PATRIC3/PATRIC-distribution/releases)を含むMac、Windows、Linuxオペレーティングシステムで利用できます。 ディストリビューションとPATRIC webサイトの両方には、サンプル付きのスクリプトの使用方法に関するチュートリアルが含まれています(https://docs.patricbrc.org/cli_tutorial/)。 482MBのディストリビューションには、PATIRC環境の基礎となるスクリプトの多くが含まれています。 データの一括ダウンロード、マージ、操作を可能にするものもあれば、より複雑な分析を可能にするものもあります。 このディストリビューションには、以前のSEED(5)およびRASTtk(8)プロジェクトの有用なスクリプトも含まれています。 PATRIC CLIディストリビューションが提供する特に注目すべき機能は、ワークスペース内のファイルを管理する機能です。 ユーザーは、プライベートワークスペースへのログイン、サブディレクトリの作成、ワークスペースへのファイルの移動、および注釈ジョブとアセンブリジョブの起動を行うことができます。 これらのスクリプトは、数百または数千のゲノム配列を組み立て、注釈を付ける手段を提供します。 さらに、PATRICワークスペースをFile Transfer Protocol(FTP)経由でアクセスできるようにしました。 ユーザーは、コマンドラインを使用するか、FTPファイルマネージャを使用してワークスペースにアクセスできます。 私たちは、サービスへのアクセスを増やし、データ操作を容易にするためのコマンドラインツールの開発を継続する予定です。

今後の方向性

2020年、シカゴ大学、バージニア大学のPATRICチームとゲノム解釈フェローシップは、J.Craig Venter Institute(JCVI)のViPR(Virus Pathogen Database and Analysis Resource)とIRD(Influenza Research Database)リソースをサポートするウイル 新たに形成された細菌およびウイルスのBRCチーム(BV-BRC)は、新しいクロスカット機能を追加しながら、PATRIC、IRDおよびViPRのウェブサイトを維持し続けます。 私たちは、疫学的分析のための新しいBV-BRCリソースの有用性の向上、他のデータとメタデータタイプを含むようにデータストアを拡大し、人工知能アプリケーシ

資金調達

国立アレルギー感染症研究所(NIAID)。 オープンアクセス料金のための資金調達:NIAID。

利益相反に関する声明。 何も記載されていない。

ノート

現在の住所:James J.Davis,Argonne National Laboratory,Computing,Environment and Life Sciences,9700S.Cass Avenue,Argonne,IL60439,USA.

/div>

YOO
H.
PATRIC:VBI pathosystemsリソース統合センター

核酸Res.
2006

;

35

:

D401

D406

。 /div>

J.l.
Gillespie
J.J.
Gough
r.
hix
d.
kenyon

r.

kenyon

r.

kenyon

r.

kenyon

r.

kenyon

r.

kenyon

r.

kenyon

r.

r.
PATRIC、細菌バイオインフォマティクスデータベースと分析リソース

核酸Res.
2013

;

42

:

D581

D591

。 /div>

PATRIC、全細菌バイオインフォマティクスデータベースと分析リソースセンターの改善

核酸Res.
2016

;

45

:

D535

D542

。 /div>/div>

k.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
K.
National Microbial Pathogen Database Resource(NMPDR):subsystem annotation

に基づくゲノミクスプラットフォーム。

核酸Res.
2006

;

35

:

D347

D353

オーバービーク
R.
オルソン
R.

プッシュ
G.D.

オルセン
G.J.
デイビス
J.J.
/div>

s.
parrello
b.
b.
b.
b.
b.
b.
b.
b.
b.
b.
b.
b.
b.
b.
b.

Shukla
M.
種子とサブシステム技術(RAST)を使用して微生物ゲノムの迅速な注釈

核酸Res.
2013

;

42

:

D206

D214

。 /div>/div>

Kubal
M.
RASTサーバー:サブシステム技術を使用した迅速な注釈

BMCゲノミクス

2008

;

9

:

75

. /div>

オーバービーク
R.
ベグリー
T.
バトラー
R.M.
Choudhuri
J.V.
Chuang
H.-/div>

ゲノム注釈へのサブシステムのアプローチと1000ゲノムに注釈を付けるためのプロジェクトでのその使用

核酸Res.
2005

;

33

:

5691

5702

g.j.

,

オルソン
r.

,

overbeek
r.

,

parrello
b.

,

pusch
g.d.
RASTtk:カスタムアノテーションパイプラインを構築し、ゲノムのバッチに注釈を付けるためのRASTアルゴリズムのモジュール化された拡張可能な実装

Sci.
2015

;

5

:

8365

.

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

/div>

抗菌抵抗性を研究するためのユニークなリソースとしてのPATRIC。

Gerdes
S.
patric。

Brief. バイオインフォーム
2019

;

20

:

1094

1102

.

グエン
M.
Brettin
T.
Long
S.W.
Musser
J.M.
オルセン
R.J.
R.J.
R.J./div>

r.
shukla
m.
stevens
r.l.
xia
f.
yoo
h.
klebsiella pneumoniaeのin silico最小阻害濃度パネルテストの開発

Sci.
2018

;

8

:

421

.

Nguyen
Long
S.W.
McDermott
P.F.
オルセン
R.J.
オルソン
R./div>

非チフス性サルモネラの抗菌マイクと関連するゲノム機能を予測するために機械学習を使用して

J.Blink. ミクロビオール
2019

;

57

:

e01260-18

. /div>

Jia
B.

Raphenya
A.R.

Alcock
B.

Waglechner
N.

Guo
P.

/Div>

カード2017:包括的な抗生物質耐性データベースの拡張とモデル中心のキュレーション

核酸Res.
2016

;

45

:

D566

D573

/div>

Validating the NCBI AMRFinder tool and resistance gene database using antimicrobial resistance Genotype-Phenotype correlations in a collection of NARMS isolates

.

Antimicrob. Agents Chemother.
2019

;

63

:

e00483-19

.

Yoo
A.B.

,

Jette
M.A.

,

Grondona
M.
Slurm: Simple linux utility for resource management

.

Workshop on Job Scheduling Strategies for Parallel Processing

.

2003

;

ベルリン、ハイデルベルク
シュプリンガー
44

60

。 /div>

/div>,

kulikov
a.s.

,

leucine
v.m.

,

nikolenko
S.I.

,

Pham
S.

,

Prjibelski
A.D.
スペード:新しいゲノムアセンブリアルゴリズムとシングルゲノムアセンブリアルゴリズムへの応用-セル配列決定

J.Comput. バイオル
2012

;

19

:

455

477

. ,

philippy
a.m.
canu:適応型k-mer重み付けと繰り返し分離を介してスケーラブルで可能な正確な長読み取りアセンブリ

ゲノム研究
2017

;

27

:

722

736

.

,

Judd
L.M.

,

Gorrie
C.L.

,

Holt
K.E.
Unicycler:短い配列と長い配列から細菌ゲノムアセンブリを解決する読み取り

PLoS Comput. バイオル
2017

;

13

:

e1005595

. /div>

Wick
R.R.

Schultz
M.B.

Zobel
J.

Holt
K.E.
トラス:デノボゲノムアセンブリのインタラクティブな可視化

バイオインフォマティクス

2015

;

31

:

3350

3352

. /div>

Vaser
R.

Sović
I.

Nagarajan
N.

Šikić
M.
高速かつ可能な正確なデノボゲノムアセンブリ長い修正されていないから

を読み込みます。

ゲノム研究
2017

;

27

:

737

746

.

/div>

パイロン:包括的な微生物変異体の検出とゲノムアセンブリの改善のための統合されたツール

PLoS One

2014

;

9

:

e112963

. /div>

Langmead
B.

Yates
S.L.
高速ギャップ-ボウタイ2

とのアライメントを読み取ります。

Nat. メソッド

2012

;

9

:

357

359

.

それ
H.
Minimap2:ヌクレオチド配列のペアワイズアラインメント

バイオインフォマティクス

2018

;

34

:

3094

3100

.

Abecasis
G.

Durbin
R.
シーケンスの整列/マップ形式とSAMtools

バイオインフォマティクス

2009

;

25

:

2078

2079

.

E.

,

edwards
R.
Clokie
MRJ

,

Kropinski
AM

,

Lavigne
R
RASTパイプラインを使用したファージゲノムアノテーション

バクテリオファージの方法とプロトコル

2018

;

3

:

NY
Humana Press
231

238

g.w.

checkm: 分離株、単細胞、およびメタゲノムから回収された微生物ゲノムの品質を評価する

ゲノムRes.
2015

;

25

:

1043

1055

PATRICを使用してゲノムの品質を推定するための機械学習ベースのサービス

BMCバイオインフォマティクス

2019

;

20

:

486

. /div>

Kim
D.

Langmead
B.

Yates
S.L.
HISAT:メモリ要件の低い高速スプライスアライナ。

Nat. メソッド

2015

;

12

:

357

360

. /div>

ボラティン
G.M.

,

Camacho
C./div>

walk
s.d.

,

merezhuk
y.
blast:ユーザビリティの改善とより効率的なレポート

核酸Res.
2013

;

41

:

W29

W33

。 /div>

Eddy
S.R.
プロファイル隠されたマルコフモデル

バイオインフォマティクス

1998

;

14

:

755

763

.

Enright
A.J.

,

Van Dongen
S.

,

Ouzounis
C.A.
タンパク質ファミリーの大規模検出のための効率的なアルゴリズム

核酸Res.
2002

;

30

:

1575

1584

エドガー
R.C.
筋肉:高精度と高スループットを持つ複数のシーケンスのアライメント

Nucleic Acids Res.
2004

;

32

:

1792

1797

.

Talavera
G.

Castresana
J.
タンパク質配列の整列から発散し、あいまいに整列したブロックを除去した後の系統発生の改善

Syst. バイオル
2007

;

56

:

564

577

.

価格
M.N.
Dehal
P.S.
Arkin
A.P.
FastTree2–大きな整列のための約最尤木

PLoS One

2010

;

5

:

e9490

. /div>

Stamatakis
A.
RAxMLバージョン8:大規模な系統発生の系統解析とポスト分析のためのツール

バイオインフォマティクス

2014

;

30

:

1312

1313

.

/div>

div>pattyfams:patricデータベース内の微生物ゲノムのタンパク質ファミリー

フロント。 ミクロビオール
2016

;

7

:

118

.

,

Dalke
A.

,

Friedberg
I.

,

Hamelryck
T.

,

Kauff
F.

,

Wilczynski

B.

Biopython:計算分子生物学とバイオインフォマティクスのための自由に利用可能なPythonツール
Biopython:計算分子生物学とバイオインフォマティクスのための自由に利用可能なPythonツール
/div>.

バイオインフォマティクス

2009

;

25

:

1422

1423

.

Felsenstein
J.
PHYLIP(系統発生推論パッケージ)、バージョン3.5c

1993

;

ワシントン州シアトル
Joseph Felsenstein

。 /div>

Stamatakis
A.

,

Hoover
P.

,

Rougemont
J.
RAxML webサーバーのための迅速なブートストラップアルゴリズム

Syst. バイオル
2008

;

57

:

758

771

.

Cutadaptとfastqcの周りのラッパーツールは、一貫してMspI消化RRBSタイプ(縮小表現Bisufite-Seq)ライブラリ

のためのいくつかの余分な機能を備えたFastQファイルに品質とアダプ

2012

;

(2016年4月28日、最後にアクセスされた日)

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/。

Martin
M.
Cutadaptは、ハイスループットシーケンスリード

からアダプタシーケンスを削除します。

エンブネットJ.
2011

;

17

:

10

12

Langmead
B.

,

Wilks
C.

,

Antonescu
V.

,

Charles
r.
読み取りアライナーを汎用プロセッサ上の何百ものスレッドにスケーリングします。
バイオインフォマティクス

2018

;

35

:

421

432

. /div>

Lassmann
T.

,

Hayashizaki
Y.

,

Daub
C.O.
SAMStat:次世代シーケンシングデータにおけるバイアスの監視

バイオインフォマティクス

2010

;

27

:

130

131

. /div>

ダーリン
A.E.

Mau
B.

Perna
n.T.
progressiveMauve:遺伝子の利得、損失および再配列による複数のゲノムアライメント

PLoS One

2010

;

5

:

e11147

.

Mauve:再配列を持つ保存されたゲノム配列の多重アライメント

ゲノムRes.
2004

;

14

:

1394

1403

。 n.h.,

koren
s.

,

Phillippy
A.M.
mash:Minhashを用いた高速ゲノムとメタゲノム距離推定

Genome Biol.2016
2016

20162016;

17

:

132

.

ウッド
D.E.

イェーツ
S.L.
クラーケン:正確なアライメントを使用した超高速メタゲノム配列タクソノミー

Genome Biol.
2014

;

15

:

R46

.

/div>、

オニール
k.

it
w.

,

Chitsaz
F.

,

Derbyshire
M.K.

,

Gonzales
N.R.
RefSeq:原核生物ゲノム注釈とキュレーションの更新

.

核酸Res.
2017

;

46

:

D851

D860

Ondov
B.D.

Bergman
N.H.

Phillippy
A.M.
Webブラウザでのインタラクティブなメタゲノム可視化

BMCバイオインフォマティクス

2011

;

12

:

385

.

Clausen
P.T.

,

Aarestrup
F.M.

,

Lund
O.
kma

を使用した冗長データベースに対する生の読み取りの迅速かつ正確なアライメント。

BMCバイオインフォマティクス

2018

;

19

:

307

.

/div>、

baylay
a.j.

bhullar
k./div>

Canova
M.J.

Two Pascale
G.

Ejim
L.
包括的な抗生物質耐性データベース

iv ケモザー捜査官
2013

;

57

:

3348

3357

. /div>

2019年:インタラクティブなwebインターフェイスとの比較病原性プラットフォーム。

Nucleic Acids Res.
2018

;

47

:

D687

D692

.

オーバービーク
R.
オルソン
R.

プッシュ
G.D.

オルセン
G.J.
デイビス
J.J.
div>,

disz
t.

,

edwards
r.a.

,

gerdes
s.

,

parrello
b.

,

shukla
m
シードとサブシステム技術(rast)を使用して微生物ゲノムの迅速な注釈

Nucleic Acids Res.
2013

;

42

:

D206

D214

.

Federhen
S.
NCBIタクソノミデータベース

核酸Res.
2011

;

40

:

D136

D143

Nucleic Acids Research2019に代わってOxford University Pressによって出版されました。
この作品は、(a)米国政府の従業員によって書かれており、米国のパブリックドメインにあります。