Articles

Shotgun sequencing

HistoryEdit

全ゲノム小さな(4000塩基対から7000塩基対)ゲノムのshotgun sequencingは1979年に最初に提案された。 ショットガンシーケンシングによって配列決定された最初のゲノムは、1981年に出版されたカリフラワーモザイクウイルスのものであった。

Pairwise end sequencingedit

より広範なアプリケーションは、口語的にダブルバレルショットガンシーケンシングとして知られているペアワイズエンドシーケンスの恩恵を受けました。 配列決定プロジェクトがより長く、より複雑なDNA配列を取り始めたように、複数のグループは、DNAの断片の両端を配列決定することによって有用な情報が得られることを認識し始めました。 同じ断片の両端を配列決定し,対になったデータを追跡することは,二つの異なる断片の単一の端を配列決定するよりも面倒であったが,二つの配列が反対方向に配向し,互いに離れた断片の長さについてであるという知識は,元の標的断片の配列を再構築する上で貴重であった。

歴史。 対になった端の使用の最初の出版された記述は人間のHGPRTの遺伝子座の配列決定の一部として1990年にあったが、対になった端の使用は従来の散弾銃の配列決定のアプローチの適用の後でギャップを閉めることに限られていた。 一定の長さの断片を仮定した純粋なペアワイズエンドシークエンシング戦略の最初の理論的記述は1991年であった。 当時、ペアワイズエンドシーケンシングの最適なフラグメント長は、シーケンス読み取り長の三倍になるというコミュニティのコンセンサスがあ 1995年にRoachらによって発見された。 様々なサイズのフラグメントを使用する技術革新を導入し、大きなターゲットで純粋なペアワイズエンドシーケンシング戦略が可能であることを実証し この戦略はその後、1995年にインフルエンザ菌のゲノムを配列決定するためにゲノム研究所(TIGR)によって採用され、2000年にはショウジョウバエのメラノガスター(ショウジョウバエ)のゲノムを配列決定するためにCelera Genomicsによって採用され、続いてヒトゲノムが採用された。

ApproachEdit

戦略を適用するには、高分子量DNA鎖は、サイズ選択(通常は2、10、50、および150kb)、ランダムな断片に剪断され、適切なベクターにクローン化されます。 クローンは、その後、二つの短い配列をもたらす鎖終端法を使用して両端から配列決定されます。 各シーケンスはエンドリードまたはリード1とリード2と呼ばれ、同じクローンからの二つのリードはメイトペアと呼ばれます。 チェーン終端法は通常、500から1000塩基の長さの間の読み取りのみを生成することができるので、最小のクローンを除くすべてで、仲間のペアはめったに重

AssemblyEdit

元のシーケンスは、シーケンスアセンブリソフトウェアを使用して読み取りから再構築されます。 最初に、重複読み取りは、連続として知られている長い複合シーケンスに収集されます。 コンティグは、仲間のペア間の接続に従うことによって足場に一緒にリンクすることができます。 連続間の距離は、ライブラリの平均断片長が既知であり、偏差の狭い窓を有する場合、メイト対位置から推測することができる。 連続間のギャップの大きさに応じて、ギャップ内のシーケンスを見つけるために異なる技術を使用することができます。 ギャップが小さい場合(5-20kb)、領域を増幅するためのポリメラーゼ連鎖反応(PCR)の使用が必要であり、続いて配列決定が必要である。 ギャップが大きい場合(>20kb)、大きな断片は、細菌人工染色体(BAC)などの特殊なベクターでクローン化され、その後ベクターの配列決定が行

長所と短所

このアプローチの支持者は、シーケンサーの大きな配列を使用して一度に全ゲノムを配列することが可能であると主張し、より伝統的なアプローチよりも全体のプロセスをはるかに効率的にする。 批判者は、この技術はDNAの大きな領域を迅速に配列するが、これらの領域を正しくリンクする能力は、特に繰り返し領域を持つゲノムについては疑わしいと主張している。 シーケンスアセンブリプログラムがより高度になり、計算能力がより安価になるにつれて、この制限を克服することが可能にな

CoverageEdit

メイン記事:カバレッジ(遺伝学)

カバレッジ(読み取り深さまたは深さ)は、再構築された配列内の特定のヌクレオチドを表す読み取りの平均 元のゲノムの長さ(G)、読み込み回数(N)、平均読み込み長さ(L)からN×l/G{\displaystyle N\times L/G}

N\times L/G

として計算することができる。 例えば、2,000塩基対を持つ仮説的ゲノムは、平均長さ500ヌクレオチドの8つの読み取りから再構築され、2倍の冗長性を有する。 このパラメータは、読み取りによってカバーされるゲノムの割合(カバレッジとも呼ばれることもあります)など、他の量を推定することもできます。 ベース呼び出しとアセンブリのエラーを克服できるため、shotgunシーケンシングでは高いカバレッジが望まれています。 DNAシークエンシング理論の主題は、そのような量の関係に対処します。

シーケンスのカバレッジと物理的なカバレッジを区別することがあります。 シーケンスカバレッジは、ベースが読み取られる平均回数です(上記のように)。 物理カバレッジは、ベースがメイト対の読み取りによって読み取られるか、またはスパンされる平均回数です。