Schrotflintensequenzierung
Historie
Die Schrotflintensequenzierung des gesamten Genoms für kleine Genome (4000 bis 7000 Basenpaare) wurde erstmals 1979 vorgeschlagen. Das erste Genom, das durch Shotgun-Sequenzierung sequenziert wurde, war das des Blumenkohlmosaikvirus, das 1981 veröffentlicht wurde.
Paired-End-Sequenzierungbearbeiten
Eine breitere Anwendung profitierte von der paarweisen Endsequenzierung, die umgangssprachlich als Double-Barrel-Shotgun-Sequenzierung bekannt ist. Als Sequenzierungsprojekte begannen, längere und kompliziertere DNA-Sequenzen anzunehmen, erkannten mehrere Gruppen, dass nützliche Informationen durch Sequenzierung beider Enden eines DNA-Fragments erhalten werden konnten. Obwohl die Sequenzierung beider Enden desselben Fragments und die Verfolgung der gepaarten Daten umständlicher war als die Sequenzierung eines einzelnen Endes zweier verschiedener Fragmente, war die Kenntnis, dass die beiden Sequenzen in entgegengesetzte Richtungen ausgerichtet waren und etwa die Länge eines Fragments voneinander entfernt waren, wertvoll bei der Rekonstruktion der Sequenz des ursprünglichen Zielfragments.
Geschichte. Die erste veröffentlichte Beschreibung der Verwendung gepaarter Enden erfolgte 1990 im Rahmen der Sequenzierung des humanen HGPRT-Locus, obwohl die Verwendung gepaarter Enden auf das Schließen von Lücken nach der Anwendung eines traditionellen Shotgun-Sequenzierungsansatzes beschränkt war. Die erste theoretische Beschreibung einer reinen paarweisen Endsequenzierungsstrategie unter der Annahme von Fragmenten konstanter Länge erfolgte 1991. Zu dieser Zeit gab es einen Konsens in der Community, dass die optimale Fragmentlänge für die paarweise Endsequenzierung das Dreifache der Sequenzleselänge betragen würde. Im Jahr 1995 Roach et al. führte die Innovation der Verwendung von Fragmenten unterschiedlicher Größe ein und demonstrierte, dass eine reine paarweise Endsequenzierungsstrategie für große Ziele möglich wäre. Die Strategie wurde anschließend vom Institute for Genomic Research (TIGR) übernommen, um das Genom des Bakteriums Haemophilus influenzae im Jahr 1995 zu sequenzieren, und dann von Celera Genomics, um das Genom von Drosophila melanogaster (Fruchtfliege) im Jahr 2000 und anschließend das menschliche Genom zu sequenzieren.
ApproachEdit
Um die Strategie anzuwenden, wird ein hochmolekularer DNA-Strang in zufällige Fragmente geschert, die Größe ausgewählt (normalerweise 2, 10, 50 und 150 kb) und in einen geeigneten Vektor kloniert. Die Klone werden dann von beiden Enden unter Verwendung der Kettenabbruchmethode sequenziert, wodurch zwei kurze Sequenzen erhalten werden. Jede Sequenz wird als End-Read oder read 1 und read 2 bezeichnet, und zwei Lesevorgänge aus demselben Klon werden als Mate-Paare bezeichnet. Da die Kettenabbruchmethode normalerweise nur Lesevorgänge zwischen 500 und 1000 Basen lang erzeugen kann, überlappen sich Mate-Paare in allen außer den kleinsten Klonen selten.
AssemblyEdit
Die ursprüngliche Sequenz wird aus den Lesevorgängen mithilfe der Sequence Assembly Software rekonstruiert. Zuerst werden überlappende Lesevorgänge in längeren zusammengesetzten Sequenzen gesammelt, die als contigs bekannt sind. Contigs können zu Gerüsten verbunden werden, indem Verbindungen zwischen Paaren verfolgt werden. Der Abstand zwischen Contigs kann aus den Mate-Paarpositionen abgeleitet werden, wenn die durchschnittliche Fragmentlänge der Bibliothek bekannt ist und ein enges Abweichungsfenster aufweist. Abhängig von der Größe der Lücke zwischen den Contigs können verschiedene Techniken verwendet werden, um die Sequenz in den Lücken zu finden. Wenn die Lücke klein ist (5-20 KB), ist die Verwendung einer Polymerasekettenreaktion (PCR) zur Amplifikation der Region erforderlich, gefolgt von einer Sequenzierung. Wenn die Lücke groß ist (>20 KB), wird das große Fragment in speziellen Vektoren wie bakteriellen künstlichen Chromosomen (BAC) kloniert, gefolgt von einer Sequenzierung des Vektors.
Vor- und Nachteile
Befürworter dieses Ansatzes argumentieren, dass es möglich ist, das gesamte Genom mit großen Sequenzerarrays gleichzeitig zu sequenzieren, was den gesamten Prozess wesentlich effizienter macht als herkömmliche Ansätze. Kritiker argumentieren, dass, obwohl die Technik schnell große Regionen der DNA sequenziert, ihre Fähigkeit, diese Regionen korrekt zu verknüpfen, verdächtig ist, insbesondere für Genome mit sich wiederholenden Regionen. Da Sequenzassemblierungsprogramme ausgefeilter werden und die Rechenleistung billiger wird, kann es möglich sein, diese Einschränkung zu überwinden.
CoverageEdit
Die Abdeckung (Lesetiefe oder Tiefe) ist die durchschnittliche Anzahl von Lesevorgängen, die ein bestimmtes Nukleotid in der rekonstruierten Sequenz darstellen. Es kann aus der Länge des ursprünglichen Genoms (G), der Anzahl der Lesevorgänge (N) und der durchschnittlichen Leselänge (L) als N × L / G {\displaystyle N\times L/G}
berechnet werden . Zum Beispiel hat ein hypothetisches Genom mit 2.000 Basenpaaren, das aus 8 Lesevorgängen mit einer durchschnittlichen Länge von 500 Nukleotiden rekonstruiert wurde, eine 2-fache Redundanz. Dieser Parameter ermöglicht es auch, andere Größen abzuschätzen, wie z. B. den Prozentsatz des Genoms, das von Reads bedeckt ist (manchmal auch als Abdeckung bezeichnet). Eine hohe Abdeckung bei der Shotgun-Sequenzierung ist erwünscht, da sie Fehler beim Aufrufen und Zusammenbau der Basis überwinden kann. Das Thema der DNA-Sequenzierungstheorie befasst sich mit den Beziehungen solcher Mengen.
Manchmal wird zwischen Sequenzabdeckung und physischer Abdeckung unterschieden. Sequenzabdeckung ist die durchschnittliche Anzahl, wie oft eine Basis gelesen wird (wie oben beschrieben). Physische Abdeckung ist die durchschnittliche Anzahl der Male, die eine Basis gelesen oder von mehreren gepaarten Lesevorgängen überspannt wird.