Sekwencjonowanie shotgunów
Historiaedit
sekwencjonowanie całych genomów dla małych (4000-7000 par bazowych) genomów zostało po raz pierwszy zasugerowane w 1979 roku. Pierwszym genomem zsekwencjonowanym przez shotgun był genom wirusa mozaiki kalafiora, opublikowany w 1981 roku.
sekwencjonowanie Końcoweedytuj
szersze zastosowanie miało sekwencjonowanie końcoweed, znane potocznie jako sekwencjonowanie z podwójną lufą. Ponieważ projekty sekwencjonowania zaczęły przyjmować dłuższe i bardziej skomplikowane sekwencje DNA, wiele grup zaczęło zdawać sobie sprawę, że Przydatne informacje można uzyskać poprzez sekwencjonowanie obu końców fragmentu DNA. Chociaż sekwencjonowanie obu końców tego samego fragmentu i śledzenie sparowanych danych było bardziej uciążliwe niż sekwencjonowanie pojedynczego końca dwóch różnych fragmentów, wiedza, że obie sekwencje były zorientowane w przeciwnych kierunkach i były o długości fragmentu od siebie, była cenna w rekonstrukcji sekwencji oryginalnego fragmentu docelowego.
Historia. Pierwszy opublikowany opis użycia sparowanych końców był w 1990 roku jako część sekwencjonowania ludzkiego locus HGPRT, chociaż użycie sparowanych końców było ograniczone do zamykania luk po zastosowaniu tradycyjnego podejścia do sekwencjonowania shotgun. Pierwszy teoretyczny opis czysto parowej strategii sekwencjonowania końcowego, przy założeniu fragmentów o stałej długości, był w 1991 roku. W tym czasie, tam być społeczność konsensus że optymalny fragment długość dla para końcowy sekwencjonowanie być trzy razy Sekwencja czytany długość. W 1995 Roach et al. wprowadził innowację polegającą na wykorzystaniu fragmentów o różnych rozmiarach i wykazał, że czysta, parowa strategia sekwencjonowania końcowego byłaby możliwa w przypadku dużych celów. Strategia została następnie przyjęta przez Institute for Genomic Research (TIGR) w celu sekwencjonowania genomu bakterii Haemophilus influenzae w 1995, a następnie przez Celera Genomics w celu sekwencjonowania genomu Drosophila melanogaster (muszki owocowej) w 2000, a następnie ludzkiego genomu.
Podejścieedytuj
aby zastosować strategię, nić DNA o dużej masie cząsteczkowej jest ścinana na losowe fragmenty, wybierana rozmiar (zwykle 2, 10, 50 i 150 kb) i klonowana w odpowiedni wektor. Klony są następnie sekwencjonowane z obu końców za pomocą metody zakończenia łańcucha, dając dwie krótkie sekwencje. Każda sekwencja nazywana jest end-read lub read 1 i read 2, a dwa odczyty z tego samego klonu określane są parami mate. Ponieważ metoda zakończenia łańcucha zwykle może produkować odczyty o długości od 500 do 1000 baz, we wszystkich, z wyjątkiem najmniejszych klonów, pary mate rzadko się nakładają.
AssemblyEdit
oryginalna sekwencja jest rekonstruowana z odczytu za pomocą oprogramowania do montażu sekwencji. Po pierwsze, nakładające się odczyty są gromadzone w dłuższe sekwencje złożone znane jako contigs. Styki mogą być łączone ze sobą w rusztowania poprzez następujące połączenia między parami mate. Odległość między stykami można wywnioskować z pozycji pary mate, jeśli średnia długość fragmentu biblioteki jest znana i ma wąskie okno odchylenia. W zależności od wielkości szczeliny między stykami można użyć różnych technik do znalezienia sekwencji w szczelinach. Jeśli szczelina jest mała (5-20KB), wymagane jest zastosowanie reakcji łańcuchowej polimerazy (PCR) do amplifikacji regionu, a następnie sekwencjonowanie. Jeśli luka jest duża (>20KB), to duży fragment jest klonowany w specjalnych wektorach, takich jak bakteryjne sztuczne chromosomy (BAC), a następnie sekwencjonowanie wektora.
plusy i consEdit
zwolennicy tego podejścia twierdzą, że możliwe jest zsekwencjonowanie całego genomu jednocześnie przy użyciu dużych tablic sekwencerów, co sprawia, że cały proces jest znacznie bardziej wydajny niż bardziej tradycyjne podejścia. Krytycy twierdzą, że chociaż technika szybko sekwencjonuje duże regiony DNA, jej zdolność do prawidłowego połączenia tych regionów jest podejrzana, szczególnie w przypadku genomów z powtarzającymi się regionami. W miarę jak programy do składania sekwencji stają się bardziej wyrafinowane, a moc obliczeniowa staje się tańsza, możliwe jest przezwyciężenie tego ograniczenia.
CoverageEdit
Coverage (głębokość odczytu lub głębokość) to średnia liczba odczytów reprezentujących dany nukleotyd w zrekonstruowanej sekwencji. Można ją obliczyć na podstawie długości oryginalnego genomu (g), liczby odczytów(N) i średniej długości odczytu(L) jako N × L / G {\displaystyle n\times l/g}
. Na przykład hipotetyczny Genom z 2000 par zasad zrekonstruowanych z 8 odczytów o średniej długości 500 nukleotydów będzie miał 2x redundancję. Parametr ten umożliwia również oszacowanie innych wielkości, takich jak procent genomu objętego odczytem (czasami nazywany również pokryciem). Wysoki zasięg w sekwencjonowaniu shotgun jest pożądany, ponieważ może przezwyciężyć błędy w wywoływaniu i montażu bazy. Przedmiotem teorii sekwencjonowania DNA jest zależność takich ilości.
czasami dokonuje się rozróżnienia między pokryciem sekwencji a pokryciem fizycznym . Pokrycie sekwencji to średnia liczba odczytów bazy (jak opisano powyżej). Zasięg fizyczny to średnia liczba odczytów bazy lub jej zasięgu przez sparowane odczyty mate.