Articles

Shotgun szekvenálás

HistoryEdit

teljes genom shotgun szekvenálás kis (4000 – 7000-bázis-pár) genomok először javasolta 1979-ben. Az első Genom, amelyet sörétes szekvenálással szekvenáltak, a karfiolmozaik vírus, 1981-ben jelent meg.

párosított vég szekvenálás

a szélesebb körű alkalmazás részesült a páros végszekvenálásból, amelyet köznyelven kettős csövű sörétes szekvenálásnak neveznek. Ahogy a szekvenálási projektek hosszabb és bonyolultabb DNS-szekvenciákat kezdtek felvenni, több csoport kezdte felismerni, hogy hasznos információ nyerhető a DNS-fragmentum mindkét végének szekvenálásával. Bár ugyanazon fragmentum mindkét végének szekvenálása és a párosított adatok nyomon követése nehézkesebb volt, mint két különálló fragmentum egyetlen végének szekvenálása, az a tudás, hogy a két szekvencia ellentétes irányba orientálódott, és egymástól körülbelül egy fragmentum hossza volt egymástól, értékes volt az eredeti célfragmens szekvenciájának rekonstruálásában.

történelem. A párosított végek használatának első közzétett leírása 1990-ben volt az emberi HGPRT lokusz szekvenálásának részeként, bár a párosított végek használata a hézagok bezárására korlátozódott a hagyományos shotgun szekvenálási megközelítés alkalmazása után. A tiszta páros végszekvenálási stratégia első elméleti leírása, állandó hosszúságú töredékeket feltételezve, 1991-ben volt. Abban az időben közösségi konszenzus volt abban, hogy a páronkénti végszekvenálás optimális fragmentumhossza a szekvencia olvasási hosszának háromszorosa lenne. 1995-ben Roach et al. bevezette a különböző méretű töredékek használatának újítását, és bebizonyította, hogy tiszta páros végszekvenálási stratégia lehetséges nagy célpontokon. Ezt követően a genomikai Kutatóintézet (TIGR) elfogadta a Haemophilus influenzae baktérium genomjának szekvenálására 1995-ben, majd a Celera Genomics a Drosophila melanogaster (gyümölcslégy) Genom szekvenálására 2000-ben, majd az emberi genomra.

ApproachEdit

a stratégia alkalmazásához egy nagy molekulatömegű DNS-szálat véletlenszerű fragmentumokra vágnak, méretre választva (általában 2, 10, 50 és 150 kb), és egy megfelelő vektorba klónozzák. Ezután a klónokat mindkét végről szekvenáljuk a láncvégződtetési módszerrel, amely két rövid szekvenciát eredményez. Minden szekvenciát end-read vagy read 1 és read 2-nek nevezünk, és ugyanazon klón két olvasatát társpároknak nevezzük. Mivel a láncvégződtetési módszer általában csak 500-1000 bázis hosszú olvasást képes előállítani, a legkisebb klónok kivételével az összes párpár ritkán fedi egymást.

AssemblyEdit

az eredeti szekvencia rekonstruálható az olvasásokból a sequence assembly szoftver segítségével. Először is, az átfedő olvasásokat hosszabb összetett szekvenciákba gyűjtik, amelyeket contigs néven ismerünk. A kontigokat állványokká lehet összekapcsolni a párpárok közötti kapcsolatok követésével. A kapcsolatok közötti távolság a párpárok pozícióiból következtethető, ha a könyvtár átlagos töredék hossza ismert, és keskeny eltérési ablaka van. A kapcsolatok közötti rés méretétől függően különböző technikák alkalmazhatók a résekben lévő szekvencia megkeresésére. Ha a rés kicsi (5-20kb), akkor polimeráz láncreakció (PCR) alkalmazása szükséges a régió amplifikálásához, majd szekvenálás. Ha a rés nagy (>20kb), akkor a nagy fragmentumot speciális vektorokban, például bakteriális mesterséges kromoszómákban (Bac) klónozzák, majd a vektor szekvenálásával.

Pros and consEdit

ennek a megközelítésnek a támogatói azzal érvelnek, hogy a teljes genomot egyszerre lehet szekvenálni nagy szekvenszer tömbök segítségével, ami az egész folyamatot sokkal hatékonyabbá teszi, mint a hagyományosabb megközelítések. A detraktorok azzal érvelnek, hogy bár a technika gyorsan szekvenciálja a DNS nagy régióit, gyanús annak képessége, hogy ezeket a régiókat helyesen összekapcsolja, különösen az ismétlődő régiókkal rendelkező genomok esetében. Ahogy a szekvencia-összeállítási programok kifinomultabbá válnak, és a számítási teljesítmény olcsóbbá válik, lehetséges lehet leküzdeni ezt a korlátot.

CoverageEdit

fő cikk: lefedettség (genetika)

lefedettség (olvasási mélység vagy mélység) a rekonstruált szekvenciában egy adott nukleotidot képviselő olvasások átlagos száma. Kiszámítható az eredeti Genom (G) hosszából, az olvasások számából(N) és az átlagos olvasási hosszból(L), mint n 6 L / G {\displaystyle n\times L/G}

N\times L/G

. Például egy hipotetikus Genom, amelynek 2000 bázispárja rekonstruált 8 olvasásból, átlagos hossza 500 nukleotid, 2x redundanciával rendelkezik. Ez a paraméter lehetővé teszi más mennyiségek becslését is, például az olvasás által lefedett Genom százalékos arányát (néha lefedettségnek is nevezik). A nagy lefedettség shotgun szekvenálás kívánatos, mert képes leküzdeni a hibákat bázis hívás és összeszerelés. A DNS-szekvenálási elmélet tárgya az ilyen mennyiségek kapcsolataival foglalkozik.

néha különbséget tesznek a szekvencia lefedettség és a fizikai lefedettség között. A szekvencia lefedettség az alap olvasásának átlagos száma (a fent leírtak szerint). A fizikai lefedettség az az átlagos szám, ahányszor egy bázist olvasnak vagy átfognak a párosított olvasások.