Sekvenování brokovnice
Historyeditovat
sekvenování brokovnice celého genomu pro malé genomy (4000 až 7000 párů bází) bylo poprvé navrženo v roce 1979. Prvním genomem sekvenovaným brokovnicovým sekvenováním byl virus mozaiky květáku, publikovaný v roce 1981.
párová sekvenceedit
širší aplikace těží z párového koncového sekvenování, známého hovorově jako dvouhlavňové sekvenování brokovnice. Jako sekvenování projektů začal brát na delší a složitější sekvence DNA, více skupin si začala uvědomovat, že užitečné informace by mohla být získána sekvenováním obou konců fragmentu DNA. I když sekvenováním obou konců stejného fragmentu a sledování párových dat byl těžkopádnější než sekvenování jednom konci dva odlišné fragmenty, poznání, že dvě sekvence byly orientovány v opačných směrech a jsou o délce fragmentu od sebe byl cenný v rekonstrukci sekvence původního cílového fragmentu.
historie. První publikovaný popis použití spárovaných konců byla v roce 1990 jako součást sekvenování lidské HGPRT locus, i když použití spárovaných konců byla omezena na uzavření mezery po aplikaci tradiční shotgun sekvenování přístup. První teoretický popis čistě párové koncové sekvenační strategie, za předpokladu fragmentů konstantní délky, byl v roce 1991. V době, kdy, existovala shoda komunity, že optimální délka fragmentu pro párové koncové sekvenování by byla trojnásobkem délky čtení sekvence. V roce 1995 Roach et al. představil inovaci použití fragmentů různých velikostí a prokázal, že na velkých cílech by byla možná čistě párová strategie koncového sekvenování. Tato strategie byla následně přijata do Ústavu pro Genomový Výzkum (TIGR) sekvence genomu bakterie Haemophilus influenzae v roce 1995, a pak Celera Genomics, aby sekvence Drosophila melanogaster (octomilka) genomu v roce 2000, a následně lidského genomu.
ApproachEdit
použít strategii, o vysoké molekulové hmotnosti DNA strand je stříhaný do náhodné fragmenty, velikost-vybrané (obvykle 2, 10, 50, 150 kb), a klonován do vhodného vektoru. Klony se pak sekvenují z obou konců metodou zakončení řetězce, čímž se získají dvě krátké sekvence. Každá sekvence se nazývá koncové čtení nebo čtení 1 a čtení 2 a dvě čtení ze stejného klonu jsou označovány jako páry. Protože metoda zakončení řetězce obvykle může produkovat pouze čtení mezi 500 a 1000 bázemi dlouhými, ve všech kromě nejmenších klonů se páry párů zřídka překrývají.
AssemblyEdit
původní sekvence je rekonstruována ze čtení pomocí softwaru pro sestavení sekvence. Za prvé, překrývající se čtení jsou shromažďovány do delších kompozitních sekvencí známých jako contigs. Kontigy mohou být spojeny dohromady do lešení následováním spojení mezi páry kamarádů. Vzdálenost mezi spoji lze odvodit z pozic dvojice kamarádů, pokud je známá průměrná délka fragmentu knihovny a má úzké okno odchylky. V závislosti na velikosti mezery mezi spoji lze k nalezení sekvence v mezerách použít různé techniky. Pokud je mezera malá (5-20kb), je nutné použít polymerázovou řetězovou reakci (PCR) k amplifikaci oblasti, po níž následuje sekvenování. Pokud je rozdíl velký (>20kb), pak velký fragment klonované ve speciální vektory, jako jsou bakteriální umělé chromozomy (BAC), následuje sekvenování vektoru.
Výhody a consEdit
Zastánci tohoto přístupu argumentují, že to je možné sekvence celého genomu najednou pomocí velké matice sekvencery, což činí celý proces mnohem efektivnější než tradiční přístupy. Kritici tvrdí, že ačkoli tato technika rychle sekvenuje velké oblasti DNA, jeho schopnost správně propojit tyto oblasti je podezřelá, zejména u genomů s opakujícími se oblastmi. Jak se programy sestavování sekvencí stávají sofistikovanějšími a výpočetní výkon se stává levnějším, může být možné toto omezení překonat.
CoverageEdit
Pokrytí (číst hloubky, nebo do hloubky) je průměrný počet čte představující daný nukleotid v rekonstruované sekvenci. To může být vypočítána z délky původního genomu (G), počet čtenářů(N), a průměrná číst, délka(L) jako N × L / G {\displaystyle N\times L/G}
. Například, hypotetická genomu s 2000 párů bází rekonstrukci, od 8 čte s průměrnou délkou 500 nukleotidů bude mít 2x redundance. Tento parametr také umožňuje odhadnout další množství, jako procento genomu, na které se vztahuje čte (někdy také nazývá pokrytí). Vysoké pokrytí v sekvenování brokovnice je žádoucí, protože může překonat chyby při volání základny a montáži. Předmět teorie sekvenování DNA se zabývá vztahy těchto veličin.
někdy se rozlišuje mezi pokrytím sekvence a fyzickým pokrytím. Pokrytí sekvencí je průměrný počet čtení základny (jak je popsáno výše). Fyzické pokrytí je průměrný počet opakování, kdy je základna čtena nebo překlenuta párovým čtením mate.