Articles

Sequenciação de caçadeira

HistoryEdit

sequenciação de caçadeira de genoma inteiro para genomas pequenos (4000 – a 7000-base-pair) foi sugerida pela primeira vez em 1979. O primeiro genoma sequenciado pela sequenciação da caçadeira foi o do vírus mosaico da couve-flor, publicado em 1981.

sequenciação de extremidades emparelhadas edit

aplicação mais ampla beneficiou de sequenciação final emparelhada, conhecida coloquialmente como sequenciação de caçadeira de cano duplo. À medida que os projetos de sequenciamento começaram a assumir sequências de DNA mais longas e mais complicadas, vários grupos começaram a perceber que informações úteis poderiam ser obtidas sequenciando ambas as extremidades de um fragmento de DNA. Embora o seqüenciamento ambas as extremidades de um mesmo fragmento e manter o controle dos dados pareados foi mais complicado do que o sequenciamento de um único fim de dois diferentes fragmentos, o conhecimento de que as duas sequências foram orientados em direções opostas e estavam prestes a duração de um fragmento de distância um do outro foi valiosa para reconstruir a seqüência do destino original do fragmento.história. A primeira descrição publicada do uso de pontas emparelhadas foi em 1990 como parte da sequenciação do hgprt locus humano, embora o uso de pontas emparelhadas foi limitado a colmatar lacunas após a aplicação de uma abordagem tradicional de sequenciamento de caçadeira. A primeira descrição teórica de uma pura estratégia de sequenciação final emparelhada, assumindo fragmentos de comprimento constante, foi em 1991. Na época, havia consenso da comunidade de que o comprimento ideal do fragmento para sequenciação final emparelhada seria três vezes o comprimento de leitura da sequência. In 1995 Roach et al. introduziu a inovação da utilização de fragmentos de tamanhos variados, e demonstrou que uma estratégia de sequenciação final pura e emparelhada seria possível em grandes alvos. A estratégia foi posteriormente adotada pelo Instituto para A Genomic Research (TIGR) para sequenciar o genoma da bactéria Haemophilus influenzae em 1995, e, em seguida, pela Celera Genomics a sequência de Drosophila melanogaster (mosca da fruta) do genoma, em 2000, e, posteriormente, o genoma humano.

ApproachEdit

Para aplicar a estratégia, uma cadeia de DNA de alta massa molecular é cortada em fragmentos aleatórios, tamanho selecionado (geralmente 2, 10, 50 e 150 kb), e clonado em um vetor apropriado. Os clones são então sequenciados de ambas as extremidades usando o método de terminação da cadeia produzindo duas sequências curtas. Cada sequência é chamada de leitura final ou leitura 1 e leitura 2 e duas leituras do mesmo clone são referidas como pares de pares. Uma vez que o método de terminação de cadeia geralmente só pode produzir leituras entre 500 e 1000 bases de comprimento, em todos, mas os menores clones, pares de pares de pares raramente se sobrepõem.

Assembledit

a sequência original é reconstruída a partir das leituras usando software de montagem de sequência. Primeiro, leituras sobrepostas são coletadas em sequências compostas mais longas conhecidas como contigs. Contigs podem ser ligados entre si em andaimes seguindo ligações entre pares de pares. A distância entre contigs pode ser inferida das posições dos pares de pares de pares se o comprimento médio dos fragmentos da Biblioteca é conhecido e tem uma estreita janela de desvio. Dependendo do tamanho do intervalo entre contigs, diferentes técnicas podem ser usadas para encontrar a sequência nas aberturas. Se o intervalo é pequeno (5-20kb), então o uso da reação em cadeia da polimerase (PCR) para amplificar a região é necessário, seguido de sequenciamento. Se o gap é grande (20kb), então o grande fragmento é clonado em vetores especiais, como cromossomos artificiais bacterianos (BAC), seguidos pela sequenciação do vetor.

Pros and consEdit

proponentes desta abordagem argumentam que é possível sequenciar todo o genoma de uma vez usando grandes matrizes de sequenciadores, o que torna todo o processo muito mais eficiente do que abordagens mais tradicionais. Os detratores argumentam que, embora a técnica sequencie rapidamente grandes regiões de DNA, sua capacidade de ligar corretamente essas regiões é suspeita, particularmente para genomas com regiões repetitivas. À medida que os programas de montagem de sequência se tornam mais sofisticados e o poder computacional se torna mais barato, pode ser possível superar esta limitação.

CoverageEdit

Main article: Coverage (genetics)

Coverage (read depth or depth) is the average number of reads representing a Giv nucleotide in the reconstructed sequence. Ele pode ser calculado a partir do comprimento do genoma original (G), O número de leituras(N), e o comprimento médio de leitura(L) como N × L / G {\displaystyle N\vezes L/g}

. Por exemplo, um genoma hipotético com 2.000 pares de bases reconstruídos a partir de 8 leituras com um comprimento médio de 500 nucleótidos terá redundância 2x. Este parâmetro também permite estimar outras quantidades, como a porcentagem do genoma coberto por leituras (às vezes também chamada cobertura). Uma alta cobertura na sequenciação de caçadeira é desejada porque pode superar erros na chamada de base e montagem. O tema da teoria da sequenciação de DNA aborda as relações de tais quantidades. às vezes é feita uma distinção entre cobertura de sequência e cobertura física. A cobertura de sequência é o número médio de vezes que uma base é lida (como descrito acima). A cobertura física é o número médio de vezes que uma base é lida ou estendida por pares de leituras.