Secuenciación de escopeta
HistoryEdit
La secuenciación de escopeta de genoma completo para genomas pequeños (de 4000 a 7000 pares de bases) se sugirió por primera vez en 1979. El primer genoma secuenciado por secuenciación de escopeta fue el del virus del mosaico de la coliflor, publicado en 1981.
Secuenciación de extremos emparejadoseditar
La aplicación más amplia se benefició de la secuenciación de extremos emparejados, conocida coloquialmente como secuenciación de escopeta de doble cañón. A medida que los proyectos de secuenciación comenzaron a tomar secuencias de ADN más largas y complicadas, varios grupos comenzaron a darse cuenta de que se podía obtener información útil secuenciando ambos extremos de un fragmento de ADN. Aunque la secuenciación de ambos extremos del mismo fragmento y el seguimiento de los datos emparejados era más engorroso que la secuenciación de un solo extremo de dos fragmentos distintos, el conocimiento de que las dos secuencias estaban orientadas en direcciones opuestas y tenían aproximadamente la longitud de un fragmento separados entre sí fue valioso para reconstruir la secuencia del fragmento objetivo original.
Historia. La primera descripción publicada del uso de extremos emparejados fue en 1990 como parte de la secuenciación del locus humano de HGPRT, aunque el uso de extremos emparejados se limitó a cerrar huecos después de la aplicación de un enfoque de secuenciación de escopeta tradicional. La primera descripción teórica de una estrategia de secuenciación de extremos en pares pura, asumiendo fragmentos de longitud constante, fue en 1991. En ese momento, había consenso en la comunidad de que la longitud óptima del fragmento para la secuenciación de extremos en pares sería tres veces la longitud de lectura de la secuencia. En 1995, Roach et al. introdujo la innovación de usar fragmentos de diferentes tamaños y demostró que una estrategia de secuenciación final en parejas pura sería posible en objetivos grandes. La estrategia fue adoptada posteriormente por el Instituto de Investigación Genómica (TIGR) para secuenciar el genoma de la bacteria Haemophilus influenzae en 1995, y luego por Celera Genomics para secuenciar el genoma de Drosophila melanogaster (mosca de la fruta) en 2000, y posteriormente el genoma humano.
ApproachEdit
Para aplicar la estrategia, una hebra de ADN de alto peso molecular se corta en fragmentos aleatorios, se selecciona el tamaño (generalmente 2, 10, 50 y 150 kb) y se clona en un vector apropiado. Los clones se secuencian a partir de ambos extremos utilizando el método de terminación de cadena que produce dos secuencias cortas. Cada secuencia se denomina lectura final o lectura 1 y lectura 2, y dos lecturas del mismo clon se denominan pares de mate. Dado que el método de terminación de cadena generalmente solo puede producir lecturas de entre 500 y 1000 bases de largo, en todos los clones menos los más pequeños, los pares de mate rara vez se superponen.
Ensambladoeditar
La secuencia original se reconstruye a partir de las lecturas utilizando el software de ensamblaje de secuencias. En primer lugar, las lecturas superpuestas se recogen en secuencias compuestas más largas conocidas como contig. Los contiguos se pueden unir en andamios siguiendo las conexiones entre pares de mate. La distancia entre los contiguos se puede inferir de las posiciones de los pares de mate si se conoce la longitud promedio del fragmento de la biblioteca y tiene una ventana de desviación estrecha. Dependiendo del tamaño de la brecha entre los contiguos, se pueden usar diferentes técnicas para encontrar la secuencia en los huecos. Si el espacio es pequeño (5-20 kb), se requiere el uso de reacción en cadena de la polimerasa (PCR) para amplificar la región, seguido de secuenciación. Si el espacio es grande (>20kb), el fragmento grande se clona en vectores especiales, como cromosomas artificiales bacterianos (BAC), seguidos de secuenciación del vector.
Pros y consEdit
Los defensores de este enfoque argumentan que es posible secuenciar todo el genoma a la vez utilizando grandes conjuntos de secuenciadores, lo que hace que todo el proceso sea mucho más eficiente que los enfoques más tradicionales. Los detractores argumentan que aunque la técnica secuencie rápidamente grandes regiones de ADN, su capacidad para vincular correctamente estas regiones es sospechosa, particularmente para genomas con regiones repetitivas. A medida que los programas de ensamblaje de secuencias se vuelven más sofisticados y la potencia de cómputo se vuelve más barata, puede ser posible superar esta limitación.
Coberturaeditar
La cobertura (profundidad de lectura o profundidad) es el número promedio de lecturas que representan un nucleótido dado en la secuencia reconstruida. Se puede calcular a partir de la longitud del genoma original (G), el número de lecturas(N) y la longitud de lectura promedio(L) como N × L / G {\displaystyle N\times L/G}
. Por ejemplo, un genoma hipotético con 2.000 pares de bases reconstruidas a partir de 8 lecturas con una longitud media de 500 nucleótidos tendrá redundancia de 2 veces. Este parámetro también permite estimar otras cantidades, como el porcentaje del genoma cubierto por lecturas (a veces también llamado cobertura). Se desea una alta cobertura en la secuenciación de escopetas porque puede superar errores en la llamada de base y el ensamblaje. El tema de la teoría de secuenciación de ADN aborda las relaciones de tales cantidades.
A veces se hace una distinción entre cobertura de secuencia y cobertura física. La cobertura de secuencia es el número promedio de veces que se lee una base (como se describió anteriormente). La cobertura física es el número promedio de veces que una base es leída o recorrida por lecturas emparejadas de mate.