Articles

Frontiers in Genetics

Introducción

El tamaño efectivo de la población (Ne) es un parámetro genético importante que estima la cantidad de deriva genética en una población, y se ha descrito como el tamaño de una población idealizada de Wright–Fisher que se espera que produzca el mismo valor de un parámetro genético dado que en la población en estudio (Crow y Kimura, 1970). Los tamaños Ne pueden verse influenciados por las fluctuaciones en el tamaño de la población censal( Nc), por la proporción de sexos reproductores y la variación en el éxito reproductivo.

Ne la estimación se puede lograr utilizando enfoques que se dividen en tres categorías metodológicas: demográfica, basada en pedigrí o basada en marcadores (Flury et al., 2010). Los datos de pedigrí se han utilizado tradicionalmente para obtener estimaciones de Ne en el ganado. Sin embargo, las estimaciones confiables de Ne dependen de que el pedigrí esté completo. Este estado de conocimiento es factible en algunas poblaciones domésticas, cuyos parámetros demográficos han sido monitoreados con precisión durante un número suficientemente grande de generaciones. Sin embargo, en la práctica, la aplicabilidad de este enfoque sigue limitada a unos pocos casos que involucran razas altamente manejadas (Flury et al., 2010; Uimari y Tapio, 2011).

Una solución para superar la limitación de un pedigrí incompleto es estimar la tendencia reciente en Ne utilizando datos genómicos. Varios autores han reconocido que el Ne podría estimarse a partir de la información sobre el desequilibrio de vínculos (LD) (Sved, 1971; Hill, 1981). LD describe la asociación no aleatoria de alelos en diferentes loci como una función de la tasa de recombinación entre las posiciones físicas de los loci en el genoma. Sin embargo, las firmas de LD también pueden ser el resultado de procesos demográficos como la mezcla y la deriva genética (Wright, 1943; Wang, 2005), o a través de procesos como el «autostop» durante barridos selectivos (Smith y Haigh, 1974) o la selección de antecedentes (Charlesworth et al., 1997). En tales escenarios, los alelos en diferentes loci se asocian independientemente de su proximidad en el genoma. Suponiendo que una población es cerrada y panmíctica, el valor de LD calculado entre loci neutrales no vinculados depende exclusivamente de la deriva genética (Sved, 1971; Hill, 1981). Esta ocurrencia se puede usar para predecir Ne debido a la relación conocida entre la varianza en LD (calculada usando frecuencias alélicas) y el tamaño efectivo de la población (Hill, 1981).

Avances recientes en tecnología de genotipado (p. ej., utilizando matrices de perlas de SNP con decenas de miles de sondas de ADN) han permitido la recopilación de grandes cantidades de datos de enlace de todo el genoma ideales para estimar Ne en ganado y humanos, entre otros (por ejemplo, Tenesa et al., 2007; de Roos et al., 2008; Corbin et al., 2010; Uimari y Tapio, 2011; Kijas et al., 2012). Sin embargo, falta una herramienta de software que permita la estimación de Ne a partir de LD, y los investigadores actualmente confían en una combinación de herramientas para manipular datos, inferir LD y tienden a usar scripts a medida para realizar los cálculos y estimar Ne apropiados.

Aquí describimos SNeP, una herramienta de software que permite estimar las tendencias de Ne a través de la generación utilizando datos SNP que corrigen el tamaño de la muestra, la fase y la tasa de recombinación.

Materiales y métodos

El método que utiliza SNeP para calcular el DL depende de la disponibilidad de datos por fases. Cuando se conoce la fase, el usuario puede seleccionar el coeficiente de correlación cuadrado de Hill y Robertson (1968) que hace uso de frecuencias de haplotipos para definir LD entre cada par de loci (Ecuación 1). Sin embargo, en ausencia de una fase conocida, se puede seleccionar el coeficiente de correlación producto-momento de Pearson cuadrado entre pares de loci. Si bien estos dos enfoques no son los mismos, son altamente comparables (McEvoy et al., 2011):

r2 =(pAB−pApB)2pA(1−pA)pB(1−pB) (1)

rX,Y2=2∑i = 1n(Xi−X)2∑i = 1n(Yi−Y)2 (2)

donde pA y pB son respectivamente las frecuencias de los alelos A y B en dos loci separados (X, Y) medido para n individuos, pAB es la frecuencia del haplotipo con alelos A y B en la población estudiada, X e Y son las frecuencias medias del genotipo para el primer y segundo locus respectivamente, Xi es el genotipo del individuo i en el primer locus y Yi es el genotipo del individuo i en el segundo locus. La ecuación (2) correlaciona los recuentos de alelos genotípicos en lugar de las frecuencias de haplotipos y no está influenciada por heterocigotos dobles (este enfoque da como resultado las mismas estimaciones que la opción –r2 en PLINK).

SNeP estima el tamaño histórico efectivo de la población basado en la relación entre r2, Ne y c (tasa de recombinación), (Ecuación 3-Sved, 1971), y permite a los usuarios incluir correcciones para el tamaño de la muestra y la incertidumbre de la fase gamética (Ecuación 4-Weir y Hill, 1980):

E(r2)=(1+4Nec)-1(3)

radj2=r2−(ßn)-1 (4)

donde n es el número de muestras individuales, β = 2 cuando se conoce la fase gamética y β = 1 si, en cambio, la fase no se conoce.

Se utilizan varias aproximaciones para inferir la tasa de recombinación utilizando la distancia física (δ) entre dos loci como referencia y traduciéndola en distancia de enlace (d), que generalmente se describe como Mb(δ) ≈ cM(d). Para valores pequeños de d, la última aproximación es válida, pero para valores más grandes de d, la probabilidad de múltiples eventos de recombinación e interferencias aumenta, además, la relación entre la distancia del mapa y la tasa de recombinación no es lineal, ya que la tasa de recombinación máxima posible es de 0,5. Por lo tanto, a menos que se use δ muy corto, la aproximación d ≈ c no es ideal (Corbin et al., 2012). Por lo tanto, implementamos funciones de mapeo para traducir la d estimada en c, siguiendo a Haldane (1919), Kosambi (1943), Sved (1971) y Sved y Feldman (1973). Inicialmente, SNeP infiere d para cada par de SNPs como directamente proporcional a δ de acuerdo con d = kδ, donde k es un valor de tasa de recombinación definido por el usuario (el valor predeterminado es 10-8 como en Mb = cM). El valor inferido de δ se puede someter a una de las funciones de asignación disponibles si el usuario lo requiere.

Resolver la ecuación (3)para Ne e incluir todas las correcciones descritas, permite la predicción de Ne a partir de datos de LD utilizando (Corbin et al., 2012):

NT (t) = (4f(ct)) -1 (E −1−α) (5)

donde Nt es el tamaño efectivo de la población t hace generaciones calculado como t = (2f (ct)) -1 (Hayes et al., 2003), la tc es la tasa de recombinación definida para una distancia física específica entre marcadores y ajustada opcionalmente con las funciones de mapeo mencionadas anteriormente, r2adj es el valor de LD ajustado para el tamaño de la muestra y α:= {1, 2, 2.2} es una corrección para la aparición de mutaciones (Ohta y Kimura, 1971). Por lo tanto, la DL en distancias recombinantes mayores es informativa en Ne reciente, mientras que las distancias más cortas proporcionan información en tiempos más distantes en el pasado. Se implementa un sistema de binning para obtener valores promediados de r2 que reflejen LD para distancias entre locus específicas. El sistema de compartimiento implementado utiliza la siguiente fórmula para definir los valores mínimo y máximo para cada compartimiento:

bimin=minD+(maxD−minD) (bi−1totBins)x (6a)

bimax=minD+(maxD−minD) (bitotBins)x (6b)

Donde bi (ℕ1) es el primer contenedor del número total de contenedores (totBins), minD y maxD son respectivamente el mínimo y el máximo la distancia entre SNPs y x es un número real positivo (ℝ0) Cuando x es igual a 1, la distribución de distancias entre los contenedores es lineal y cada contenedor tiene el mismo rango de distancia. Para valores más grandes de x, la distribución de distancias cambia permitiendo un rango más grande en los últimos contenedores y un rango más pequeño en los primeros contenedores. La variación de este parámetro permite al usuario tener un número suficiente de comparaciones en pares para contribuir a la estimación final de Ne para cada bin.

Aplicación de ejemplo

Probamos SNeP con dos conjuntos de datos publicados que se habían utilizado previamente para describir tendencias en Ne a lo largo del tiempo utilizando LD, Bos indicus y Ovis aries . Las estimaciones de r2 para los conjuntos de datos de ganado fueron obtenidas por los autores utilizando Gentable (Aulchenko et al., 2007) utilizando una frecuencia alélica mínima (MAF) < 0.01 y ajustando la tasa de recombinación utilizando la función de mapeo de Haldane (Haldane, 1919). Las estimaciones r2 de los datos de ovejas fueron calculadas por los autores utilizando PLINK-1.07(Purcell et al., 2007), con un MAF < 0.05 y sin correcciones adicionales. Para ambos conjuntos de datos autosómicos, las estimaciones r2 se corrigieron para el tamaño de la muestra utilizando la ecuación (4) con β = 2. Para estos análisis comparativos, la línea de comandos de SNeP incluyó los mismos parámetros utilizados para los datos publicados, aparte de las estimaciones r2, calculadas a través del recuento de genotipos y el uso de la nueva estrategia de binning de SNeP.

Resultados

SNeP es una aplicación multiproceso desarrollada en C++ y binarios para los sistemas operativos más comunes (Windows, OSX y Linux) que se puede descargar desde https://sourceforge.net/projects/snepnetrends/. Los binarios van acompañados de un manual que describe el uso paso a paso de SNeP para inferir tendencias en Ne como se describe aquí. SNeP produce un archivo de salida con columnas delimitadas por tabulaciones que muestran lo siguiente para cada bin que se utilizó para estimar Ne: el número de generaciones en el pasado a las que corresponde el bin (p. ej., hace 50 generaciones), la estimación de Ne correspondiente, la distancia media entre cada par de SNPs en el contenedor, el promedio de r2 y la desviación estándar de r2 en el contenedor, y el número de SNPs utilizados para calcular r2 en el contenedor. Este archivo se puede importar fácilmente en Microsoft Excel, R u otro software para trazar los resultados. Las gráficas mostradas aquí (Figuras 1, 3) corresponden a las columnas de hace generaciones y Ne del archivo de salida. La columna con la desviación estándar de r2 se proporciona para que los usuarios inspeccionen la varianza en la estimación de Ne en cada compartimiento, particularmente para aquellos compartimientos que reflejan estimaciones de tiempo más antiguas y que son menos confiables a medida que el número de SNPs utilizados para estimar r2 se reduce.

FIGURA 1.

la Figura 1. Comparación de las tendencias Ne de seis razas ovinas suizas según Burren et al. (2014) (líneas discontinuas) y este trabajo (líneas continuas).

El formato requerido para los archivos de entrada es el formato PLINK estándar (ped y archivos de mapa) (Purcell et al., 2007). SNeP permite a los usuarios calcular LD en los datos como se describió anteriormente, o usar una matriz LD precalculada personalizada para estimar Ne usando la Ecuación (5).

La interfaz de software permite al usuario controlar todos los parámetros del análisis, por ejemplo, el rango de distancia entre SNPs en bp, y el conjunto de cromosomas utilizados en el análisis (por ejemplo, 20-23). Además, SNeP incluye la opción de elegir un umbral MAF (predeterminado 0.05), ya que se ha demostrado que la contabilidad de MAF da lugar a estimaciones imparciales de r2, independientemente del tamaño de la muestra (Sved et al., 2008). La arquitectura multihilo de SNeP permite el cálculo rápido de grandes conjuntos de datos (probamos hasta ~100K SNPs para un solo cromosoma), por ejemplo, los datos de BOS descritos aquí se analizaron con un procesador en 2’43», el uso de dos procesadores redujo el tiempo a 1’43», cuatro procesadores redujeron el tiempo de análisis a 1’05».

Ejemplo de cebú

Para el análisis de cebú, las formas de las curvas Ne obtenidas con SNeP y sus tendencias de datos publicados mostraron la misma trayectoria con una disminución suave hasta hace aproximadamente 150 generaciones, seguida de una expansión con un pico hace alrededor de 40 generaciones y que termina en una fuerte disminución en las generaciones más recientes (Figura 1). Sin embargo, si bien las tendencias en ambas curvas fueron las mismas, los dos enfoques dieron lugar a estimaciones de Ne diferentes, con valores de SNeP aproximadamente tres veces mayores que los del documento original. Si bien intentamos utilizar los parámetros de los autores en nuestros análisis, algunas diferencias fueron inevitables, es decir, la publicación original de los datos de ganado estimado r2 con un enfoque diferente al implementado en el SNeP. Los análisis con SNeP se basaron en genotipos, mientras que el análisis original se basó en dos haplotipos de locus inferidos, lo que resulta en los datos publicados que muestran un r2 esperado de 0,32 a la distancia mínima, mientras que nuestras estimaciones fueron de 0,23. Del mismo modo, Mbole-Kariuki et al. (2014) obtuvieron un nivel de fondo r2 = 0.013 alrededor de 2 Mb, mientras que nuestra estimación a la misma distancia fue de 0.0035 (no se muestran los datos). En consecuencia, como nuestras estimaciones de LD fueron consistentemente más pequeñas que Mbole-Kariuki et al. (2014) se espera que nuestras estimaciones de Ne sean mayores. Si bien esta observación pone de relieve la importancia de una elección cuidadosa de los parámetros y sus umbrales, es importante destacar que, aunque la magnitud absoluta de los valores de Ne es diferente, las tendencias son casi idénticas.

Ejemplo de ovejas suizas

Las seis razas de ovejas suizas analizadas con SNeP produjeron resultados comparables con los del artículo original (Figura 2), con curvas de tendencia Ne en su mayoría superpuestas (Figura 3). Sin embargo, la tendencia general en Ne mostró una disminución hacia el presente. SNeP produjo valores ligeramente mayores de Ne para el pasado más lejano (700-800 generaciones). Esto se debe al diferente sistema de binning utilizado en SNeP, que permite al usuario obtener una distribución más uniforme de comparaciones en pares dentro de cada bin (p. ej., el número de comparaciones de pares SNP dentro de cada bin es comparable). Para el lapso de tiempo que se extiende más allá de hace 400 generaciones, Burren et al. (2014) utilizaron solo tres contenedores en su análisis (centrados en 400, 667 y 2000 generaciones atrás), mientras que para el mismo lapso de tiempo,SNeP utilizó 5 contenedores con una serie de comparaciones en pares que dependen del rango definido con fórmulas 6a, b. En consecuencia, el enfoque de Burren y sus colegas termina con una mayor densidad de datos que describen las generaciones más recientes que los que describen las generaciones más antiguas. Por lo tanto, el uso de menos contenedores tiende a aumentar la presencia de valores más pequeños de Ne en cada contenedor, lo que reduce el valor promedio de Ne para cada contenedor. Los valores de Ne para el pasado reciente, comparados en la generación 29 en el pasado, dieron resultados muy similares. La diferencia más grande (50) se obtuvo para la raza SBS.

FIGURA 2

la Figura 2. Comparación entre los valores de Ne recientes calculados en la generación 29 en este trabajo y Burren et al. (2014) para seis razas de ovejas suizas.

FIGURA 3

la Figura 3. Comparación de las tendencias de Ne para las últimas 250 generaciones en los datos de SHZ obtenidos por Mbole-Kariuki et al. (2014) (línea discontinua) y usando SNeP (línea continua).

Discusión

el Análisis de Ne LD utilizando datos se demostró por primera vez hace 40 años, y ha sido aplicado, desarrollado y mejorado desde entonces (Sved, 1971; Hayes et al., 2003; Tenesa et al., 2007; de Roos et al., 2008; Corbin et al., 2012; Sved et al., 2013). El número tradicionalmente pequeño de SNPs analizados ya no es una limitación, ya que los chips SNP comprenden un número extremadamente grande de SNPs, disponibles en poco tiempo y a un precio razonable. Esto ha impulsado el uso del método, que se ha aplicado a los seres humanos (Tenesa et al., 2007; McEvoy et al., 2011), así como a varias especies domesticadas (England et al., 2006; Uimari y Tapio, 2011; Corbin et al., 2012; Kijas et al., 2012). Junto con estas mejoras, las limitaciones metodológicas se han hecho evidentes y se han abordado aquí, y la mayoría de los esfuerzos apuntan a la estimación correcta de Ne recientes. Sin embargo, el valor cuantitativo de la estimación depende en gran medida del tamaño de la muestra, el tipo de estimación de la DL y el proceso de binning (Waples y Do, 2008; Corbin et al., 2012), mientras que su patrón cualitativo depende más de la información genética que de la manipulación de datos.

Hasta el momento, este método se ha aplicado utilizando una variedad de software, no existe un enfoque estandarizado para binarizar los resultados y cada estudio ha aplicado un enfoque más o menos arbitrario, por ejemplo, binning para clases de generación en el pasado (Corbin et al., 2012), binning para clases a distancia con un rango constante para cada bin (Kijas et al., 2012) o compartimentación por clases de distancia de manera lineal, pero con compartimentos más grandes para los puntos de tiempo más recientes (Burren et al., 2014). Hasta donde sabemos, el único software disponible que estima Ne a través de LD es NeEstimator (Do et al., 2014), una versión actualizada del antiguo LDNE (Waples y Do, 2008) que permite el análisis de grandes conjuntos de datos (como SNPChip de 50k). Es importante destacar que, mientras que el SNeP se centra en estimar las tendencias históricas de Ne, el objetivo de NeEstimator es producir estimaciones de Ne imparciales contemporáneas, por lo que estas últimas deben considerarse como una herramienta complementaria al investigar la demografía a través de LD.

Utilizamos SNeP para analizar dos conjuntos de datos en los que el método se aplicó previamente. Los resultados obtenidos para los datos de ovejas fueron tanto cuantitativa como cualitativamente comparables con los obtenidos por Burren et al. (2014), mientras que para los datos de Cebú obtuvimos una estimación de la tendencia Ne que coincidió estrechamente con la de Mbole-Kariuki et al. (2014) aunque nuestras estimaciones puntuales de Ne fueron mayores que las descritas para los datos (Mbole-Kariuki et al., 2014). La discrepancia entre estos dos resultados refleja que Burren y sus colegas produjeron sus estimaciones de r2 utilizando PLINK (el software estándar para la manipulación de datos SNP a gran escala) que utiliza el mismo enfoque utilizado para estimar r2 por SNeP, mientras que Mbole-Kariuki et al. siguió a Hao et al. (2007) for r2 estimation. El uso de diferentes estimaciones para LD es crítico para el aspecto cuantitativo de la curva Ne, donde debido a la correlación hiperbólica entre Ne y r2, una disminución de r2 en su rango más cercano a 0 puede conducir a un cambio muy grande en las estimaciones de Ne, mientras que las diferencias en las estimaciones son menos significativas cuando el valor de r2 es alto, es decir, más cercano a 1. Por lo tanto, aunque en uno de los conjuntos de datos los valores de Ne fueron sustancialmente diferentes, en ambos casos las curvas de Ne se solaparon con las publicadas originalmente.

Como ya han sugerido otros autores, la fiabilidad de las estimaciones cuantitativas obtenidas con este método debe tomarse con precaución, especialmente para los valores de Ne relacionados con las generaciones más recientes y más antiguas(Corbin et al., 2012) porque para las generaciones recientes, están involucrados grandes valores de c, no ajustándose a las implicaciones teóricas que Hayes propuso para estimar una variable Ne a lo largo del tiempo (Hayes et al., 2003). Las estimaciones para las generaciones más antiguas también podrían ser poco fiables, ya que la teoría coalescente muestra que no se puede muestrear de manera confiable ningún SNP después de 4Ne generaciones en el pasado (Corbin et al., 2012). Además, las estimaciones de Ne, y especialmente las relacionadas con generaciones posteriores en el pasado, se ven fuertemente afectadas por factores de manipulación de datos, como la elección de los valores MAF y alfa. Además, la estrategia de compartimentado aplicada puede interferir con la precisión general del método, por ejemplo, cuando se utiliza un número insuficiente de comparaciones en parejas para llenar cada contenedor.

Una de las aplicaciones del método es comparar demografías de razas. En este caso, la forma de las curvas Ne sería la herramienta óptima para diferenciar diferentes historias demográficas, más que sus valores numéricos, usándolas como una huella demográfica potencial para esa raza o especie, sin embargo, teniendo en cuenta que la mutación, la migración y la selección pueden influir en la estimación de Ne a través de LD (Waples y Do, 2010). Además, la consideración cuidadosa de los datos analizados con SNeP (y otro software para estimar Ne) es muy importante, ya que la presencia de factores de confusión como la mezcla, puede resultar en estimaciones sesgadas de Ne (Orozco-terWengel y Bruford, 2014).

El objetivo de SNeP es, por lo tanto, proporcionar una herramienta rápida y confiable para aplicar métodos LD para estimar Ne utilizando datos genotípicos de alto rendimiento de una manera más consistente. Permite dos enfoques de estimación r2 diferentes, además de la opción de usar estimaciones r2 de software externo. El uso de SNeP no supera los límites del método y de la teoría detrás de él, sin embargo, permite al usuario aplicar la teoría utilizando todas las correcciones sugeridas hasta la fecha.

Contribuciones de los autores

MB concibió y escribió el software y el manuscrito. MB, MT y POtW probaron el software y realizaron los análisis. MT, POtW y MWB revisaron el manuscrito. Todos los autores aprobaron el manuscrito final.

Declaración de Conflicto de Intereses

Los autores declaran que la investigación se realizó en ausencia de relaciones comerciales o financieras que pudieran interpretarse como un posible conflicto de intereses.

Agradecimientos

Agradecemos a Christine Flury por proporcionar los datos de las ovejas y por la útil discusión. También agradecemos a los dos revisores sus útiles sugerencias para mejorar este artículo. MB fue apoyado por el programa Master and Back (Regione Sardegna).

Charlesworth, B., Nordborg, M., and Charlesworth, D. (1997). The effects of local selection, balanced polymorphism and background selection on equilibrium patterns of genetic diversity in subdivided populations. Genet. Res. 70, 155 a 174. doi: 10.1017 / S0016672397002954

PubMed Resumen | Texto completo | Texto completo Cruzado/Google Scholar

Crow, J. F., and Kimura, M. (1970). An Introduction to Population Genetics Theory (en inglés). Nueva York, NY: Harper and Row.

Google Scholar

Ohta, T., y Kimura, M. (1971). Desequilibrio de enlace entre dos sitios de nucleótidos segregantes bajo el flujo constante de mutaciones en una población finita. Genetics 68, 571-580.

Resumen de PubMed | Texto completo/Google Scholar

Wright, S. (1943). Aislamiento por distancia. Genetics 28, 114-138.

Resumen de PubMed / Texto completo / Google Scholar