El panel de referencia de haplotipos SWine IMputation (SWIM) permite el mapeo genético de resolución de nucleótidos en cerdos
HogarHogar > Noticias > El panel de referencia de haplotipos SWine IMputation (SWIM) permite el mapeo genético de resolución de nucleótidos en cerdos

El panel de referencia de haplotipos SWine IMputation (SWIM) permite el mapeo genético de resolución de nucleótidos en cerdos

Nov 11, 2023

Biología de las comunicaciones volumen 6, Número de artículo: 577 (2023) Citar este artículo

192 Accesos

2 Altmetric

Detalles de métricas

El mapeo genético para identificar genes y alelos asociados o que causan una variación de rasgos cuantitativos económicamente importante en animales de ganado como los cerdos es un objetivo importante en la mejora genética animal. A pesar de los avances recientes en tecnologías de genotipado de alto rendimiento, la resolución del mapeo genético en cerdos sigue siendo deficiente debido en parte a la baja densidad de sitios de variantes genotipadas. En este estudio, superamos esta limitación mediante el desarrollo de un panel de haplotipos de referencia para cerdos basado en 2259 animales secuenciados con genoma completo que representan 44 razas de cerdos. Evaluamos las combinaciones de software y la composición racial para optimizar el procedimiento de imputación y logramos una tasa de concordancia promedio superior al 96 %, una tasa de concordancia sin referencia del 88 % y un r2 de 0,85. Demostramos en dos estudios de caso que la imputación de genotipos utilizando este recurso puede mejorar drásticamente la resolución del mapeo genético. Se ha desarrollado un servidor web público para permitir que la comunidad de genética porcina utilice plenamente este recurso. Esperamos que este recurso facilite el mapeo genético y acelere la mejora genética en cerdos.

El cerdo doméstico (Sus scrofa) es una importante especie ganadera y un organismo modelo para la investigación biomédica1. Históricamente, la domesticación y la intensa selección artificial han creado muchas razas de cerdos que son genética y fenotípicamente distintas entre sí y de sus parientes silvestres2,3,4. Más recientemente, las tecnologías de genotipado y secuenciación de ADN de alto rendimiento5 han facilitado la mejora genética de los cerdos. Por ejemplo, cientos de estudios de mapeo de asociación de todo el genoma y locus de rasgos cuantitativos (QTL) han identificado numerosas regiones genómicas asociadas con varios fenotipos de producción, fisiológicos y de comportamiento6. Estos estudios son importantes para comprender las bases genéticas y biológicas de rasgos importantes desde el punto de vista económico y biomédico, como el crecimiento7, la fertilidad8 y la resistencia a enfermedades9.

La resolución del mapeo genético en cerdos sigue siendo pobre debido en parte a la baja densidad de matrices de genotipado de polimorfismo de nucleótido único (SNP). Un enfoque probado y rentable para superar la limitación en la resolución es a través de la imputación de genotipos, aprovechando el desequilibrio de ligamiento para inferir genotipos en loci10 polimórficos no observados. Con grandes paneles de referencia de haplotipos creados mediante la secuenciación del genoma completo, la imputación tiene el potencial de proporcionar genotipos a nivel de secuencia11. En animales de ganado, donde la identificación de QTL y la predicción genética son dos objetivos principales, y el desequilibrio de ligamiento es extenso, la imputación de genotipos a nivel de secuencia se ha aplicado con éxito con un número relativamente pequeño de haplotipos de referencia pero con una precisión aceptable12, 13. En cerdos, en particular, hay al menos dos servidores públicos de imputación disponibles14, 15. Sin embargo, contenían un número muy limitado de animales en el panel de referencia14 o carecían de una buena representación de las principales razas comerciales15, lo que limitaba sus aplicaciones. Además, aunque muchos estudios han demostrado mejoras en la resolución del mapeo16 y la precisión de la predicción genómica17, ninguno de estos es de acceso público.

En este estudio, producimos datos de secuencias del genoma completo de 1530 cerdos recién secuenciados y los combinamos con 729 animales adicionales de bases de datos públicas para llamar variantes y desarrollar, con mucho, el panel de referencia más grande y diverso de haplotipos en cerdos hasta la fecha. Este aumento sustancial en el número de genomas disponibles nos permitió imputar genotipos de matriz SNP a secuencias de genoma completo de forma rápida y precisa. Evaluamos la precisión de la imputación y demostramos la utilidad de este panel de referencia de haplotipos en el mapeo de asociación de todo el genoma. Presentamos un nuevo servidor web público (swimgeno.org) donde los usuarios pueden enviar genotipos de matriz y recuperar genotipos de nivel de secuencia de genoma completo imputados. Este recurso mejorará en gran medida el acceso a la imputación de genotipos de alta precisión, facilitando potencialmente el mapeo genético de resolución de nucleótidos en cerdos.

Consolidamos los datos de la secuencia del genoma completo de animales recién secuenciados (n = 1530) y los datos disponibles públicamente (Datos complementarios 1 y 2) para un total de 2259 cerdos, que representan 44 razas diferentes (Datos complementarios 1). La mayoría de los animales eran Landrace (n = 651), Yorkshire (n = 543) y Duroc (n = 485), tres de las principales razas comerciales. La profundidad de secuencia alineada de forma única fue de aproximadamente 12.86 X promediada en todos los animales (Datos complementarios 1). Llamamos a las variantes utilizando la canalización GATK y calibramos las puntuaciones de calidad de las variantes con conjuntos de variantes conocidas compiladas a partir de matrices SNP comerciales. Después de filtrar las variantes de baja calidad y excesiva heterocigosidad y ausencia, quedaron 47,86 M de variantes autosómicas. El submuestreo de animales indicó que el aumento en el número de variantes descubiertas disminuyó rápidamente (Fig. 1a). Más del 95 % de todas las variantes podrían recuperarse usando solo 1000 animales seleccionados al azar.

a Número de variantes descubiertas en función del número de animales en la cohorte de descubrimiento. La curva se genera dividiendo aleatoriamente la población en subconjuntos y contando las variantes de ADN que siguen siendo polimórficas. Se marca el número de variantes descubiertas utilizando 1000 y el conjunto completo de 2259 animales. b Desequilibrio de ligamiento por pares en cuatro razas domésticas y jabalíes de tres regiones. El r2 promedio se representa frente a la distancia entre variantes. La LD se calculó después de eliminar variantes de baja frecuencia (MAF < 0,05) y parientes cercanos (GRM > 0,5) en 435 Durocs, 522 Landraces, 493 Yorkshires, 36 Meishans, 24 jabalíes europeos y 27 jabalíes asiáticos. c Gráfico de dispersión de los dos primeros componentes principales de la matriz del genotipo para variantes comunes (MAF > 0,05) y podadas por LD. Los puntos están codificados por colores de acuerdo con la información de raza reportada. Se realizó un análisis preliminar de componentes principales para inspeccionar visualmente y eliminar los valores atípicos claros de los grupos, lo que indicaba errores en la información de la raza. d Los ancestros de los cerdos se estimaron con números variables (K = 2, 4, 6) de poblaciones ancestrales postuladas utilizando el software ADMIXTURE. Los ancestros estimados se trazaron como gráficos de barras apiladas con las razas anotadas en la parte superior. Además de las anotaciones sobre el gráfico de barras, también se anotan ubicaciones geográficas amplias debajo del gráfico de barras para K = 6.

El desequilibrio de ligamiento (LD) entre las variantes en esta población fue extenso pero difería según la raza (Fig. 1b). La LD en los jabalíes disminuyó más rápidamente a medida que aumentaba la distancia entre las variantes que en las razas domésticas, en consonancia con el alto nivel de consanguinidad entre las razas domésticas intensivamente seleccionadas (Fig. 1b). La variación genética presente en el genoma del cerdo separó las razas en distintos grupos que representaban la diferenciación geográfica (Fig. 1c, d). El primer componente principal de los genotipos separó las razas asiáticas y los jabalíes de sus contrapartes europeas, mientras que el segundo separó a los Durocs de otras razas (Fig. 1c). Los ancestros estimados de las razas también indicaron grupos claramente separados según sus ubicaciones geográficas (Fig. 1d). En conjunto, la variación genética diversa y rica en los 2259 genomas de cerdo incluidos en este estudio proporciona una base sólida para la imputación del genoma completo.

Nos enfocamos en las variantes autosómicas ~34 M (30 489 782 SNP y 4 125 579 indeles) que se segregan a una frecuencia de alelos menores (MAF) > 0,005 para construir el panel de referencia de haplotipos. Para investigar los factores que influyen en la precisión de la imputación, consideramos diferentes combinaciones de software de imputación y fase de uso común, incluidos SHAPEIT4/IMPUTE5, Beagle5.2/Beagle5.2 y Eagle2.4/Minimac4. Definimos la precisión de la imputación utilizando tres métricas, la tasa de concordancia general entre los genotipos imputados y observados, la tasa de concordancia sin referencia que resume la precisión solo para los genotipos sin referencia y la correlación al cuadrado (r2) entre los genotipos imputados y observados. Nos enfocamos en Landrace como el conjunto objetivo porque tiene la mayor cantidad de animales en el conjunto de datos. Sacamos 100 cerdos Landrace secuenciados con alta cobertura (>15X) y comparamos los genotipos observados con los genotipos imputados a partir de genotipos basados ​​en secuenciación en sitios en una matriz SNP de 50 K (GeneSeek GGP). Independientemente de la composición de la raza en el panel de referencia de haplotipos de tamaño fijo, SHAPEIT4/IMPUTE5 superó a Beagle5.2/Beagle5.2 y Eagle2.4/Minimac4 en las tres métricas (Fig. 2a–c). Por lo tanto, se eligió SHAPEIT4/IMPUTE5 para todos los análisis posteriores.

a Tasa de concordancia, tasa de concordancia sin referencia y r2 de genotipos imputados versus observados usando diferentes combinaciones de software con 550 Landraces como panel de referencia. b Mismo análisis pero en un panel de referencia que consta de 250 Landraces, 150 Durocs y 150 Yorkshires. c Mismo análisis pero en un panel de referencia compuesto por 250 Landraces y otras 300 razas (no Duroc ni Yorkshire).

En el ganado bovino, la imputación utilizando paneles de referencia multirraciales pareció ser más precisa que utilizando un panel de una sola raza12,18. Sin embargo, los paneles multirraciales se confunden con tamaños de muestra más grandes. Preguntamos si la imputación usando paneles de referencia del mismo tamaño de una sola raza y de una mezcla de múltiples razas hizo una diferencia (Fig. 3a, compare L, DLY y LO). Esta pregunta fue importante ya que informa si se debe usar un panel de referencia de varias razas o de una raza específica para lograr una precisión óptima. Nuevamente consideramos 100 animales Landrace como el objetivo establecido debido a su tamaño de muestra relativamente más grande. Descubrimos que la precisión de imputación medida por las tres métricas era notablemente similar (Fig. 3b–d) cuando el tamaño del panel de referencia era igual. El panel de referencia derivado de la misma raza que el conjunto objetivo tuvo una ventaja muy leve (Fig. 3b–d). Sin embargo, los paneles multirraciales son útiles porque la referencia de la misma raza sola (pero con un tamaño de muestra más pequeño) no pudo lograr la misma precisión (Fig. 3, compare L-250 con otros). Debido a que la gran mayoría de los cerdos Landrace eran de una sola población, la precisión de la imputación puede no reflejar un escenario realista cuando los nuevos conjuntos de objetivos se derivan de otras poblaciones. Evaluamos la precisión de la imputación utilizando 550 animales como conjunto de referencia, pero 41 cerdos Landrace del SRA como conjunto objetivo, lo que representa una situación en la que los conjuntos objetivo están distantes de la referencia. Las precisiones de imputación fueron más bajas y el panel multirracial parecía tener una pequeña ventaja (Figura 1 complementaria). Ampliar el panel de referencia a 2218 animales aumentó sustancialmente la precisión (Fig. 2 complementaria). Las precisiones más bajas pueden deberse a una combinación de la pequeña cantidad de animales objetivo, así como a una mayor distancia genética del panel de referencia. En conjunto, aunque la comparación entre paneles multirraciales y específicos de la raza del mismo tamaño depende de situaciones específicas, en la mayoría de los casos se prefiere un panel de referencia multirracial en lugar de un panel de referencia específico de la raza, ya que maximiza el tamaño del panel de referencia. .

un diseño experimental para investigar el efecto de la composición racial del panel de referencia de haplotipos en la precisión de la imputación. Se probaron tres paneles de referencia, incluido 'L': 550 animales Landrace; 'DLY': 550 cerdos de las razas Duroc, Landrace y Yorkshire; 'LO': 550 cerdos de Landraces y otras razas no Duroc o Yorkshire; 'L-250': 250 animales Landrace únicamente. Se utilizaron cien Landraces como conjunto objetivo. Tasa de concordancia (b), tasa de concordancia sin referencia (c) y r2 (d) de genotipos imputados versus observados utilizando diferentes composiciones de raza del panel de referencia de haplotipos.

Comparamos nuestro recurso SWine Imputation (SWIM) utilizando el panel de referencia de múltiples razas con un servidor de imputación para cerdos (PHARP) que utilizó 1006 animales disponibles públicamente en el SRA15. Evaluamos la precisión de la imputación entre las variantes que estaban presentes en ambos paneles de referencia. PHARP contenía relativamente pocas razas comerciales importantes, incluidas 115 Yorkshires, 85 Durocs y 48 Landraces. Consideramos conjuntos de objetivos de Landrace, Duroc y Yorkshire, en los que se lleva a cabo la gran mayoría de los GWAS (Fig. 4a). Al evaluar la precisión de la imputación, seleccionamos 100 animales como el conjunto objetivo y usamos el resto (n = 2159) como panel de referencia de haplotipos. Si bien la tasa de concordancia general fue uniformemente alta (>94,24 %), la imputación utilizando el panel SWIM desarrollado en el presente estudio fue consistentemente más alta que PHARP dentro de cada raza (Fig. 4b). La mejora fue mucho más pronunciada cuando se consideró la tasa de concordancia sin referencia y r2, dos métricas que reflejan más fielmente la precisión, especialmente a baja frecuencia (Fig. 4c, d). La diferencia entre SWIM y PHARP podría ser simplemente una diferencia en el tamaño de la muestra, especialmente para las razas evaluadas. Se espera que el panel final de haplotipos de referencia que consta de los 2259 animales logre una tasa de concordancia superior al 95,84 %, una tasa de concordancia sin referencia del 88,26 % y un r2 de 0,85.

a Composición de los paneles de referencia de haplotipos, incluidos diferentes escenarios de SWIM y PHARP, y conjunto de objetivos. SWIM-100Y, SWIM-100D y SWIM-100L ofrecen 100 Yorkshire, 100 Duroc y 100 Landrace como objetivo, respectivamente. Para el panel de referencia PHARP, se utilizan los mismos 100 Yorkshire, 100 Duroc y 100 Landrace para evaluar la precisión de la imputación. b Tasa de concordancia de genotipos imputados versus observados utilizando diferentes paneles de referencia de haplotipos. La tasa de concordancia media en todas las variantes también se indica en el gráfico para cada panel de referencia. c Tasa de concordancia sin referencia de genotipos imputados versus observados utilizando diferentes paneles de referencia de haplotipos. La tasa media de concordancia sin referencia en todas las variantes también se indica en el gráfico para cada panel de referencia. dr2 de genotipos imputados versus observados utilizando diferentes paneles de referencia de haplotipos. El r2 medio de todas las variantes también se indica en el gráfico de cada panel de referencia.

También evaluamos el rendimiento de diferentes chips SNP iniciales, incluidos GeneSeek GGP 50K, Affymetrix Wens 55K y Affymetrix Axiom PigHD 660K. Se eligieron estos chips porque Wens 55K y GGP 50K tienen una cantidad similar de SNP pero comparten menos SNP, y Axiom PigHD representa una mayor densidad. Las precisiones de imputación se evaluaron en 100 Durocs y utilizando 2159 animales como referencia (Fig. 3a complementaria). Después de la eliminación de los SNP cuyas sondas no se mapeaban únicamente en el genoma de referencia o eran monomórficas, 39 491, 48 337 y 561 111 SNP se superpusieron con el panel de referencia de haplotipos para GeneSeek GGP, Wens y Axiom PigHD, respectivamente (Fig. 3b complementaria). Como se esperaba, una mayor densidad de SNP condujo a una mayor precisión de imputación (Figura complementaria 3c-e) en las tres métricas, con el chip Affymetrix PigHD 660K SNP logrando una precisión notablemente alta con una tasa de concordancia general del 99,50 % (Figura complementaria 3c), 98,63 % de tasa de concordancia sin referencia (Figura 3d complementaria) y 0,98 r2 (Figura 3e complementaria).

Para demostrar la utilidad de la imputación de genotipos a nivel de secuencia en el mapeo genético, realizamos estudios de asociación de todo el genoma (GWAS) para dos rasgos de crecimiento importantes en cerdos, utilizando matrices de SNP y genotipos imputados. Los dos rasgos, el grosor de la grasa dorsal y la longitud del cuerpo, se eligieron porque los genes causales putativos y las mutaciones se han caracterizado bien previamente. Nuestro objetivo era ver si GWAS basado en imputación podía encontrar variantes y genes funcionales previamente validados.

El espesor de la grasa dorsal (BF) es uno de los rasgos económicos más importantes en los cerdos y ha sido intensamente cuestionado por su base genética. Las heredabilidades genómicas estimadas utilizando SNP de matriz o SNP imputados fueron similares e indicaron un rasgo moderadamente heredable (Fig. 5a). Los alelos en varios genes, incluidos IGF219,20, MC4R21 y LEPR22, se han asociado consistentemente con la variación de BF en cerdos. En particular, una mutación de cambio de sentido en el gen MC4R (chr1:160773437:G>A) ha sido sugerida como la mutación causante21 y ampliamente replicada en múltiples antecedentes genéticos23. Además, las mutaciones en MC4R están fuertemente asociadas con la aparición temprana de obesidad en humanos24, y su papel en la regulación de la homeostasis energética está bien establecido25. Es importante destacar que la supuesta mutación causal en MC4R se ha incluido en una de las matrices de genotipado de SNP disponibles comercialmente, el chip Geneseek GGP Porcine 50K SNP (Neogen, Lincoln, NE). Sin embargo, el mismo SNP no está presente en el chip Illumina PorcineSNP60 más utilizado. Para ver si la imputación del genotipo fue capaz de imputar correctamente los genotipos de este SNP, excluimos el SNP MC4R e imputamos los genotipos del genoma completo de una población de 3769 cerdos Duroc genotipados utilizando las matrices GGP Porcine 50K SNP. Sorprendentemente, la tasa de concordancia y r2 entre los genotipos SNP MC4R imputados y de matriz fueron 99,71% y 0,9916, respectivamente. Realizamos GWAS utilizando matrices y genotipos imputados; ambos mostraron un pico importante en el cromosoma 1 (Fig. 5a, Datos complementarios 3 y 4) y una clara desviación de la distribución del valor P del valor nulo (Fig. 4a complementario). Usando genotipos imputados, el mayor éxito de los SNP imputados (chr1: 161511936: T> C, P = 2.98 × 10−13) explicó el 2.85% de la variación fenotípica total (Fig. 5a). Bajo este pico en una región de 4 Mb (158,5–162,5 Mb), había 7138 variantes dentro de 22 genes. El desequilibrio de ligamiento en esta región fue extenso, con 1050 variantes en LD fuerte (r2 > 0.8) con el impacto superior, incluido el SNP MC4R (Fig. 5b). El mayor éxito fue un SNP intrónico en el gen CCBE1 (Fig. 5b). Sin embargo, la extensa LD en esta región dificulta la identificación de una mutación causante únicamente mediante datos genéticos. La información funcional adicional y los datos genéticos que rompen el LD son necesarios para mapear aún más los genes causantes y las mutaciones. Sin embargo, la capacidad de identificar el SNP causal putativo de MC4R como una de las principales variantes asociadas en un largo tramo de región de LD alta demostró claramente la mejora de la resolución utilizando genotipos imputados. En nuestro análisis, el MC4R SNP se eliminó inicialmente y, de lo contrario, sería invisible sin la imputación, como sería el caso si se usaran los chips Illumina PorcineSNP60.

un diagrama de Manhattan de estudios de asociación del genoma completo (GWAS) para el grosor de la grasa dorsal. Los puntos grises (oscuros y claros) en el fondo son de GWAS usando genotipos imputados, mientras que los puntos azules (claros y oscuros) son de GWAS usando chips SNP. Se indican las heredabilidades genómicas calculadas utilizando matrices y genotipos imputados. Los SNP más significativos de GWAS que utilizan genotipos imputados y de matriz se indican mediante círculos y flechas. b Asociación dentro de la región de 158,5–162,5 Mb del cromosoma 1, donde se encuentran los principales resultados en GWAS. Los puntos indican −log10 (valor P) a lo largo del cromosoma utilizando genotipos imputados y SNP donde las matrices también tienen genotipos marcados con cruces. Los principales SNP de GWAS que utilizan genotipos imputados y de matriz están marcados con círculos y flechas. r2 entre los SNP y el SNP superior (chr1:161511936:T > C) se indica mediante un degradado de color azul. Las ubicaciones de los genes se indican en el recuadro debajo del gráfico, donde los recuadros azules y los nombres de genes con punta de flecha hacia la izquierda (<) indican genes transcritos en la hebra inversa, y los recuadros rojos y los nombres de genes con punta de flecha hacia la derecha (>) indican genes transcritos de la hebra delantera. Los genes que no están marcados no tienen símbolos de genes. Las ubicaciones de genes se basan en la anotación Ensembl Release 98.

Luego consideramos la longitud del cuerpo. Imputamos genotipos de un chip Affymetrix 55K SNP (Wens55K) a una secuencia de genoma completo utilizando nuestra plataforma de imputación y realizamos GWAS en una población de 1694 jabalíes de Yorkshire (Fig. 6a). El rasgo tiene una heredabilidad moderadamente alta, según lo estimado usando genotipos tanto de matriz (h2 ~ 0.32) como imputados (h2 ~ 0.34) (Fig. 6a). Usando GWAS (Fig. S4b complementaria), encontramos un pico altamente significativo en el cromosoma 17 (Fig. 6a, Datos complementarios 5 y 6) donde la variante principal era un SNP intergénico aguas arriba del gen BMP2 (chr17: 15643342: C> T , P = 3,45 × 10−39). Sorprendentemente, esta variante explicó el 13,65% de la variación fenotípica total, y los animales homocigotos C/C fueron, en promedio, 4,01 cm más largos que los homocigotos T/T (Fig. 6b, c). Se ha demostrado repetidamente que BMP2 está asociado con rasgos de crecimiento en cerdos. Un estudio reciente implicó una variante reguladora corriente arriba del gen BMP2 y validó su impacto funcional utilizando genes informadores26. Esta variante reguladora fue el tercer SNP más significativo bajo este pico en nuestro análisis. Queda por determinar si una o ambas de estas variantes potencialmente reguladoras son las mutaciones causantes. Dada la fuerte asociación, el alto MAF de estos SNP y la LD menos extensa en esta región, es poco probable que estas variantes reguladoras marcaran variantes codificantes de proteínas y menos comunes en el gen BMP2. Además del apoyo genético de esta población de Yorkshire, el alelo C que aumenta la longitud del cuerpo fue mucho más frecuente en Landrace que en otras razas. Un sello distintivo de la raza Landrace es su tamaño corporal largo; por lo tanto, la variación regulatoria del gen BMP2 puede contribuir de manera importante a la diferenciación fenotípica entre las razas de cerdos. Por el contrario, aunque el chip SNP pudo identificar ampliamente esta región, el SNP más significativo (chr17:15827832:T>G, P = 1,58 × 10−25) en un GWAS basado en chip SNP estaba a unos 184 kb de distancia del conducir SNP y explicó una variación sustancialmente menor (8,22% frente a 13,65%).

un gráfico de Manhattan de estudios de asociación del genoma completo (GWAS) para la longitud del cuerpo. Los puntos grises (oscuros y claros) en el fondo son de GWAS usando genotipos imputados, mientras que los puntos azules (claros y oscuros) son de GWAS usando chips SNP. Se indican las heredabilidades genómicas calculadas utilizando matrices y genotipos imputados. b Asociación dentro de la región de 15,3 a 16,3 Mb del cromosoma 17, donde se encuentran los resultados principales en GWAS. Los puntos indican −log10 (valor P) a lo largo del cromosoma utilizando genotipos imputados y SNP donde las matrices también tienen genotipos marcados con cruces. Los principales SNP de GWAS que utilizan genotipos imputados y de matriz están marcados con círculos y flechas. r2 entre los SNP y el SNP superior (chr17: 15643342: C> T) se indican mediante un degradado de color azul. Las ubicaciones de los genes se indican en el cuadro debajo del gráfico y de acuerdo con la anotación Ensembl Release 98. Los tres genes están coloreados en rojo y se transcriben desde la cadena anterior. El único gen con un símbolo en esta región es BMP2. c Gráficos de dispersión y de caja de la longitud del cuerpo (en cm) para los tres genotipos del SNP chr17:15643342:C>T. Los límites inferior y superior de la caja son, respectivamente, los cuantiles del 25 % y el 75 % de los datos, la mediana de la línea media y los mínimos y máximos de los bigotes. d Frecuencias alélicas del SNP chr17:15643342:C>T en diferentes razas.

Para permitir que la amplia comunidad de investigación utilice de manera eficiente el recurso desarrollado en este estudio, desarrollamos un servidor web público SWine Imputation (SWIM) (https://www.swimgeno.org y https://swim.scau.pigselection.com/ nadar), en el que los usuarios pueden cargar genotipos de chips SNP y recuperar genotipos imputados. La interfaz de usuario es extremadamente simple, solo requiere que los usuarios carguen los genotipos en formato gzip ped/map y dejen sus direcciones de correo electrónico. A diferencia de otros servidores, como PHARP, la coincidencia de alelos y la inversión se realizan en el extremo del servidor, lo que simplifica aún más el proceso en el extremo del usuario. El estado de imputación se puede monitorear y los resultados se pueden descargar desde un enlace dinámico sin tener que registrar una cuenta. El servidor está configurado para acomodar múltiples usuarios al mismo tiempo mientras limita múltiples trabajos del mismo usuario. Nuestras pruebas indicaron que un trabajo típico con 2000 individuos y genotipos de chip SNP de 50K se puede completar en aproximadamente 12 h para todos los cromosomas.

Aquí presentamos el desarrollo del panel de haplotipos de referencia más grande en cerdos y un servidor web adjunto para que el público utilice este recurso para la imputación de genotipos. El alto nivel de diversidad y la gran cantidad de animales en el panel nos permitieron lograr una precisión de imputación muy alta con tasa de concordancia, tasa de concordancia sin referencia y r2 superior al 95,84 %, 88,26 % y 0,85, respectivamente, a partir de Arreglos SNP de 50K (Fig. 2). Las precisiones fueron comparables a las obtenidas con arreglos de SNP de densidad media dentro de poblaciones con pedigrí27. Dada la alta precisión y el fácil acceso sin requisitos de pedigrí, esperamos que este recurso público democratice enormemente la imputación a nivel de secuencia en cerdos y acelere los descubrimientos genéticos. Actualmente, el servidor SWIM solo admite la imputación basada en chip SNP. La imputación basada en secuenciación de baja cobertura es mucho más difícil de acomodar en un servidor web debido a su requisito de recursos computacionales masivos. No obstante, los usuarios pueden implementar su imputación basada en secuenciación de baja cobertura utilizando el panel de referencia de haplotipos que compartimos.

Las matrices de genotipado de alto rendimiento simplificaron en gran medida el genotipado, y se mapearon numerosos QTL nuevos mediante el mapeo de asociación, generalmente dentro de una raza y con cientos a miles de individuos6. Sin embargo, aunque la resolución ha mejorado con las matrices de SNP, los genes causales y las mutaciones siguen siendo extremadamente esquivos, en parte porque las matrices de SNP priorizan la viabilidad del ensayo, el espaciado homogéneo y los SNP comunes5.

Nuestras evaluaciones indicaron que Shapeit4/Impute5 superó a otras combinaciones de software, una mayor densidad de chips SNP condujo a una mayor precisión de imputación y se prefirieron paneles de referencia de haplotipos de razas múltiples que maximizan el tamaño de la muestra. Es importante destacar que los animales que estaban genéticamente más cerca del panel de referencia de haplotipos podrían imputarse con mayor precisión. Esto refuerza aún más la importancia de compartir datos para aumentar la representación en el panel de referencia de haplotipos.

Como hemos demostrado con los ejemplos anteriores, se espera que la imputación mejore en gran medida la resolución del mapeo de genes. Dada la gran cantidad de estudios de asociación de todo el genoma existentes en cerdos6, esperamos que este recurso sea muy utilizado y tenga un gran impacto. De hecho, se imputaron más de 130 000 genomas en el primer año desde que el servidor se hizo público, incluido un estudio reciente que descubrió que SWIM imputaba genomas para detectar SNP más significativos en comparación con otras plataformas28. Todos los estudios existentes que utilizan matrices SNP se pueden mejorar mediante una simple imputación seguida de GWAS sin datos adicionales. El metanálisis también es posible porque se puede obtener un conjunto de SNP común. No obstante, la resolución del mapeo genético depende no solo de la densidad de SNP sino también del diseño experimental y la estructura genética en la población de mapeo. La imputación a nivel de secuencia no identifica necesariamente las mutaciones causales en un solo paso16. La disponibilidad de este recurso permitirá diseños adecuados de estudios de mapeo para lograr la resolución más alta posible en circunstancias específicas y, potencialmente, una resolución de nucleótidos.

Consolidamos datos WGS de múltiples fuentes. En este estudio se notifica por primera vez un total de 1530 animales utilizando plataformas Illumina (n = 863) y BGI (n = 667) con lecturas de extremos emparejados de 150 pb. Entre ellos, 610 Landrace, 413 Duroc, 391 Yorkshire, 18 Taiwanhei y 17 Lichahei eran de Wen's Food Group Co., Ltd. (Yunfu, Guangdong, China), 21 Dahuabai, 21 Lantanghei, 20 Guangdong Xiaoerhua y 19 Yuedonghei de Banco genético de ganado y aves de corral de Guangdong (Guangzhou, Guangdong, China). Además, las secuencias de 729 animales se descargaron del archivo de lectura de secuencias (SRA). Se puede encontrar un desglose completo, incluidos los números de acceso, los tamaños de muestra y la cobertura de secuenciación promedio, en los Datos complementarios 1 y 2.

Alineamos las lecturas de secuencia con el genoma de referencia del cerdo (Sscrofa11.1, un cerdo Duroc)29 usando BWA-MEM-0.7.1730 y llamamos variantes (en formato GVCF) usando GATK-4.1.8.1 HaplotypeCaller31 después de varios pasos de procesamiento posteriores a la alineación, incluidos Eliminación de duplicados con PicardTools-2.23.331 y recalibración de calidad base con GATK. Se generó un VCF de población combinando los GVCF de todas las muestras. Se eliminaron las variantes con heterocigosidad excesiva ("ExcessHet > 54,69"). La recalibración del puntaje de calidad variante (VQSR) en los SNP se realizó con conjuntos de SNP verdaderos compilados a partir de conjuntos de SNP comerciales, incluidos chips SNP de 50K, 60K y 80K (anterior = 15,0) en la plataforma Illumina y 660K (anterior = 12,0), SowPro90 ( previo = 15.0) chips SNP de la plataforma Affymetrix. Los SNP se filtraron con un nivel de filtro de sensibilidad real de 99,0. Sin un conjunto real de indels, les aplicamos un filtrado riguroso al excluir indels con QD < 2,0, QUAL < 50,0, FS > 100,0, ReadPosRankSum < −20,0, según lo recomendado por las prácticas recomendadas de GATK. Además, filtramos los animales con una tasa de ausencia > 0,20, heterocigosidad > 0,20 y sitios bialélicos retenidos con una tasa de ausencia < 0,2 y una profundidad de secuenciación media entre 5 y 500. El filtrado se realizó mediante una combinación de VCFtools 0.1.1332 y Comandos BCFtools 1.1333.

El desequilibrio de ligamiento se calculó utilizando PopLDdecay34 en individuos de la misma raza después de eliminar parientes cercanos (GRM > 0,5) y variantes de baja frecuencia (MAF < 0,05). Para comprender la estructura genética en la población, retuvimos variantes con MAF> 0.05 y tasa de falta <0.1 y podamos SNP con LD (r2 <0.3, -indep-pairwise 50 10 0.3) usando PLINK 1.935. El análisis de componentes principales (PCA) se realizó en la lista filtrada de 1 223 882 variantes utilizando GCTA 1.93.236 para todos los individuos. Los ancestros se estimaron utilizando ADMIXTURE 1.337 en 185 individuos seleccionados al azar según la representación de la raza en el conjunto de datos o al menos cuatro individuos por raza. La reducción de muestreo fue necesaria para visualizar correctamente la estructura de la población.

Filtramos aún más las variantes antes de la eliminación gradual de los haplotipos en la población de referencia. Se eliminaron las variantes con tasa de faltantes > 0,1 y MAF < 0,005. Además, se eliminaron las variantes con un valor P de la prueba de equilibrio de Hardy-Weinberg < 10-10 implementadas por separado en PLINK en los tres cerdos Duroc, Landrace y Yorkshire. Solo se conservaron las variantes autosómicas para la imputación.

Extrajimos 100 cerdos Landrace con la profundidad de secuenciación más alta (profundidad de secuenciación promedio de 17,42 X, con un rango de 14,98 a 63,11 X) y designamos a estos individuos como la población objetivo para evaluar la precisión de la imputación. Para probar el efecto de la composición racial de la población de referencia, construimos cuatro paneles de haplotipos de referencia utilizando diferentes conjuntos de individuos, incluidos Todos (n = 2159): todos los individuos excepto las 100 Landraces; L (n = 550): solo cerdos Landrace; DLY (n = 550): 250 Landraces + 150 Durocs + 150 Yorkshires; y LO (n = 550): 250 Landraces + 300 cerdos seleccionados al azar distintos de Durocs y Yorkshires. La fase se realizó de forma independiente en estos conjuntos de referencia. Además, también probamos la imputación utilizando el servidor web PHARP (http://alphaindex.zju.edu.cn/PHARP/index.php), que contiene haplotipos de referencia construidos a partir de 1006 individuos en la SRA.

Probamos tres combinaciones de software para la asignación de fases y la imputación, incluidos SHAPEIT 4.238 + IMPUTE5 1.1.539, Beagle 5.240 + Beagle 5.2 y Eagle 2.441 + Minimac 442. Todas las herramientas de software se ejecutaron con opciones predeterminadas y un mapa de vinculación no informativo (1 cM por 1 Mb), pero el tamaño efectivo de la población se fijó en 100. Los genotipos imputados fueron llamados por aquellos con la probabilidad de genotipo posterior más alta. Sin embargo, los usuarios del servidor web de imputación también reciben probabilidades de genotipo.

Consideramos tres métricas de uso común de precisión de imputación, tasa de concordancia, tasa de concordancia sin referencia43 y r2. La tasa de concordancia se define como la proporción de individuos con genotipos imputados en concordancia con los genotipos observados. La tasa de concordancia sin referencia es similar a la tasa de concordancia pero está restringida solo a individuos que no son homocigotos para el alelo de referencia. r2 es el coeficiente de correlación de Pearson al cuadrado entre los genotipos observados e imputados. Medimos las tasas de concordancia y r2 por SNP y las promediamos sobre SNP en contenedores MAF o en todo el genoma.

Para demostrar la utilidad de la imputación en el mapeo genético, recolectamos fenotipos y genotipos de tres poblaciones de cerdos, que fueron manejadas por tres granjas de cría centrales de Wen's Food Group Co., Ltd. (Yunfu, Guangdong, China), todas bajo manejo estándar. practicas Para el grosor de la grasa dorsal, los fenotipos se recolectaron en 3769 cerdos Duroc de 2013 a 2018, y el genotipado de SNP se realizó con el chip Geneseek GGP Porcine 50K SNP (Neogen, Lincoln, NE, EE. UU.). El grosor de la grasa dorsal se midió entre las costillas 10 y 11 utilizando un ultrasonido Aloka 500 V SSD B (Corometrics Medical Systems, EE. UU.) cuando los pesos vivos de los cerdos alcanzaron los 100 kg (100 ± 5 kg). Para la longitud corporal, se recolectaron fenotipos de un total de 1694 verracos de Yorkshire entre 2012 y 2018, y el genotipado de SNP se realizó utilizando el chip Affymetrix PorcineWens55K SNP (Affymetrix, Santa Clara, CA, Estados Unidos). La longitud corporal se midió desde la base de la oreja hasta la base de la cola en cerdos de aproximadamente 100 kg (100 ± 5 kg) de peso corporal. Todas las muestras se recolectaron de acuerdo con las pautas para el cuidado y uso de animales de experimentación aprobadas por el Ministerio de Agricultura y Asuntos Rurales de la República Popular China. El comité de ética de la Universidad Agrícola del Sur de China aprobó específicamente el uso de animales en este estudio.

Utilizamos GCTA 1.92.1 para realizar un análisis de asociación basado en un modelo lineal mixto (MLM). Se utilizó el siguiente modelo estadístico: \(y=\mu +{xb}+g+e\) (Ecuación 1), donde y es el vector de los valores fenotípicos para todos los animales, \(\mu\) es el intercepto , \(x\) es la matriz de diseño que codifica los genotipos y otras incidencias de efectos fijos, \(b\) es el vector de efectos fijos que incluye el efecto SNP y covariables adicionales como el sexo, el corral, los efectos año-estación según los rasgos , y \(g\) es el vector de efectos aleatorios poligénicos con covarianza dictada por la matriz de relaciones genómicas, y \(e\) es el vector de residuos aleatorios. Usamos SNP en el chip GeneSeek GGP 50 K SNP (para el grosor de la grasa dorsal) y el chip Affymetrix Wens 55K SNP (para la longitud del cuerpo) para calcular la matriz de relaciones genómicas. Utilizamos un umbral de significancia de todo el genoma de P = 5 × 10−8 para declarar la significancia. La varianza explicada por un solo SNP significativo se estimó ajustando un modelo lineal mixto con la matriz de relación genómica determinada por un solo SNP.

Todos los análisis estadísticos se realizan utilizando paquetes de software como se describe o en R 4.2.2. Suministramos todos los scripts, incluidos los que generan figuras en un GitHub (https://github.com/qgg-lab/swim-public), así como un repositorio de Zenodo44 (https://doi.org/10.5281/zenodo.7900470 ). El tamaño de la muestra para todo el panel de referencia de haplotipos SWIM es 2259, con subconjuntos seleccionados para los diferentes diseños para responder preguntas específicas. Los tamaños de muestra para el grosor de la grasa dorsal y la longitud corporal GWAS fueron 3769 y 1694, respectivamente.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Los datos de secuencia sin procesar de 512 animales se han depositado en SRA (PRJNA842867). Los animales secuenciados adicionales eran propiedad de Wen's Food Group Co., Ltd. y Guangdong Gene Bank of Livestock and Poultry. Se pueden solicitar poniéndose en contacto con [email protected] y [email protected], respectivamente. Los datos de secuencia sin procesar para un subconjunto de los animales (n = 729) utilizados en este estudio se descargaron de SRA (datos complementarios 1 y 2). La imputación que utiliza el conjunto de datos completo se entrega como un servicio web (https://www.swimgeno.org y https://swim.scau.pigselection.com/swim) y está disponible públicamente. Los haplotipos en fases de todos los individuos disponibles públicamente, incluido este estudio (n = 1241), están disponibles como archivos VCF en https://quantgenet.msu.edu/swim/statistics.php. Los datos fuente subyacentes a las Figs. 1a, b, 2, 3, 4 y 6c se proporcionan en los Datos complementarios 7, 8, 9, 10, 11 y 12, respectivamente.

Todos los códigos de computadora, incluidos todos los análisis realizados en este estudio y los códigos para el servidor web SWIM, están disponibles en https://github.com/qgg-lab/swim-public y en un repositorio de Zenodo44 (https://doi.org /10.5281/zenodo.7900470).

Lunney, JK et al. Importancia del cerdo como modelo biomédico humano. ciencia Traducir Medicina. 13, eabd5758 (2021).

Artículo CAS PubMed Google Académico

Groenen, MAM et al. Los análisis de genomas porcinos proporcionan información sobre la evolución y la demografía porcina. Naturaleza 491, 393–398 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Li, M. et al. Los análisis genómicos identifican distintos patrones de selección en cerdos domésticos y jabalíes tibetanos. Nat. Gineta. 45, 1431–1438 (2013).

Artículo CAS PubMed Google Académico

Bosse, M. et al. El análisis genómico revela la selección de genes asiáticos en cerdos europeos después de la introgresión mediada por humanos. Nat. común 5, 4392 (2014).

Artículo CAS PubMed Google Académico

Ramos, AM et al. Diseño de un ensayo de genotipado de SNP de alta densidad en el cerdo utilizando SNP identificados y caracterizados mediante tecnología de secuenciación de última generación. PLoS ONE 4, e6524 (2009).

Artículo PubMed PubMed Central Google Académico

Hu, Z.-L., Park, CA y Reecy, JM Construcción de una base de conocimientos de información genética y genómica del ganado a través de desarrollos integradores de Animal QTLdb y CorrDB. Ácidos Nucleicos Res. 47, D701–D710 (2019).

Artículo CAS PubMed Google Académico

Onteru, SK et al. Estudios de asociación del genoma completo del consumo de alimento residual y rasgos relacionados en el cerdo. PLoS ONE 8, e61756 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Sell-Kubiak, E. et al. El estudio de asociación del genoma completo revela nuevos loci para el tamaño de la camada y su variabilidad en una población de cerdos Large White. BMC Genomics 16, 1049 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Boddicker, Nueva Jersey y col. Asociación de todo el genoma y predicción genómica para la respuesta del huésped a la infección por el virus del síndrome respiratorio y reproductivo porcino. Gineta. sel. Evol. 46, 18 (2014).

Artículo PubMed PubMed Central Google Académico

Marchini, J. & Howie, B. Imputación del genotipo para estudios de asociación del genoma completo. Nat. Rev. Genet. 11, 499–511 (2010).

Artículo CAS PubMed Google Académico

Das, S. et al. Servicio y métodos de imputación de genotipos de última generación. Nat. Genet.48, 1284–1287 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Daetwyler, HD et al. La secuenciación del genoma completo de 234 toros facilita el mapeo de rasgos monogénicos y complejos en el ganado. Nat. Gineta. 46, 858–865 (2014).

Artículo CAS PubMed Google Académico

van den Berg, S. et al. Imputación a la secuencia del genoma completo utilizando múltiples poblaciones de cerdos y su uso en estudios de asociación del genoma completo. Gineta. sel. Evol. 51, 2 (2019).

Artículo PubMed PubMed Central Google Académico

Yang, W. et al. Animal-ImputeDB: una base de datos integral con múltiples paneles de referencia de animales para la imputación de genotipos. Ácidos Nucleicos Res. 48, D659–D667 (2020).

Artículo PubMed Google Académico

Wang, Z. et al. PHARP: un panel de referencia de haplotipos de cerdo para la imputación de genotipos. ciencia Rep. 12, 12645 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Yan, G. et al. Un enfoque GWAS basado en la secuencia del genoma completo imputado identifica mutaciones causales para rasgos complejos en una población porcina específica. ciencia Ciencias de la vida de China. 65, 781–794 (2022).

Artículo CAS PubMed Google Académico

Ros-Freixedes, R. et al. Predicción genómica con datos de la secuencia del genoma completo en líneas de cerdos intensamente seleccionadas. Gineta. sel. Evol. 54, 65 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Rowan, TN y col. Un panel de referencia de múltiples razas y variantes raras adicionales maximizan la precisión de la imputación en el ganado. Gineta. sel. Evol. 51, 77 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Nezer, C. et al. Un QTL impreso con un efecto importante sobre la masa muscular y la deposición de grasa se mapea en el locus IGF2 en cerdos. Nat. Gineta. 21, 155–156 (1999).

Artículo CAS PubMed Google Académico

Van Laere, A.-S. et al. Una mutación reguladora en IGF2 provoca un importante efecto QTL sobre el crecimiento muscular en el cerdo. Naturaleza 425, 832–836 (2003).

Artículo PubMed Google Académico

Kim, KS, Larsen, N., Short, T., Plastow, G. & Rothschild, MF Una variante sin sentido del gen del receptor de melanocortina-4 porcino (MC4R) está asociada con rasgos de gordura, crecimiento e ingesta de alimento. mamá Genoma 11, 131–135 (2000).

Artículo CAS PubMed Google Académico

OVilo, C. et al. Prueba de genes candidatos posicionales para la composición corporal en el cromosoma 6 del cerdo. Genet. sel. Evol. 34, 465–479 (2002).

Artículo PubMed Google Académico

Gozalo-Marcilla, M. et al. Arquitectura genética y genes principales para el grosor de la grasa dorsal en líneas de cerdos de diversos antecedentes genéticos. Gineta. sel. Evol. 53, 76 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Farooqi, IS et al. Herencia dominante y recesiva de la obesidad mórbida asociada con la deficiencia del receptor de melanocortina 4. J. Clin. Invertir. 106, 271–279 (2000).

Artículo CAS PubMed PubMed Central Google Scholar

Krashes, MJ, Lowell, BB y Garfield, AS Homeostasis energética regulada por el receptor de melanocortina-4. Nat. Neurosci. 19, 206–219 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Li, J. et al. Identificación y validación de una mutación reguladora aguas arriba del gen BMP2 asociada con la longitud de la canal en cerdos. Gineta. sel. Evol. 53, 94 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Whalen, A. & Hickey, JM AlphaImpute2: imputación basada en población y pedigrí rápida y precisa para cientos de miles de individuos en poblaciones de ganado. Preimpresión en bioRxiv https://doi.org/10.1101/2020.09.16.299677 (2020).

Sun, J. et al. Estudio de asociación de genoma completo sobre rasgos reproductivos utilizando datos de secuencia de genoma completo basados ​​en imputación en cerdos de Yorkshire. Genes 14, 861 (2023).

Artículo CAS PubMed PubMed Central Google Scholar

Warr, A. et al. Una secuencia mejorada del genoma de referencia del cerdo para permitir la investigación en genética y genómica porcina. Gigaciencia 9, giaa051 (2020).

Artículo PubMed PubMed Central Google Académico

Li, H. & Durbin, R. Alineación de lectura corta rápida y precisa con la transformada de Burrows-Wheeler. Bioinformática 25, 1754–1760 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

DePristo, MA et al. Un marco para el descubrimiento de variaciones y el genotipado utilizando datos de secuenciación de ADN de última generación. Nat. Gineta. 43, 491–498 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Danecek, P. et al. El formato de llamada variante y VCFtools. Bioinformática 27, 2156–2158 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Danecek, P. et al. Doce años de SAMtools y BCFtools. Gigaciencia 10, giab008 (2021).

Artículo PubMed PubMed Central Google Académico

Zhang, C., Dong, S.-S., Xu, J.-Y., He, W.-M. y Yang, T.-L. PopLDdecay: una herramienta rápida y eficaz para el análisis de descomposición del desequilibrio de ligamiento basada en archivos de formato de llamadas variantes. Bioinformática 35, 1786–1788 (2019).

Artículo CAS PubMed Google Académico

Chang, CC et al. PLINK de segunda generación: a la altura del desafío de conjuntos de datos más grandes y ricos. Gigaciencia 4, 7 (2015).

Artículo PubMed PubMed Central Google Académico

Yang, J., Lee, SH, Goddard, ME y Visscher, PM GCTA: una herramienta para el análisis de rasgos complejos en todo el genoma. Soy. J. Hum. Gineta. 88, 76–82 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Alexander, DH, Novembre, J. & Lange, K. Estimación rápida basada en modelos de ascendencia en individuos no relacionados. Genoma Res. 19, 1655-1664 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Delaneau, O., Zagury, J.-F., Robinson, MR, Marchini, JL & Dermitzakis, ET Estimación de haplotipos precisa, escalable e integradora. Nat. común 10, 5436 (2019).

Artículo PubMed PubMed Central Google Académico

Rubinacci, S., Delaneau, O. & Marchini, J. Imputación del genotipo mediante la transformada posicional de Burrows Wheeler. PLoS Genet. 16, e1009049 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Browning, BL, Tian, ​​X., Zhou, Y. y Browning, SR Fases rápidas en dos etapas de datos de secuencias a gran escala. Soy. J. Hum. Gineta. 108, 1880–1890 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Loh, P.-R., Palamara, PF & Price, AL Fases de largo alcance rápidas y precisas en una cohorte de biobancos del Reino Unido. Nat. Gineta. 48, 811–816 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Howie, B., Fuchsberger, C., Stephens, M., Marchini, J. & Abecasis, GR Imputación de genotipo rápida y precisa en estudios de asociación de todo el genoma a través de fases previas. Nat. Gineta. 44, 955–959 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Li, JH, Mazur, CA, Berisa, T. & Pickrell, JK La secuenciación de paso bajo aumenta la potencia de GWAS y disminuye el error de medición de las puntuaciones de riesgo poligénico en comparación con las matrices de genotipado. Genoma Res. 31, 529–537 (2021).

Artículo PubMed PubMed Central Google Académico

qgg-laboratorio. qgg-lab/nadar-público: nadar-público-v1. Zenodo. https://doi.org/10.5281/zenodo.7900470 (2023).

Descargar referencias

Este trabajo está respaldado por un proyecto USDA-NIFA (2021-67021-34149 para WH, CG, JS y R.Sc.), un proyecto USDA-NIFA Hatch (MICL 02560 para WH), un proyecto de la Fundación de Ciencias Naturales de China (31972540 a JY), un proyecto de la Fundación de Ciencias Naturales de la Provincia de Guangdong (2018B030313011 a ZW) y un proyecto del Programa de I+D de Tecnologías Clave de la Provincia de Guangdong (2022B0202090002 a ZW). El servidor web (https://www.swimgeno.org) cuenta con el apoyo del Fondo Coordinador del Genoma Porcino del USDA (NRSP8).

Rodrigo Savegnago

Dirección actual: Genus IntelliGen Technologies, De Forest, Wisconsin, EE. UU.

bronceado suxu

Dirección actual: Facultad de Ciencias de la Vida, Universidad de Qingdao, Qingdao, Shandong, China

Facultad de Ciencias Animales y Centro Nacional de Investigación de Ingeniería para la Industria Porcina de Cría, Universidad Agrícola del Sur de China, Guangzhou, Guangdong, China

Rongrong Ding, Gengyuan Cai, Zhanwei Zhuang, Jie Wu, Ming Yang, Yibin Qiu, Donglin Ruan, Jianping Quan, Enqin Zheng, Huaqiang Yang, Zicong Li, Jie Yang y Zhenfang Wu

Departamento de Ciencia Animal, Universidad Estatal de Michigan, East Lansing, Michigan, EE. UU.

Rongrong Ding, Rodrigo Savegnago, Jinding Liu, Jianping Quan, Suxu Tan, Mohammed Bedhane, Juan Steibel, Cedric Gondro y Wen Huang

Subcentro Yunfu del laboratorio de Guangdong para la agricultura moderna de Lingnan, Yufu, Guandong, China

Rongrong Ding, Cheng Tan y Zhenfang Wu

Academia de Estudios Interdisciplinarios Avanzados, Universidad Agrícola de Nanjing, Nanjing, Jiangsu, China

Jinding Liu

Instituto de Investigación Cibernética, Universidad Estatal de Michigan, East Lansing, Michigan, EE. UU.

nanye largo

Guangdong Zhongxin Breeding Technology Co., Ltd, Guangzhou, Guangdong, China

Cheng Tan y Genyuan Cai

Laboratorio Provincial Clave de Guangdong de Genómica Agroanimal y Mejoramiento Molecular, Universidad Agrícola del Sur de China, Guangzhou, Guangdong, China

Zicong Li y Jie Yang

División de Ciencias Animales, Universidad de Missouri, Columbia, Missouri, EE. UU.

Roberto Schnabel

Departamento de Pesca y Vida Silvestre, Universidad Estatal de Michigan, East Lansing, Michigan, EE. UU.

Juan Steibel

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

WH, ZW, JY y RD: conceptualización y diseño; RD, R.Sa., NL y WH: tubería desarrollada y optimizada; RD, ST y MB: datos analizados; JL y WH: servidor web desarrollado; R.Sc., CT, GC, ZZ, JW, MY, YQ, DR, JQ, EZ, HY, ZL, JS y CG: herramientas y datos aportados; RD y WH: escribieron el documento, con aportes de todos los autores.

Correspondencia a Jie Yang, Wen Huang o Zhenfang Wu.

CT y GC son empleados de Guangdong Zhongxin Breeding Technology Co., Ltd. Todos los demás autores declaran que no tienen intereses en competencia.

Communications Biology agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo. Editor de manejo principal: George Inglis. Un archivo de revisión por pares está disponible.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Ding, R., Savegnago, R., Liu, J. et al. El panel de referencia de haplotipos SWine Imputation (SWIM) permite el mapeo genético de resolución de nucleótidos en cerdos. Commun Biol 6, 577 (2023). https://doi.org/10.1038/s42003-023-04933-9

Descargar cita

Recibido: 24 noviembre 2022

Aceptado: 12 de mayo de 2023

Publicado: 30 mayo 2023

DOI: https://doi.org/10.1038/s42003-023-04933-9

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.