Contenidos
Puntuación de información de imputación
Sólo un subconjunto de polimorfismos de un solo nucleótido (SNP) puede ser genotipado en los estudios de asociación de todo el genoma. Los métodos de imputación pueden inferir los alelos de las variantes “ocultas” y utilizar esas inferencias para comprobar la asociación de las variantes ocultas.
La gran cantidad de datos generados en los estudios de asociación de todo el genoma, con cientos de miles de SNP genotipados en miles de individuos, complica el análisis estadístico y computacional de esos datos. La correlación entre los SNP (desequilibrio de ligamiento) permite captar gran parte de la variación a pesar de la incapacidad de genotipar todos los SNP, y nuestro anterior manual1 describió cómo los tagSNP y los haplotipos se han utilizado como sustitutos de las asociaciones vecinales. Sin embargo, especialmente con la llegada de las tecnologías de genotipado de alto rendimiento, el desafío clave ha comenzado a cambiar desde la identificación de los tagSNP que mejor capturan la variación genética en la población a la capacidad de interrogar a los SNP no cubiertos por estas tecnologías. Además, ¿cómo se consolidan conjuntos de datos distintos cuando subconjuntos de la misma población se genotipan con tecnologías ligeramente diferentes que tienen capacidades distintas?
Precisión de la imputación
ReferenciasDescargar referenciasAgradecimientosGracias al Proyecto 1000 Bull Genomes por proporcionar los datos de secuenciación, que se han utilizado como referencia para la imputación y para la estimación de las frecuencias alélicas menores. Agradecemos a Alessandro Bagnato sus valiosos comentarios sobre el manuscrito. Además, agradecemos a la Fondation sur la croix y a la Comisión Suiza para la Tecnología y la Innovación el apoyo financiero a este proyecto.
Este estudio se llevó a cabo en parte dentro del proyecto Swiss Low Input Genetics (SLIG), que contó con el apoyo financiero de la Comisión Suiza para la Tecnología y la Innovación, y con la financiación de la Fondation sur la Croix.
Todos los datos relevantes se incluyen en el cuerpo del manuscrito y sus archivos adicionales. Los datos de las secuencias de todos los animales forman parte de la carrera 5 del Proyecto 1000 Bull Genomes (http://www.1000bullgenomes.com). Las variantes encontradas en el ganado suizo pardo se han comunicado a dbSNP (https://www.ncbi.nlm.nih.gov/snp/). Los datos en bruto pertenecen a más de 10 instituciones y organizaciones de cría. Los datos son comercialmente sensibles y no pueden hacerse públicos. Los datos de contacto de los representantes de los socios están disponibles previa solicitud al autor correspondiente.
Métrica de calidad de imputación de Mach
Advances in Bioinformatics+Journal MenuAdvances in Bioinformatics / 2013 / Artículo / Fig 4Artículo de investigaciónComparación de procedimientos de imputación para conjuntos de datos de expresión génica de Affymetrix utilizando conjuntos de datos MAQCFigura 4Ploteo de barras de RAE promedio con barras de error. Los valores de RAE se representan en el
(LSA, NIPALS, ROW y SVD). La media (M) representada por la barra oblicua representa la media general para el MI individual donde los valores RAE se promedian entre los 4 grupos y los 6 sitios. Esta figura muestra el rendimiento de las 10 pruebas de imputación utilizando la métrica RAE con un 5% de eliminación de valores. Se realizaron 1000 simulaciones en las que cada una de ellas generó un conjunto de datos que contenía un 5% de valores perdidos mediante la eliminación aleatoria de valores de conjuntos de sondas de la matriz de expresión completa de conjuntos de sondas. Los valores perdidos se imputaron utilizando las 10 pruebas de imputación. Los resultados se comparan utilizando la métrica RAE (véase la sección 2). Los valores RAE se promedian entre los 4 grupos. LLS con
Calidad de la imputación
La imputación de genotipos es una poderosa herramienta para aumentar la potencia estadística en un análisis de asociación. El meta-análisis de conjuntos de datos de múltiples estudios también requiere una superposición sustancial de SNPs para un análisis de asociación exitoso, lo que puede lograrse mediante la imputación. La calidad de los conjuntos de datos imputados depende en gran medida del software utilizado, así como de las poblaciones de referencia elegidas. La precisión de la imputación de las poblaciones de referencia disponibles no ha sido probada para la población sudafricana de color (SAC), que es una mezcla de cinco vías. En este estudio, se evaluó la precisión y la calidad de los resultados de imputación obtenidos mediante tres métodos de libre acceso. Demostramos que el African Genome Resource es el mejor panel de referencia para la imputación de genotipos faltantes en muestras de la población SAC, implementado a través del Servidor de Imputación Sanger de libre acceso.
En la última década, las tecnologías de genotipado para los estudios de asociación de todo el genoma (GWAS) han permitido un genotipado amplio y rápido de las variantes comunes (Ding y Jin, 2009; Ragoussis, 2009; Vergara et al., 2018). Las matrices comerciales de genotipado de polimorfismo de un solo nucleótido (SNP) contienen entre 300 000 y 2,5 millones de marcadores, pero ninguna tiene una cobertura completa del genoma humano. La imputación de genotipos puede utilizarse para mejorar tanto la cobertura como la potencia de un GWAS infiriendo los alelos de los SNP no genotipados basándose en los patrones de desequilibrio de enlace (LD) derivados de los marcadores directamente genotipados y comparándolos con una población de referencia adecuada (Marchini y Howie, 2010; Pei et al., 2010; Malhotra et al., 2014). Estas variantes imputadas se pueden utilizar para las pruebas de asociación, para mejorar el mapeo fino de una región objetivo o para realizar un meta-análisis.