Contenidos
Hacia la imputación de la ciencia de los datos
Este artículo se basa en gran medida o totalmente en una sola fuente. La discusión pertinente puede encontrarse en la página de discusión. Por favor, ayude a mejorar este artículo introduciendo citas a fuentes adicionales.Buscar fuentes: “Imputación” derecho – noticias – periódicos – libros – erudito – JSTOR (diciembre 2019)
Este artículo incluye una lista de referencias, lecturas relacionadas o enlaces externos, pero sus fuentes no están claras porque carece de citas en línea. Por favor, ayude a mejorar este artículo introduciendo citas más precisas. (Diciembre de 2019) (Aprende cómo y cuándo eliminar este mensaje de la plantilla)
En derecho, el principio de imputación o atribución fundamenta el concepto de que ignorantia juris non excusat -la ignorancia de la ley no excusa-. Todas las leyes están publicadas y disponibles para su estudio en todos los Estados desarrollados. El contenido de la ley se imputa a todas las personas que se encuentran dentro de la jurisdicción, aunque sea de forma transitoria.
Esta ficción trata de negar la injusticia de que alguien evite la responsabilidad por un acto u omisión simplemente negando el conocimiento de la ley. El principio también surge en áreas específicas del derecho, como el derecho penal y el derecho mercantil, para describir la necesidad de que la ley responsabilice a una persona, incluso cuando puede no haber conocido las circunstancias particulares que causaron a otra persona una pérdida o un daño.
Explicación de la imputación múltiple
Otra forma de tratar los valores perdidos es imputarlos o estimarlos. La imputación de valores perdidos tiene una larga historia en estadística y se ha investigado a fondo. Buenos lugares para empezar son Little y Rubin (2014), Van Buuren (2012) y Allison (2001). En esencia, la imputación utiliza la información y las relaciones entre los predictores no ausentes para proporcionar una estimación que complete el valor que falta.
Históricamente, los métodos estadísticos para los datos ausentes se han preocupado por el impacto en los modelos inferenciales. En esta situación, las características y la calidad de la estrategia de imputación se han centrado en los estadísticos de prueba que produce el modelo. El objetivo de estas técnicas es garantizar que las distribuciones estadísticas sean trazables y de calidad suficiente para apoyar las pruebas de hipótesis posteriores. El enfoque principal en este escenario es utilizar imputaciones múltiples; se crean varias variaciones del conjunto de datos con diferentes estimaciones de los valores perdidos. Las variaciones de los conjuntos de datos se utilizan entonces como entradas para los modelos y las réplicas de las estadísticas de prueba se calculan para cada conjunto de datos imputados. A partir de estos estadísticos replicados, se pueden construir pruebas de hipótesis adecuadas y utilizarlas para la toma de decisiones.
Imputación múltiple frente a imputación única
El medio más común para tratar los datos que faltan es la eliminación de la lista (también conocida como caso completo), que es cuando se eliminan todos los casos con un valor que falta. Si los datos faltan completamente al azar, la supresión de la lista no añade ningún sesgo, pero disminuye la potencia del análisis al reducir el tamaño efectivo de la muestra. Por ejemplo, si se recogen 1.000 casos pero 80 tienen valores perdidos, el tamaño efectivo de la muestra tras la eliminación de la lista es de 920. Si los casos no faltan completamente al azar, la eliminación de la lista introducirá un sesgo porque la submuestra de casos representada por los datos que faltan no es representativa de la muestra original (y si la muestra original era en sí misma una muestra representativa de una población, los casos completos tampoco son representativos de esa población)[3] Aunque la eliminación de la lista no tiene sesgo cuando los datos que faltan son completamente al azar, esto rara vez ocurre en la realidad[4].
La eliminación por pares (o “análisis de casos disponibles”) consiste en eliminar un caso cuando falta una variable necesaria para un análisis concreto, pero incluir ese caso en los análisis en los que están presentes todas las variables necesarias. Cuando se utiliza la eliminación por pares, el N total para el análisis no será consistente en todas las estimaciones de los parámetros. Debido a los valores incompletos de N en algunos puntos del tiempo, mientras se mantiene la comparación completa de los casos para otros parámetros, la eliminación por pares puede introducir situaciones matemáticas imposibles, como correlaciones superiores al 100%[5].
Datos de panel de imputación múltiple
Los datos que faltan pueden sesgar cualquier cosa para los científicos de datos, desde el análisis económico hasta los ensayos clínicos. Después de todo, cualquier análisis es tan bueno como los datos. Un científico de datos no quiere producir estimaciones sesgadas que conduzcan a resultados no válidos. El concepto de datos perdidos está implícito en el nombre: son datos que no se capturan para una variable para la observación en cuestión. Los datos que faltan reducen la potencia estadística del análisis, lo que puede distorsionar la validez de los resultados, según un artículo publicado en el Korean Journal of Anesthesiology.
El método de imputación desarrolla conjeturas razonables para los datos que faltan. Es más útil cuando el porcentaje de datos que faltan es bajo. Si la porción de datos que faltan es demasiado alta, los resultados carecen de la variación natural que podría dar lugar a un modelo eficaz.
La otra opción es eliminar los datos. Cuando se trata de datos que faltan al azar, se pueden eliminar los datos relacionados para reducir el sesgo. La eliminación de datos puede no ser la mejor opción si no hay suficientes observaciones para dar lugar a un análisis fiable. En algunas situaciones, puede ser necesaria la observación de eventos o factores específicos.