¿Cómo determinar la causalidad?

Causalidad de Granger

Dadas unas series temporales observadas y una serie temporal objetivo de interés, ¿podemos identificar las causas del objetivo, sin excluir la presencia de series temporales ocultas? Esta cuestión se plantea en muchos campos -como las finanzas, la biología o la gestión de la cadena de suministro- en los que las secuencias de datos constituyen observaciones parciales de un sistema.Imaginemos, por ejemplo, que tenemos series temporales de los precios de los productos lácteos. Por ejemplo, disponemos de series temporales de precios de productos lácteos.

Causalidad en las series temporalesEsta idea de encontrar patrones característicos similares de independencias condicionales para distinguir las causas de los factores de confusión es muy relevante para nuestro método. En el caso de las series temporales, el gráfico es mucho más complicado que en los ejemplos anteriores. Aquí mostramos un gráfico de serie temporal de este tipo:

Aquí tenemos una serie temporal objetivo univariante (unidimensional), Y, cuyas causas queremos encontrar. A continuación, tenemos varias series temporales candidatas observadas, Xi, que podrían estar causando el objetivo o tener diferentes dependencias con él. Por último, permitimos la existencia de varias series temporales ocultas, U. Conocemos las direcciones de algunas aristas a partir del orden temporal, lo cual es útil. Por otro lado, la dependencia de las series temporales de sus propios pasados complica el panorama, porque crea esquemas de causa común entre los nodos.  Para cada serie temporal candidata, queremos aislar el nodo actual y el anterior y el correspondiente nodo de destino. Así, extraemos tripletas como la indicada en verde y amarillo en el gráfico siguiente.

Regresión causal

Se considera que dos o más variables están relacionadas, en un contexto estadístico, si sus valores cambian de manera que, al aumentar o disminuir el valor de una variable, también lo hace el de la otra (aunque puede ser en sentido contrario).

Lee más  ¿Cuando la policía puede detener a una persona?

Por ejemplo, para las dos variables “horas trabajadas” e “ingresos obtenidos” existe una relación entre ambas si el aumento de las horas trabajadas se asocia a un aumento de los ingresos obtenidos. Si consideramos las dos variables “precio” y “poder adquisitivo”, a medida que aumenta el precio de los bienes disminuye la capacidad de una persona para comprarlos (suponiendo una renta constante).

La correlación es una medida estadística (expresada como un número) que describe el tamaño y la dirección de una relación entre dos o más variables. Sin embargo, una correlación entre variables no significa automáticamente que el cambio en una variable sea la causa del cambio en los valores de la otra.

En teoría, la diferencia entre los dos tipos de relaciones es fácil de identificar: una acción o suceso puede causar otro (por ejemplo, el tabaquismo provoca un aumento del riesgo de desarrollar cáncer de pulmón), o puede correlacionarse con otro (por ejemplo, el tabaquismo está correlacionado con el alcoholismo, pero no lo causa). En la práctica, sin embargo, sigue siendo difícil establecer claramente la causa y el efecto, en comparación con establecer la correlación.

Causalidad vs. causalidad

En muchas disciplinas científicas, la causalidad debe demostrarse mediante un experimento. En la investigación médica clínica, este propósito se consigue con un ensayo controlado aleatorio (ECA) (4). Sin embargo, a menudo no es posible realizar un ECA por razones éticas o prácticas. Si se va a estudiar un factor de riesgo como la exposición a las emisiones de diésel, las personas no pueden ser asignadas aleatoriamente a la exposición o a la no exposición. Tampoco es posible la aleatorización si la pregunta de la investigación es si un accidente asociado a una exposición, como la catástrofe del reactor nuclear de Chernóbil, aumentó o no la frecuencia de la enfermedad o la muerte. Lo mismo ocurre cuando se introduce una nueva ley o reglamento, por ejemplo, la prohibición de fumar.

Lee más  Ley 1 1992

Cuando no se puede realizar un experimento, hay que llevar a cabo estudios de observación. El objeto de estudio -es decir, la posible causa- no puede variarse de forma dirigida y controlada; en su lugar, se observa y documenta el efecto que este factor tiene sobre una variable objetivo, como una enfermedad concreta.

Varias publicaciones en epidemiología se han ocupado de las formas en que se puede inferir la causalidad en ausencia de un experimento, empezando por el trabajo clásico de Bradford Hill y los nueve aspectos de la causalidad (puntos de vista) que propuso (Recuadro 2) (5) y continuando hasta el presente (6, 7).

Ejemplos de correlación y causalidad

Aunque no se aplica siempre, en general, cuando diseñamos un proyecto de investigación o realizamos un análisis de datos, nos interesa establecer la causalidad.    En un mundo ideal, podríamos afirmar que alguna variable X está relacionada causalmente con otra variable Y, en el sentido de que la presencia de X y/o un cambio en X siempre da lugar a la aparición de y/o un cambio en Y. Es más, querríamos saber la magnitud de ese efecto: por cada cambio de w unidades en X, observamos un cambio de z unidades en Y.

Para establecer la causalidad hay que tener las tres cosas siguientes.    El “debe” es realmente importante aquí, y es el “debe” que conduce a errores comunes en la inferencia causal, como explicaré más adelante.    Las tres son las condiciones conjuntamente necesarias y suficientes para establecer la causalidad; las tres son necesarias, son igualmente importantes, y no necesitas nada más si tienes estas tres…

Citando el ejemplo que no se utiliza, si se recogieran datos sobre la talla de los zapatos y la inteligencia, se encontraría una fuerte correlación positiva.    La razón no es que el tamaño sea importante (lo siento, no pude resistirme), sino que hay una variable no modelada que explica esta relación, en este caso, la edad del encuestado.    Para establecer una relación causal, no debe haber un tercer (o más) factor que dé cuenta de la relación entre X e Y. Como hablaré en una discusión sobre las limitaciones de las variables de control, incluir controles en un modelo estadístico puede dar cuenta de esas confusiones particulares en la relación X -> Y, pero los controles no se ocuparán de todas las posibles confusiones.    Afortunadamente, en un experimento controlado con una aleatorización perfecta, podemos demostrar que no hay variables no modeladas, u omitidas, que afecten a nuestra relación causal. Hay otras formas de mejorar la inferencia causal sin utilizar un experimento controlado aleatorio, pero el punto material y el que a menudo se pasa por alto es que, en ausencia de un experimento con aleatorización perfecta, no hay forma de saber con seguridad que no hay otros factores que no hayamos incluido y que puedan explicar la relación observada.