¿Por qué no confiar en modelos basados 100% en datos?

01 de Octubre de 2020 Blog por Cassotis Consulting

La denominada cuarta revolución industrial, o también Industria 4.0, está empezando a convertirse en realidad en diferentes empresas alrededor del mundo. Dentro de las principales características de esta revolución está el control y el monitoreo de una gran cantidad de datos e información: el llamado Big Data.

Con el inicio de esta práctica, empezó una corrida para el desarrollo de algoritmos y análisis estadísticos. Estudios para identificar correlaciones entre las diferentes variables monitoreadas y crear modelos predictivos para importantes características de los procesos pasaron a ser realizados de forma intensa.

Con este gran volumen de datos, muchas veces se identifican correlaciones con variables que los especialistas de proceso ni siquiera monitorean. Aunque aumentar el alcance de las observaciones y potencialmente descubrir nuevas variables importantes en el proceso puede ser algo positivo, aplicar tales modelos predictivos y correlaciones para tomar decisiones puede acabar siendo peligroso

Una de las principales razones es el hecho de que correlación no implica causalidad. Vamos a los conceptos: en estadística, correlación significa la medida de relación entre dos variables. Una correlación positiva entre dos variables indica que ambas tienen una tendencia similar en sus movimientos, y una correlación negativa indica que ambas varían de forma contraria entre sí. Ya el concepto de causalidad determina que el cambio en una variable es la causa del cambio en otra variable.

Decir que la correlación no tiene implicancia en causalidad significa que, aunque dos variables tengan correlación, esto no tiene implicancia en el hecho de una ser la causa de la otra.

Puede ser que, de hecho, la variable A sea la causa de la variable B. Pero también puede ser que B sea, en realidad, la causa de A. O también que, en realidad, existen otros factores que son la causa tanto de A como de B.

Además, puede ser que las variables impacten una en la otra, y, por lo tanto, A sea la causa de B y B sea la causa de A. Finalmente, puede ser que la correlación entre A y B sea simplemente una coincidencia, algo fortuito.

Existen algunos ejemplos simples para estas situaciones.

Podemos notar una correlación entre el cantar de las gallinas (A) y el nascer del sol (B), pero no podemos pensar que A causa B, y sí lo contrario.
Existe una alta correlación positiva entre el número de paletas vendidas (A) y el número de ahogamientos en las playas (B). Seguramente podemos decir que A no es la causa de B, y ni que B es la causa de A. Pero, por la experiencia, podemos constatar que existen otros factores: el calor (C) hace que mucha gente vaya a las playas (D). Mucha gente en las playas implica un mayor consumo de paletas y al mismo tiempo un mayor número de ahogamientos.
Existe una correlación entre la presencia de dientes amarillos (A) y el desarrollo de cáncer de pulmón (B). Sin embargo, a través de estudios científicos, es posible constatar que A no causa B y viceversa. Existe un factor (C), el vicio al cigarrillo, que causa tanto A como C.
Existe una correlación negativa entre el número de piratas (A) y el calentamiento global (B). Historicamente, a medida que el número de piratas disminuyó, la temperatura en la Tierra fue aumentando. Claramente esta correlación es fruto de una infinidad de otros factores. De lo contrario, bastaría incentivar que más personas se hagan piratas y ¡el problema del calentamiento global estaría resuelto!
Existe una fuerte correlación entre el consumo de queso mozzarella (A) y el número de estudiantes de doctorado en Ingeniería Civil (B). No hay ninguna evidencia científica que A cause B o viceversa, pero sí que esta sea una gran coincidencia.

Este tipo de correlación se llama correlación espuria. Otros ejemplos incluyen la correlación entre el número de películas de Nicholas Cage y el número de ahogamientos en piscinas y la correlación entre la tasa de divorcio en Maine, en los EE.UU., y el consumo per cápita de margarina. Más correlaciones como esa se pueden encontrar en [1].

Otra razón por la cual el uso de los datos indiscriminadamente pueden llevar a decisiones equivocadas es la llamada Paradoja de Simpson. Esta paradoja ocurre cuando existe una tendencia de comportamiento observada en los datos de una variable que se revierte al dividir dados en determinados grupos menores.

Existen diferentes ejemplos de esta paradoja. Uno de los más conocidos ocurrió en la Berkeley University, en California.[2] Los datos de la selección del programa de doctorado sugieren que los hombres tenían un índice de admisión mucho mayor que las mujeres. La diferencia era tan grande (44% x 35%) que esto generó incluso un proceso contra la universidad. Sin embargo, al separar los datos por los departamentos, se constató que, en realidad, ocurría lo contrario. En la mayoría de los departamentos, las mujeres obtuvieron índices de admisión mayores que los hombres. Más tarde, se concluyó que lo que llevaba a la confusión era que las mujeres aplicaban en mayor número en los departamentos más competitivos, lo que en promedio disminuía el índice de admisión femenina, en comparación con los hombres que aplicaban en mayor número en los departamentos menos competitivos.

Además de estos dos puntos, es siempre necesario tener cuidado con la manera en que se obtienen los datos. El modo por el cual se realiza la recolección, su frecuencia y su precisión pueden tener gran impacto en las correlaciones obtenidas. Por ejemplo, alteraciones correctivas de proceso pueden resultar en efectos demostrados en los datos solamente después de un cierto periodo de tiempo, y llevar a correlaciones equivocadas.

Por lo tanto, considerando todas las razones presentadas, podemos llegar a la conclusión de que confiar 100% en modelos basados puramente en datos nos puede llevar a decisiones equivocadas y malas. Siempre es necesario considerar los datos con la experiencia de las personas y con el conocimiento técnico y teórico existente.

Este es uno de los principios de Cassotis en sus trabajos: utilizamos siempre el conocimiento teórico y la experiencia práctica de nuestros consultores y de nuestros clientes para dirigir los datos y las correlaciones empleadas en nuestros modelos de optimización. Creemos que el análisis de un gran volumen de datos puede contribuir mucho en la búsqueda de correlaciones entre variables, siempre y cuando este trabajo sea hecho bajo la mirada de los especialistas para validar las relaciones encontradas, y de esta forma, potenciar las optimizaciones hechas, sin quedar a merced de coincidencias y del azar a la hora de tomar una decisión.

Referencias:

[1] VIGEN,Tyler. Spurious Correlations.

[2] DEXTER, Shawn. How UC Berkeley Almost Got Sued For SEX Discrimination….LYING Data?

Tags: