La estadística es una forma de tomar decisiones cuando enfrente se encuentra la incertidumbre: es decir, casi todo el tiempo. Y si hablamos de incertidumbre, tenemos que pensar en términos de probabilidad. De hecho, el edificio de la estadística descansa por completo en el concepto de probabilidad, y hay dos formas de interpretar esta idea: la interpretación clásica (o frecuentista) y la interpretación bayesiana.
- La interpretación clásica, mayoritaria hasta el momento, define la probabilidad en términos de experimentación. Si se repite un experimento un número infinito de veces y se compruebas que en 150 de cada 1.000 ocasiones se ha producido un cierto resultado, el frecuentista concluye que la probabilidad de ese resultado es del 15%. Esta aproximación se basa, por tanto, en estudiar la probabilidad «real» de las cosas, tratando de determinar hasta qué punto una medición realizada sobre un conjunto se aproxima a la probabilidad real subyacente. Por este motivo el frecuentista define la probabilidad como una expresión matemática que predice en qué medida es verosímil que ciertos eventos ocurran basándose en el patrón observado hasta este momento. Uno de los padres de la estadística frecuentista moderna ya apareció en otro apunte de este blog: es Sir Ronald Fisher.
- Por el contrario, la interpretación bayesiana se basa en el conocimiento limitado que tenemos de las cosas. Afirma que sólo se puede asociar una probabilidad a un evento porque existe incertidumbre sobre el mismo. O lo que es igual: que no se puede conocer el conjunto de todos los hechos. El enfoque bayesiano se basa en la idea de refinar las predicciones a partir de nuevas evidencias. Un bayesiano define la probabilidad como la expresión matemática que mide el nivel de conocimiento que tenemos para realizar una predicción. Para un bayesiano es incorrecto decir «hay un 30% de probabilidad de que suceda el evento A«. Para un bayesiano ha de decirse «basándome en el conocimiento actual que tengo, dispongo de un 30% de certeza de que A va a ocurrir«. El reverendo Thomas Bayes descubrió el teorema de probabilidad condicional que lleva su nombre y que forma la base de los métodos estadísticos bayesianos.

Thomas Bayes (izq) y Ronald Fisher (der)
Pero como en este blog hablamos de ciclos de mejora, tanto si es el PDCA de Deming como el DMAIC de Six Sigma, que son prácticamente el mismo en lo fundamental (una aplicación del método científico a los procesos productivos y de fabricación), observemos este apasionante tema desde la perspectiva del método.
De una forma simplificada se puede resumir el método científico en los siguientes pasos:
- Realizar una observación o formular una pregunta
- Formar una hipótesis
- Probar la hipótesis a través de un experimento
- Revisar la hipótesis y, si es necesario, volver al punto anterior para mejorar la hipótesis
- Obtener conclusiones y publicar el resultado para que otros también lo comprueben
Un experimento bien diseñado proporciona la mayor cantidad de información posible. Pero como los datos del mundo real contienen ruido, se emplean técnicas estadísticas para comparar las hipótesis con los experimentos.
Nota: También se pueden emplear estas técnicas para predecir. De hecho, los fabricantes y las empresas de seguros basan sus garantías y pólizas en área estadística relacionado con la predicción, denominada fiabilidad.
Si un fabricante de alimentos quiere saber cuánta grasa contiene la mantequilla que produce, algo que debe conocer para proporcionar una etiqueta nutricional precisa, puede realizar un análisis comparativo con un cierto valor certificado. En este tipo de análisis se suele encontrar frases como la siguiente: «la incertidumbre ampliada corresponde a un intervalo de cobertura del 95 por ciento«. Pero, ¿qué demonios significa lo de «intervalo de cobertura del 95 por ciento«? ¿Es una media? Un frecuentista diría que, si realizamos el mismo experimento de medición 100 veces y analizamos los datos producidos de una misma manera, esperamos que 95 de los 100 experimentos produzcan intervalos que incluyan el verdadero valor de la cantidad de sustancia que nos interesa conocer «. El bayesiano, en cambio, responde que la anterior afirmación es una interpretación razonable, siempre y cuando el experimento de medición se pueda repetir de manera perfecta. Porque, ¿qué pasa con los eventos que no son repetibles, como por ejemplo los aterrizajes de las sondas espaciales de la NASA en Marte? Solo suceden una única vez. Los ingenieros seleccionan un lugar donde aterrizar y cuantifican la incertidumbre de que la nave se pose en dicho lugar con una cierta probabilidad. Para estos casos, una interpretación de frecuencias puras no cubre la situación».
La anterior disquisición técnica es, ciertamente, compleja. A la postre, frecuentistas y bayesianos basan sus técnicas en los mismos fundamentos. desde un punto de vista práctico, son muy similares y conducen a las mismas conclusiones. Pero resultaba interesante formular el problema antes de seguir.
En un análisis frecuentista la probabilidad es una función de parámetros desconocidos que representan cantidades científicas que interesan. En el caso de la mantequilla, uno de los parámetros de la probabilidad será la concentración de grasa de la mantequilla y otro la variabilidad de las mediciones de dicha concentración de grasa debido a influencias incontrolables, como son las pequeñas variaciones de temperatura en el laboratorio (recordemos que en otro apunte ya hablamos de causas comunes y causas asignables). Interpretamos la probabilidad como la probabilidad de obtener los datos que se han observado (mediciones de la concentración de grasa) dados ciertos valores específicos de los parámetros, en este caso, la concentración real de grasa y la variabilidad de la medición. Un frecuentista asocia a dicha probabilidad una estimación y un intervalo: hay 51.6 gramos, más menos 1.4 gramos de grasa por cada 100 gramos de mantequilla. Estos corresponderían al valor certificado y al intervalo de cobertura.
En un análisis bayesiano hay dos componentes principales: el primero es la misma probabilidad que apareció en el análisis frecuentista. El analista de datos bayesiano interpreta la probabilidad como la probabilidad de los datos observados para valores de parámetros específicos, al igual que el frecuentista, aunque puede interpretar la probabilidad de manera diferente. El segundo ingrediente es la distribución de probabilidad previa. En el ejemplo de la mantequilla, antes de realizar cualquier medición de la concentración de grasa, la distribución describiría la verdadera concentración de grasa en la mantequilla. Esto es razonable porque los ingredientes que se encuentran en la mantequilla y sus cantidades relativas se conocen cuando se hace la mantequilla. Un bayesiano realiza afirmaciones como: «La probabilidad de que la concentración de grasa se encuentre entre 45 y 55 gramos por 100 gramos es del 99 por ciento«. La probabilidad y la distribución de probabilidad (previa) se combinan utilizando la regla de Bayes para producir la distribución de probabilidad (posterior), lo que da la probabilidad de que el analista crea en valores de parámetros específicos después de observar los datos. Al resumir los resultados de un análisis bayesiano, es típico proporcionar una mejor estimación única y una estimación por intervalos, al igual que en el análisis frecuentista.
¿Cómo es posible que los bayesianos y los frecuentistas lleguen a las mismas conclusiones? Los frecuentistas no eligen una distribución de probabilidad previa. pero resulta que, si los datos observados proporcionan información coherente con la información aportada por la distribución de probabilidad previa, ambos enfoques arrojan resultados similares. Entonces, ¿por qué los datos observados proporcionan información más sólida que la distribución previa? Recordemos que la distribución de probabilidad previa es la probabilidad de encontrar ciertos valores de los parámetros específicos ANTES de observar datos.
¿Por qué, entonces, debemos tomarnos la molestia de elegir una función de distribución previa si esta es intrascendente? La respuesta, por supuesto, es que no siempre resulta intrascendente.
Esto lo vemos en el anterior cómic, cuyo autor es Randall Munroe. Los datos observados son los de los detectores que responden «sí» a la pregunta de si el sol se ha convertido en una nova, lo que puede significar que la máquina obtuvo dos seises y está mintiendo (con algo menos de un 3 por ciento de posibilidades) o que el sol, en efecto, ha explotado. Debido a que es poco probable que la máquina mienta, el frecuentista concluye que el sol se ha vuelto nova. Sin embargo, el bayesiano, actuando sobre el conocimiento previo sobre la vida útil proyectada del sol y el hecho de que ambos estadísticos permanezcan en perfecto estado de salud, ha combinado probabilidades previas a la hipótesis en competencia y decide no estar de acuerdo con el frecuentista. ¡Y, además, está dispuesto a apostar por ello! El bayesiano gana esta vez, ¡pero los frecuentistas volverán!
La caricatura de Randall es una exageración divertida, por supuesto. Una prueba de hipótesis frecuentista nunca se construye de esta manera. Sin embargo, hay muchos problemas reales para los cuales la distribución de probabilidad previa puede tener un gran impacto positivo en comparación con el impacto negativo que los estadísticos frecuentistas pueden temer. Pensemos en una regla y una cinta métrica que se usan para medir la longitud de algo. La distribución de probabilidad previa (ambos métodos producen mediciones similares, se orientan a una misma cantidad en medición, han sido calibrados y son confiables, etc.) puede tener un importante efecto positivo.
La aproximación bayesiana hace que algunas cosas sean más claras. Por ejemplo, si un estudio muestra que 10 de cada 100 fumadores van a desarrollar cáncer de pulmón, una interpretación clásica del dato puede llevarnos a pensar que un fumador tiene un 10% de probabilidad de enfermar. Y no es cierto. Lo que dice el estudio es que el dato (10 de cada 100 fumadores desarrollan cáncer) puede considerarse como un buen punto de partida para hacer una predicción sobre las opciones de desarrollar cáncer para un fumador, pero un bayesiano dejaría muy claro que se trata de un conocimiento incompleto y que, por tanto, no es de mucha utilidad a no ser que se disponga de más información para incrementar la certeza.
Como contrapartida, el razonamiento bayesiano en ocasiones nos lleva al absurdo. Un bayesiano cree que existe un análisis probabilístico para prácticamente cualquier cosa, alineando los factores que influyen y combinando el conocimiento previo de esos factores. Esta idea es empleada frecuentemente para asignar una probabilidad a la existencia de Dios, a que la Tierra esté siendo sido visitada por alienígenas o a que los artistas incluyan mensajes secretos en sus pinturas. Los frecuentistas no padecen este problema. Un frecuentista considera que las probabilidades sólo tienen sentido en el ámbito de experimentos repetibles. Bajo este punto de visto, es absurdo asignar una probabilidad a la existencia de Dios, porque la existencia de un creador del universo no es un problema que podamos repetir y observar numerosas veces. Los frecuentistas no creen que sea posible asignar una probabilidad a absolutamente cualquier cosa. Entonces, ¿quién tiene razón?
Como en tantos otros aspectos de la ciencia – y de la vida – no hay un único enfoque universalmente válido. La visión frecuentista ha aportado un rigor y un sistema de trabajo a muchos ámbitos de la estadística, empezando por el cálculo del error muestral. La visión bayesiana ha mostrado ser una buena herramienta para hacer predicciones sobre sucesos complejos, tomando datos de múltiples fuentes de forma simultánea.
En cualquier caso, la polarización de las ideas no suele ser una buena consejera para tomar buenas decisiones. Nunca lo olvidemos.