Lo normal y lo que no es normal (en estadística)

This post is also available in: English (Inglés)

La inferencia estadística utiliza datos de una muestra para obtener conclusiones sobre toda una población. Es una herramienta potente. Pero no basta con utilizarla sin más. Conviene verificar las suposiciones en que se basa u obtendremos resultados erróneos. Si esto sucede, cuando los apliquemos a nuestro problema no se resolverá.

PRIMERA SUPOSICIÓN: LA MUESTRA ES ALEATORIA

En cualquier empresa se suele trabajar con un reducido conjunto de supuestos: muestras aleatorias, independencia, normalidad, igual varianza, estabilidad, sistema de medición exacto y preciso.

Una muestra es aleatoria cuando cada punto de datos en su población tiene las mismas posibilidades de ser incluido en la muestra. Esto quiere decir que la selección de cualquier individuo ocurre por casualidad y no por elección . De esta manera se reducen las posibilidades de que los resultados estén sesgados. El problema es que no existe ninguna prueba que asegure que se ha realizado un muestreo aleatorio. Para ello podemos seguir alguna recomendación habitual, como elegir cada enésima unidad o muestrear en determinados momentos específicos del día. Mi recomendación, no obstante, es emplear una tabla de números aleatorios, que son muy fáciles de obtener, y seguirla escrupulosamente a la hora de elegir las muestras.

SEGUNDA SUPOSICIÓN: LA INDEPENDENCIA ESTADÍSTICA

La independencia estadística es una suposición crítica para muchas pruebas estadísticas. Por independencia estadística queremos decir que el valor de una observación no influye en el valor del resto de observaciones. Seguir buenas técnicas de muestreo ayuda a garantizar que las muestras son independientes. Esto es lo que NO sucede cuando, por ejemplo, las observaciones están muy próximas en el tiempo o en el espacio, o están anidadas unas con otras. Creo que todos hemos sido alguna vez testigos de un muestreo incorrecto: es lo que sucede cuando el encargado de tomar muestras no quiere dedicarle ni tiempo ni esmero a la tarea y toma las quince primeras de todo un lote. Hay que dedicar tiempo y esfuerzo a recopilar y analizar datos. Esto es crucial si queremos alcanzar conclusiones correctas que nos ayuden a resolver un problema.

TERCERA SUPOSICIÓN: LOS DATOS SON NORMALES

Una de las suposiciones más habituales consiste en asegurar que los datos se distribuyen normalmente. En estadística, al hablar de normal nos referimos a una distribución normal, que es la famosa campana de Gauss, llamada así porque fue este gran matemático quien la estudió y obtuvo sus importantes propiedades. Se caracteriza por ser simétrica alrededor de la media y porque la media y la mediana coinciden. Su gran ventaja es que permite calcular probabilidades de aparición de datos y, de ese modo, poder inferir datos de la población a partir de los obtenidos de la muestra. Es la base de toda la estadística inferencial.

Hay muchos ejemplos de no normalidad en procesos industriales. Baste citar a todos aquellos donde la variable aleatoria no puede tomar valores de -∞ a +∞. Por ejemplo: el proceso de taladrado, donde el diámetro de la broca es el límite inferior del posible taladro. Otro ejemplo: los procesos químicos como el galvanizado en que se van añadiendo espesores en el recubrimiento.

Ejemplo de proceso no normal: si la variabilidad es grande en relación con el espesor medio, es de esperar una distribución asimétrica

Y si nos alejamos de la industria, hay más casos de datos no normales. Por ejemplo, en medicina se sabe que el consumo de alcohol no se agrupa de forma simétrica alrededor de una media. Habrá un número grande de personas alrededor del cero (abstemios y bebedores muy ocasionales) y una larga cola hacia la derecha formada por personas con un consumo más alto. Esta cola se prolongará para incluir a los alcohólicos, que desayunan aguardiente.

Hay métodos gráficos que ayudan a determinar visualmente si los datos siguen la normal o no. El histograma o el diagrama de cajas suelen ser útiles a la hora de comprobar si la distribución está sesgada, si es demasiado plana o si tiene valores extremos. Otro gráfico, aún más específico, es el de probabilidad normal (q-q plot), en el que los valores se ajustan a una línea diagonal si la distribución es normal.

Pero no esperen que sea obvio. En las gráficas siguientes representamos los histogramas y el ajuste a la línea normal de dos conjuntos de datos aleatorios obtenidos de una distribución normal. El gráfico superior (C2) es de 20 muestras y el de abajo (C3) de 1.000. Ambos son normales, pero solo el inferior lo parece. Desengáñese, usted normalmente no va a tomar mil muestras si para evaluar su problema solo necesita veinte.

20 muestras aleatorias

1000 muestras aleatorias

En el siguiente gráfico realizamos una prueba de normalidad y representamos no solo el histograma, también los gráficos de cajas y los resultados de una prueba estadística de Anderson-Darling. Esta prueba es una medida de lo lejos que caen los puntos del gráfico de la línea ajustada en una gráfica de probabilidad. La estadística es una distancia cuadrada ponderada hasta la línea ajustada, dando más peso a las colas de la distribución. Para un conjunto de datos y una distribución específicos, cuanto mejor se ajuste la distribución a los datos, más pequeña será esta estadística.

Resumen gráfico C2-C3

La estadística descriptiva, por tanto, se puede resumir en varios gráficos: histograma de datos con una curva normal superpuesta, distribución respecto de la diagonal, el diagrama de cajas con los intervalos de confianza del 95% para la media y la mediana, y el informe de la prueba estadística, incluyendo asimetrías y curtosis.

EL TEOREMA DEL LÍMITE CENTRAL

Todo proceso industrial está sometido a una serie de factores de carácter aleatorio que hace que resulte imposible fabricar dos productos exactamente iguales. A esto nos referimos cuando decimos que la fabricación de un producto presenta variabilidad, una variabilidad que es indeseable, Nuestro objetivo es reducirla lo más posible o, al menos, confinarla dentro de unos límites.

Hay muchos factores que producen variabilidad: las oscilaciones de las características del material que se utiliza, las variaciones de temperatura y humedad ambiental, el comportamiento del propio operario, las fluctuaciones intrínsecas de la maquinaria que se emplea, etc. Si el proceso funciona de modo que las oscilaciones de todos estos factores son pequeñas y ninguno predomina frente a los demás, entonces es esperable que la calidad del producto se distribuya según una curva normal.

El enunciado matemático que demuestra esta afirmación se denomina «Teorema del Límite Central» , un importante resultado de 1920 del gran matemático húngaro George Pólya (el mismo que dijo aquello de «si no puedes con un problema es porque hay una manera más sencilla de resolverlo«), y establece que si una variable aleatoria se obtiene como suma de muchas causas independientes, cada una de poca importancia respecto al conjunto, entonces su distribución se aproxima de forma asintótica a una distribución normal.

Al conjunto de toda esa multitud de factores y fluctuaciones las denominamos causas comunes. Cuando existe un factor predominante, la calidad no tiene por qué seguir una distribución normal y se dice que está condicionada por una causa especial o asignable. Es lo que puede suceder cuando una fábrica cambia de proveedor de materias primas y continúa fabricando materiales que pueden ser muy distintos: es posible que los productos fabricados sean significativamente distintos a partir del nuevo lote.

Un proceso se encuentra bajo control estadístico cuando no hay causas asignables presentes. Su calidad sigue una distribución normal y es posible realizar predecir en qué intervalo del proceso se encontrarán las características deseadas de la pieza fabricada.

CONFLICTO: LOS DATOS NO SON NORMALES

La ausencia de normalidad obliga a reconsiderar muchas pequeñas cuestiones que seguimos al implantar control estadístico o efectuar pruebas de media y varianza.

La interpretación de los índices de capacidad Cp, Cpk, Pp, Ppk y su intervalo de confianza han de calcularse para la distribución que realmente siga el proceso.
Si no se conoce la distribución, tampoco podremos calcular los límites de control: todo lo más que podremos decir que, si la media es μ y la desviación típica es σ, al menos la mitad de sus valores se encontrarán en el intervalo $(\mu -{\sqrt {2}}\sigma ,\mu +{\sqrt {2}}\sigma )$ .
Pese a ello, y gracias al teorema central del límite, es posible que la distribución del gráfico de medias sea a pesar de todo normal. No obstante, si la distribución del proceso tiene una alta asimetría es necesario que el tamaño de la muestra sea superior a 25 o 30 para que se pueda considerar normal.
No podremos usar las habituales pruebas t-Student o efectuar un análisis de varianza (ANOVA). Todos ellos precisan que la distribución sea normal. Es cierto que la prueba t-Student es robusta, pero solo si el tamaño muestral es grande (n > 80). En caso contrario, lo idóneo es no utilizarla.

SOLUCIÓN AL CONFLICTO

En estos casos, lo más recomendable es proceder del siguiente modo:

Puesto que la causa de no normalidad es intrínseca al proceso, se debe tomar una muestra de al menos 25 o 30 unidades, de manera que la distribución de la muestra sea lo más próxima a la normal. De esta manera se puede mantener el control de las derivas en el proceso.
Estudiar la distribución (calcular media, desviación típica y coeficiente de asimetría). En el caso de que la distribución no se encuentre contenida en el intervalo de tolerancias, ya se puede anticipar la incapacidad del proceso. Si se encuentra contenida en el intervalo de tolerancias de manera muy ajustada, es posible que el resto de las causas de variación presentes en la operación habitual del proceso haga que parte de la producción esté fuera de tolerancia.

Para una gran mayoría de analistas, la no normalidad no es un problema porque siempre se puede transformar los datos no normales en normales, aunque ya vimos (aquí) que los límites tres-sigma funcionan por fuerza bruta sin necesitar de suposiciones de normalidad. En cualquier caso, se puede realizar una transformación de normalización de los datos. En biología se usa mucho, por ejemplo, la transformación logarítmica, en casos de contagio por patógenos, como vemos estos días de coronavirus.

Por lo general, las transformaciones de Box- Cox suelen funcionar bastante bien: maximizan una extraña función «verosimilitud» definida a partir de unos datos transformados según la siguiente expresión:

Transformación Box-Cox ,

y la función verosimilitud que ha de maximizarse para un cierto λ es:

No se preocupe si le suena a chino o cantonés. Casi todo el mundo emplea esta técnica sin conocer sus entresijos matemáticos. Quédese con la idea de que un valor de λ = 1 es equivalente a usar los datos originales. Por tanto, si el intervalo de confianza del λ óptimo incluye 1, entonces no necesita transformar nada.

La gente de Minitab es muy proactiva y nos deja un ejemplo. Los datos son los siguientes:

Debemos inspeccionar los datos para comprobar si siguen una distribución normal porque, en caso contrario, no podemos fiarnos de los límites y promedios obtenidos. Para ello, empleamos una prueba de Anderson-Darling, donde claramente observamos asimetría en el histograma y cómo el valor-p es inferior a 0,005, por lo que concluimos que los datos no son normales:

Llegados a este punto, hemos de decidir si buscamos una distribución no normal apropiada o, por el contrario, transformamos los datos. En el primer caso, en este ejemplo observamos que podríamos emplear la distribución Lognormal y en ningún caso la Exponencial:

Podríamos efectuar un análisis de capacidad teniendo en cuenta esta distribución. Otra opción es optar por la transformación numérica de normalización:

En este caso, para la transformación de Box-Cox encontramos en el intervalo de confianza de 95% para λ (−2.87 a 0.66) el valor estimado óptimo de −1.03. Su valor redondeado es −1, por lo que podríamos transformar los datos utilizando λ = −1, que corresponde a la transformación inversa (valor transformado = 1 / valor original).

Los datos transformados sí siguen la distribución normal:

Con los datos transformados confirmados como normales, podremos efectuar el análisis que proceda, por ejemplo un gráfico de control I-MR:

Para conocer los límites de control, solo tenemos que deshacer la transformación, que en este caso coincide con la inversa. Desechamos los datos del I-MR original y nos quedamos con una media de 489,23 y los límites de control (339,2 – 877,2), y de igual modo con MR.

OTRA SOLUCIÓN AL CONFLICTO

Otra posibilidad es emplear pruebas no paramétricas, que no precisan de ninguna asunción sobre la distribución de la variable. Entre ellas destacan la comparación de dos medias de datos no pareados mediante el test de la suma de rangos de Wilcoxon. En caso de comparaciones entre varias medias, el test de Kruskal-Wallis es el equivalente no paramétrico al de ANOVA. El equivalente no paramétrico de coeficiente de correlación de Pearson es el coeficiente de correlación de Spearman.

Todas estas pruebas son más exigentes que sus equivalentes paramétricos. Pero de todo ello hablaremos, mejor, en otra ocasión. De momento ya tenemos bastante.