En el análisis estadístico de datos, la verificación de supuestos probabilísticos constituye una etapa fundamental, especialmente cuando se aplican técnicas inferenciales que dependen de una distribución teórica específica, como la distribución normal. Entre estos supuestos, la evaluación de la bondad de ajuste de un conjunto de datos a una distribución teórica es crucial para asegurar la validez de estimaciones, intervalos de confianza y pruebas de hipótesis.
El test de Anderson–Darling (A–D) es una de las pruebas de bondad de ajuste más utilizadas debido a su elevada potencia estadística y a su sensibilidad en las colas de la distribución, característica que lo diferencia de otras pruebas clásicas como Kolmogorov–Smirnov o Chi-cuadrado. Esta propiedad lo hace especialmente adecuado en contextos donde los valores extremos tienen un impacto significativo, como el control de calidad, la ingeniería de procesos, la minería, el análisis químico y la gestión del riesgo.
A pesar de su amplia utilización en software estadístico especializado como Minitab, R o MATLAB, la implementación del test de Anderson–Darling en planillas de cálculo como Microsoft Excel no siempre se encuentra documentada de forma clara y sistemática. Considerando que Excel sigue siendo una herramienta ampliamente empleada en entornos industriales, académicos y de laboratorio, resulta relevante disponer de una metodología transparente que permita calcular el estadístico del test paso a paso, facilitando la comprensión del procedimiento y el control sobre cada una de las etapas del cálculo.
El presente artículo tiene como objetivo introducir el test de Anderson–Darling desde un enfoque práctico, orientado a su implementación directa en Excel. Se enfatiza la interpretación estadística del test, la estructura matemática del estadístico A² y la forma en que puede ser calculado utilizando funciones básicas de la planilla, sin recurrir a macros ni complementos externos. De este modo, se busca proporcionar una herramienta accesible que permita al usuario no solo aplicar la prueba, sino también comprender los fundamentos estadísticos que la sustentan.
Implementación del test de Anderson–Darling en Excel
En esta sección se presenta el procedimiento para calcular el estadístico del test de Anderson–Darling utilizando Microsoft Excel. Con fines didácticos, se considera el caso de evaluación de normalidad, asumiendo que los parámetros de la distribución (media y desviación estándar) son estimados a partir de la muestra. El desarrollo se realiza paso a paso, de modo que cada cálculo pueda ser replicado y verificado directamente en la planilla.
Se dispone del siguiente conjunto de datos muestrales, correspondientes a mediciones de una variable continua. El objetivo es evaluar si estos datos pueden considerarse provenientes de una distribución normal, utilizando el test de Anderson–Darling con un nivel de significancia α = 0,05.
En la Columna A, colocar en A1 Indice y desde A2 enumerar desde 1 a 20 (que es la cantidad de datos de este ejemplo). En B1 colocar Datos, y desde B2 hacia abajo copiar y pegar los datos. En la columna C, en la celda C2 ordenar los datos de menor a mayor con la función =K.ESIMO.MENOR(B:B;A2) y arrastrar hasta C21.
En la celda M1 a M3 colocar las siguientes etiquetas; Media, Desviacion estándar y tamaño de muestra con las siguientes funciones en N1 a N3.
En la celda D1 colocar z, y en D2 colocar =NORMALIZACION(B2;$N$1;$N$2) y arrastrar hasta D21. En E1 colocar P(i) que es la probabilidad de distribución acumulada de la normal. En E2 colocar =DISTR.NORM.ESTAND(D2) y arrastrar hasta E21. En F1 colocar LN(Pi), y en F2 colocar
=LN(E2) y arrastrar hasta F21. En G1 colocar P(n+1-i) que corresponde a la probabilidad de distribución acumulada de la normal pero en orden descendente. Para ello en G2 colocar =K.ESIMO.MAYOR(E:E;A2) y arrastrar hasta G21. Luego en H1 colocar LN(1-P(n+1-i) ) y en H2 colocar =LN(1-G2) y arrastrar hasta H21. En I1 colocar LN(Pi)+LN(1-Pn+1-i) y en I2 colocar =F2+H2 y arrastrar hasta I21. En la celda J2 colocar =(2*A2-1) y arrastrar hasta J21. En K1 colocar {(2i-1)[LN(Pi)+LN(1-Pn+1-i)]} y K2 colocar =I2*J2 y arrastrar hasta K21.
Para calcular el estadístico de prueba de Anderson Darling, debemos usar el siguiente algoritmo:
En M5 colocar AD y en N5 colocar =(-(SUMA(K:K)/N3))-N3
El estadístico AD definido originalmente por Anderson y Darling fue desarrollado bajo el supuesto de que la función de distribución teórica 𝐹(𝑥) es completamente conocida. Sin embargo, en la práctica, especialmente en el caso de la distribución normal, los parámetros de la distribución (media y desviación estándar) suelen ser estimados a partir de la misma muestra que se desea evaluar. Esta estimación introduce una dependencia adicional que altera la distribución muestral del estadístico AD. Como consecuencia, el uso directo del estadístico AD sin corrección conduce a valores críticos y valores-p incorrectos, generalmente más conservadores, lo que afecta la tasa real de error tipo I. Para compensar este efecto, se utiliza un estadístico corregido, comúnmente denotado como AD*, el cual ajusta el valor de AD en función del tamaño muestral.
Para el caso de la evaluación de normalidad, la corrección más utilizada se expresa como:

En M7 colocar AD* y N7 colocar =N5*(1+(0,75/N3)+(2,25/(N3^2))).
Para obtener el p-valor colocar en M9 p-valor y en N9 colocar =SI(N7<0,2;1-EXP(-13,436+101,14*N7-223,73*N7^2);SI(N7<0,34;1-EXP(-8,318+42,796*N7-59,938*N7^2);SI(N7<0,6;EXP(0,9177-4,279*N7-1,38*N7^2);EXP(1,2937-5,709*N7+0,0186*N7^2)))).
Interpretación del Test
Una vez calculado el estadístico de Anderson–Darling corregido AD* y el valor-p asociado, la decisión estadística se realiza contrastando el valor-p con el nivel de significancia previamente definido
𝛼. La hipótesis nula del test establece que los datos provienen de la distribución teórica evaluada, en este caso una distribución normal.
Si el valor-p es menor o igual que 𝛼, se rechaza la hipótesis nula, concluyéndose que existe evidencia estadísticamente significativa para afirmar que los datos no siguen una distribución normal. Por el contrario, si el valor-p es mayor que 𝛼, no se rechaza la hipótesis nula, lo que indica que no se dispone de evidencia suficiente para descartar la normalidad de los datos. En este ejemplo, se puede afirmar que los datos no se ajustan a una distribución normal.
Es importante destacar que no rechazar la hipótesis nula no implica demostrar que los datos sean normales, sino únicamente que, de acuerdo con la información contenida en la muestra y el nivel de significancia considerado, la desviación respecto de la distribución teórica no es estadísticamente detectable mediante el test de Anderson–Darling.
Asimismo, el test de Anderson–Darling debe interpretarse en conjunto con herramientas gráficas, como histogramas y gráficos de probabilidad normal, y considerando el contexto del problema analizado, el tamaño muestral y el impacto práctico de posibles desviaciones de la normalidad. De este modo, el test constituye un apoyo cuantitativo para la toma de decisiones, y no un criterio absoluto o aislado.
Referencias
[1] D´Agostino R, Stephens M. "Goodness of Fit Techniques, Ed. 1986
[2] Montgomery D. Runger G. "Applied Statistics and Probability for Engineers". 7 Ed. 2018
No hay comentarios:
Publicar un comentario