sábado, 24 de agosto de 2024

TRANSFORMACIÓN DE BOX-COX CON EXCEL

Una de las herramientas más comunes que se usa en estadística para transformar datos no normales a datos normales es la famosa transformación de Box-Cox, que consiste en usar el siguiente estadístico como punto de partida, cuando λ ≠ 0.  
Donde Zi es el puntaje de una distribución normal estándar, G es la media geométrica, Yi son los datos originales y λ es un coeficiente que sirve para determinar la mejor ecuación para la transformación de los datos originales a datos que se pueden ajustar mejor a una distribución normal.

Cuando λ = 0 o muy próximo a 0, entonces, la transformación se puede calcular directamente por:
Para resolver esta ecuación de tipo iterativa y obtener un lambda óptimo, se procede de la siguiente manera.
Se fija un objetivo a minimizar que en este caso es la desviación estándar, la cual se obtiene para datos individuales a partir del rango móvil promedio y en el caso de subgrupos a partir del rango promedio, según la siguiente expresión:


Por lo tanto, la función objetivo, que es la desviación estándar estimada se minimiza cambiando el valor inicial de lambda.
Una vez terminada la iteración y obtenido el valor de lambda, éste se compara con los lambda de la siguiente tabla y se usa la expresión correspondiente más próxima. Por ejemplo, si el lambda obtenido es 1,7, se puede usar la expresión que corresponde a lambda = 2 para transformar los datos.
Aquí, Wi significa datos transformados.

Ejemplo en Excel

Antes de proceder a realizar estos cálculos en Excel, previamente se debe descargar el paquete estadístico SOLVER desde complementos de Excel. 
Archivo < Opciones < Complementos. En administrar hacer clic en IR, y luego clickear Solver y aceptar. El paquete estadístico quedará disponible en datos.

Para entender cómo se usa esta herramienta con Excel, supongamos que tenemos los siguientes datos, los cuales claramente no se ajustan a una distribución normal como se aprecia en el siguiente gráfico.

Si se realiza un test de normalidad a los datos, el p-valor Anderson Darling < 0,005

Para realizar la transformación, se deben colocar los siguientes datos en una planilla de Excel. En la columna A colocar los datos originales, y en la columna B calcular los Zi de acuerdo con la ecuación correspondiente, pero partiendo de la base de un valor inicial de iteración, que en nuestro ejemplo podría ser l = 0,5. Para calcular la desviación estándar (sigma) se debe proceder a calcular los rangos móviles de cada valor respecto del anterior en la columna C, luego calcular el rango móvil promedio, y ese valor dividirlo por d2 = 1,128 para obtener sigma. Ver la siguiente figura.

Una vez realizado todos estos cálculos se procede a usar la función SOLVER de Excel

Datos < Solver

Aquí de lo que se trata es minimizar el valor de sigma cambiando el valor de lambda, sujeto a la restricción de que lambda no puede ser mayor que 1. 

Las siguientes figuras muestran como completar los cuadros de diálogo para obtener el lambda que buscamos.


Colocando las siguientes restricciones

Aceptar, y en opciones colocar 500 iteraciones.

aceptar


Y finalmente, aceptar.


El resultado de lambda final para este ejemplo es 0,44. Como l = 0,44 está más próximo a l = 0,5. Por lo tanto, la transformación que procede es


Y los datos transformados serán


Los cuales según se puede ver en esta gráfica se ajustan mejor a una distribución normal que los datos originales.





Referencias:
(3) Curso "Estadística con Excel aplicado a procesos mneros" de Mauricio Arancibia G.