miércoles, 25 de agosto de 2021

Test h y k de Mandel en Excel para detectar datos anómalos

El siguiente artículo tiene como propósito mostrar como se puede construir en la aplicación Excel un gráfico que nos puede servir para identificar datos anómalos y datos cuestionables. El test h de Mandel es para detectar datos anómalos y cuestionables entre medias y el test k de Mandel es para detectar datos anómalos y cuestionables en la variación.

Como todas las pruebas de contrastes de hipótesis existe un estadístico de prueba y una función de densidad de probabilidad con la que éste se compara.

El estadístico de prueba h es el siguiente:

y su puntuación crítica es:
donde p es el número de laboratorios y t es la puntuación de una distribución t que depende del nivel de significancia y los grados de libertad.

 En Excel la puntuación t, con un nivel de confianza del 95%, se puede escribir como:

=distr.t.inv(0,05;p-1), donde p-1 corresponde a los grados de libertad

Por su parte, el estadístico de prueba k es el siguiente

y su puntuación crítica es:

donde p es el número de laboratorios y F es la puntuación de una distribución F que depende del nivel de significancia y los grados de libertad  entre grupos y los grados de libertad dentro de grupos.

En Excel, la puntuación F, con un nivel de confianza del 95%, se puede escribir como:

=distr.F.inv(0,05;p-1;(p-1)*(n-1)), , donde p-1 corresponde al número de grados de libertad entre grupos y n-1 al número de grados de libertad dentro de grupos.

Ejemplo de aplicación

Los siguientes son los datos extraídos de la norma ISO 5725-2 y que corresponden al contenido de azufre en carbón expresado en porcentaje. Son 8 laboratorios, los cuales debían reportar 3 réplicas para 4 niveles de concentración. Sin embargo, algunos laboratorios reportaron más de 3 réplicas. Por lo que el modelo correspondiente es no balanceado.

En Excel construimos una planilla de la siguiente manera:
:

donde SC corresponde a la suma de cuadrados de las diferencias entre las medias de cada laboratorio y la media de todos los laboratorios por cada nivel (desde las filas 9 a 12) y las celdas N4 a N7 corresponden a las medias de cada nivel.(filas 4 a 7) y pj es el número de laboratorios.


donde sij corresponde a la desviación estándar por cada nivel de cada laboratorio y SC es la suma de cuadrados de las deviaciones estándar de cada laboratorio (filas 27 a la 30).

Para la construcción de los gráficos en Excel, considerando Excel 365 o superior, se procede de la siguiente manera.

Gráfico h de Mandel en Excel
Seleccionar insertar gráfico; columnas 
Agregar 4 series; 
Series 1:  C14 a L14
Series 2:  C15 a L15
Series 3:  C16 a L16
Series 4:  C17 a L17

Luego: agregar las series correspondientes a los valores críticos
Series 5:  C20 a L20
Series 6:  C21 a L21
Series 7:  C22 a L22
Series 8:  C23 a L23

En editar seleccionar de C18 a L18.Aceptar y aceptar.
Luego, con el botón derecho del mouse sobre el gráfico seleccionar cambiar tipo de gráfico.
Ir a combinado y seleccionar columna agrupada - línea y en las series 5 a 8 cambiar a líneas y aceptar.
Hacer clic en eje x donde están los números de los laboratorios, botón derecho del mouse y seleccionar Dar Formato a eje > Opciones de eje > Etiquetas > En Posición de etiquetas seleccionar "Bajo".
Luego, colocar el cursor sobre el eje x (donde están los números de los laboratorios) y con el botón derecho del mouse seleccionar dar formato a eje > opciones del eje y en posición del eje seleccionar "En marcas de graduación".
Sobre la barra, colocar ancho del rango 500%, y el color escogido negro para cada barra.


Gráfico k de Mandel en Excel
Seleccionar insertar gráfico; columnas 
Agregar 4 series; 
Series 1:  C32 a L32
Series 2:  C33 a L33
Series 3:  C34 a L34
Series 4:  C35 a L35

Luego: agregar las series correspondientes a los valores críticos
Series 5:  C37 a L37
Series 6:  C38 a L38

En editar seleccionar de C31 a L31Aceptar y aceptar.
Luego, con el botón derecho del mouse sobre el gráfico seleccionar cambiar tipo de gráfico.
Ir a combinado y seleccionar columna agrupada - línea y en las series 5 a 8 cambiar a líneas y aceptar.
Hacer clic en eje x donde están los números de los laboratorios, botón derecho del mouse y seleccionar Dar Formato a eje > Opciones de eje > Etiquetas > En Posición de etiquetas seleccionar "Bajo".
Luego, colocar el cursor sobre el eje x (donde están los números de los laboratorios) y con el botón derecho del mouse seleccionar dar formato a eje > opciones del eje y en posición del eje seleccionar "En marcas de graduación".
Sobre la barra, colocar ancho del rango 500%, y el color escogido negro para cada barra.
Al final, se obtienen los siguientes gráficos de Mandel:


Interpretación de los gráficos

La línea entrecortada es el límite para 5% de significancia y la línea continua para el 1% de significancia.
Los datos son anómalos cuando la barra sobrepasa el 1% de significancia (es decir, la línea continua) y es cuestionable cuando la barra se encuentra entre la línea entrecortada y la continua superior.
Como se puede observar en el gráfico h, los laboratorios que se presentan como anómalos (diferencias significativas con respecto al resto de los laboratorios) son el 3 y 6, el cuarto nivel del laboratorio 3 y el segundo nivel del laboratorio 6. Sin embargo, el laboratorio 6 también presenta datos cuestionables en el nivel 1.
El gráfico k en cambio, que mide las diferencias dentro de grupos, es decir la variabilidad de los datos dentro de cada laboratorio, no presenta datos anómalos, solo presenta "datos cuestionables" (straggler en inglés) del laboratorio 5 en el nivel 3.



Referencias:
ISO 5725-2:2019 Accuracy (trueness and precision) of measurement methods and results — Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method.

Pincha aquí para saber más acerca de los cursos que se ofrecen en 2023: CURSOS ONLINE