martes, 17 de enero de 2023

NO CONFUNDAS INTERVALOS DE CONFIANZA CON INTERVALOS DE TOLERANCIA ESTADÍSTICO

Uno de los grandes errores que se comete en el mundo de la ingeniería y de las ciencias es confundir estos dos tipos de intervalos.

La mayoría de los usuarios de métodos estadísticos están familiarizados con los intervalos de confianza (comunes) para la media de la población y para la desviación estándar de la población, pero a menudo no para los cuantiles de la población o la probabilidad de exceder un valor umbral especificado. A pesar de que algunas personas, especialmente en la industria, también conocen los intervalos de tolerancia, tienden frecuentemente a confundir estos intervalos, calculando un intervalo de confianza para contener la media poblacional cuando el problema requiere un intervalo de tolerancia o un intervalo de predicción.

Este artículo tiene por objeto, mostrar cuáles son esas diferencias y como se aplican en el mundo real.

Pero primero partamos definiendo qué entendemos por intervalo de confianza y qué entendemos por intervalo de tolerancia estadístico.

Un Intervalo de confianza, IC, es un intervalo donde podemos suponer de manera razonable que se encuentra el valor verdadero. Y cuando hablamos de un IC del 95% lo que estamos diciendo es que, si el experimento se repitiera varias veces, existe la probabilidad de que el 95% de esos intervalos pueda contener el valor verdadero.

En palabras simples, la longitud de ese intervalo es una medida de la precisión de la estimación del parámetro a través del estadístico.

En cambio, un intervalo de tolerancia estadístico (o simplemente intervalo de tolerancia para muchos textos), IT, es un intervalo que contiene una proporción específica de una población con un nivel de confianza establecido.

Para entender ambos conceptos, supongamos que tenemos un contenedor que contiene un cierto tipo de mineral, cuya característica de interés se encuentra uniformemente diseminado en el medio y que este lote lo podemos ver como una población probabilística (lotes de 0-D en la teoría de Pierre Gy), y estamos interesados en saber 2 cosas respecto de él:

Pregunta a) Cual es el contenido de arsénico medio en gpt; y

Pregunta b) Cuál es su variabilidad o dispersión en ese contenedor

Supongamos que los datos se pueden ajustar a una distribución aproximadamente normal, por lo tanto, para estimar los respectivos parámetros (valores que son desconocidos para nosotros) en a) podemos usar la media aritmética muestral para estimar la media poblacional μ, y para b) podemos usar la desviación estándar muestral para estimar la desviación estándar poblacional, σ.

Pero, también podemos hacer dos preguntas adicionales acerca de los datos del contenido de arsénico del contenedor:

Pregunta c) Qué tan confiable es el valor medio de arsénico reportado y

Pregunta d) Qué tan confiable es la desviación estándar de arsénico reportada.

Para las preguntas a y b estamos ante la presencia de estimaciones puntuales. Existe una estimación puntual para la media y una estimación puntual para la desviación estándar. Pero como la estimación puntual es un solo número, el hecho de repetir varias veces este experimento, vamos a obtener diferentes estimaciones puntuales y dependiendo del tamaño de muestra elegido esas diferencias podrían ser grandes o pequeñas. Por ello, la respuesta a las preguntas c y d están relacionadas con otro tipo de estimación; la estimación por intervalos (o intervalos de confianza) de la media y la estimación por intervalos (o intervalos de confianza) de la desviación estándar.

Sin embargo, todavía podemos hacer una quinta pregunta diferente a las anteriores:

Pregunta e) Cuáles son los valores extremos de contenido de arsénico que se presentan en el contenedor, que equivale a preguntar en qué intervalo se presenta el contenido de arsénico. Pero también podríamos preguntar por una proporción específica, no necesariamente sus extremos.

Partiendo de la base que se trata de un material heterogéneo, (y que la variabilidad del sistema de medición (conformada por operador, equipos y otros factores) es despreciable. La respuesta a e) corresponde a estimar el intervalo de tolerancia estadístico. Pero como igual debemos tomar una muestra, la respuesta más precisa obedece al área de las probabilidades. Es decir, igual debemos establecer un nivel de confianza dado para entregar esa proporción.

Matemáticamente equivale a estimar en forma simultánea μ y σ, que son desconocidos. Y eso se hace a través del factor k de la siguiente expresión:

donde k es un factor que se puede obtener de tablas estadísticas y depende de alfa y del tamaño de muestra.

 

Demostración de las diferencias entre IC e IT

Para realizar una demostración de las diferencias entre ambos intervalos, vamos a partir del principio que, si el tamaño de muestra tiende a infinito, la estimación de μ con la media muestral y de σ con s coinciden respectivamente.

Matemáticamente, si queremos calcular el intervalo de tolerancia estadístico del 95% para una muestra con media = 100 y desviación estándar = 5 para un número infinito de observaciones, no importa el nivel de confianza. El resultado es:

IT = 100-1,96*5, 100 + 1,96*5 = (90.2, 109.8)

En cambio, para el intervalo de confianza de la media y de la desviación estándar (no importa el nivel de confianza escogido) el resultado es cero.

IC para la media = (100.0, 100.0) que es equivalente a 100 +/- 0

IC de la desv. estándar = (5.0, 5.0)

El siguiente ejercicio se realizó usando el software Minitab. Se tomó una muestra lo suficientemente grande para que estas estimaciones de μ y σ sean lo más confiable posible. Se generaron 10.000.000 de números aleatorios para una distribución normal con media = 100 y desviación estándar = 5.

Con estos datos se realizó una estimación por intervalos con diferentes niveles de confianza; 0,90, 0,95 y 0,99.


Como se puede apreciar con tamaños de muestra muy grandes, los límites de confianza inferior y superior son muy semejantes. Es decir, el intervalo de confianza es demasiado pequeño.

Lo mismo se realizó para la estimación por intervalo de la desviación estándar.


donde se aprecia que los límites de confianza inferior y superior son semejantes, independientes del nivel de confianza,

Ahora bien, al calcular el intervalo de tolerancia estadístico para 10.000.000 de observaciones generadas aleatoriamente con diferentes niveles de confianza encontramos que los valores no dependen del nivel de confianza porque tienden a converger a un valor específico. 


Conclusión, el intervalo de tolerancia estadístico tiende a una proporción constante cuando n tiende a infinito, no importa el nivel de confianza.

En cambio, el intervalo de confianza tiende a ser cero.


Aplicaciones en el mundo real.

El siguiente ejemplo tiene por objetivo a ayudarnos a clarificar estas diferencias.

Tema. - Un material de referencia elaborado en un laboratorio para el elemento hierro.

Descripción. - Un material que es preparado en un laboratorio como material de referencia y que ese mismo material es ensayado diferentes veces por diferentes operadores, en diferentes días para obtener una media (valor asignado al MR) y una desviación estándar para ese laboratorio.

Datos; 


Objetivos:

Pregunta a) Cuál es el contenido medio de hierro en el Material de referencia. Esto equivale a determinar la media aritmética, que corresponde al valor central de los datos.

Respuesta: X barra = 12,51% Fe

Pregunta b) Cuál es su variabilidad o dispersión. Esto equivale a determinar la reproducibilidad media a través de la desviación estándar, que corresponde a la variación debida al sistema de medición, partiendo de la base que la no homogeneidad del MR es despreciable y que toda la variabilidad se deba al sistema de medición (operadores, equipos, método, otros factores).

Respuesta:  s =0,18% Fe

Pregunta c) Qué tan confiable es el valor medio de hierro reportado. Esto equivale a realizar una estimación por intervalos de la media, que es lo mismo que determinar el intervalo de confianza de la media. 

Respuesta: (12,47 a 12,54) % Fe con un 95% de confianza

Eso equivale al semi-intervalo +/- 0,03% Fe

Pregunta d) Qué tan confiable es la desviación estándar de hierro reportado. Esto equivale a realizar una estimación por intervalos de la desviación estándar, que es lo mismo que determinar el intervalo de confianza de la desviación estándar.

Respuesta: (0,16 a 0,21) % Fe con un 95% de confianza

Pregunta e) Cuáles son los valores extremos de contenido de hierro que se obtuvieron en la estandarización (asociado al sistema de medición).  Pero también podríamos preguntarnos por una proporción específica. Esto equivale a preguntar cuál es el intervalo de tolerancia estadístico.

Respuesta: Con un 95 % de confianza (1 - α = 0,95), se puede afirmar que el 95% de los valores (p = 0,95) producto del sistema de medición cubren un intervalo que va desde 12,11 a 12,91 % Fe. 

Con un 95% de confianza, se puede afirmar que el 99% de los valores se encuentran entre 11,98 a 13,04 % Fe.

Referencias

(1) Meeker, Hans, Escobar - Statistical Intervals_ A Guide for Practitioners and Researchers - Ed. 2017

(2) Montgomery, Runger - Applied Statistics and Probability for Engineers, - 7ª Ed, 2018

(3) Walpole, Myers, Myers, Ye - Probability & Statistics for Engineers & Scientists - Ed. 2016

(4) Norma ISO 16269-6:2014 - Statistical interpretation of data — Part 6: Determination of statistical tolerance intervals - Ed 2014

(5) Curso de Estadística con Excel aplicado a procesos mineros de Mauricio Arancibia G.

Pincha aquí para saber más acerca de los cursos que se ofrecen en 2023: CURSOS ONLINE

miércoles, 11 de enero de 2023

POTENCIA Y TAMAÑO DE MUESTRA PARA LA PRUEBA Z DE 1 MUESTRA EN EXCEL

Uno de los grandes problemas que el profesional e investigador enfrenta diariamente al usar pruebas estadísticas es asegurar que su resultados y conclusiones sean confiables. En la estadística frecuentista equivale a validar los supuestos subyacentes y a determinar el tamaño de muestra mínimo para que sus resultados sean válidos (aparte de considerar otros factores).

En la prueba z de 1 muestra, lo que se desea determinar es que tan significativa es la diferencia entre la media de una muestra y un valor de referencia cuando sigma es conocido. 

(Ojo, en estadística el concepto de muestra se refiere a un conjunto de observaciones que lo asociamos a alguna característica de interés para nuestro estudio)

El contraste de hipótesis es:

Prueba bilateral: 

H0 : μ = μ0 vs H1: μ ≠ μ0

Prueba unilateral

H0 : μ ≤ μ0 vs H1: μ > μ0

H0 : μ ≥ μ0 vs H1: μ < μ0

Para el criterio de rechazo se pueden usar cualquiera de los siguientes tres métodos alternativos que son equivalentes; el método del puntaje, el método de la probabilidad o el intervalo de confianza. 

Pero, las conclusiones de esta prueba además van a depender de la interrelación de 5 factores; el tamaño de la muestra, la variabilidad de los datos, la diferencia que se quiere detectar, la potencia de la prueba (asociada al error tipo II) y el error tipo I.

Vamos por parte, que es el error tipo I y el error tipo II.

Cuando repetimos un experimento varias veces, los resultados que obtenemos (los datos), nunca van a ser iguales, estamos en el campo de las probabilidades y aquí podemos cometer dos tipos de errores;

El error tipo I, expresado como probabilidad alfa; es la probabilidad de rechazar la hipótesis nula cuando la hipótesis nula es cierta.

El error tipo II, expresado como probabilidad beta, es la probabilidad de no rechazar la hipótesis nula cuando la hipótesis nula es falsa.

La potencia de la prueba, en cambio, es la probabilidad de rechazar la hipótesis nula cuando la hipótesis nula es falsa. Esto último nos estaría dando un indicador de que tan sensible es una prueba para detectar una diferencia específica. Valores del 80% hacia arriba se considera bueno, sobre el 90% aún mejor.


Determinación de la potencia de la prueba z de 1 muestra en Excel 

En resumen, para determinar la potencia de una prueba tenemos que considerar que ésta depende de los siguientes factores:

1.- El tipo de prueba estadística

2.- Si la prueba es unilateral o bilateral

3.- la probabilidad alfa

4.- El tamaño de la muestra, n

5.- La diferencia que deseamos detectar

6.- la variabilidad de los datos


Por lo tanto, las ecuaciones que determinan la potencia son:

Para una prueba bilateral:  H1: μ ≠ μ0




Para una prueba unilateral:  H1: μ > μ0 




Para una prueba unilateral:  H1: μ < μ0 




A continuación, se presenta como puede determinarse la potencia de la prueba z de 1 muestra en Excel.

Los datos de entrada se escriben en una pestaña en Excel que denominaremos "salida" (Ver figura 2). En la segunda pestaña denominada "calculo" es donde se realizan los cálculos respectivos (Figura 1) 


Figura 1.- Hoja de cálculo para determinar la potencia de la prueb

En la pestaña salida, es donde se anotan los datos y se despliega el resultado. En la siguiente figura se muestra la potencia obtenida para una prueba bilateral



Figura 2.- Hoja donde se escriben los datos de entrada; n, alfa, sigma y diferencia a detectar.

Las hipótesis alternativas que se presentan en el cuadro verde de la Figura 2 se construye a partir de los controles de formularios de Excel, que se ubican en; programador > Insertar > controles de formulario > botón de opción (control de formulario).
Una vez colocado esos botones, con el botón derecho del mouse se debe teclear Formato de control


Figura 3.- Menú para ingresar a Formato de control

Una vez en formato de control, se debe vincular a la celda respectiva de la pestaña calculo, tal como se muestra en Figura 4.


Figura 4.- Cuadro de diálogo del Formato de control

Y con esto deberían aparecer los resultados en la hoja de salida, de la Figura 2.


Determinación del tamaño de muestra para la prueba z de 1 muestra en Excel

Para determinar el tamaño de muestra, tenemos que considerar, que ésta depende de los siguientes factores:

1.- El tipo de prueba estadística

2.- Si la prueba es unilateral o bilateral

3.- la probabilidad alfa

4.- La potencia de la prueba

5.- La diferencia que deseamos detectar

6.- la variabilidad de los datos

Por lo tanto, las ecuaciones que determinan el tamaño de muestra son:

Para las pruebas unilaterales:






donde:





Para la prueba bilateral:

Se debe usar un método iterativo para encontrar n. En Excel se puede recurrir a la función BUSCARV.

A continuación, se presenta como puede determinarse el tamaño de muestra para la prueba z de 1 muestra en Excel.
Los datos de entrada se escriben en la pestaña en Excel que se denomina "salida" (Ver figura 6). En la segunda pestaña denominada "calculo" es donde se realizan los cálculos respectivos (Figura 5)


Figura 5.- Hoja de cálculo para determinar el tamaño de muestra

En la pestaña salida, es donde se anotan los datos y se despliega el resultado. En la siguiente figura se muestra el tamaño de muestra mínimo que se requiere para una prueba bilateral.


Figura 6.- Hoja donde se escriben los datos de entrada; potencia, alfa, sigma y diferencia a detectar.

Las hipótesis alternativas que se presentan en el cuadro verde de la Figura 6 se construye a partir de los controles de formularios de Excel, que se ubican en programador > Insertar > controles de formulario > botón de opción (control de formulario).
Una vez colocado esos botones, con el botón derecho del mouse se teclea Formato de control

Figura 7.- Menú para ingresar a Formato de control

Y se vincula a la celda respectiva de la pestaña calculo, en este caso relacionada con el tamaño de muestra


Figura 8.- Cuadro de diálogo del Formato de control

Por último, en la pestaña iterativo z, se presenta el método iterativo para determinar el tamaño de muestra para una prueba bilateral.


Figura 9.- Hoja de cálculo donde se presenta el método iterativo para obtener el tamaño de muestra para una prueba bilateral


Figura 10.- Hoja de cálculo donde se presenta el método iterativo para obtener el tamaño de muestra para una prueba bilateral

Se debe tener presente, que para el resto de las pruebas como t de 1 muestra, test de 1 varianza, t de 2 muestras independientes, t de muestras pareadas, ANOVA de 1 factor, etc. cada una de ellas tiene su propio cálculo de potencia y tamaño de muestra.

Referencia
(2) Montgomery D., Runger G., “Applied Statistics and Probability for Engineers”, 7° Ed. 2018

Pincha aquí para saber más acerca de los cursos que se ofrecen en 2023: CURSOS ONLINE

viernes, 9 de septiembre de 2022

PRUEBA DE KRUSKAL-WALLIS CON EXCEL

Esta prueba es alternativa al test de ANOVA para ver si existen diferencias entre las medias cuando los datos no se ajustan a una distribución normal. Pero como corresponde a un método no paramétrico, lo que se comparan son las medianas.

Contraste de Hipótesis:
H0: las k muestras provienen de la misma población
H1: Al menos una muestra proviene de una población con una mediana diferente a las demás


Estadístico de prueba:

donde:
n: es el tamaño de la muestra
R: es el orden asignado (ranking según KW)

Criterio de rechazo:
Si p-valor < α, entonces se rechaza la hipótesis nula.


Requisitos para la prueba:
  1. La muestra debe ser aleatoria simple
  2. Los datos deben tener un factor categórico
  3. La respuesta debe ser continua
  4. Los datos de todos los grupos deben tener distribuciones con una forma similar
El siguiente ejemplo ilustra como puede construirse un estadístico de Kruskal-Wallis en Excel.
Los siguientes datos corresponden a una ronda intralaboratorio, donde 6 analistas ensayan en forma independiente un material de referencia en sextuplicado. Determinar si las medianas de los analistas son iguales o si al menos una de ellas difiere, con un nivel de confianza del 95%.



Este estadístico, lo que hace es asignar un número de orden a cada valor, ya sea en forma descendente o ascendente. Si dos o más de los valores son iguales, se dice que se registra "un empate". En este caso, se asigna a esos valores repetidos el promedio resultante.
En Excel, para realizar esa operación existe una función que se denomina jerarquia.media.
=JERARQUIA.MEDIA(número;referencia;[orden]).
Número: es el valor al que hay que asignarle un orden
referencia: es el intervalo de valores (todos)
[orden]: 0 significa descendente y 1 ascendente.


Finalmente, para obtener H, el estadístico de Kruskal-Wallis y el p-valor, se procede de acuerdo con la siguiente figura.


Conclusión.
Como el nivel de confianza es del 95%, alfa = 0,05.
Por lo tanto, como p-valor < 0,05, se rechaza la hipótesis nula. Es decir, al menos una de las medianas difiere.

Referencia: 
[1] E.L. Lehmann (1975). Nonparametrics: Statistical Methods Based on Ranks, Holden-Day.
[2] M. Hollander and D.A. Wolfe (1973). Nonparametric Statistical Methods, John Wiley & Sons, Inc.

Pincha aquí para saber más acerca de los cursos que se ofrecen en 2023: CURSOS ONLINE

lunes, 22 de agosto de 2022

LA HOMOGENEIDAD EN MATERIALES PARTICULADOS SEGÚN LA TEORÍA DE PIERRE GY

Para Pierre Gy, la homogeneidad es un concepto relativo, depende de los lentes con que estemos mirando el material. Si miramos los objetos de lejos parecerán homogéneos a que si lo miramos de cerca.

La homogeneidad perfecta no existe, es una ilusión. La naturaleza es heterogénea.

Se entiende por homogeneidad de constitución cuando las diferencias entre partículas o fragmentos es nula. Es decir, todos los fragmentos son iguales en densidad, tamaño de partícula, propiedades físicas y químicas, etc. (lo que es un caso irreal).

Se entiende por homogeneidad de distribución, la distribución espacial de las partículas de tal manera que no hayan diferencias entre grupos, 

A continuación, se presentan 4 diagramas que sirven para demostrar la naturaleza aleatoria de la "homogeneidad".

Caso A.- En este cuadro hay 64 componentes completamente homogéneos. Esto corresponde a la homogeneidad de constitución.

Aquí se puede apreciar que al no existir heterogeneidad de constitución, tampoco habría heterogeneidad de distribución. 

Este caso no es real.

Caso B.- Módulos repetidos en la vertical y horizontal. La constitución es heterogénea, con 4 diferentes componentes, pero con la distribución estrictamente homogénea si consideramos un múltiplo del módulo 1x4 o 4x1, como por ejemplo; un rectángulo 4x3. Pero heterogénea en un cuadrado 3x3 o un rectángulo 5x2.

Un ejemplo en la vida real podría ser el  de un cristal perfecto.

Caso C.- Representa una distribución completamente segregada. Los cuatro componentes están separados y forman 4 capas respectivamente homogéneas.

En la práctica, esto ilustra el peligro asociado al muestreo de agarre (grab sampling). Hay dos dimensiones de homogeneidad y 1 dimensión de heterogeneidad.


Caso D.- La figura muestra una distribución completamente aleatoria. La heterogeneidad de distribución es mínima e igual al residuo aleatorio DHL.
Equivale a seleccionar al azar, cada elemento, uno por uno, antes de ser colocado al interior del lote. Esto es equivalente a mezclar u homogenizar. Tiende a suprimir o cancelar cualquier correlación entre posición y personalidad de las unidades

Éste último constituye un ejemplo de lo más cercano que puede estar un material de la homogeneidad.

Por lo tanto, un material particulado presenta dos condiciones que provocan que el material no sea estrictamente homogéneo:

1.- heterogeneidad de constitución.- corresponde a la diferencia entre fragmentos. Ninguna partícula o fragmento es igual a otro, porque tienen distinto tamaño, distinta densidad, distinta composición física o química, etc. 

2.- heterogeneidad de distribución.- corresponde a las diferencias entre grupos de fragmentos. Las partículas tienen la propiedad de agruparse y segregarse. Esta anisotropía se ve favorecida por la fuerza de gravedad que actúa en sentido vertical una vez que el material ha dejado de homogenizarse. Al ser las partículas diferentes, lo más homogéneo desde el punto de vista espacial que puede presentarse un material (Caso D), según lo expuesto en los diagramas anteriores, es que las  partículas se distribuyan de manera aleatoria en el espacio. Aunque el material sea sometido a homogenización usando un mezclador u homogenizador correcto, siempre va a existir una heterogeneidad residual.


Tipos de homogeneidad (desde el punto de vista práctico)

En la naturaleza los materiales presentan un híbrido entre estas 5 condiciones.

a) Homogeneidad de tres dimensiones.- Esta es la única forma isotrópica, no degenerada de la homogeneidad de distribución. Es lo que asintóticamente observamos en los homogenizadores.

Una vez que se detienen los homogenizadores comienza actuar la fuerza de gravedad, por lo que esta condición es inestable.  

b) Homogeneidad de dos dimensiones.- Esta se produce por la degeneración de una distribución homogénea de 3 dimensiones, por la acción selectiva o diferencial de la gravedad (Caso C).
Existen 2 dimensiones de homogeneidad y 1 dimensión de heterogeneidad.

c) Homogeneidad de una dimensión.- Este tipo de homogeneidad no resulta por causas naturales, sino que es introducida en el proceso por los seres humanos.

Se crea con el fin de alimentar una planta con material que tenga variabilidad uniforme.

Existen 2 dimensiones de heterogeneidad y 1 dimensión de homogeneidad.

La técnica desarrollada para este fin, se aplica en las industrias del cemento y del acero, y se conoce como “bed blending”. Existen varios métodos de bed blending, tales como Chevron, Hileras, Chevcon, etc.

Nota.- Haga clic sobre los nombres de los métodos de bed-blending para ver los videos.

d) Homogeneidad por revolución.- Este tipo de homogeneidad puede definirse como una simetría alrededor de un eje vertical.

Existe 1 dimensión de homogeneidad y 2 dimensiones de heterogeneidad.

Lo observamos en la descarga de material particulado desde una faja transportadora, cuando el material cae en un plano horizontal o en un cilindro cónico alimentado a lo largo de su eje de revolución.

Otro ejemplo donde se usa este tipo de distribución es en el método de cono y cuarteo.

e) Heterogeneidad de tres dimensiones.- Este es el caso más general. Para el Dr. Gy es el estado que siempre deberíamos asumir cuando nada se sabe acerca de la distribución.
Hay 3 dimensiones de heterogeneidad y ninguna distribución de homogeneidad.

Referencia:
[1] Pierre Gy - "Sampling of heterogeneous and dynamic material systems". Ed 1992.

Pincha aquí para saber más acerca de los cursos que se ofrecen para en 2023: CURSOS ONLINE

domingo, 29 de mayo de 2022

CIFRAS SIGNIFICATIVAS PARA SISTEMAS DE MEDICIÓN Y OPERACIONES MATEMATICAS

El siguiente artículo tiene por objeto aclarar el uso de las cifras significativas, las reglas de redondeo numérico y las operaciones matemáticas con cifras significativas relacionadas con los sistemas de medición.. 

1. Ejemplos de cifras significativas en sistemas de medición

1.1 Aclaración de las cifras significativas en sistemas analógicos (2)

(Este punto está basado en el capítulo 1 del libro de Física de Alvarenga y Máximo)

Las cifras significativas de una medida son las cifras exactas seguido del primer número dudoso o incierto.

Ejemplo 1.1a.- ¿Cuántas cifras significativas puede reportar esta regla al medir la barra?


El resultado 14,35 cm. Aquí las cifras exactas son las comprendidas en el valor de 14,3 (sensibilidad de la regla es 0,1 cm) y el valor dudoso (o incierto) es el 5, ya que de este último no podemos estar tan seguro de su valor. Otra persona podría estimar la cifra como 4 o 6. Por lo tanto, el número total de cifras significativas es cuatro.

Ejemplo 1.1b.-  ¿Cuántas cifras significativas puede reportar esta regla al medir la barra?


La lectura final es 14,355 cm. Aquí las cifras exactas son las comprendidas en el valor de 14,35 cm (sensibilidad de la regla es 0,01 cm) y el valor dudoso es el último 5. Por lo tanto, el número de cifras significativas en el resultado final es cinco.  


Ejemplo 1.1c.-  ¿Cuántas cifras significativas puede reportar esta bureta al medir volumen? 


Respuesta: Aquí la lectura final es 30,00 mL. Aquí las cifras exactas están comprendidas en el valor de 30,0 mL (sensibilidad de la bureta es 0,1 mL), pero el tercer cero es dudoso o incierto. Por lo tanto, el número de cifras significativas en el resultado final es cuatro.

1.2 Aclaración de las cifras significativas en sistemas digitales

A diferencia de los sistemas analógicos, en los dispositivos con lectura digital, el dígito incierto o dudoso corresponde al último digito del resultado obtenido.

Ejemplo 1.2a.- ¿Cuántas cifras significativas puede reportar este termómetro al medir temperatura? 


Respuesta.- Aquí la lectura final es 36,8°C. Aquí las cifras exactas están comprendidas en el valor de 36°C, pero el tercer dígito es dudoso o incierto. Por lo tanto, el número de cifras significativas en el resultado final es tres.

Ejemplo 1.2b.- ¿Cuántas cifras significativas puede reportar esta balanza al medir masa?


Respuesta.- Aquí la lectura final es 6,9201 g. Aquí las cifras exactas están comprendidas en el valor de 6,920 g (sensibilidad de la balanza es 0,0001 g = 0,1 mg), pero el cuarto decimal es dudoso o incierto. Por lo tanto, el número de cifras significativas en el resultado final es cinco.

 

2. Resumen para determinar las cifras significativas:

1. Cualquier dígito diferente de cero es significativo.   
    Ejemplo: 1234,56     
    6 cifras significativas

2. Ceros  entre dígitos distintos de cero son significativos.
    Ejemplo: 1002,5    
    (5 cifras significativas)

3. Ceros a la izquierda del primer dígito distinto de cero no son significativos.
    Ejemplo:  0,00456    
    (3 cifras significativas)
    Ejemplo:  0,0056     
    (2 cifras significativas)

4. Si el número es mayor que 1, todos los ceros a la derecha del punto decimal son significativos.
    Ejemplo:  400,00     
    (5 cifras significativas)
 
5. Si el número es menor que 1, entonces únicamente los ceros que están al final del número y entre los dígitos distintos de cero son significativos.
    Ejemplo:  0,01020 
    (4 cifras significativas) 

6 . Cantidades definidas o contadas tienen un número ilimitado de cifras significativas
     Ejemplo:  pi, e, números de conversión ,etc.
      
7. Cuando un número íntegro termina en uno o más ceros (esto es, cuando no hay nada escrito después  del punto decimal), los ceros que determinan el número íntegro pueden o no pueden ser significativos, ya que depende cómo fueron obtenidos.
       Ejemplo:  1000    
      (1, 2, 3, o 4 cifras significativas)

Una manera de evitar confusión en este último caso es la de reportar el número en forma exponencial, escribiendo únicamente el número de cifras significativas. Por ejemplo, si solo hubiera dos cifras significativas en 1000, tendría que ser reportado como
1,0 x 103    (2 cifras significativas)
Si tuviera 3 cifras significativas, tendría que ser reportado como 
             1,00 x 103 3 cifras significativas, etc.

3. Sobre el redondeo de datos informados 

A. Cuando un número se obtiene mediante cálculos, su precisión depende de la precisión del número utilizado en el cálculo. Para limitar los errores numéricos, se retiene una cifra significativa adicional durante los cálculos y la respuesta final se redondea al número adecuado de cifras significativas. 

B. Se deben usar las siguientes reglas: 
1. Si el dígito adicional es menor que 5, elimine el dígito. 
2. Si el dígito adicional es mayor que 5, suéltelo y aumente el dígito anterior en uno. 
3. Si el dígito adicional es cinco, aumente el dígito anterior en uno si es impar; de lo contrario, no cambie el dígito anterior. 

C. En la siguiente tabla se dan ejemplos:


4. Cifras significativas según la FDA (1)

4.1 Definiciones y reglas para cifras significativas

A. Todos los dígitos distintos de cero son significativos.

B. El dígito más significativo en un resultado informado es el dígito distinto de cero que se encuentra más a la izquierda: 359,741 (3 es el dígito más significativo).

C. Si hay un punto decimal, el dígito menos significativo en un resultado informado es el dígito más a la derecha (ya sea cero o no): 359,741 (1 es el dígito menos significativo). Si no hay un punto decimal presente, el dígito distinto de cero más a la derecha es el dígito menos significativo.

D. El número de "dígitos entre" y los dígitos más y menos significativos corresponde al número de dígitos significativos en el resultado: 359,741 (hay seis dígitos significativos)

E. La siguiente tabla da ejemplos de estas definiciones:


5. Cifras significativas en operaciones matemáticas

La mayoría de los resultados analíticos en los laboratorios y procesos industriales se obtienen mediante combinaciones aritméticas de números: suma, resta, multiplicación y división.

El número adecuado de dígitos utilizados para expresar el resultado se puede obtener fácilmente en todos los casos recordando el principio establecido anteriormente: los resultados numéricos se informan con una precisión cercana a la de la medida numérica menos precisa utilizada para generar el número. Algunas pautas y ejemplos se dan a continuación:

5.1 Adición y sustracción

La pauta general al sumar y restar números es que la respuesta debe tener decimales iguales a la del componente con el menor número de decimales:

Ejemplo: 21,1 + 2,037 + 6,13 = 29,267

El resultado correcto es 29,3 ya que el componente 21,1 es el que tiene el menor número de decimales

5.2. Multiplicación y división

La pauta general es que la respuesta tenga el mismo número de cifras significativas que el número con la menor cantidad de cifras significativas:

(56 × 0,003462 × 43,72)/1,684 = 4,975740998 (resultado obtenido mediante una calculadora)
El resultado correcto es 5,0 ya que una de las medidas tiene sólo dos cifras significativas.

Ejemplo práctico: Tenemos un MRC que tiene un valor asignado de 0,180 % de molibdeno y queremos expresarlo en g/t ¿Cuántas cifras significativas al final tendrá?

Respuesta: 0,180 x 10000 = 1800 g/t Mo. Sólo 3 cifras significativas; el 1, 8 y el primer cero. El último cero no es significativo. Si lo quisiéramos usar como material de referencia para el molibdeno en g/t, el valor asignado ya no sería un sólo valor sino que estaría comprendido entre 1795 y 1805 g/t de Mo.


Referencia:

(1) FOOD AND DRUG ADMINISTRATION OFFICE OF REGULATORY AFFAIRS ORA Laboratory Manual Volume III Section 4. Editado 2019

(2) Alvarenga, Máximo. Física General con experimentos sencillos. Ed. 2008.

Pincha aquí para saber más acerca de los cursos que se ofrecen en 2023: CURSOS ONLINE

martes, 21 de diciembre de 2021

El diagrama de muestreo preferido de Pierre Gy

Los diagramas de muestreo son herramientas bastante útiles que se usan principalmente en la industria minera con el propósito de presentar un protocolo válido de todo el proceso de muestreo en función de la masa de la muestra y del tamaño de partícula.

Un diagrama clásico que relaciona la varianza relativa del error fundamental con respecto a la masa de la muestra y al tamaño de partícula está consignada en la siguiente expresión:

   

Sin embargo, existe otro tipo de diagrama de muestreo que es equivalente al anterior y que se le conoce en la literatura como el "diagrama preferido de Pierre Gy", pero que relaciona la masa de la muestra con respecto al tamaño de partícula y a la varianza relativa del error fundamental, y cuya expresión está dada por:

Para construir este último diagrama de muestreo, y considerando una masa del lote que es al menos 10 veces la masa de la muestra, se partió de la base que la primera ecuación ya no nos servía para este propósito, debido a que la constante C depende del tamaño de partícula y lo que necesitamos es relacionar la masa de la muestra precisamente con diferentes tamaños.

Por lo tanto, para encontrar una expresión donde la varianza relativa del error fundamental no se encuentre relacionada directamente con la constante C, se procedió a la descomposición del término C, agrupando los términos que realmente son independientes del tamaño de partículas, tal como se ilustra en la siguiente expresión


Aquí los términos del numerador son independientes de d, por lo que se puede agrupar en una nueva constante K que es independiente del tamaño de partícula:


Por lo tanto, se obtiene una ecuación equivalente de la clásica pero en función de términos independientes de C.


simplificando, obtenemos:


Por lo tanto, la expresión final para este diagrama de Ms vs d queda establecido por la ecuación:


Si queremos construir, por ejemplo, un diagrama de muestreo para el cobre en un mineral de cobre que se encuentra uniformemente diseminado, entonces podríamos aproximar el exponente r = 0,5.y la expresión anterior quedaría como:


Y de acuerdo con esta expresión se construye el siguiente diagrama de muestreo, en la que la masa de la muestra es función del tamaño de partícula y de la varianza relativa del error fundamental.


Para construir este gráfico se consideró un CV =10% y un K exp = 4,22 (línea roja). Los datos usados para construir el protocolo del muestreo son los que se entregan en la siguiente tabla.

Para mayor información de la construcción e interpretación del diagrama de muestreo clásico, ver mi post denominado 

La teoría de Pierre Gy aplicada a los minerales


Referencias:
(1) P. Gy. "Sampling of Particulates Material. Theory and Practice". Ed. 1979. Ed. Elsevier Scientific Publishing Company.
(2) P. Gy. "Sampling of heterogeneous and dynamic material systems. Theories of heterogeneity, sampling and homogenizing". Ed 1992. Ed. Elsevier Scientific Publishing Company.
(3) Curso-taller: "Teoría y práctica del muestreo, basado en la teoría de Pierre Gy" de Mauricio Arancibia G.

Pincha aquí para saber más acerca de los cursos que se ofrecen en 2023: CURSOS ONLINE

lunes, 6 de diciembre de 2021

Diseño de Plackett-Burman en Excel

El Diseño de Plackett-Burman, PB, es una herramienta estadística que se usa para validar métodos de ensayos cuando se considera un total de 7 factores.
La idea es ver cual es el impacto sobre la respuesta si hacemos ligeros cambios deliberados en los niveles de esos factores.
Los diseños PB son diseños factoriales fraccionados 27-4
Los diseños factoriales fraccionados corresponden a diseños en las que se ejecuta sólo una fracción del total de combinaciones de tratamientos de un diseño completo. Por ejemplo, en un diseño completo 27 habrían 128 combinaciones de tratamientos, corridas o pruebas independientes que tendríamos que realizar.
En cambio, en un diseño factorial fraccionado 27-4,  la fracción que corresponde es la de 1/16. Es decir, sólo bastarían 8 corridas o pruebas independientes para obtener los mismos resultados que si corriéramos las 128 corridas de un diseño completo.

En la prueba de PB es requisito realizar repeticiones para disponer de los grados de libertad suficientes para llevar a cabo la prueba estadística. Por lo tanto, es una buena idea considerar 2 replicas, por lo que se deberán considerar 16 corridas.

A continuación, se presenta un ejemplo de como realizar esta prueba estadística en Excel.
Supongamos que vamos a realizar una prueba de robustez para el ensayo de hierro mediante espectroscopía de absorción atómica. Los siguientes son los datos considerados.


Para poder usar esta prueba tenemos que escoger una de las 16 alternativas de combinaciones de tratamientos para que los resultados sean válidos. 
Una de esas alternativas es la que se presenta a continuación, la cual fue obtenida con el software Minitab, debido a que la combinación de tratamientos a usar debe cumplir ciertas restricciones de tipo estadístico, como la ortogonalidad. Esta alternativa elegida se puede usar para todas las pruebas que se quiera realizar en un futuro.


Aquí el valor -1 significa nivel bajo y +1 significa nivel alto. Hay 8 corridas o pruebas independientes, pero con 2 réplicas, por lo tanto debemos realizar 8 corridas con una repetición (total 16 resultados).

Para entender esta prueba, fijarse en la tercera fila por ejemplo de la figura anterior. Esta simbología significa que en la corrida 3 (Comb. trat.), debemos realizar el ensayo considerando A: agregar 12 mL de HNO3 (nivel alto, +1), B: 3 mL de HClO4 (nivel bajo, -1), C: calentar a 200°C (nivel bajo, -1), D: hasta que la solución no alcance a secarse (nivel alto, +1), E: sin agregar cobre a las curvas de calibración para igualar matriz (nivel alto, +1), F: acidificar las curvas de calibración a un 8% con HCl (nivel bajo, -1) y G: sin agregar Na2SO4 (nivel alto,+1).

Los resultados finales obtenidos al realizar las 16 combinaciones de tratamientos es:


Con estos datos se procede a realizar la prueba estadística en Excel.


Para obtener el efecto promedio positivo se multiplica todos los +1 por el valor hierro obtenido correspondiente a esa combinación de tratamientos.
Para obtener el efecto promedio negativo se multiplica todos los -1 por el valor hierro obtenido correspondiente a esa combinación de tratamientos.
El efecto total es la suma del efecto positivo y efecto negativo para cada réplica, lo que en estadística se denomina "contraste".

Para realizar esta prueba se debe tener en cuenta que se puede realizar a partir de una prueba t, donde el estadístico de prueba es:

donde las siguientes expresiones están involucradas:

A continuación, se presentan estas expresiones desarrolladas en Excel.



Para construir el gráfico se ordenan de mayor a menor los valores absolutos de los T0 asociados a los respectivos factores, lo que se conoce como "Efecto estandarizado":


Finalmente, se construye la carta de Pareto en función de esta tabla en Excel:
Insertar > Columnas agrupadas > seleccionar datos > agregar valores de la serie; B6:B12, aceptar y en editar agregar: A6:A12, aceptar
Agregar una nueva serie; C6:C12, acepta y aceptar. Luego, cambiar tipo de gráfico e ir a combinado, donde la serie 1 debe quedar como columnas agrupadas.


En nombre de la serie, seleccionar en la serie 2, líneas y aceptar.


Como conclusión, según este gráfico y p-valor, con un 95% de confianza, el factor F (acidez matriz de la curva) es significativo sobre la respuesta. Es decir, pequeñas variaciones de la acidez en las curvas de calibración (+/-2 mL) que no son consideradas en las soluciones de las muestras al momento de medir en el instrumento pueden tener impacto en el resultado final del análisis.


Pincha aquí para saber más acerca de los cursos que se ofrecen en 2023: CURSOS ONLINE