jueves, 21 de marzo de 2024

ENSAYO SOBRE UNA NUEVA PROPUESTA DE MEDICIÓN DE LA VARIABILIDAD E INCERTIDUMBRE

Ronald Fisher fue quien se dio cuenta que había que diferenciar entre población y muestra. Fue él, precisamente, quien introdujo los términos de parámetros (asociados a la población) y estadísticos (asociados a la muestra). A la vez, también se percató que los parámetros desconocidos, teníamos que "estimarlos" a partir de una muestra, proceso denominado "inferencia estadística".

Hasta aquí, tenemos una población con parámetros desconocidos, donde la estimación de los parámetros se hace a través de una muestra, cuyos términos a evaluar se denominan ahora "estadísticos". Y la inferencia estadística se denomina al proceso mediante el cual se hace afirmaciones válidas acerca de la población o proceso con base en la información contenida en una muestra.

Sin embargo, algo que no nos dicen los libros de estadística clásico o introductorio, la mayoría al menos, es que para poder estimar el valor del parámetro a partir de una muestra, debemos necesariamente realizar "MEDICIONES" sobre esta última. Y la inclusión de este nuevo factor en la estimación del parámetro, lo cambia todo, porque necesariamente se tiene que incorporar nuevas fuentes de ruido que hacen que la estimación se haga menos precisa.

De eso se trata este artículo, de identificar cuáles son esas fuentes de variaciones e incertidumbres que se nos presentan en la minería y la industria para que podamos medirlas de la forma más óptima posible. 


ESTIMACIÓN DE LOS PARÁMETROS DE UNA POBLACIÓN EN AUSENCIA DE SESGO

En este primer apartado, vamos a tratar de la estimación de los parámetros, media y variación natural de la característica de interés, de una población, estática o dinámica (proceso). Y esta estimación la vamos a realizar en ausencia de sesgo para facilitar nuestro análisis del modelo.

Por lo tanto, la secuencia para realizar una estimación del parámetro en el mundo real es: 

POBLACIÓN - Muestreo - MUESTRA - Medición - RESULTADO

La siguiente figura corresponde a un modelo, todavía en calidad de borrador, que muestra tentativamente los factores involucrados en la estimación de parámetros de una población a través de una muestra. Lo que interesa aquí es estimar tanto la media como la variación de la característica en esa población.

Ojo con esta clasificación. La incertidumbre sólo se aplica a la segunda fila, es decir, sólo a la estimación de la variación natural de la característica de interés en el muestreo y en el sistema de medición. En cambio, el error estándar de la media no debería formar parte de ésta, porque se debería entender, en base a este modelo, que la incertidumbre corresponde a la semi - proporción o a la mitad del intervalo de tolerancia estadístico, que debería ser expresado con un intervalo de confianza dado, Intervalo que debería ser mucho más pequeño, insignificante, comparado con el intervalo de tolerancia dado para que la estimación tenga sentido práctico. Cuando el intervalo de confianza no cumple con esta condición, entonces, y sólo entonces, este intervalo debería sumarse al del intervalo de tolerancia estadístico.

Figura 1 - Estimación de la media de la característica de interés y la variación natural de la característica de interés en la población. La primera fila trata de la estimación de la media de la población, mediante x̄ . La segunda fila trata en cambio de la variación de los valores individuales, X

donde: 
      µ                 : Media de la población
      x̄                 : Media de la muestra
      σNAT (P)     : Variación natural de la población
      SNAT (P)    : Variación natural de la muestra que representa a la de la población
      SNAT (M)   : Variación natural asociada al muestreo (incertidumbre del muestreo)
      SNAT (SM) : Variación natural del sistema de medición (incertidumbre del sistema de medición)
      SNAT (T)     : Variación natural total
      S                : Variación debido a la estimación de la media (Error estándar de la media)

En esta figura, se presenta la estimación de la variación natural de la característica de la población considerando todas las etapas hasta obtener un resultado. Como se puede apreciar, en el proceso de muestreo se introduce una variación adicional que corresponde a la variación natural del muestreo. Sin embargo, en el proceso de medición se vuelve a introducir una nueva variación, que corresponde a la variación natural del sistema de medición. 

En todas estas etapas se han introducido variaciones que he denominado "natural" para diferenciarla de un cuarto componente, que no corresponde a la variación natural de las etapas anteriores, que es la que se asocia a la estimación del parámetro a través de un estadístico, en este caso, la desviación estándar de la media (error estándar de la media).

Diferenciar entre variación natural y variación para la estimación del parámetro es importante por varias razones. 

  1. Las variaciones naturales son constantes a estimar, no dependen del tamaño de muestra. En cambio, la variación debido a la estimación del parámetro (error estándar de la media) depende fuertemente del tamaño de muestra.
  2. La variación para la estimación de la media poblacional sólo nos dice que tan confiables es el resultado obtenido. En cambio, la variación natural está asociada con la variabilidad de los procesos.
Veamos de qué depende cada variabilidad.

Variación asociada a la estimación de la media depende:
        a) de la variación natural total o de la variación natural de cada proceso, según corresponda
        b) del tamaño de muestra, n
        c) del Nivel de confianza, 1 - α

Variación natural (de la característica de interés) asociada al sistema de medición depende:  
        a) de la variación (de la característica de interés) asociada a equipos
        b) de la variación (de la característica de interés) asociada a operadores
        c) de la variación (de la característica de interés) asociada a método
        d) de la variación (de la característica de interés) asociada a factores ambientales
        e) de otras fuentes

Variación natural (de la característica de interés) asociada al muestreo depende:    
        a) de la variación (de la característica de interés) asociada a las operaciones selectivas
            (debido al error fundamental, de segregación/agrupamiento, de delimitación, de extracción,
            de ponderación,)
        b) de la variación (de la característica de interés) asociada a las operaciones no selectivas 
            (debido al error de preparación)
        c)  de la variación (de la característica de interés) asociado a modelos continuos a gran escala
             (de tendencia y/o cíclico)

En resumen, la variación total, en ausencia de sesgo, asociada a un resultado va a depender de 3 variaciones.
  1. De la variación natural de los valores originales (de la característica de interés) de la población o proceso 
  2. De la variación natural (de la característica de interés) en el muestreo (incertidumbre del muestreo)
  3. De la variación natural (de la característica de interés) en el sistema de medición (incertidumbre del sistema de medición)
Sin embargo, minimizar las diferentes fuentes de variación e incertidumbre va a depender del objetivo que se persiga. A saber:
  1. Si queremos que nuestra estimación de la media y de la variación natural de la característica de interés en nuestra población o proceso originales sea lo más precisa posible, entonces debemos minimizar las variaciones 2 y 3.
  2. Si solo estamos interesados en estimar la variación o incertidumbre de la característica de interés introducida por el muestreo, entonces 1 y 3 deberán ser insignificantes,
  3. Y cuando nuestro objetivo, o nuestra población sea estimar la variación o incertidumbre de la característica de interés del sistema de medición, entonces, 1 y 2 deberán ser insignificantes.
  4. Sin embargo, si nuestro interés es estimar la variación de la característica de interés del muestreo más la del sistema de medición, entonces sólo 1 deberá ser insignificante o cero.
En todos estos casos, lo que estamos calculando es la variación natural de la característica de interés, asociadas al intervalo de tolerancia estadístico, y que corresponde a la proporción p de estas poblaciones (1, 2 o 3 o sus combinaciones). Pero, cada una de las estimaciones de esas proporciones deberá estar acompañada por una estimación por intervalos (o intervalo de confianza) de la media, debiendo ser esta última insignificante para que el resultado tenga sentido práctico.
Cuando la estimación por intervalos de la media (o intervalo de confianza) no es insignificante, sólo entonces debería sumarse a las variaciones e incertidumbres anteriores.


Conclusión

Por lo tanto, la variación total de la característica de interés respecto a la media, en ausencia de sesgo, va a depender del objetivo que se persiga. Sin embargo, en todos estos casos debemos diferenciar entre intervalo de confianza e intervalo de tolerancia estadístico. En todos estos casos, lo que nos interesa es calcular la proporción p de la población escogida (1 a 4) pero con un nivel de confianza dado (ya que se trata de una muestra).
Es importante destacar que el intervalo de confianza sea lo más pequeño posible, o por lo menos mucho menor que el intervalo de tolerancia estadístico obtenido, insignificante, para que este resultado tenga sentido práctico. Si ese no fuera el caso, sólo entonces, debería sumarse el intervalo de confianza a la variabilidad total.

Para una mejor comprensión de este artículo, favor leer: 

NO CONFUNDAS INTERVALOS DE CONFIANZA CON INTERVALOS DE TOLERANCIA ESTADÍSTICO


Referencias

  1. Meeker, Hans, Escobar - Statistical Intervals_ A Guide for Practitioners and Researchers - Ed. 2017
  2. Montgomery, Runger - Applied Statistics and Probability for Engineers, - 7ª Ed, 2018
  3. Walpole, Myers, Myers, Ye - Probability & Statistics for Engineers & Scientists - Ed. 2016
  4. Norma ISO 16269-6:2014 - Statistical interpretation of data — Part 6: Determination of statistical tolerance intervals - Ed 2014