Teorema del límite central (CLT): Qué es y cómo funciona

La CLT es una premisa estadística según la cual, dado un tamaño de muestra suficientemente grande de una población con un nivel finito de varianza, la media de todas las variables muestreadas de la misma población será aproximadamente igual a la media de toda la población. Según el teorema del límite central, la media de una muestra de datos se acercará más a la media del conjunto de la población en cuestión a medida que aumente el tamaño de la muestra, independientemente de la distribución real de los datos. Veamos qué es el teorema del límite central, para qué sirve y sus componentes clave.

Qué es el teorema del límite central (CLT)

En teoría de la probabilidad, el teorema del límite central (CLT) afirma que la distribución de una variable muestral se aproxima a una distribución normal (es decir, a una «curva de campana») a medida que aumenta el tamaño de la muestra, suponiendo que todas las muestras son idénticas en tamaño e independientemente de la forma real de la distribución de la población. Dicho de otro modo, la CLT es una premisa estadística según la cual, dado un tamaño de muestra suficientemente grande de una población con un nivel finito de varianza, la media de todas las variables muestreadas de la misma población será aproximadamente igual a la media de toda la población. Además, estas muestras se aproximan a una distribución normal y sus varianzas son aproximadamente iguales a la varianza de la población a medida que aumenta el tamaño de la muestra, según la ley de los grandes números. Aunque este concepto fue desarrollado por primera vez por Abraham de Moivre en 1733, no se formalizó hasta 1920, cuando el célebre matemático húngaro George Pólya lo bautizó como teorema del límite central.

Fórmula del teorema del límite central. Fuente: Inchcalculator.com.

Para qué sirve el teorema del límite central (CLT)

Según el teorema del límite central, la media de una muestra de datos se acercará más a la media del conjunto de la población en cuestión a medida que aumente el tamaño de la muestra, independientemente de la distribución real de los datos. En otras palabras, los datos son exactos tanto si la distribución es normal como si es aberrante. Por regla general, se considera que un tamaño de muestra de entre 30 y 50 es suficiente para que se cumpla la CLT, lo que significa que la distribución de las medias muestrales es bastante normal. Por lo tanto, cuantas más muestras se tomen, más se asemejarán los resultados a una distribución normal. Tenga en cuenta, sin embargo, que el teorema del límite central seguirá aproximándose en muchos casos para tamaños de muestra mucho más pequeños, como n=8 o n=5.3

Ilustración del teorema del límite central para una población de valores sesgada. Fuente: ResearchGate

Componentes clave del teorema del límite central

El teorema del límite central consta de varias características clave. Estas características giran en gran medida en torno a las muestras, el tamaño de las muestras y la población de datos.

El muestreo es sucesivo. Esto significa que algunas unidades de muestra son comunes con unidades de muestra seleccionadas en ocasiones anteriores.
El muestreo es aleatorio. Todas las muestras deben seleccionarse al azar para que tengan la misma posibilidad estadística de ser seleccionadas.
Las muestras deben ser independientes. Las selecciones o los resultados de una muestra no deben influir en las muestras futuras ni en los resultados de otras muestras.
Las muestras deben ser limitadas. A menudo se dice que una muestra no debe superar el 10% de una población si el muestreo se realiza sin reemplazo. En general, los tamaños de población mayores justifican el uso de tamaños de muestra mayores.
El tamaño de la muestra aumenta. El teorema del límite central es pertinente a medida que se seleccionan más muestras.