MEDIDAS DE VARIABILIDAD

1

Medidas de variabilidad ¿Qué son las medidas de variabilidad? Las medidas de variabilidad de una serie de datos, muestra o población, permiten identificar que tan dispersos o concentrados se encuentran los datos respecto a una medida de tendencia central. La puntuación media en una distribución es importante en muchos contextos de investigación. Pero también lo es otro conjunto de estadísticos que cuantifican que tan variables, o que tan dispersas, tienden a ser las puntuaciones. ¿Las puntuaciones varían mucho, o tienden a tener valores muy similares. A veces, la variabilidad en las puntuaciones es la cuestión central en una investigación. La variabilidad es un concepto cuantitativo, de modo que nada de esto se aplica a las distribuciones de datos cualitativos. Hay varias razones para analizar la variabilidad en una serie de datos. Primero, al aplicar una medida de variabilidad podemos evaluar la medida de tendencia central utilizada. Una medida de variabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de la media. La media, por lo tanto es considerada bastante representativa de la serie de datos. Inversamente, una gran medida de variabilidad indica que la media no es muy representativa de los datos. Una segunda razón para estudiar la variabilidad de una serie de datos es para comparar como están esparcidos los datos en dos o más distribuciones. Por ejemplo, la calificación promedio de dos estudiantes, A = {90, 80, 75, 75 } y B = {90, 55, 85, 90 }, es de 80. Basados en esto podríamos pensar que sus calificaciones son idénticas. Pero si revisamos el detalle de sus calificaciones vemos que esta conclusión no es correcta. Desviación media La desviación media mide la cantidad promedio que varían los datos respecto a su media. La definición es: Desviación media. Es la media aritmética de los valores absolutos de las desviaciones de los datos respecto a su media.

2

La fórmula de la desviación media ( Dm ) es:

Dm =

Σ| X n

|

Ejemplo: El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la desviación media de las observaciones muestreadas?

X

X-

|X -

|

85.4 + 0.4

0.4

85.4 + 0.4

0.4

85.3 + 0.3

0.3

84.9 - 0.1

0.1

84.0 - 1.0

1.0 Σ = 2.2

Dm =

Σ| X n

|

=

2.2 5

= 0.44

Desviación Media Para Datos Agrupados En el caso de que los datos se encuentren agrupados en una distribución de frecuencia la fórmula es :

Dm =

Σf | X n

|

3

Ventajas y Desventajas de la desviación media La desviación media tiene dos ventajas. Utiliza para su cómputo todos los elementos de la serie de datos y es facil de entender. Sin embargo, es dificil trabajar con valores absolutos y por ello la desviación media no es usada frecuentemente. Cuando la suma de las desviaciones parciales absolutas es igual a cero, la desviación media no es una medida de variabilidad aceptable. Por ejemplo, tenemos dos series de datos: A = { 0, 50, 100 } B = { 49, 50, 51 } Claramente observamos que la serie B tiene una dispersión mayor que la serie A, sin embargo en ambos casos la desviación media es cero. La varianza y la desviación estándar Concepto de varianza y desviación estándar La varianza y la desviación estándar sirven para cuantificar la variabilidad de una muestra midiendo su dispersión alrededor de la media. La definición es la siguiente: Varianza. Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media. Desviación estándar. Es la raíz cuadrada de la varianza. Varianza y Desviación Estándar para datos no agrupados Las fórmulas de la varianza de una población y de una muestra son ligeramente diferentes. Las fórmulas son:

σ2=

Σx 2

(Σx)2 N

N varianza de una población

Σx 2

S2=

(Σx)2 n

n-1 varianza de una muestra

4

Las desviaciones estándar de la población y muestra se calculan simplemente sacando la raíz cuadrada a la respectiva varianza.

desviación estándar de una población

σ = σ2 S = S2

desviación estándar de una muestra Ejemplo

El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la varianza y la desviación estándar de las observaciones muestreadas?

X X2 85.4 7293.16 85.3 7276.09 84.9 7208.01 85.4 7293.16 84.0 7056.00 2 Σx= 425.0 Σx = 36126.42

2

S=

Σx2 -

(Σx)2 n

=

36126.42 -

n-1 S=

S2 =

(425)2 5

= 0.355

5-1 0.355 = 0.5958

Varianza y Desviación Estándar para datos agrupados Si los datos están agrupados en una distribución de frecuencia, la varianza y la desviación estándar de la muestra se pueden aproximar sustituyendo Sfx² por Sx² y Sfx por Sx. Las fórmulas quedarían de la siguiente manera:

5

Σfx 2

σ2=

(Σfx)2

Σfx 2

S2=

N

N varianza de una población

(Σfx)2 n

n-1 varianza de una muestra

σ = σ2

desviación estándar de una población

S = S2

desviación estándar de una muestra Ejemplo:

Calcular la varianza y la desviación estándar de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche. Duración de las baterías (meses) Número de baterías 15 - 19

2

20 - 24

1

25 - 29

4

30 - 34

15

35 - 39

10

40 - 44

5

45 - 49

3

Primeramente, calculamos la marca de clase, para después calcular los productos fX y fx2 para proceder finalmente a calcular las sumatorias

fX y

fx2 y aplicar las fórmulas.

6

LI

LS

X

F

FX

FX2

15 19 17

2

34

588

20 24 22

1

22

484

25 29 27

4

108

2916

30 34 32

15

480

15360

35 39 37

10

370

13690

40 44 42

5

210

8820

45 49 47

3

141

6627

n =40

Σfx 2

S2=

(Σfx)2 n

n-1

S=

S2 =

=

48475 -

ΣfX = 1365 Σfx2 = 48475

(1365)2 = 48.573

40 40 - 1

48.573 = 6.969

Desviación cuartilar La desviación cuartilar es la mitad de la diferencia entre el tercer cuartil y el primer cuartil. La fórmula para calcular la desviación cuartilar es:

Q=

Q3 - Q1 2

7

El primer cuartil es el valor correspondiente al punto abajo del cual está el 25% de las observaciones. El tercer cuartil es el valor abajo del cual están el 75% de las observaciones. Por lo tanto el 50% central de las observaciones está localizado entre Q3 y Q1. Los pasos para calcular Q3 y Q1 son: 1. Calcular el valor de n / 4 para Q1, y (¾)n para Q3 2. Localizar el intervalo de clase donde se encuentran Q3 y Q1. Esto se hace encontrando el primer intervalo de clase donde la frecuencia acumulada es igual o mayor que el valor calculado en el primer paso. 3. Aplicar la siguiente fórmula con los valores del intervalo encontrado

Q1 = LSR +

Q3 = LSR +

( n/4 - FA ) tic F ( 3n/4 - FA ) tic F

Luego se aplica la fórmula del rango intercuartilar y de la desviación cuartilar. Ejemplo: Calcular mediana de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche.

duración de las baterías (meses) Número de baterías 15 - 19

2

20 - 24

1

25 - 29

4

30 - 34

15

8

35 - 39

10

40 - 44

5

45 - 49

3

En la tabla de la distribución de frecuencia se busca el primer intervalo cuya FA se igual o mayor que n/4 para Q1, y el primer intervalo cuya FA se igual o mayor que 3n/4 para Q3 : El valor de n / 4 = 40 / 4 = 10 El valor de 3n/4 = 3(40)/4 = 30 Los intervalos de Q3 y Q1 son: LI LS LSR

X

F

FR

FA

15 19 19.5 17

2

.05

2

20 24 24.5 22

1

.025

3

25 29 29.5 27

4

.1

7

30 34 34.5 32 15 .375 22 Q1 35 39 39.5 37 10

.25

32 Q3

40 44 44.5 42

5

.125 37

45 49 49.5 47

3

.075 40

Se aplican las fórmulas:

Q1 = LSR +

Q3 = LSR +

( n/4 - FA ) tic F

= 34.5 +

( 3n/4 - FA ) tic F

= 39.5 +

( 10 - 22 ) 5 15

= 30.5

( 30 - 32 ) 5 10

= 38.5

Se aplica la fórmula de la desviación cuartilar.

9

Q=

Q3 - Q1 2

=

38.5 - 30.5 2

= 4

10