DISTRIBUCIONES BIDIMENSIONALES

DISTRIBUCIONES BIDIMENSIONALES CURSO: ESTADÍSTICA DESCRIPTIVA ENEI La estadística unidimensional estudia los elementos de un conjunto de datos consi...
25 downloads 2 Views 650KB Size
DISTRIBUCIONES BIDIMENSIONALES CURSO: ESTADÍSTICA DESCRIPTIVA

ENEI

La estadística unidimensional estudia los elementos de un conjunto de datos considerando sólo una variable o característica. Si ahora incorporamos, otra variable, y se observa simultáneamente el comportamiento de ambas, entonces estamos en el campo del análisis bidimensional, cuya agrupación da origen a las distribuciones bidimensionales de frecuencia. No se trata de elegir dos variables cualesquiera, es una observación simultánea de variables que tengan entre sí alguna relación, afinidad o dependencia. Podemos considerar dos aspectos: a. Las distribuciones bidimensionales de frecuencia, que se refiere a la presentación de tablas de frecuencia, a través del cálculo de medidas de resumen. b. Determinar modelos estadísticos y medir la relación o asociación entre dos variables. Frecuencias Absolutas Los valores

que aparecen dentro de la tabla son las frecuencias absolutas que representan el

número de veces, que de las n observaciones aparece el valor repetido el valor variable junto al valor de

de la primera

de la segunda variable.

Frecuencias marginales. Sumando las frecuencias absolutas que figuran en cada fila (línea horizontal) se obtiene una cifra que indica cuántas veces se repite cada valor de que se representa por

y que se indica al margen derecho de la tabla,

DISTRIBUCIONES BIDIMENSIONALES CURSO: ESTADÍSTICA DESCRIPTIVA

ENEI

TABLAS DE CONTINGENCIA Las tablas de contingencia se utilizan para conocer si existe o no relación entre variables de tipo cualitativo. Este tipo de variables pueden ser de tipo nominal por ejemplo sexo del encuestado (hombre; mujer), o tipos de marcas de un producto (Coca-cola, Pepsi-cola,…), u ordinal tales como la medición del grado de satisfacción de un grupo de clientes empleando una escala del tipo (0 = Nada; 1 = Poco; 2 = Indiferente; 3 = Bastante; 4 = Mucho). El empleo de las tablas de contingencia está especialmente indicado si las variables son de tipo nominal. 1º. ¿Existe relación entre dos variables de tipo cualitativo? ¿En qué condiciones se pueden utilizar las tablas de contingencia? 2º. ¿Qué grado de relación existe entre las variables? 3º. ¿En qué grado existe la relación?  Para responder a la primera pregunta estudiaremos el test de la x2  Para responder a la segunda analizaremos diferentes coeficientes de asociación: el de contingencia, el de la Q de Yule, la Gamma, el Tau-b, y el Tau-c de Kendall, y la D de Sommers.  Para responder a la tercera estudiaremos la técnica de los residuos estandarizados.

Explicación de la técnica

De forma general, si dos factores o atributos A y B se estudian sobre una misma población y se miden las unidades estadísticas (frecuencias absolutas) se obtienen dos series representativas de cada uno de los factores o atributos.

Por ejemplo, tras realizar un estudio en su supermercado sobre la relación entre el sexo del encuestado y la compra de un determinado producto se obtienen los siguientes datos.

Compradores Si No Total

sexo Hombres Mujeres 32 10 11 27 43 37

Total 42 38 80

DISTRIBUCIONES BIDIMENSIONALES CURSO: ESTADÍSTICA DESCRIPTIVA

ENEI

Sobre estos datos podríamos preguntar si existe relación entre esas variables, es decir ¿existe asociación entre la compra del producto y el sexo al que se pertenece? Una forma de plantear los resultados, para contestar al tipo de cuestiones anteriormente planteadas, es su disposición en una tabla de doble entrada, conocida como tabla de contingencia. En nuestro ejemplo, la tabla de contingencia sería:

Estas tablas se usan para mostrar la dependencia o independencia entre dos factores, para el caso de muestras independientes. En esta tabla observamos dos atributos (Varón, mujer) X dos atributos (Compra, No compra).

Estas tablas se pueden expresar de modo general:

A, B, C, y D son las frecuencias observadas del suceso en realidad (32, 10, 11 y 27 en nuestro ejemplo). N es el número total de casos estudiados (80). A + B, C + D, A + C y B + D son las totales marginales. En nuestro ejemplo A + B sería el número total de compradores (42), C + D el número total de no compradores (38), A + C el número total de hombres (43), y B + D (37) el número total de mujeres.

En esta clase se analizará la utilidad de las tablas de contingencia para determinar la dependencia/independencia entre varios factores. Analizaremos primero las tablas más sencillas (las tablas 2 x 2) para pasar posteriormente a otras más complejas.

Cuando los datos de investigación consisten en frecuencias medidas en escala nominal u ordinal, como es el caso de las tablas de contingencia puede usarse la prueba x2 para determinar la significación de las diferencias entre dos grupos independientes.

La hipótesis que usualmente se pone a prueba supone que los dos grupos difieren con respecto a alguna característica y, por lo tanto, con respecto a la frecuencia relativa con que los miembros del grupo son encontrados en diferentes categorías. Para probar esta hipótesis, contamos el número de casos de cada grupo en cada categoría y compramos la proporción de casos en las diferentes categorías de un grupo con las de otro grupo.

DISTRIBUCIONES BIDIMENSIONALES CURSO: ESTADÍSTICA DESCRIPTIVA

ENEI

MÉTODO

La hipótesis de nulidad [que implica que existe independencia entre los dos factores(sexo y compra o no del producto)] puede probarse por medio de:



(

) (1)

Donde: 

Oij (Frecuencia observada) es el número de casos observados clasificados en la fila i de la columna j.



Eij (Frecuencias esperada ó teórica) es el número de casos esperados correspondientes a esa fila y a esa columna. Podemos definirla como aquella frecuencia que se daría si los sucesos (en el ejemplo de compra y sexo del encuestado) fuesen independientes.

Los valores de x2 dados por la fórmula (1) están distribuidos como una chi-cuadrada con grados de libertad = (r – 1)(k - 1), donde r es el número de filas y k es el número de columnas en la tabla de contingencia. ¿Qué está midiendo este estadístico? Está midiendo la diferencia entre el valor que debería resultar si los dos factores (compra del producto y sexo) fueran completamente independientes [determinado por la frecuencia esperada (Eij)], y el que se ha observado en la realidad [recogido en la frecuencia observada Oij]. Cuanto mayor sea la diferencia entre ambas frecuencias mayor será la relación entre ambas variables. La elevación de la diferencia al cuadrado convierte en positiva a cualquier tipo de diferencia. Este test es por ello un test no dirigido. Indica si existe o no relación entre los factores pero no nos muestra el signo. Es decir, en nuestro ejemplo el estadístico (1) nos indicaría si existe o no relación entre el sexo y el hecho de comprar o no el artículo, pero no podemos saber si el signo de la relación es positivo o negativo, o en otras palabras si son los hombres los que compran más el artículo o sucede al contrario.

DISTRIBUCIONES BIDIMENSIONALES CURSO: ESTADÍSTICA DESCRIPTIVA

ENEI

Distribución chi cuadrado ( x 2 ) La distribución chi cuadrado es la técnica estadística utilizada con mayor frecuencia para el análisis de conteo o datos de frecuencias. Existen tres tipos de pruebas: prueba de bondad de ajuste, prueba de homogeneidad y prueba de independencia. a) Prueba de bondad de ajuste.- Consiste en determinar si los datos de cierta muestra corresponden a cierta distribución poblacional. En este caso es necesario que los valores de la variable de la muestra y sobre la cual queremos realizar la inferencia esté dividida en clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio, deberemos categorizar los datos asignando sus valores a diferentes clases o grupos. Este tipo de pruebas se verá cuando se revisen las pruebas no paramétricas. b) Prueba de homogeneidad.- Consiste en comprobar si varias muestras de carácter cualitativo proceden de una misma población. c) Prueba de independencia.- Consiste en comprobar si dos características cualitativas están relacionadas entre sí.

Prueba de Homogeneidad. Ejemplo Se tienen un grupo de pacientes procedentes de tres localidades (campo, rural y urbano) en las cuales se ha observado la presencia del síndrome metabólico, como aparece en la tabla:

Procedencia

Síndrome metabólico

Campo

Rural

Urbano

Con SM

2

10

24

36

Sin SM

10

9

6

25

Total

12

19

30

61

Total

Para la prueba Chi cuadrado procedemos de la siguiente manera:

DISTRIBUCIONES BIDIMENSIONALES CURSO: ESTADÍSTICA DESCRIPTIVA

ENEI

1. Formulación de hipótesis:

H 0 : La presencia de síndrome metabólico no difiere de acuerdo la procedencia. H1 : La presencia de síndrome metabólico difiere de acuerdo la procedencia 2. Establecer un nivel de significancia:   0.05 3. Elección del estadístico de prueba:

(oi  ei )2 x  ei i 1 n

2

2 4. Determinar la región crítica. xtab  5.99

5. Decisión: como p=0.01