Tipos de Datos. Escala Ordinal. Escala Nominal

Universidad Técnica Federico Santa María Universidad Técnica Federico Santa María Clasificación/ Tipos de Datos Departamento de Informática ILI-280...
39 downloads 2 Views 388KB Size
Universidad Técnica Federico Santa María

Universidad Técnica Federico Santa María

Clasificación/ Tipos de Datos

Departamento de Informática ILI-280

 Cualitativo (Categorías)

Capítulo 2: ANALISIS EXPLORATORIO de DATOS

º Nominal Æ Viña = 1 ; Santiago = 2 ; Temuco = 3 44 º Ordinal

Æ Pobre = 1; Aceptable = 2; Bueno = 3; Excelente = 4

Estadística Computacional 1º Semestre 2003

 Cuantitativo (Números) º Intervalar Æ temperatura, viscosidad, distancia, duración

Profesor :Héctor Allende Página : www.inf.utfsm.cl/~hallende e-mail : [email protected]

º Razón

Æ peso/altura

NOTA: NOTA: ElEltipo tipode deEstadísticas Estadísticasque quese sepueden puedenobtener obteneroo calcular calculardepende dependedel deltipo tipode dedato datoque quese setrate. trate.

Por Porejemplo ejemplopromedio, promedio,mediana medianayyvariancia varianciano no tienen tienensentido sentidocon condatos datoscategóricos categóricos(si (sicon con proporciones) 2 proporciones) Profesor:H. Allende

Escalas de Medida

Variables Categóricas: (Escala Nominal) Moda ( Medida del centro ) Tasa de Variación ( Medida de Dispersión )

Clasificación : Nominal, Ordinal, Intervalos y Razón Variables :

Variables Cualitativas: (Escala Ordinal) Moda, Mediana Tasa de Variación, Índice de Dispersión

Discretas y Continuas Categóricas, Cuantitativas

Variables Cuantitativas: (Escala Intervalar)

Organización :  Frecuencia absoluta  Frecuencia relativa

Moda, Mediana, Media, Media Truncada Tasa de Variación, Índice de Dispersión, Varianza Rango, Rango Intercuartílico (IQR), MEDA

A partir de nivel ordinal :  Frecuencia absoluta acumulada  Frecuencia relativa acumulada Profesor:H. Allende

3

 Medidas de homogeneidad Señal de Ruido

η = - log  S 2  2

X 

CV =

Profesor:H. Allende

Escala Nominal

Escala Ordinal

Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.

Dónde existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de areglar los elementos de acuerdo al orden establecido.

S X 4

La variable admite grados de calidad:existe una relación de orden total entre las clases.

• La variable induce una partición sobre la población la información puede clasificarse en clases o categorías. • Cada clase debe estar perfectamente definida y diferenciada de las demás. • La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:

No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases. Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)

Ejemplos alumnos por cursos: primero (1), segundo (2),...., sexto (6) año; sexo: masculino (M), femenino (F); Colegio: Mackay (1); Santiago College (2), St George (3), etc. Profesor:H. Allende

Profesor: Rodrigo Salas

5

Profesor:H. Allende

6

1

Universidad Técnica Federico Santa María

Escala Intervalar

Escala Intervalar

Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantidicar la diferencia de todos los individuos pertenecientes a los intervalos, clases o categorías distintas.

Tabligramas. Tablas de Frecuencia. Histogramas: valores discretos y continuos.

Está involucrado en concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.

ºUsar 5 a 20 clases (intervalos o grupos). º(considerar anchos de clases, límites y marca de clase). º(polígono de frecuencias – dibujar en marca de clase).

Ejemplos: temperatura al interior de un silo, interes sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos. Profesor:H. Allende

Frecuencia Acumulada - Ojiva. º(graficar en límite superior). 7

8

Profesor:H. Allende

Organización/Presentación

Escala de Razón Su usa cuando no sólo el orden y tamaño del intervalo son importantes; .

Frecuencia Relativa.

La única razón entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no

Se llama frecuencia relativa de la clase ci a la proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra. Se de nota por fi. Se puede verificar que n fi = ---i n

k

nótese que ....

Σ

ni = 1

i=1

k

Profesor:H. Allende

9

Organización/Presentación

Reglas: º Cada observación debe estar en una, y en una sola, categoría. º Todas las observaciones deben ser consideradas.

Frecuencia Absoluta. Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenecena dicha clase y se denota por nki. Como las clases c1, c2, ..... ck una partición de la muestra, esi =fácil verificar que 1

Tablas Æ Proveen el mayor detalle. Gráficos de Barras Æ Utilizar Pareto.

k

Σ

n i=1 i

Å número total de observaciones o tamaño de la muestra

Profesor:H. Allende

Profesor: Rodrigo Salas

10

Representación de Datos Cualitativos

Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.

n =

i=1

Profesor:H. Allende

Gráficos Circulares o de Torta Æ. 11

Profesor:H. Allende

12

2

Universidad Técnica Federico Santa María

Tablas

Escala Nominal 120

Descripción

1

107

2

60

3

51

4

25

5

10

6

8

Diagramas de Pareto

107

# Observ. 100

80 Frecuencia

Clase

60

60

51

40

25 20

10

8

5

6

0 1

5 4%

6 3%

3

4

14

Profesor:H.Clase Allende

Escala Nominal 4 10%

2

13

Profesor:H. Allende

Escala Ordinal 9

Diagramas Circulares

Diagramas en Bloques

8 7

1 40%

6 5

3 20%

4 3 2 1

2 23%

0 Profesor:H. Allende

Pobre

15

Escalas de Medida

10 11 12 13 14 15 16

40 Datos 8 7 3 8 1 2 0

7 2 6 2 3 3 1

9 8 6 8 0 0

1 0 5 0 8 2

3 4 7 3 8

3 2 4 1 2 8 5 7 3

TABLIGRAMA

Profesor:H. Allende

Profesor: Rodrigo Salas

Aceptable Bueno Profesor:H. Allende

Muy Bueno

16

Tabla de Frecuencia

Presentación :-Tablas de frecuencias -Gráficos: Diagramas de Bloques, -Circulares, Barras -Diagrama acumulativo Ejemplo:

Regular

17

N° Clases ≈ 1 + 3.3 log n ≈ 7 Rango = máx { xi } - mín { xi } = 162 - 107 = 55 Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8 Límites

Marca

106.5 - 114.5 114.5 - 122.5 122.5 - 130.5 130.5 - 138.5 138.5 - 146.5 146.5 - 154.5 154.5 - 162.5

110.5 118.5 126.5 134.5 142.5 150.5 158.5

Frecuencias

ABS - REL - REL. AC.

5 3 5 8 7 6 6

Profesor:H. Allende

Construir: Histograma Diagrama acumulativo 18

3

Universidad Técnica Federico Santa María

Histograma

Polígono de Frecuencias

9

9

8

8

7

7

6

6

5

5

4

4

3

3

2

2

1

1

0

0 107

116

125 134 143 Profesor:H. Allende

152

161

99 19

107

125 134 143 Profesor:H. Allende

152

161

170 20

Datos no agrupados

Frecuencia Acumulada - Ojiva 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0

116

X1, X2, .........., X2n+1 Mo = Moda = dato con mayor frecuencia Me = Mediana = X(n+1)

X = Media =

1 2n + 1

2 n +1

∑X i =1

X α = Media truncada = 99

107

Profesor:H. Allende 143 125 134

116

152

161

21 170

∑ (X i − X )

2

i

IQR = 1/2 (Q3 - Q1)

Profesor: Rodrigo Salas

∑X

i =α +1

(i )

22

Medidas de Simetría:

Q1 + Q 3 − 2Q 2 Q 3 − Q1 m3 1 γ1 = 3 Mr = S 2n + 1 I.S. =

∑ ( Xi − X ) r i

Medidas de Forma:

MEDA = Mediana Xi - Me i Profesor:H. Allende

2 n +1−α

Datos no agrupados

V = Tasa de Variación = 1 - fM D = Índice de Dispersión = (rangQ3-rangQ1)/(K-1)

1 2n + 1

1 ( 2n + 1 − 2α )

Profesor:H. Allende

Datos no agrupados

S2 = Varianza =

i

γ2 = 23

m4 −3 S4 Profesor:H. Allende

24

4

Universidad Técnica Federico Santa María

Datos Agrupados

Datos Agrupados

k Clases k

X =∑ fi * X i

Me = L + a e

i =1

k

S2 =

∑ f i ( Xi − X )

L Ne-1 ne ae n

2

i =1

MD =

∑ f i Xi − X i =1

: Límite inferior Clase modal : Amplitud Clase Modal : nM-n1 g2 : nM-n2 : Frecuencia absoluta Clase Modal : Frecuencia absoluta Clase anterior a Clase Modal : Frecuencia absoluta Clase posterior a Clase Modal

con

i = 1,...,n

1. Lineales

yi = axi + b

yi = ln xi = h( xi ) 1

y = h(x) + 2 h”(x) SX2 Sy2≈ Sx2 [ h’ (x)]2 1

i.e. 27

y = ln x - 2 ( Sx2 / x2 ) Sy2 ≈ ( Sx2 / x2 ) = CV 2

Profesor:H. Allende

28

Relaciones Linealizables 1. 2.

3. Box-Cox Transformaciones (1964)

λ≠ 0

x > -m

λ =0

m>0

y = K xβ y=K±(β/x)

ln y = a0 + a1 ln x y = a0 ± a1 x-1

3. 4. 5.

y = K eβx ln y = a0 + a1 x y = K e-β/x ln y = a0 + a1 x-1 yt = K + β cos t y = a0 + a1 xt siendo xt = cos t

6.

y(λ) = yλ - 1 = a0 + a1 x

m ln ( x + m )

Sea yi = h ( xi )

2. No lineales

Transformaciones

( x + m )λ - 1

26

y = ax + b Sy = a Sx

 n ∗i  − NQi − 1   4  Qi = L + aQi  nQi

h (x) = Xλ =

)

Transformaciones

 g1  Mo = L + aM    g1 + g2 

Profesor:H. Allende

− 1

Profesor:H. Allende

Datos Agrupados

L aM g1 nM n1 n2

n − Ne 2 ne

: Límite inferior Clase mediana (C Med) : Frecuencia Acumulada hasta ante C Med : Frecuencia Absoluta C Med : Amplitud C Med : Tamaño de la muestra

25

Profesor:H. Allende

(

yλ-1 dy = a1 dx

w = dy dx

ln w = ln a1 + ( 1 - λ ) ln y Profesor:H. Allende

Profesor: Rodrigo Salas

29

Profesor:H. Allende

30

5

Universidad Técnica Federico Santa María

Análisis de una muestra estratificada E1 n1 V 1

E2

X1

n2 V 2

∑n

nih = Cantidad de individuos de la submuestra del estrato “h” que pertenece a Ci.

=n

fih =

n ph = h n

Vm

Xm

h

h =1

Em

nm

X2

m

Análisis de una muestra estratificada

nih nh

k

∑f i =1

ih

m

fi = ∑ phfih h =1

31

m

h =1

m

h =1

h =1

Ejemplos Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50 pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos. Al cabo de un cierto tiempo se pesan los 350 pollos, encontrándose que algunos están muertos y los vivos pesan entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos muertos se supondrán de peso cero, y el cero actuará como centro del supuesto intervalo. Los otros intervalos serán [1,00 ; 1,50] [1,50 ; 2,00] [2,00 ; 2,50].

X = ∑ ph X n m

VT = ∑ phVh + ∑ ph ( X h − X ) 2

33

Profesor:H. Allende

Xi

fi1

fi1X1

Xi-X1 (

0 1,25 1,75 2,25

0,1 0,2 0,6 0,1

0 0,250 1,050 0,225

-1,525 -0,275 0,225 0,725

)2

2,325 0,0756 0,0501 0,525

fi1(

0,2325 0,0151 0,0304 0,0525

fi2

fi2X1

Xi-X2 ( )2

fi2( )2

0,05 0,10 0,75 0,1

0 0,125 1,312 0,225

-1,662 -0,412 0,088 0,588

0,138 0,017 0,007 0,034

Profesor: Rodrigo Salas

)2

X1=1,525 V1=0,331

Estratos Ph

P2=4/7

Profesor:H. Allende

Vint er , Vint ra Note que existen 3 estratos y 4 clases

Estrato (3) P1=1/7

2,76 0,17 0, 01 0,34

X h , Vh , X , VT

(1) (2) (3) X2=1,662 V2=0,196

35

34

Profesor:H. Allende

Ejercicio

Estrato (2)

Calcular

Centros Frecuencias Absolutas (1) (2) (3) 5 10 10 0 10 20 30 1,25 30 150 50 1,75 5 20 10 2,25

VT = Vint ra + Vint er

Estrato (1)

32

Profesor:H. Allende

Análisis de una muestra estratificada Entonces:

= nh

i =1

i =1

Profesor:H. Allende

ih

Vh = ∑ fih ( X i − X h ) 2

X h = ∑ fih X i

Supongamos que la variable admite una clasificación en k-clases, representadas por X1, X2,.....Xk.

i =1

k

k

m- estratos

k

∑n

=1

1/7 4/7 2/7

P3=2/7

fi3

fi3X1

Xi-X3 ( )2

fi3( )2

0,10 0,30 0,50 0,20

0 0,375 0,875 0,225

-1,475 -0,225 0,275 0,775

0,217 0,015 0,040 0,060

Media Varianza PhXh Xh Vh 1,525 1,662 1,475

0,331 0,196 0,332

0,218 0,949 0,422 1,589

2,17 0,05 0, 08 0,60

PhVh

Xh-X

0,047 0,112 0,095 0,254

-0,064 0,033 -0,114

Profesor:H. Allende

X3=1,475 V3=0,0332

(X-Xh)2 Ph( )2 0,004 0,001 0,013

0,00057 0,00057 0,00557 0,0067 36

6

Universidad Técnica Federico Santa María

Resultados

Estadística Bivariada

Se ha obtenido, entonces:

Notación:

• Media Total X = 1,589

fij := frecuencia conjunta = fr(xi,yj)

•Varianza promedio dentro de los estratos Vintra= 0,254

fi =

•Varianza entre estratos Vinter= 0,0067

f j=

•Varianza Total VT= 0,2607

fi/j =

i

∑f

= frecuencia marginal =

∑f

= frecuencia marginal =

j

i

ij

ij

i

fij f• j

r

i

r

j

/ yj) =

i

j

fr ( xi , y j ) fr ( y j ) 38

Profesor:H. Allende

Estadística Bivariada Independencia Estadística

Análogamente, se tiene:

como

fr ( xi , y j ) r ( y j / xi ) = fr ( xi )

fij = fj/i × fi• ⇒

fij = f• j × fi•

= frecuencia condicional = f

Independencia Estadística

fr ( y j / xi ) = fr ( y j )

fi/j = fi•

Asociación de Variables

ó

fr ( xi / y y ) = fr ( xi )

ó

fj/i = f• j

Datos agrupados :

Coeficiente de Correlación = r = Cov (x,y) Sx Sy 39

Profesor:H. Allende

40

Profesor:H. Allende

Tabla de Contingencia

Tabla de Contingencia Y

1 ∑ ( xi − x)( yi − y) n cov(x,y) = ∑ fi ( xi − x )( yi − y )

Datos no agrupados cov(x,y) =

X e Y son variables estadísticamente independientes ssi:

B1

B2

.....

Bj

.....

Bs

Total

A1

n11

n12

.....

n1j

.....

n1s

n1z

A2

n21

n22

.....

n2j

.....

n2s

n2z

Ai

ni1

ni2

.....

nij

.....

nis

niz

Ar

nr1

nr2

.....

nrj

.....

nrs

nrz

Total

nz1

nz2

.....

nzj

.....

nzs

nz z

X

r

j

∑ f (x , y ) = f ( y )

= frecuencia condicional = fr ( xi

Notación:

fij fi•

i

i

Estadística Bivariada

fj/i =

r

j

37

Profesor:H. Allende

∑ f (x , y ) = f (x )

Para i = 1,....,r se tiene: s

ni• = ∑ nij j =1

(Suma de los valores de la fila i-ésima de la tabla de contingencia de frecuencias)

r

n• j = ∑ nij i =1

Profesor:H. Allende

Profesor: Rodrigo Salas

41

Además de:

fi• =

ni • n••

f• j =

n• j n••

Profesor:H. Allende

fi/j =

n fij = ij f• j n• j 42

7

Universidad Técnica Federico Santa María

Tabla de Contingencia

Modelo Estadístico (Lineal)

Fallas Anuales Temperatura Averías

2 3 4 5

120

140

160

20 12 4 -

15 7 10 5

10 5 2 10

y = β 0 + β1x + ε

Marginal

x , y son variables independiente y dependiente respectivamente. Además ε una variable estadística que representa el error. Los parámetros β0 y β1 pueden ser estimados a partir de los datos {(xi , yi)}i=1,...,n mediante método de mínimos cuadrados.

Marginal Obtener : Distribuciones marginales Distribuciones condicionales (4 averías), Media y Varianza condicional

Entonces 43

Profesor:H. Allende

n

ei = yi − yˆ i = yi − βˆ 0 − βˆ1 xi

Sea ;

n

Curvas de Regresión

min ∑ ei = min ∑ ( yi − β 0 − β1 xi ) 2 β 0 β1

2

β 0 β1

i =1

i =1

n

SC E = ∑ ei

2

t

0

1

2

3

4

5

6

V(t)

30 20

60 40 20

46

32 26

10 14 12

4 8

17

V(t)

25

40

46

29

12

6

17

i =1

βˆ1 =

SC xy SC x

n

SC x = ∑ ( xi − x )

βˆ 0 = y − βˆ1 x

Sea xt = sen t

n

SC xy = ∑ ( xi − x )( yi − y )

2

i =1

i =1

n

VNE = ∑ ei

a ,b

i =1

y(t) = a + b xt + εt

45

a ,b

t

Profesor:H. Allende

46

cov( x , y ) = 20 bˆ = 2 Sx

∑(y

2

S y = 1276

Luego

yt = V(t)

min Q (a, b) = min ∑ ( yt − a − bxt ) 2

2

Profesor:H. Allende

aˆ = y − bˆ x = 25,3

44

Profesor:H. Allende

t

− yˆ t ) 2 = 22,45

% de Ajuste del Modelo =

1−

∑ eˆ Sy

t 2

2

= 0,98 ∗100% = 98%

Profesor:H. Allende

Profesor: Rodrigo Salas

47

8