MODELOS CON VARIABLE DEPENDIENTE CUALITATIVA (1)

ECONOMETRÍA III Curso 2008/09 MODELOS CON VARIABLE DEPENDIENTE CUALITATIVA (1) Profesores: Víctor J. Cano Fernández y M. Carolina Rodríguez Donate ...

Author: Monica María del Pilar Zúñiga Duarte

81 downloads 0 Views 255KB Size

Report

Download PDF

Recommend Documents

Modelos con Variable Dependiente Discreta

CAPITULO III VARIABLE DEPENDIENTE CUALITATIVA Y LIMITADA

< variable independiente < variable dependiente

MODELOS DE VOLATILIDAD CONDICIONAL VARIABLE

Variable Aleatoria. Modelos de Probabilidad

2" CON VELOCIDAD VARIABLE

, x es la variable independiente e y es la variable dependiente

CIRCUITOS CON CORRIENTE VARIABLE

T4. Modelos con variables cualitativas

Modelos de Probabilidad con Statgraphics

Diagnosis Cualitativa de Torres DIAGNOSIS CUALITATIVA TORRES

Rendimientos elevados con temperatura variable

ARMADURA Y CON CARGA VARIABLE

Crecimiento en ninos con diabetes mellitus insulino-dependiente

Tres modelos de relacionarse con el mundo

MODELOS ATOMICOS - 1 -

Modelos Predictivos con el paquete caret

DEPENDIENTE DE COMERCIO

Diagnosis Ambiental Cualitativa

Adulto Mayor Dependiente:

Universidade de Vigo. Linealidad. El comportamiento esperado de la variable dependiente

ENCUESTA CUALITATIVA INDUSTRIAL FORMULARIOS

Tema 1 MODELOS DISCRETOS MATRICIALES

Variable Templates (Revision 1)

ECONOMETRÍA III

Curso 2008/09

MODELOS CON VARIABLE DEPENDIENTE CUALITATIVA (1)

Profesores: Víctor J. Cano Fernández y M. Carolina Rodríguez Donate Dpto. de Economía de las Instrituciones, Estadística Económica y Econometría Universidad de La Laguna

Contenido: 1. Modelos de respuesta cualitativa. 2. Modelos de elección binaria. Justificación, formulación e interpretación Modelo de Probabilidad Lineal, Logit y Probit Interpretación de los coeficientes y odds ratios 3. Inferencia en el modelo. Estimación por MV Contrastes de hipótesis Medidas de bondad de ajuste y predicción

1

Notación La notación que utilizaremos será la misma que la habitualmente empleada en el modelo de regresión lineal. Sin embargo, como muchos de los textos muestran ciertos matices en relación a la aquí desarrollada, conviene hacer explícita la forma más común. En este sentido, los vectores son definidos como vectores columna, por ejemplo para el modelo de regresión lineal el vector de regresores x es un vector columna de dimensión Kx1 con xj en la j-ésima fila y el vector de parámetros β es un vector columna con βj en la j-ésima posición, así ⎡ β1 ⎤ ⎡ x1 ⎤ β = ⎢⎢ M ⎥⎥ x = ⎢⎢ M ⎥⎥ y ⎢⎣ β K ⎥⎦ ⎢⎣ xK ⎥⎦ Entonces, el modelo de regresión lineal y = β1 x1 + ... + β K x K + u es expresado como, y = x′β + u A esta formulación suele añadirse el subíndice que indica la i-ésima observación, así, la ecuación de regresión para la i-ésima observación sería yi = x′i β + ui estando representada la muestra de N observaciones de la forma; { ( yi , x i ), i = 1,..., N } La representación matricial del modelo para el conjunto de las observaciones se expresa como: donde

y = Xβ + u ⎡ y1 ⎤ y = ⎢⎢ M ⎥⎥ ⎢⎣ y N ⎥⎦

y

⎡ x1′ ⎤ X = ⎢⎢ M ⎥⎥ ⎢⎣x′N ⎥⎦

Modelos con Variable Dependiente Cualitativa 9 Los modelos de respuesta cualitativa, también denominados modelos de elección discreta, tienen por objetivo explicar y predecir la decisión (respuesta) de un individuo frente a un rango de alternativas generalmente finito (y reducido). En estos, se trata de analizar los factores determinantes de la probabilidad de elección (respuesta) de un individuo dentro de un grupo de opciones posibles. La naturaleza discreta de la variable dependiente que puede recoger la decisión de acudir a una consulta médica, participar en el mercado laboral, la elección de un medio de transporte, tomar un determinado tipo de seguro o el grado de satisfacción con un servicio, pone de manifiesto las limitaciones del modelo de regresión lineal convencional. 9 Los ingredientes de un modelo de respuesta cualitativa son los objetos de la elección, el conjunto de alternativas disponibles, las características observadas de los individuos y el modelo de comportamiento o elección individual.

2

Modelos con Variable Dependiente Cualitativa 9 El proceso de decisión (respuesta) del individuo i-ésimo puede representarse mediante una variable categórica Yi tal que Yi=j si el individuo elije la alternativa j. Las alternativas deben ser mutuamente excluyentes y exhaustivas. 9 Si los valores asignados a la variable dependiente Yi definen un conjunto finito o infinitamente numerable de puntos de la recta real, habitualmente enteros positivo, con significado cardinal o, cuanto menos, ordinal, puede resultar apropiado acudir a los modelos para datos de recuento, en los que se asume que la variable dependiente se ajusta a algún modelo particular de distribución discreta. Cuando, por el contrario, el conjunto de alternativas es finito y los valores asignados a Yi representan diferentes categorías de un atributo, cabe distinguir entre modelos de respuesta binomial, si se trata de elegir entre dos opciones, y modelos multinomiales, cuando la elección tiene lugar entre más de dos alternativas. En el caso particular de que los valores asignados tengan un significado ordinal, puede ser conveniente especificar modelos multinomiales ordenados, que se tienen en cuenta explícitamente este carácter.

Modelos con Variable Dependiente Cualitativa Tipos de modelos de elección discreta

Elección entre dos alternativas

Elección entre más de dos alternativas

Modelos de elección binaria (binomiales)

Modelos de elecciones múltiples (multinomiales)

Alternativas no ordenadas

Alternativas ordenadas

Modelos para datos de recuento

3

Modelos de Elección Binaria 9 Los modelos de respuesta binaria (binomial) permiten analizar

problemas de decisión con respuesta dicotómica, esto es, donde Yi toma únicamente dos resultados posibles, a los que, generalmente, se le asignan los valores 1 y 0. ⎧1 con probabilidad pi Yi = ⎨ ⎩0 con probabilidad (1 - pi ) 9 Especificada la variable dependiente, puede formularse un modelo

de regresión a través de la parametrización de la probabilidad (pi), la cual se expresa como función de un conjunto de factores, esto es,

p i = P (Yi = 1 / x i , β ) = F ( x ′i β ) siendo xi el vector de características que influyen en la elección, β el vector de parámetros asociados a las mismas y F(.) representa una función específica. 9 Los modelos habitualmente empleados, dependiendo de la función adoptada son: el Modelo de Probabilidad Lineal (MPL), el LOGIT y el PROBIT.

Modelos de Elección Binaria: Justificación, formulación e interpretación 9 Enfoque de Variable Latente: el resultado se presenta como una

evaluación implícita en la que la elección es reflejo de una regresión subyacente, donde la variable no observable o latente, Yi*, depende de un conjunto de variables explicativas que determinan la elección realizada por el individuo i-ésimo, es decir

Yi* = x ′i β + u i donde ui es un término de perturbación aleatoria. Si se supone un problema de decisión con respuesta dicotómica, se observa la elección finalmente realizada, Yi=1 o Yi=0, y suponiendo que, ⎧⎪1 si Yi* > 0 Yi = ⎨ ⎪⎩0 si Yi* ≤ 0 entonces el modelo de probabilidad quedaría definido de la siguiente forma,

P(Yi = 1) = P(Yi* > 0) = P( x ′i β + u i > 0) = P ( u i < x ′i β ) = F ( x ′i β ) siendo F la función de distribución del término de perturbación, que se ha supuesto que sigue una distribución simétrica de media nula.

4

Modelos de Elección Binaria: Justificación, formulación e interpretación 9 Enfoque de Variable Latente:

8

1.20 1.00

6

.80

4

Y1

Y

.60

2

.40

0 .20

-2

.00 -.20

-4 -4

-3

-2

-1

0

1

2

3

4

5

-4

-3

-2

-1

0

1

2

3

4

5

X

X

Yi * = β1 + β 2 xi + ui

⎧⎪1 si Yi* > 0 Yi = ⎨ ⎪⎩0 si Yi* ≤ 0

Modelos de Elección Binaria: Justificación, formulación e interpretación 9 Enfoque de la Utilidad Aleatoria: el resultado viene dado a partir de

una elección racional de la alternativa que proporciona máxima utilidad. Si definimos la utilidad de las alternativas para cada individuo como Uij, j=0,1, las cuales no son observables, y se supone que son función de un componente sistemático y otro aleatorio, Vij y εij, respectivamente, se tiene que ⎧1 si U i1 > U i0 U i 0 = Vi 0 + ε i 0 Yi = ⎨ ⎩0 si U i0 > U i1 U =V +ε i1

i1

i1

entonces la probabilidad de que el individuo i-ésimo elija la alternativa 1 puede expresarse como, P(Yi = 1) = P (U i1 > U i 0 ) = P (Vi1 + ε i1 > Vi 0 + ε i 0 ) = P (ε i 0 − ε i1 < Vi1 − Vi 0 ) = F (Vi1 − Vi 0 )

Como en el enfoque anterior, el modelo finalmente especificado depende de la distribución que se suponga para los términos aleatorios.

5

Modelos de Elección Binaria: Modelo de Probabilidad Lineal 9 El MPL se especifica asignando una función de distribución

uniforme a F, por lo que la probabilidad de elegir la alternativa 1 se expresa mediante una función lineal de las variables explicativas, esto es,

pi = P (Yi = 1 / x i , β ) = x′i β

Los parámetros del vector β pueden estimarse a partir del modelo de regresión lineal

Yi = x′i β + u i donde ui es un término de perturbación con media cero. Puede observarse que,

pi = E (Yi / x) = x′i β y por tanto, la esperanza condicionada de la variable dependiente puede interpretarse como la probabilidad de elección de la alternativa 1 dado el vector de variables explicativas, representando βj la variación en pi ante un cambio unitario en xj.

Modelos de Elección Binaria: Modelo de Probabilidad Lineal 9 Inconvenientes del MPL

Probabilidades predichas inconsistentes. No puede garantizarse que estén acotadas entre 0 y 1. Interpretación de los coeficientes βj. Supone que el efecto sobre la probabilidad es constante y aumenta linealmente con el valor de las variables explicativas. No normalidad de la perturbación. Condiciona los procedimientos de inferencia. Heterocedasticidad del término de perturbación. Estimadores MCO menos eficientes. Coeficiente de determinación no apropiado.

6

Modelos de Elección Binaria: Modelos Logit y Probit 9 En el modelo Logit se supone que F es una función logística. En este

caso, el modelo de probabilidad queda definido de la siguiente forma: P(Yi = 1) = F (x′i β ) = Λ(x′i β ) =

e x′i β 1 = 1 + e x′i β 1 + e −( x′i β )

donde Λ(.) representa a la función de distribución logística. 9 En el modelo Probit se asume que F es normal estándar. Así, en este caso, el modelo de probabilidad quedaría de la forma: x′i β

x′i β

−∞

−∞

P(Yi = 1) = F (x′i β ) = Φ (x′i β ) = ∫ φ (t )dt =

∫

z2

1 −2 e dz 2π

donde Φ(.) y φ(.) representan a la función de distribución y de densidad de la normal estándar.

Modelos de Elección Binaria: Modelos Logit y Probit 9 Algunas Características de los modelos Logit y Probit

Son modelos no lineales en los parámetros, lo que requiere de la utilización de métodos numéricos para la obtención de las estimaciones de éstos. La inferencia estadística relativa a los estimadores obtenidos está basada en resultados asintóticos. Superan los inconvenientes del MPL en relación a las probabilidades predichas, garantizándose que estén acotadas entre 0 y 1 y a los efectos sobre la probabilidad, ya que en estos casos no son constantes. Las probabilidades obtenidas a partir de ambos modelos son muy similares para valores intermedios de xi’β. La elección entre ambos suelen estar basadas en planteamientos teóricos, no encontrándose excesivas diferencias a nivel aplicado.

7

Modelos de Elección Binaria: Interpretación de los coeficientes y odds-ratios 9 Los coeficientes (β) en los modelos Logit y Probit no pueden

interpretarse directamente como efectos de las variables explicativas sobre la probabilidad, como ocurre en el MPL. Efectos Marginales: ∂P(Yi = 1) ∂E (Yi / x) ∂Λ(x′i β ) = = = λ (x′i β ) ⋅ β j = Λ(x′i β )(1 − Λ(x′i β )) ⋅ β j ∂x j ∂x j ∂x j

Logit

∂P(Yi = 1) ∂E (Yi / x) ∂Φ (x′i β ) = = = φ (x′i β ) ⋅ β j ∂x j ∂x j ∂x j

Probit

donde λ(.) y φ(.) son las funciones de densidad de las distribuciones logística y normal estándar. Estos efectos dependen del nivel de todas las variables explicativas, pudiéndose plantear diferentes alternativas para su evaluación (valores medios, rango de las variables, medias de los efectos,…). 9 Para variables explicativas dicotómicas, es más adecuado obtener el cambio discreto en la probabilidad o bien los odds-ratios. 9 El signo de los coeficientes indica la dirección del cambio en la probabilidad.

Modelos de Elección Binaria: Interpretación de los coeficientes y odds-ratios 9 Efectos Relativos de Cambio en las variables explicativas:

∂P(Yi = 1) / ∂x j ∂P (Yi = 1) / ∂xk

=

∂E ( y / x) / ∂x j ∂E ( y / x) / ∂xk

=

βj βk

9 Odds y Odds-Ratios: Los efectos de las variables explicativas pueden interpretarse también a partir de los denominados odds y los odds-ratios.

Los odds son definidos como el cociente entre las probabilidades de las dos alternativas, esto es, Ω=

P (Yi = 1 / x) P (Yi = 1 / x) = P (Yi = 0 / x) 1 − P(Yi = 1 / x)

Para el modelo Logit se tiene que: Ω=

P(Yi = 1 / x) pi = = e x′i β P (Yi = 0 / x) 1 − pi

⎛ p ⎞ ⇒ ln( Ω) = ln⎜⎜ i ⎟⎟ = x′i β ⎝ 1 − pi ⎠

Los odds-ratios se definen como el cociente de odds evaluados cuando el vector de variables explicativas cambian, p.e. de xi0 a xi1, esto es, e x i 'β 1

OR =

e

x 0i ' β

= e ( x i ' − x i ') β 1

0

para una variable x j

OR = e

β j ( x1j − x 0j )

que permite evaluar el cambio en las preferencias de un individuo cuando el valor de la variable explicativa cambia.

8

Inferencia en el Modelo: Estimación, Contrastes y Predicción 9 Estimación de los modelos MPL, Logit y Probit

El MPL puede considerarse una aplicación del modelo de regresión múltiple en el que la variable dependiente es binaria. Por tanto, la obtención de las estimaciones de los parámetros puede llevarse a cabo por los métodos habituales (MCO o MCG). En los modelos Logit y Probit, la obtención de los estimadores de los parámetros se realiza, principalmente, mediante el método de la máxima verosimilitud. La función de verosimilitud de la muestra viene dada por N N Y 1−Y L = ∏ piYi (1 − pi )1−Yi = ∏ [F (x′i β )] i [1 − F (x′i β )]

y la logarítmica,

i =1

i

i =1

N

N

i =1

i =1

ln L = ∑ Yi ln(F (x′i β )) + ∑ (1 − Yi ) ln(1 −F (x′i β ))

Dada la no linealidad de estas funciones, los estimadores son obtenidos por métodos de optimización numérica..

Inferencia en el Modelo: Estimación, Contrastes y Predicción 9 Contrastes de Hipótesis y Medidas de Bondad de Ajuste βˆ j z= ∼ N (0,1) Significación Individual: s ( βˆ j )

Significación Conjunta (Test de Razón de Verosimilitudes): RV = −2(ln LNR − ln LR ) ∼ χ q2

Contrastes de Restricciones (Test de Wald): H 0 : Rβ − r = 0 H 1 : Rβ − r ≠ 0

Criterios de Selección:

W = (Rβˆ − r )′(RVar ( βˆ )R ′) −1 (Rβˆ − r ) ∼ χ q2 AIC = −2 ln L + 2 K BIC = −2 ln L + K ln( N )

2 = 1− Pseudo-R2 de McFadden (entre otros): RMF

ln LNR ln LR

Análisis de los Residuos Porcentaje de Predicciones Correctas Contraste de Hosmer-Lemeshow

9

Inferencia en el Modelo: Estimación, Contrastes y Predicción 9 Predicción

A partir de las estimaciones de los parámetros de los modelos es posible obtener predicciones de la probabilidad de ocurrencia del suceso o de elección de la alternativa considerada, para un determinado vector de características de las variables explicativas (xi*). e x i 'β *

Modelo Logit:

pˆ i = Pˆ (Yi = 1) = Λ (x *i ' βˆ ) =

Modelo Probit:

pˆ i = Pˆ (Yi = 1) = Φ(x*i ' βˆ )

ˆ

1 + e x i 'β *

ˆ

=

1 1 + e − ( xi 'β ) *

ˆ

La predicción del valor de Yi condicionado a los valores de las variables explicativas se realiza a partir de las probabilidades predichas para cada individuo, de la forma: ⎧1 si pˆ i > c Yˆi = ⎨ ⎩0 si pˆ i ≤ c habitualmente el valor asignado a c es 0.5.

10