Por que aleatorizar? Cecilia Machado FGV-EPGE Abdul Latif Jameel Poverty Action Lab

Por que aleatorizar? Cecilia Machado FGV-EPGE Abdul Latif Jameel Poverty Action Lab www.povertyactionlab.org Contexto do curso 1 - Monitoramento e A...
0 downloads 0 Views 1MB Size
Por que aleatorizar? Cecilia Machado FGV-EPGE Abdul Latif Jameel Poverty Action Lab www.povertyactionlab.org

Contexto do curso 1 - Monitoramento e Avaliação

2 – Avaliação de programas

3 - Avaliação de impacto

4 - Avaliação Aleatória

• A avaliação de impacto tem como objetivo atribuir causalidade. Ou seja: busca medir os efeitos de um programa.

• Veremos que o método experimental (aleatório) é um método transparente e muito confiável para conseguir fazer isso.

I – O problema de seleção e a formação de grupos de controle

Relações causais Alguns exemplos de perguntas causais podem ser: 1. Qual é o efeito do crédito sobre a produtividade de uma empresa? 2. Qual é o efeito de mulheres eleitas para cargos de voto popular sobre o investimento público e a percepção de mulheres como líderes? 3. Qual é o efeito de fornecer informação aos consumidores sobre suas decisões de compra?

4. Qual é o efeito do encarceramento sobre a reincidência criminal? 4

Relações causais • Responder estas perguntas não é fácil, mesmo quando identificados: (a) qual é exatamente o “tratamento”, e (b) quais são as variáveis que vão medir o resultado. • Por exemplo, para medir o efeito de mulheres eleitas sobre o investimento público e a percepção de mulheres como líderes, se compararmos lugares com mulheres eleitas e não eleitas podemos estar comparando maçãs com laranjas. Por quê? – Talvez o que possibilitou a eleição foi uma percepção prévia diferente, ou níveis de educação ou de renda diferentes da população, que também afetam as percepções e o investimento público. 5

Relações causais • Problema de seleção: as pessoas que tomam uma decisão (ex: ir à escola ou solicitar um empréstimo) são em geral diferentes das pessoas que não tomam a decisão. • Por exemplo: Que variáveis podem levar algumas pessoas a solicitarem um empréstimo? – Apertos econômicos? Portanto, se não formos cuidadosos podemos concluir que o empréstimo prejudica as empresas – Melhor expectativa para o futuro? Portanto superestimaremos o efeito

• Outro exemplo: se inocentemente compararmos pessoas que são encarceradas com outras que não, o que poderemos concluir? 6

Impacto O problema da avaliação de impacto: Avaliação típica: Como a vida dos beneficiários mudou depois do começo do programa?

Avaliação com grupo de controle: Como a vida dos beneficiários mudou por causa do programa? 7

Recebe benefícios do programa

GRUPO DE TRATAMENTO

Não recebe benefícios

GRUPO CONTROLE

Impacto • Para medir impacto precisamos saber: O que aconteceu com o programa e - O que teria acontecido sem o programa (contrafatual) =IMPACTO do programa

• Mantendo todo o resto constante (ou seja, lugares com a mesma percepção das mulheres, empresas idênticas com e sem empréstimo, etc.) • Sem o contrafatual não temos nada com o que comparar os resultados! 8

Resultado primário

Impacto: cenário nº1 Intervenção

Impacto

Tempo

Impacto: cenário nº2 Resultado primário

Impacto Intervenção

Tempo

Resultado primário

Impacto: cenário nº3 Intervenção

Impacto

Tempo

Contrafactual • Problema: O contrafactual não pode ser observado – Ou seja: não podemos observar a mesma pessoa com ou sem o tratamento. • Solução: “Repetir” ou construir o contrafactual – Isto é o que faz um “grupo de controle”: imitar o que teria acontecido com as pessoas que receberam o tratamento, se não o tivessem recebido. – Ou seja, são seus “clones” em um mundo sem tratamento.

Como construir o contrafactual • O contrafactual costuma ser construído com a ajuda de um grupo não afetado pela intervenção (grupo de controle ou grupo de comparação) • A maneira em que este grupo é selecionado é uma decisão importante para o desenho de qualquer avaliação de impacto • A ideia é escolher um grupo que seja exatamente igual ao grupo de participantes, menos em uma coisa: sua exposição ao programa que está sendo avaliado. Por quê?

Métodos de avaliação de impacto 1. Avaliações experimentais ou com grupo de controle aleatório (muito confiáveis) 2. Métodos não experimentais ou quase experimentais a) b) c) d) e) f)

Antes e depois Diferença simples em um mesmo momento no tempo Diferenças em diferenças (combinam (a) e (b)) Pareamento estatístico Variáveis instrumentais Regressão Descontínua 14

Métodos não experimentais Todos estes métodos tentam fazer a mesma coisa: 1. Estimar o que teria acontecido sem o programa através da criação de um grupo de controle. 2. Estimar a diferença entre o grupo de controle e o grupo de tratamento. 3. A principal diferença entre eles é como estimam o contrafactual e para quais subpopulações, isto é, quem é o grupo de controle. 15

Métodos não experimentais • Para definir o grupo de controle os métodos não experimentais fazem suposições, e pior ainda: suposições que não podem ser verificadas! • Por exemplo: Por quê? a) Antes e depois, mesmos indivíduos • Grupo de controle: os tratados antes de receber o tratamento • Suposição: que sem o tratamento teriam ficado como antes • Ameaça: que existam tendências, por exemplo que o machismo vá diminuindo com o tempo. b) Diferença simples depois do programa • Grupo de controle: aqueles sem tratamento, (ex.: empresas sem empréstimo) • Suposição: que as empresas sem empréstimo são iguais às empresas com empréstimo. 16

Métodos não experimentais c)

Pareamento: • Grupo de controle: aqueles com características observáveis iguais • Suposição: que observamos todas as características que possam afetar o resultado

d)

Variáveis instrumentais:



Idéia: usar uma variável que afete a probabilidade de receber tratamento, mas não diretamente o resultado. Por exemplo: que alguns tenham recebido convite e outros não.



Grupo de controle: aqueles que não receberam o convite.



Suposição: que o convite não foi mandado com base no resultado esperado (ex.: aos melhores estudantes)

17

Métodos não experimentais • Na medida que a suposição de identificação não é válida, a nossa estimativa do efeito do programa também não será: haverá um viés • Como raramente sabemos o quão ruim é a suposição quantitativamente, também não sabemos o tamanho do viés (embora existam métodos para tentar medi-lo). Yi T  o que aconteceria a i com T Yi C  o que aconteceria a i sem T

Ri  E[YiT  Yi C ] ideal

R  E[Y T | T ]  E[Y C | C ] possível 18

Métodos não experimentais • Somando e diminuindo

E[Yi C | T ]

R  E[Y T  Y C | T ]  E[Y C | T ]  E[Y C | C ] Efeito do tratamento

Viés

Randomização  E[Y C | T ]  E[Y C | C ]

19

II – O que é uma avaliação aleatória?

O que é uma avaliação aleatória? Começamos com um exemplo simples: • Pegamos uma amostra de candidatos para o programa • Aleatoriamente são designados para:  Grupo de tratamento – o tratamento é oferecido  Grupo de controle – não é permitido receber o tratamento (durante o período de avaliação)

21

Principal vantagem de experimentos Já que os membros dos grupos (tratamento e controle) não diferem sistematicamente, e a única diferença por construção é que alguns receberam o tratamento e outros não, qualquer diferença que surja posteriormente, entre eles, poderá ser atribuída ao programa e não a outros fatores. Randomização  E[Y C | T ]  E[Y C | C ] 22

Vantagens da aleatorização • Suposições que não podem ser verificadas não devem ser feitas. • A aleatorização faz com que os grupos sejam comparáveis em variáveis observáveis, mas também naquelas que não observamos! • Se concebidos e implementados corretamente, os experimentos aleatórios são o método mais confiável para estimar o impacto de um programa. 23

Passos principais para realizar um experimento 1. Desenhar o estudo cuidadosamente (subpopulação) 2. Alocar aleatoriamente para tratamento ou controle. Recolher dados da linha de base (não é estritamente necessário porém muito recomendável) Verificação equilíbrio, tamanho da amostra, interações.

4. Verificar que a aleatorização gerou grupos similares 5. Monitorar o processo para garantir a integridade do experimento (que não apliquem o programa aos de controle mas sim aos de tratamento) 24

Passos principais para realizar um experimento 6. Recolher dados pós-intervenção para o grupo de tratamento e também para o grupo de controle 7. Estimar os impactos do programa, comparando a média dos resultados do grupo de tratamento com a média dos resultados do grupo de controle 8. Determinar se os impactos são estatisticamente significativos e praticamente significativos

25

Passos principais para realizar um experimento

2. INTERVENÇÃO 4. Medição final

1. Linha de base

2. DIVISÃO aleatória

3. STATUS QUO

PÚBLICO-ALVO 26

A medição é o fator-chave • Uma coisa é ter grupos comparáveis, para o qual a aleatorização é nossa melhor aliada… e outra coisa é poder medir com precisão os resultados. • A precisão dependerá do instrumento usado para medir (enquete, informação administrativa, etc.), do tamanho da amostra, e outras coisas que veremos depois. • Há variáveis difíceis de medir: ex.: percepção das mulheres líderes sobre suas próprias capacidades. Como vocês fariam? – as pessoas tendem a dizer o que você quer ouvir. Sejam criativos: ex.: opinar sobre o mesmo discurso feito por homens/mulheres 27

III – Há diferenças na prática entre aleatorizar ou não? Sim, muita!

Exemplo Balsakhi: antecedentes • Implementado por Pratham, uma ONG na Índia • O programa proporcionou tutores (Balsakhis) para ajudar crianças com dificuldades na escola • O programa de Balsakhi foi implementado em escolas primárias públicas em 2002-2003 • Os professores destas escolas decidiram que as crianças (as mais atrasadas) se educariam com os Balsakhi 29

Exemplo nº1: o programa de Balsakhi

Case 2: Remedial Education in India

Balsakhi: Indicadores de Resultados • Variável resultado: As crianças fazem testes de linguagem e matemática no começo do ano escolar (pré-teste) e no final do ano (pós-teste ) • PERGUNTA: Como determinamos o impacto do programa?

Métodos para estimar impacto • Exploremos diferentes formas de calcular os impactos utilizando os dados das escolas que obtiveram um balsakhi 1. 2. 3. 4. 5.

Pré – Pós (Antes vs. depois) Diferença simples Diferenças em Diferenças Outros métodos não experimentais Experimento Aleatório

1. Pré-pós (Antes vs. depois) • Estratégia  Comparar as notas médias das crianças educadas pelos balsakhi • Antes do balsakhi (2002) vs. • Depois do balsakhi (2004)

1. Pré-pós (Antes vs. depois) Nota média pós-teste para crianças com um balsakhi

51,22

Nota média pré-teste para as crianças com um balsakhi

24,80

Diferença

26,42

• PERGUNTA: Sob que condições esta diferença (26,42) pode ser considerada como o impacto do programa Balsakhi?

O que teria acontecido sem o balsakhi? Método 1: Antes vs. depois Impacto = 26.42 pontos? 75

50

26,42 pontos 25

0 2002 0

2003

2 – Diferença simples Compare a nota média de…

com a nota média de…

Crianças que receberam o balsakhi

Crianças que não receberam o balsakhi

2 – Diferença simples Nota média para as crianças com um balsakhi

51,22

Nota média para as cranças sem um balsakhi

56,27

Diferença

-5,05

• PERGUNTA: Sob que condições esta diferença (-5,05) pode ser considerada como o impacto do programa Balsakhi?

O que teria acontecido sem o balsakhi? Método 2: Comparação simples Impacto = -5.05 pontos? 75 -5,05 pontos

50

25

0 2002 0

2003

3 – Diferenças em Diferenças Compare a mudança na nota média de…

Com a mudança na nota média de…

Crianças que receberam o balsakhi

Crianças que não receberam o balsakhi

3 – Diferenças em Diferenças

Nota média para as crianças com um balsakhi Nota média para as cranças sem um balsakhi

Pré-teste

Pós-teste

Diferença

24.80

51.22

26.42

3 – Diferenças em Diferenças Pré-teste Pós-teste Diferença Nota média para as crianças com um balsakhi

24.80

51.22

26.42

Nota média para as cranças sem um balsakhi

36.67

56.27

19.60

3 – Diferenças em Diferenças Pré-teste Pós-teste Diferença Nota média para as crianças com um balsakhi

24.80

51.22

26.42

Nota média para as cranças sem um balsakhi Diferença

36.67

56.27

19.60 6.82

• PERGUNTA: Sob que condições esta diferença (6.82) pode ser considerada como o impacto do programa Balsakhi?

4 – Experimento Aleatório • Suponha que avaliamos o programa de Balsakhi usando um experimento aleatório • PERGUNTA nº1: O que isso implica? Como o fazemos? • PREGUNTA nº2: Qual seria a vantagem de utilizar este método para avaliar o impacto do programa Balsakhi? Source: www.theoryofchange.org

43

Impacto do Programa Balsakhi Método

Impacto Estimado

(1) Pré-pós

26.42*

(2) Diferença simples

-5.05*

(3) Diferenças em diferenças

6.82*

(4) Regressão

1.92

*: Estatísticamente significativo ao nível de 5%

Impacto do Programa Balsakhi Método

Impacto Estimado

(1) Pré-pós

26.42*

(2) Diferença simples

-5.05*

(3) Diferenças em diferenças

6.82*

(4) Regressão

1.92

(5) Experimento Aleatório

5.87*

*: Estatísticamente significativo ao nível de 5%

Impacto do Programa Balsakhi Método

Impacto Estimado

(1) Pré-pós

26.42*

(2) Diferença simples

-5.05*

(3) Diferenças em diferenças

6.82*

(4) Regressão

1.92

(5) Experimento Aleatório

5.87*

*: Estatísticamente significativo ao nível de 5%

Conclusão: O método usado importa!