terça-feira, setembro 16, 2008

Erro de análise e outras coisas

Uma leitora chama-me a atenção para o facto de que a tendência apontada no post anterior não ser um "efeito Palin", porque já vinha de trás. É absolutamente verdade, e penalizo-me. O problema foi que, em vez de olhar para todas as observações, me limitei a comparar dois pontos no tempo. Mas olhando para a série é evidente que, se acontece alguma coisa (reforço das bases de McCain mas perdas entre os independentes) é num momento anterior à convenção Republicana. Sorry, my mistake.

Outras questões. Primeiro, a de saber se a atenção que é dada aos resultados nacionais em detrimento dos estaduais faz algum sentido:

Acho mesmo que o uso destes valores é negligente pois induz o eleitor a tomar comportamentos e formular conclusões que podem não ser os mais correctos. Muitos deles apontam para um empate técnico em que a vantagem de um ou outro situa-se dentro da margem de erro. Concluir progressões com valores destes é para mim um erro, que se potencia ao ser divulgado e comentado. A eleição de Bush parece não ter servido de Lição.

Eu não seria tão céptico. Por um lado, se é evidente que a eleição o Presidente americano não é nem directa nem feita através de um círculo eleitoral nacional, a verdade também é que só três vezes (1876, 1888 e 2000) o candidato que teve mais votos não foi o Presidente. Pelo que a intenção de voto nacional e saber quem tem mais intenções de voto a esse nível é um indicador muito razoável de quem poderá ser o vencedor. Por outro lado, a verdade é que se dá muita atenção ao que se passa nos estados, como se pode ver aqui. O problema, claro, é que em vários estados há poucas sondagens e as indicações do que se vai passar neles são pouco fiáveis, pelo que basearmo-nos exclusivamente nessas sondagens seria também perigoso. Pelo que o enfoque na intenção de voto nacional não me parece errado, desde que, claro, se perceba que uma coisa é tentar fazer inferências sobre o voto popular a nível nacional e outra é fazer inferências sobre quem terá mais membros no colégio eleitoral (sendo que ambas as coisas tendem a coincidir).

Agora, para quem faz campanhas, as sondagens a nível nacional têm pouca utilidade. Veja-se o que diz o campaign manager de Obama:

"All we care about is these 18 states," he said. He repeated, with emphasis, that the campaign does not care about national polling. Instead, the campaign's own identification, registration and canvassing efforts provide the data he uses to determine where to invest money and resources. Plouffe also emphasized that the internal polling the campaign does is focused on those same 18 states, and that their real concern is not the horse race results but the "data underneath." Later, he added, "the top-line [polling data] doesn't tell you anything." Rather, they focus on who the "true undecideds" are, "how they're likely to break," and what messages will best persuade them.

Outro ponto:

A sondagem da Gallup que linkou, foi realizada com base em ca. de 2700 inquéritos. E é assumido um erro de cerca de 2% associado à sondagem. Estatísticamente, parece-me certo. Mas de facto esta amostra só poderia ser considerada representativa no caso da eleição para a presidência dos EUA se basear contagem total dos vos e não na eleição de um colégio eleitoral em cada estado. Para o último caso, a amostra tem de ser ponderada estadualmente. Em anexo tenho os cálculos da ponderação dos 2700 inquéritos por estado. E surpreendi-me quando vi que um número significativo de estados não chegam sequer à dezena. Com isto estamos bem longe de um erro de 2%! É legítimo apresentar-se resultados com tão pouca consistência para justificar tendências de voto?

Isto está ligado ao ponto anterior. Uma sondagem como esta da Gallup está a tentar fazer uma inferência descritiva sobre o voto popular, não sobre quem tem mais eleitos no colégio. Para o primeiro fim, está muito bem. Da mesma maneira que uma sondagem feita em Portugal raramente está a tentar apurar - pelo menos directamente - quem vai ter mais deputados. Para fazer isso directamente seria necessário fazer sondagens com amostras representativas de cada distrito e estimar deputados por distrito. Mas, claro, ninguém faz isso, porque os benefícios não compensam os custos: saber quem tem mais votos a nível nacional costuma ser suficiente para saber quem terá mais deputados. O que já é mais perigoso é tentar fazer esses cálculos com alguma aparência de objectividade com base em sondagens que têm como único objectivo medir o voto a nível nacional. Dei aqui um exemplo disso há uns anos. Até pode correr bem, mas também pode correr muito mal.

Sem comentários: