segunda-feira, janeiro 09, 2006

Dúvidas (com correcção a um anterior lapso meu, a vermelho)

Recebidas por e-mail ou colocadas noutros blogues:

1. O nível de confiança é, por norma, complementar da margem de erro; isto é, para o clássico nível de confiança de 95% existe uma margem de erro de 5% e, portanto, uma flutuabilidade dos dados apresentados; a sondagem apresenta para um nível de confiança uma margem de erro de 3,4%.

Importa não confundir o erro amostral com o nível de confiança na base do qual se pode dizer que o erro amostral é x ou y.
"Using a sample of 1000 as an example, the statement could read: the chances are 95% of coming within +/- 3% of a hypothetical survey conducted among all members of the population. This means that 95% of all samples which could possibly be drawn will yield an outcome within 3% of the true percentage among the population."


2. Os inquéritos optam, por norma, por um universo [suponho que aqui se queria dizer "amostra"]de cerca de 1.000 entrevistas validadas para a representação do eleitorado nacional; esta sondagem tem 815 inquéritos válidos.

Desconheço a existência desta "norma". Dependendo dos objectivos- o que se quer medir e a margem de erro amostral que se está disposto a tolerar - uma amostra pode ser muito mais pequena ou muito maior que 1000. Explicação muito técnica aqui, explicações mais simples e com exemplos aqui (powerpoint). A money quote: "for very large populations, 500-700 is usually adequate".


3. Há uma distribuição de indecisos de modo equitativo pelas seis candidaturas e, portanto, beneficia-se artificialmente Cavaco ao dar-lhe, por exemplo, mais indecisos dos que possui e ao minorizar a percentagem de indecisos na área socialista (isto é, Alegre e Soares poderão conseguir muitos mais votos que os assinalados).

Lamento, mas não houve, na sondagem da Católica, uma distribuição de indecisos de modo equitativo. Os indecisos foram colocados perante uma segunda pergunta, onde se lhes pedia que indicassem uma "inclinação de voto" por um dos candidatos. E essas inclinações, se dadas por inquiridos que disseram "ter a certeza" que vão votar, foram contadas como votos efectivos. Os restantes foram distribuídos de modo proporcional (ou seja, tratados como abstencionistas). Tudo isto está, desta vez, bem explicado na notícia do Público, mais do que uma vez. Para além disso, ensaiámos no inquérito uma experiência: perguntar aos indecisos que se recusaram a indicar inclinações "em que candidatos nunca votariam", e usar essa informação para não redistribuir os seus votos por candidatos assim indicados. Os resultados obtidos foram iguais aos anteriores, pelo que se optou por não usar essa informação (para não complicar a apresentação nem mudar de metodologia a meio caminho). Isso não nos impediu de assinalar o facto de haver um número desproporcional de simpatizantes do PS entre os indecisos. Cada um usa essa informação como entender, mas não me peçam para pressupor que todos os indecisos do PS vão votar Soares, Alegre ou de outra maneira qualquer...


4. A distribuição aleatória foi afectada pela significativa taxa de recusas (a edição de hoje já não as trazia) o que introduzir mortalidade na amostra, ou seja, uma nova distribuição não aleatória que afecta a chamada validade interna (e, portanto, inferencial) do estudo (veja-se que os resultados se reportam aos que respondem, não aos que votam ou aos que foram inquiridos), porém, este é um critério recorrente em todas as sondagens.

A obtenção de uma amostra genuinamente aleatória é obviamente afectada pelo facto de inquiridos seleccionados aleatoriamente se recusarem a fazer parte da amostra, assim como pelo facto de não se conseguir inquirir (por ausência) inquiridos seleccionados aleatoriamente. Logo, a amostra não é verdadeiramente aleatória. Isto gera problemas para a qualidade dos dados? Há alternativas? O que se pode fazer? Recomendo a leitura disto (.pdf) e disto (.pdf). As respostas são menos óbvias do que parecem à primeira vista...

5. Numa sondagem em que se proceda à ponderação dos resultados [seja de acordo com a distribuição da população em relação a variáveis sócio-demográficas como idade, sexo, habilitação, etc., ou de acordo com o sentido de voto nas ultimas eleições] será legítimo continuar a pressupor que a margem de erro é a mesma caso essa ponderação não tivesse sido feita?

Não. Os valores de erro amostral pressupõem uma amostra puramente aleatória. Pelas razões explanadas no ponto 4., nenhuma sondagem é verdadeiramente aleatória, mesmo que o tente. Logo, nesses casos, a margem de erro amostral é um mero valor de referência, baseado na dimensão da amostra. Por maioria de razão, nas alternativas - utilização de quotas ou ponderação pós-amostral - aplica-se o mesmo princípio: a margem de erro é apenas um valor de referência, baseado na dimensão da amostra, e não algo que possa ser interpretado como transmitindo a real probabilidade de que os resultados se situem dentro de um dado intervalo. É por isso mesmo que a ficha técnica da Católica não diz que a margem de erro é desta amostra, e sim de uma amostra aleatória.

Assim sendo, porque se usa?

- Porque a lei obriga;

- Porque é uma maneira fácil de transmitir ao leitor as possíveis consequências de diferentes dimensões da amostra;

- Porque a pesquisa mostra que as amostragens por quota tendem a errar na estimação de valores reais dentro das mesmas margens que amostras aleatórias;

- Porque a pesquisa mostra que, quanto maior uma amostra, menor o erro na estimação de valores reais, pelo que o conceito de margem de erro, se bem que possa não ter rigor em termos absolutos, deverá tê-lo em termos relativos (ceteris paribus, quanto maiores as amostras, maior a precisão).

5. Nesta sondagem afirma-se que 52% dos inquiridos eram do sexo feminino. Depois, diz-se que os resultados foram ponderados tendo em conta, entre outras variáveis, o sexo. Ora sendo a percentagem da população do sexo feminino de aproximadamente 52%, não percebo o sentido dessa eventual ponderação.

O facto de, numa amostra, haver tantas mulheres como no universo não significa que elas estejam distribuídas por idades e graus de instrução da mesma forma como no universo. Daí a necessidade de ponderação.

Mandem sempre.

Sem comentários: