A amostra induz ao resultado

Desenho de avião, em planta, mostrando pontos em que recebeu projéteis.

Durante a Segunda Guerra Mundial, na tentativa de reduzir o número de aviões abatidos pelo inimigo, os aliados estudaram onde os aviões retornados sofreram mais danos. Desta forma, eles poderiam reforçar essas partes. A conclusão: reforçar as pontas das asas, os lemes e o centro do avião, que foi onde eles identificaram mais impactos.

Mas Abraham Wald, um estatístico que trabalhava para a defesa, propôs algo diferente: reforçar o cockpit, os motores e as costas do corpo. E por que reforçar as áreas onde não houve impactos?

O que eles não haviam considerado é que havia um viés importante ao fazer o estudo. Eles estavam apenas observando os aviões que conseguiram retornar.

Wald identificou que a distribuição dos impactos seria mais ou menos homogênea. Eles viram impactos em áreas que não eram vitais. Porque, apesar de sofrerem grandes danos, os aviões conseguiram retornar à base.

Se um avião receber grandes danos na cabine, nos motores e na cauda, ele será abatido e, assim, será incapaz de retornar à base. Mas estes não foram considerados no estudo inicial.

Esse fenômeno é algo que na estatística chamamos de “viés de seleção”. Muitas vezes, dados mal interpretados ou “intuição” nos levam a tomar decisões erradas [1]. 

Outro exemplo, desta vez na análise de fundos de investimento, mostra problema semelhante. A empresa de análise de investimentos americana Morningstar criou uma categoria de fundos chamada Large Blend — aqueles que aplicam em ações de grandes empresas da bolsa americana.

De acordo com seus cálculos, esses fundos cresceram, em média, 178,4% de 1995 a 2004 — quase 11% ao ano. Um ótimo investimento para os padrões americanos. Entretanto, um estudo de 2006, feito pela gestora Savant Capital, questiona esse sucesso.

Para chegar ao resultado, a Morningstar pegou todos os fundos classificados como Large Blend e viu quanto cresceram no prazo de dez anos. Mas ignorou os fundos que já não existiam; esses, provavelmente, são os que não deram lucro. 

Julgar o desempenho de uma categoria de fundos por uma década considerando apenas os que permanecem operando no final do período é, claramente, uma distorção que favorece os bons resultados. Se os fundos mortos fossem incluídos no cálculo, a taxa de retorno cairia para 134,5%, média anual inferior a 9%.

Conclusão: A análise dos dados deve começar pelo verificação de sua representatividade. 

Não há nada mais enganador do que um fato óbvio. Sherlock Holmes

Referências:

1.             Jacle Garbretch, no LinkedIn em 5.06.19.

2.             https://exame.abril.com.br/ciencia/uma-defesa-apaixonada-do-pensamento-matematico/ Acesso em 8.06.19.