Fazendo uso de exemplos fundamentados na polÃtica norte-americana, nos jogos de baseball, em projeções econômicas e na probabilidade de ocorrências de terremotos, o autor apresenta os aspectos mais importantes no trabalho de previsão de resultados.
Enquanto as eleições americanas são tema de conhecimento comum, as muitas considerações sobre beisebol – esporte pouco conhecido entre nós – podem ser enfadonhas; o capÃtulo sobre a bolha do pôquer foi, ao menos para mim, intragável.
Ainda assim, para os curiosos sobre o tema da análise e interpretação de dados, é um livro instigante e interessante. Mas, o foco do autor está nas muitas histórias interessantes e pouco contribui com ferramental para separar os sinais dos ruÃdos, como por exemplo o Controle EstatÃstico de Processos CEP, ferramenta apenas citada no texto.
Algumas observações selecionadas:
A verdadeira era da informação começou em 1440, com a invenção da imprensa por Johannes Guttemberg. Antes, uma página de livro manuscrito custava cerca de 20 dólares, limitando o acesso ao conhecimento.
É importante lembrar que os modelos são simplificações da realidade e devem ser usados com cuidado.
Um sinal é uma indicação de uma verdade subjacente por trás de uma estatÃstica ou problema preditivo, enquanto ruÃdos são padrões aleatórios que podem facilmente ser confundidos com sinais. O sinal é a verdade. O ruÃdo é o que nos distrai da verdade.
O objetivo de qualquer modelo de predição é capturar tantos sinais quanto possÃvel e tão poucos ruÃdos quanto puder. Armstrong argumenta que “quanto mais complexo o modelo, piores são as previsõesâ€. É uma frase bonita que faria sucesso nas redes sociais, mas que deve ser encarada com algum ressalva.
Na estatÃstica, a confusão de tomar ruÃdos como sinais é denominada overfitting. Modelos puramente estatÃsticos, com grande número de variáveis e uma pequena quantidade de eventos para sua validação, geralmente levam ao risco de overfitting. Esse risco é consideravelmente menor quando se usa modelos fÃsicos de causa e efeito.
Segundo o autor, o caminho para maior objetividade é reconhecer a influência que nossas premissas têm em nossas previsões.
A estatÃstica tem sido parte dos esportes desde há muito tempo. O primeiro conjunto de informações – com cinco informações sobre cada jogador – foi publicado em jornal por Henry Chadwick em 1859.
Nosso instinto é categorizar as informações, geralmente em um pequeno número de categorias, pois isso facilita o entendimento.
A inspeção visual de um gráfico que mostra a interação entre duas variáveis geralmente é um caminho mais rápido e confiável para identificar outliers nos dados do que um teste estatÃstico.
Predizer o passado é um oximoro e obviamente não pode ser contado entre os sucessos.
A estatÃstica é uma das habilidades fundamentais necessárias à ciência dos dados.
Uma previsão cientÃfica exige um resultado probabilÃstico, ou seja, nas previsões é importante informar também a incerteza. Coisa comum nas pesquisas eleitorais, porém rara nos resultados de outras previsões. Laplace via a probabilidade como um meio caminho entre a ignorância e o conhecimento.
A heurÃstica do “acompanhe a maioria, especialmente quando não sabe nada melhor†normalmente funciona bem.
Consenso não é sinônimo de unanimidade, mas um grande acordo obtido após um processo de deliberação. É, portanto, uma alternativa à votação.
Informação só se transforma em conhecimento quando colocada em um contexto.
Fonte:
Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (Inglês)
Nota: Já está disponÃvel em português.