The Signal and the Noise – Resumo do livro

The signal and the Noise

Fazendo uso de exemplos fundamentados na política norte-americana, nos jogos de baseball, em projeções econômicas e na probabilidade de ocorrências de terremotos, o autor apresenta os aspectos mais importantes no trabalho de previsão de resultados.

Enquanto as eleições americanas são tema de conhecimento comum, as muitas considerações sobre beisebol – esporte pouco conhecido entre nós – podem ser enfadonhas; o capítulo sobre a bolha do pôquer foi, ao menos para mim, intragável.

Ainda assim, para os curiosos sobre o tema da análise e interpretação de dados, é um livro instigante e interessante. Mas, o foco do autor está nas muitas histórias interessantes e pouco contribui com ferramental para separar os sinais dos ruídos, como por exemplo o Controle Estatístico de Processos CEP, ferramenta apenas citada no texto.

Algumas observações selecionadas:

A verdadeira era da informação começou em 1440, com a invenção da imprensa por Johannes Guttemberg. Antes, uma página de livro manuscrito custava cerca de 20 dólares, limitando o acesso ao conhecimento.

É importante lembrar que os modelos são simplificações da realidade e devem ser usados com cuidado.

Um sinal é uma indicação de uma verdade subjacente por trás de uma estatística ou problema preditivo, enquanto ruídos são padrões aleatórios que podem facilmente ser confundidos com sinais. O sinal é a verdade. O ruído é o que nos distrai da verdade.

O objetivo de qualquer modelo de predição é capturar tantos sinais quanto possível e tão poucos ruídos quanto puder. Armstrong argumenta que “quanto mais complexo o modelo, piores são as previsões”. É uma frase bonita que faria sucesso nas redes sociais, mas que deve ser encarada com algum ressalva.

Na estatística, a confusão de tomar ruídos como sinais é denominada overfitting. Modelos puramente estatísticos, com grande número de variáveis e uma pequena quantidade de eventos para sua validação, geralmente levam ao risco de overfitting. Esse risco é consideravelmente menor quando se usa modelos físicos de causa e efeito.

Segundo o autor, o caminho para maior objetividade é reconhecer a influência que nossas premissas têm em nossas previsões.

A estatística tem sido parte dos esportes desde há muito tempo. O primeiro conjunto de informações – com cinco informações sobre cada jogador – foi publicado em jornal por Henry Chadwick em 1859.

Nosso instinto é categorizar as informações, geralmente em um pequeno número de categorias, pois isso facilita o entendimento.

A inspeção visual de um gráfico que mostra a interação entre duas variáveis geralmente é um caminho mais rápido e confiável para identificar outliers nos dados do que um teste estatístico.

Predizer o passado é um oximoro e obviamente não pode ser contado entre os sucessos.

A estatística é uma das habilidades fundamentais necessárias à ciência dos dados.

Uma previsão científica exige um resultado probabilístico, ou seja, nas previsões é importante informar também a incerteza. Coisa comum nas pesquisas eleitorais, porém rara nos resultados de outras previsões. Laplace via a probabilidade como um meio caminho entre a ignorância e o conhecimento.

A heurística do “acompanhe a maioria, especialmente quando não sabe nada melhor” normalmente funciona bem.

Consenso não é sinônimo de unanimidade, mas um grande acordo obtido após um processo de deliberação. É, portanto, uma alternativa à votação.

Informação só se transforma em conhecimento quando colocada em um contexto.

Fonte:

Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (Inglês)

Nota: Já está disponível em português.