The Signal and the Noise – Resumo do livro

The signal and the Noise

Fazendo uso de exemplos fundamentados na política norte-americana, nos jogos de baseball, em projeções econômicas e na probabilidade de ocorrências de terremotos, o autor apresenta os aspectos mais importantes no trabalho de previsão de resultados.

Enquanto as eleições americanas são tema de conhecimento comum, as muitas considerações sobre beisebol – esporte pouco conhecido entre nós – podem ser enfadonhas; o capítulo sobre a bolha do pôquer foi, ao menos para mim, intragável.

Ainda assim, para os curiosos sobre o tema da análise e interpretação de dados, é um livro instigante e interessante. Mas, o foco do autor está nas muitas histórias interessantes e pouco contribui com ferramental para separar os sinais dos ruídos, como por exemplo o Controle Estatístico de Processos CEP, ferramenta apenas citada no texto.

Algumas observações selecionadas:

A verdadeira era da informação começou em 1440, com a invenção da imprensa por Johannes Guttemberg. Antes, uma página de livro manuscrito custava cerca de 20 dólares, limitando o acesso ao conhecimento.

É importante lembrar que os modelos são simplificações da realidade e devem ser usados com cuidado.

Um sinal é uma indicação de uma verdade subjacente por trás de uma estatística ou problema preditivo, enquanto ruídos são padrões aleatórios que podem facilmente ser confundidos com sinais. O sinal é a verdade. O ruído é o que nos distrai da verdade.

O objetivo de qualquer modelo de predição é capturar tantos sinais quanto possível e tão poucos ruídos quanto puder. Armstrong argumenta que “quanto mais complexo o modelo, piores são as previsões”. É uma frase bonita que faria sucesso nas redes sociais, mas que deve ser encarada com algum ressalva.

Na estatística, a confusão de tomar ruídos como sinais é denominada overfitting. Modelos puramente estatísticos, com grande número de variáveis e uma pequena quantidade de eventos para sua validação, geralmente levam ao risco de overfitting. Esse risco é consideravelmente menor quando se usa modelos físicos de causa e efeito.

Segundo o autor, o caminho para maior objetividade é reconhecer a influência que nossas premissas têm em nossas previsões.

A estatística tem sido parte dos esportes desde há muito tempo. O primeiro conjunto de informações – com cinco informações sobre cada jogador – foi publicado em jornal por Henry Chadwick em 1859.

Nosso instinto é categorizar as informações, geralmente em um pequeno número de categorias, pois isso facilita o entendimento.

A inspeção visual de um gráfico que mostra a interação entre duas variáveis geralmente é um caminho mais rápido e confiável para identificar outliers nos dados do que um teste estatístico.

Predizer o passado é um oximoro e obviamente não pode ser contado entre os sucessos.

A estatística é uma das habilidades fundamentais necessárias à ciência dos dados.

Uma previsão científica exige um resultado probabilístico, ou seja, nas previsões é importante informar também a incerteza. Coisa comum nas pesquisas eleitorais, porém rara nos resultados de outras previsões. Laplace via a probabilidade como um meio caminho entre a ignorância e o conhecimento.

A heurística do “acompanhe a maioria, especialmente quando não sabe nada melhor” normalmente funciona bem.

Consenso não é sinônimo de unanimidade, mas um grande acordo obtido após um processo de deliberação. É, portanto, uma alternativa à votação.

Informação só se transforma em conhecimento quando colocada em um contexto.

Fonte:

Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (Inglês)

Nota: Já está disponível em português.

Analisando dados – Uma questão de percepção

As empresas têm um impressionante volume de dados colhidos pelas pessoas ou gerados por sistemas. Esses dados, que nos permitem avaliar como estão o negócio e os processos sob nossa responsabilidade, frequentemente são apresentadas na forma de tabelas, como a exemplificada adiante.

Tabela I – Valores relacionados

x 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0
y 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73

Nossa tendência é observar tais tabelas e concluir a situação e a tendência dos processos de forma mais ou menos intuitiva. Mas, a realidade é que – como seres humanos – somos muito ruins para interpretar números mostrados em tabelas. Mesmo fazendo uso de ferramentas estatísticas básicas, como média, desvio padrão, etc., estamos sujeitos a graves falhas na interpretação de dados numéricos. Essa realidade foi muito bem demonstrada por Anscombe [1]. Ele criou a seguinte tabela, conhecida como Quarteto de Anscombe.

Tabela II – Quarteto de Anscombe

I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
Fonte: Wikipedia. https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Curiosamente, as estatísticas calculadas para cada uma das quatro colunas com pares de valores é muito parecida, como segue [2].

Propriedade Valor
Média de x 9 (exato)
Variância de x 11 (exato)
Média de y 7,50 (em até duas casas decimais)
Variância de y 4,125 (+0,003)
Correlação entre x e y 0,816 (em até 3 casas decimais)
Linha de regressão linear em cada caso y=3,00+0,500x (em até 2 e 3 casas decimais, respectivamente)
Coeficiente de determinação da regressão linear 0,67 (em até duas casas decimais)
Fonte: Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O surpreendente é que se esses dados forem apresentados graficamente, percebemos que são muito diferentes, o que levaria a interpretações distintas.

Fonte: By Anscombe.svg: SchutzDerivative works of this file:(label using subscripts): Avenue - Anscombe.svg, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=9838454

É fácil concluir, então, que a forma mais segura de interpretar séries numéricas – o elemento mais comum na gestão de processos – é por meio de gráficos. A riqueza da visualização gráfica permite identificar tendências, outliers e variações com grande precisão, resultando em análises mais consistentes e decisões mais sólidas e confiáveis.

Curiosidade

Conheça também o Datasaurus, uma experiência divertida que mostra vários gráficos (www.autodeskresearch.com/publications/samestats), inclusive a figura de um dinossauro, feitos com conjuntos de dados que têm as mesmas estatísticas.

Referências:

  1. F. J. Anscombe, F. J. Graphs in Statistical Analysis. The American Statistician. Vol. 27, No. 1 (Feb., 1973), pp. 17-21. Disponível em:http://wpage.unina.it/francesco.caracciolo/micro/1/anscombe.pdf Acesso em 30 Out. 2017.
  1. Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O gráfico certo comunica melhor

“Gráficos mostram informação quantitativa de uma maneira que revela muito mais que uma coleção de valores individuais. Por causa de sua natureza visual, gráficos apresentam o perfil global dos dados. Os padrões revelados pelos gráficos permitem ao leitor detectar muitos pontos de interesse em uma única coleção de informação.” Stephen Few

Gráficos de gestão

Graficos4

Um relatório ou uma apresentação de gestão não deve incluir vários tipos de gráficos e muitas cores. Na verdade, gráficos simples e com o mesmo formato facilitam o trabalho de interpretação, o que resulta em menor esforço, melhores análises e decisões mais inteligentes.

Os gráficos mais usados para a gestão do desempenho de processos e sistemas são:

  • Gráficos de linha
  • Gráficos de barra
  • Gráficos de controle (control charts)

Os gráficos de controle, embora exijam algum conhecimento para preparar e para analisar, são muito eficazes por apresentarem as seguintes características:

  1. Mostram os resultados ao longo do tempo (série temporal), oferecendo uma visão do contexto.
  2. Mostram a média por meio de uma linha de referência. Essa linha geralmente é calculada com base nos primeiros 10 números da série.
  3. Mostram os limites da variação natural. Todo processo apresenta oscilações naturais que são típicas. Ao permitir identificar os resultados que estão fora dessa faixa de variação natural, o gráfico chama a atenção para os problemas e situações atípicas ou especiais que merecem atenção do gestor.

Rever e simplificar os relatórios de gestão é, sem dúvida, uma tarefa que vale a pena o tempo despendido.

Gráficos para gestão

graficos

Um relatório ou uma apresentação de gestão não deve incluir vários tipos de gráficos e muitas cores. Na verdade, gráficos simples e com o mesmo formato facilitam o trabalho de interpretação, o que resulta em menor esforço, melhores análises e decisões mais inteligentes.

Os gráficos mais usados para a gestão do desempenho de processos e sistemas são:

  • Gráficos de linha
  • Gráficos de barra
  • Gráficos de controle (control charts)

Os gráficos de controle, embora exijam algum conhecimento para preparar e para analisar, são muito eficazes por apresentarem as seguintes características:

1- mostram os resultados ao longo do tempo (série temporal), oferecendo uma visão da evolução.

2- mostram a média por meio de uma linha de referência. Essa linha geralmente é calculada com base nos primeiros 10 números da série.

3- mostram os limites da variação natural. Todo processo apresenta oscilações naturais que são típicas. Ao permitir identificar os resultados que estão fora dessa faixa de variação natural (outliers), o gráfico chama a atenção para os problemas e situações atípicas ou especiais que merecem atenção do gestor.

Queremos saber tua opinião:
- Em tua empresa os relatórios são simples?
- Quais os tipos de gráficos usados?