Analisando dados – Uma questão de percepção

As empresas têm um impressionante volume de dados colhidos pelas pessoas ou gerados por sistemas. Esses dados, que nos permitem avaliar como estão o negócio e os processos sob nossa responsabilidade, frequentemente são apresentadas na forma de tabelas, como a exemplificada adiante.

Tabela I – Valores relacionados

x 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0
y 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73

Nossa tendência é observar tais tabelas e concluir a situação e a tendência dos processos de forma mais ou menos intuitiva. Mas, a realidade é que – como seres humanos – somos muito ruins para interpretar números mostrados em tabelas. Mesmo fazendo uso de ferramentas estatísticas básicas, como média, desvio padrão, etc., estamos sujeitos a graves falhas na interpretação de dados numéricos. Essa realidade foi muito bem demonstrada por Anscombe [1]. Ele criou a seguinte tabela, conhecida como Quarteto de Anscombe.

Tabela II – Quarteto de Anscombe

I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
Fonte: Wikipedia. https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Curiosamente, as estatísticas calculadas para cada uma das quatro colunas com pares de valores é muito parecida, como segue [2].

Propriedade Valor
Média de x 9 (exato)
Variância de x 11 (exato)
Média de y 7,50 (em até duas casas decimais)
Variância de y 4,125 (+0,003)
Correlação entre x e y 0,816 (em até 3 casas decimais)
Linha de regressão linear em cada caso y=3,00+0,500x (em até 2 e 3 casas decimais, respectivamente)
Coeficiente de determinação da regressão linear 0,67 (em até duas casas decimais)
Fonte: Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O surpreendente é que se esses dados forem apresentados graficamente, percebemos que são muito diferentes, o que levaria a interpretações distintas.

Fonte: By Anscombe.svg: SchutzDerivative works of this file:(label using subscripts): Avenue - Anscombe.svg, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=9838454

É fácil concluir, então, que a forma mais segura de interpretar séries numéricas – o elemento mais comum na gestão de processos – é por meio de gráficos. A riqueza da visualização gráfica permite identificar tendências, outliers e variações com grande precisão, resultando em análises mais consistentes e decisões mais sólidas e confiáveis.

Curiosidade

Conheça também o Datasaurus, uma experiência divertida que mostra vários gráficos (www.autodeskresearch.com/publications/samestats), inclusive a figura de um dinossauro, feitos com conjuntos de dados que têm as mesmas estatísticas.

Referências:

  1. F. J. Anscombe, F. J. Graphs in Statistical Analysis. The American Statistician. Vol. 27, No. 1 (Feb., 1973), pp. 17-21. Disponível em:http://wpage.unina.it/francesco.caracciolo/micro/1/anscombe.pdf Acesso em 30 Out. 2017.
  1. Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Please leave these two fields as-is:

Protected by Invisible Defender. Showed 403 to 184.368 bad guys.