As empresas têm um impressionante volume de dados colhidos pelas pessoas ou gerados por sistemas. Esses dados, que nos permitem avaliar como estão o negócio e os processos sob nossa responsabilidade, frequentemente são apresentadas na forma de tabelas, como a exemplificada adiante.
Tabela I – Valores relacionados
x | 10.0 | 8.0 | 13.0 | 9.0 | 11.0 | 14.0 | 6.0 | 4.0 | 12.0 | 7.0 | 5.0 |
y | 7.46 | 6.77 | 12.74 | 7.11 | 7.81 | 8.84 | 6.08 | 5.39 | 8.15 | 6.42 | 5.73 |
Nossa tendência é observar tais tabelas e concluir a situação e a tendência dos processos de forma mais ou menos intuitiva. Mas, a realidade é que – como seres humanos – somos muito ruins para interpretar números mostrados em tabelas. Mesmo fazendo uso de ferramentas estatÃsticas básicas, como média, desvio padrão, etc., estamos sujeitos a graves falhas na interpretação de dados numéricos. Essa realidade foi muito bem demonstrada por Anscombe [1]. Ele criou a seguinte tabela, conhecida como Quarteto de Anscombe.
Tabela II – Quarteto de Anscombe
I | II | III | IV | ||||
x | y | x | y | x | y | x | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Fonte: Wikipedia. https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Curiosamente, as estatÃsticas calculadas para cada uma das quatro colunas com pares de valores é muito parecida, como segue [2].
Propriedade | Valor |
Média de x | 9 (exato) |
Variância de x | 11 (exato) |
Média de y | 7,50 (em até duas casas decimais) |
Variância de y | 4,125 (+0,003) |
Correlação entre x e y | 0,816 (em até 3 casas decimais) |
Linha de regressão linear em cada caso | y=3,00+0,500x (em até 2 e 3 casas decimais, respectivamente) |
Coeficiente de determinação da regressão linear | 0,67 (em até duas casas decimais) |
Fonte: Wikipedia. DisponÃvel em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.
O surpreendente é que se esses dados forem apresentados graficamente, percebemos que são muito diferentes, o que levaria a interpretações distintas.
Fonte: By Anscombe.svg: SchutzDerivative works of this file:(label using subscripts): Avenue - Anscombe.svg, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=9838454
É fácil concluir, então, que a forma mais segura de interpretar séries numéricas – o elemento mais comum na gestão de processos – é por meio de gráficos. A riqueza da visualização gráfica permite identificar tendências, outliers e variações com grande precisão, resultando em análises mais consistentes e decisões mais sólidas e confiáveis.
Curiosidade
Conheça também o Datasaurus, uma experiência divertida que mostra vários gráficos (www.autodeskresearch.com/publications/samestats), inclusive a figura de um dinossauro, feitos com conjuntos de dados que têm as mesmas estatÃsticas.
Referências:
- F. J. Anscombe, F. J. Graphs in Statistical Analysis. The American Statistician. Vol. 27, No. 1 (Feb., 1973), pp. 17-21. DisponÃvel em:http://wpage.unina.it/francesco.caracciolo/micro/1/anscombe.pdf Acesso em 30 Out. 2017.
- Wikipedia. DisponÃvel em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.