Analisando dados â€“ Uma questÃ£o de percepÃ§Ã£o

As empresas tÃªm um impressionante volume de dados colhidos pelas pessoas ou gerados por sistemas. Esses dados, que nos permitem avaliar como estÃ£o o negÃ³cio e os processos sob nossa responsabilidade, frequentemente sÃ£o apresentadas na forma de tabelas, como a exemplificada adiante.

Tabela I â€“ Valores relacionados

x	10.0	8.0	13.0	9.0	11.0	14.0	6.0	4.0	12.0	7.0	5.0
y	7.46	6.77	12.74	7.11	7.81	8.84	6.08	5.39	8.15	6.42	5.73

Nossa tendÃªncia Ã© observar tais tabelas e concluir a situaÃ§Ã£o e a tendÃªncia dos processos de forma mais ou menos intuitiva. Mas, a realidade Ã© que – como seres humanos – somos muito ruins para interpretar nÃºmeros mostrados em tabelas. Mesmo fazendo uso de ferramentas estatÃsticas bÃ¡sicas, como mÃ©dia, desvio padrÃ£o, etc., estamos sujeitos a graves falhas na interpretaÃ§Ã£o de dados numÃ©ricos. Essa realidade foi muito bem demonstrada por Anscombe [1]. Ele criou a seguinte tabela, conhecida como Quarteto de Anscombe.

Tabela II â€“ Quarteto de Anscombe

I		II		III		IV
x	y	x	y	x	y	x	y
10.0	8.04	10.0	9.14	10.0	7.46	8.0	6.58
8.0	6.95	8.0	8.14	8.0	6.77	8.0	5.76
13.0	7.58	13.0	8.74	13.0	12.74	8.0	7.71
9.0	8.81	9.0	8.77	9.0	7.11	8.0	8.84
11.0	8.33	11.0	9.26	11.0	7.81	8.0	8.47
14.0	9.96	14.0	8.10	14.0	8.84	8.0	7.04
6.0	7.24	6.0	6.13	6.0	6.08	8.0	5.25
4.0	4.26	4.0	3.10	4.0	5.39	19.0	12.50
12.0	10.84	12.0	9.13	12.0	8.15	8.0	5.56
7.0	4.82	7.0	7.26	7.0	6.42	8.0	7.91
5.0	5.68	5.0	4.74	5.0	5.73	8.0	6.89

Fonte: Wikipedia. https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Curiosamente, as estatÃsticas calculadas para cada uma das quatro colunas com pares de valores Ã© muito parecida, como segue [2].

Propriedade	Valor
MÃ©dia de x	9 (exato)
VariÃ¢ncia de x	11 (exato)
MÃ©dia de y	7,50 (em atÃ© duas casas decimais)
VariÃ¢ncia de y	4,125 (+0,003)
CorrelaÃ§Ã£o entre x e y	0,816 (em atÃ© 3 casas decimais)
Linha de regressÃ£o linear em cada caso	y=3,00+0,500x (em atÃ© 2 e 3 casas decimais, respectivamente)
Coeficiente de determinaÃ§Ã£o da regressÃ£o linear	0,67 (em atÃ© duas casas decimais)

Fonte: Wikipedia. DisponÃvel em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O surpreendente Ã© que se esses dados forem apresentados graficamente, percebemos que sÃ£o muito diferentes, o que levaria a interpretaÃ§Ãµes distintas.

Fonte: By Anscombe.svg: SchutzDerivative works of this file:(label using subscripts): Avenue - Anscombe.svg, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=9838454

Ã‰ fÃ¡cil concluir, entÃ£o, que a forma mais segura de interpretar sÃ©ries numÃ©ricas – o elemento mais comum na gestÃ£o de processos – Ã© por meio de grÃ¡ficos. A riqueza da visualizaÃ§Ã£o grÃ¡fica permite identificar tendÃªncias, outliers e variaÃ§Ãµes com grande precisÃ£o, resultando em anÃ¡lises mais consistentes e decisÃµes mais sÃ³lidas e confiÃ¡veis.

Curiosidade

ConheÃ§a tambÃ©m o Datasaurus, uma experiÃªncia divertida que mostra vÃ¡rios grÃ¡ficos (www.autodeskresearch.com/publications/samestats), inclusive a figura de um dinossauro, feitos com conjuntos de dados que tÃªm as mesmas estatÃsticas.

ReferÃªncias:

F. J. Anscombe, F. J. Graphs in Statistical Analysis. The American Statistician. Vol. 27, No. 1 (Feb., 1973), pp. 17-21. DisponÃvel em:http://wpage.unina.it/francesco.caracciolo/micro/1/anscombe.pdf Acesso em 30 Out. 2017.

Wikipedia. DisponÃvel em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

Bachmann

Damos valor à sua informação!

Analisando dados â€“ Uma questÃ£o de percepÃ§Ã£o

Deixe um comentário