Histograma

Publicado em 18 de março de 2021 por Dorian Bachmann

O Histograma ou GrÃ¡fico de DistribuiÃ§Ã£o de FrequÃªncias Ã© uma variaÃ§Ã£o do grÃ¡fico de barras que mostra a proporÃ§Ã£o dos dados em uma amostra. Enquanto o grÃ¡fico de barras descreve os dados em barras e categorias separadas, o histograma representa os dados da mesma categoria no intervalo analisado, por isso, sem espaÃ§o entre as barras.

Os histogramas podem apresentar vÃ¡rios formatos:

SimÃ©trico ou normal

Ocorre quando o processo Ã© padronizado e os dados sÃ£o estÃ¡veis, permitindo variaÃ§Ãµes pequenas. A maior quantidade de dados fica ao centro do grÃ¡fico e suas variaÃ§Ãµes diminuem simetricamente dos dois lados.

AssimÃ©trico

Geralmente acontece quando os dados nÃ£o podem ultrapassar um limite. O pico se aproxima de um dos lados, e os dados fora de padrÃ£o decrescem para o lado oposto.

Bimodal

O histograma bimodal, ou com dois picos, geralmente ocorre quando sÃ£o tratadas duas amostras distintas. A anÃ¡lise deve ser feita separadamente, observando ao desenho dos dois grÃ¡ficos. Edward Tufte [1] apresenta, didaticamente, um histograma com distribuiÃ§Ã£o bimodal de estudantes de faculdade organizados por altura, (veja a foto).

Outros

Em outros casos, as barras tÃªm praticamente o mesmo tamanho ou variam sem critÃ©rio ou um padrÃ£o definido.

EsboÃ§o de um histograma. — Imagem porÂ krzysztof-mÂ emÂ PixabayÂ

ReferÃªncia:

1. Tufte, Edward. Mini Tufte. VersÃ£o eletrÃ´nica. PÃ¡gina 40, reproduzido de Brian L. Joiner. â€œLiving Histogramsâ€. International Statistics Review, 43 (1975). pp. 339-240. DisponÃvel em: https://www.cs.unm.edu/~pgk/IVCDs14/minitufte.pdf Acesso em 5.3.21

Visual Explanations: Images and Quantities, Evidence and Narrative

Publicado em 13 de março de 2021 por Dorian Bachmann

Responder

ComentÃ¡rios sobre o livro

Edward Tufte Ã© um estatÃstico famoso pelas tÃ©cnicas para apresentaÃ§Ã£o de dados e informaÃ§Ãµes, tendo muitas publicaÃ§Ãµes sobre o tema. Neste livro ele descreve estratÃ©gias para representar movimentos, processos, mecanismos e relaÃ§Ãµes de causa e efeito.

Ele mostra a evoluÃ§Ã£o das representaÃ§Ãµes grÃ¡ficas ao longo da histÃ³ria e, inclusive, o provÃ¡vel primeiro grÃ¡fico com representaÃ§Ã£o estatÃstica de distÃ¢ncias, alÃ©m de diversas outras curiosidades.

Tufte enfatiza que mÃ¡s apresentaÃ§Ãµes grÃ¡ficas sÃ£o um problema Ã©tico. Isso nÃ£o significa que ele exija realidade nas imagens, mas que qualquer distorÃ§Ã£o deve ser informada com o devido destaque. AliÃ¡s, ele atÃ© apresenta a distorÃ§Ã£o de escalas como um mecanismo vÃ¡lido para a anÃ¡lise de dados.

Para exemplificar, ele apresenta em detalhes as anÃ¡lises que levaram a identificar a fonte da cÃ³lera em Londres em 1854 e o acidente com o Ã´nibus espacial Challenger, que jÃ¡ havia explorado no livro Beautiful Evidence. Naquela publicaÃ§Ã£o, ele fez uma anÃ¡lise das causas bÃ¡sicas do acidente que provocou a explosÃ£o do Ã´nibus espacial, matando 11 pessoas e trazendo um prejuÃzo enorme Ã reputaÃ§Ã£o da NASA. Ainda comenta as diferentes visÃµes e explicaÃ§Ãµes dos administradores, psicÃ³logos e engenheiros que tentaram explicar os fatos que levaram Ã catÃ¡strofe.

Destaca, ainda, que embora a sequÃªncia temporal seja a mais adequada para analisar as tendÃªncias, nÃ£o Ã© uma boa prÃ¡tica para a anÃ¡lise de relaÃ§Ãµes entre variÃ¡veis. Tufte exemplifica brilhantemente essa questÃ£o com a discussÃ£o sobre um grÃ¡fico usado para investigar o acidente com a Challenger, em que os dados, plotados na sequÃªncia histÃ³rica, dificulta perceber a relaÃ§Ã£o entre temperatura e falhas dos anÃ©is de borracha (o-rings) para vedaÃ§Ã£o. SÃ£o exemplos interessantes que contribuem para aumentar o espÃrito crÃtico do leitor.

Alguns destaques do texto:

AusÃªncia de evidÃªncia nÃ£o Ã© evidÃªncia de ausÃªncia.

Criar ilusÃµes ou mÃ¡gicas Ã© engajar-se no design da desinformaÃ§Ã£o, corromper a conexÃ£o Ã³ptica, enganar o pÃºblico. Assim, as estratÃ©gias da magia determinam o que nÃ£o fazer se seu objetivo Ã© revelar a verdade, e nÃ£o criar ilusÃµes.

Como mÃ¡gicos, quem faz os grÃ¡ficos revela o que deseja revelar.

A lÃ³gica dos grÃ¡ficos deve seguir a lÃ³gica da anÃ¡lise.

GrÃ¡ficos ruins indicam estupidez estatÃstica, assim como uma escrita pobre geralmente reflete pensamentos pobres.

Raciocinando sobre causalidade, variaÃ§Ãµes na causa devem ser explicita e mensuravelmente ligadas Ã s variaÃ§Ãµes no efeito.

FaÃ§a todas as distinÃ§Ãµes visuais tÃ£o discretas quanto possÃvel, mas claras e efetivas. Quando tudo Ã© enfatizado, nada Ã© enfatizado.

Nos grÃ¡ficos, um arco-Ãris de cores confunde o que acontece com as cores com o que acontece com os dados.

Se uma imagem nÃ£o vale mais que mil palavras, entÃ£o nÃ£o vale nada. – Ad Reinhardt

O livro

Tufte, Edward Rolf. Visual Explanations: Images and Quantities, Evidence and Narrative. Graphics Press, Connecticut, June, 2005.

ServiÃ§o: Este livro Ã© uma leitura Ãºtil para quem tem a responsabilidade de gerar grÃ¡ficos e interpretar informaÃ§Ãµes,

GrÃ¡ficos e PercepÃ§Ã£o – I

Publicado em 11 de abril de 2020 por Dorian Bachmann

Responder

O grÃ¡fico de um site da Internet mostra a quantidade de casos confirmados do Covid19, em diversos paÃses, por meio de barras verticais. TambÃ©m mostra o percentual de mortes em relaÃ§Ã£o ao nÃºmero de casos confirmados; mas, para isso, foi usado um grÃ¡fico de linhas.

Veja que, embora a figura compare um mesmo momento em diversos paÃses, o uso do grÃ¡fico de linha sugere, intuitivamente, que estamos observando uma variaÃ§Ã£o ao longo do tempo.

A liÃ§Ã£o? Evitar o uso grÃ¡ficos de linha para comparar resultados que se referem a um mesmo momento.

Como interpretar grÃ¡ficos – I

Publicado em 11 de dezembro de 2019 por Dorian Bachmann

Responder

O grÃ¡fico de barras Ã© um dos melhores e mais prÃ¡ticos para a gestÃ£o dos indicadores e, felizmente, Ã© muito comum. Mas exige um cuidado importante que nem sempre Ã© observado.

Veja o grÃ¡fico abaixo, retirado de uma publicaÃ§Ã£o que mostra a expectativa positiva dos empresÃ¡rios do comÃ©rcio, serviÃ§os e turismo de cada regiÃ£o do ParanÃ¡ para o 1Âº semestre de 2018.

**GrÃ¡fico 1 â€“ Percentual favorÃ¡vel entre as regiÃµes paranaenses.**
Fonte: Revista Fecomercio PR. Jan/fev 2018. pp. 12-13.

Ã‰ fÃ¡cil perceber, pelos nÃºmeros apresentados, que a regiÃ£o de Londrina tem uma percepÃ§Ã£o mais favorÃ¡vel que a de MaringÃ¡. Isso porque 66,0/44,4 Ã© 1,49, ou aproximadamente 50% maior. Mas quando observamos as barras, e nÃ£o os nÃºmeros do grÃ¡fico, a diferenÃ§a parece ser mais elevada. Isso pode ocorrer por dois motivos: erro no desenho ou, o que Ã© mais comum, nÃ£o comeÃ§ar a escala vertical do grÃ¡fico (ordenada) no zero.

Refazendo o grÃ¡fico usando os valores apresentados (grÃ¡fico 2) e a escala iniciando em zero, como recomenda a boa prÃ¡tica, percebe-se uma diferenÃ§a menor entre os resultados de Londrina e MaringÃ¡, como os nÃºmeros realmente indicam.

GrÃ¡fico 2 â€“ Redesenho do grÃ¡fico 1 com a ordenada iniciando em zero.

A razÃ£o para apresentar um grÃ¡fico, junto ou em substituiÃ§Ã£o a uma tabela, Ã© facilitar a visualizaÃ§Ã£o das diferenÃ§as dos resultados. Quando a imagem nÃ£o representa adequadamente os valores, ela atrapalha ao invÃ©s de ajudar. Portanto, ainda que muitas vezes o grÃ¡fico nÃ£o fique esteticamente bonito, Ã© importante que a escala vertical sempre mostre o zero.

E, nas anÃ¡lises, o primeiro passo deve ser confirmar que o grÃ¡fico representa adequadamente os dados que se deseja interpretar.

Nos relatÃ³rios e dashboards de tua empresa este cuidado Ã© observado?

The Signal and the Noise – Resumo do livro

Publicado em 28 de maio de 2018 por Dorian Bachmann

Responder

The signal and the Noise

Fazendo uso de exemplos fundamentados na polÃtica norte-americana, nos jogos de baseball, em projeÃ§Ãµes econÃ´micas e na probabilidade de ocorrÃªncias de terremotos, o autor apresenta os aspectos mais importantes no trabalho de previsÃ£o de resultados.

Enquanto as eleiÃ§Ãµes americanas sÃ£o tema de conhecimento comum, as muitas consideraÃ§Ãµes sobre beisebol – esporte pouco conhecido entre nÃ³s – podem ser enfadonhas; o capÃtulo sobre a bolha do pÃ´quer foi, ao menos para mim, intragÃ¡vel.

Ainda assim, para os curiosos sobre o tema da anÃ¡lise e interpretaÃ§Ã£o de dados, Ã© um livro instigante e interessante. Mas, o foco do autor estÃ¡ nas muitas histÃ³rias interessantes e pouco contribui com ferramental para separar os sinais dos ruÃdos, como por exemplo o Controle EstatÃstico de Processos CEP, ferramenta apenas citada no texto.

Algumas observaÃ§Ãµes selecionadas:

A verdadeira era da informaÃ§Ã£o comeÃ§ou em 1440, com a invenÃ§Ã£o da imprensa por Johannes Guttemberg. Antes, uma pÃ¡gina de livro manuscrito custava cerca de 20 dÃ³lares, limitando o acesso ao conhecimento.

Ã‰ importante lembrar que os modelos sÃ£o simplificaÃ§Ãµes da realidade e devem ser usados com cuidado.

Um sinal Ã© uma indicaÃ§Ã£o de uma verdade subjacente por trÃ¡s de uma estatÃstica ou problema preditivo, enquanto ruÃdos sÃ£o padrÃµes aleatÃ³rios que podem facilmente ser confundidos com sinais. O sinal Ã© a verdade. O ruÃdo Ã© o que nos distrai da verdade.

O objetivo de qualquer modelo de prediÃ§Ã£o Ã© capturar tantos sinais quanto possÃvel e tÃ£o poucos ruÃdos quanto puder. Armstrong argumenta que â€œquanto mais complexo o modelo, piores sÃ£o as previsÃµesâ€. Ã‰ uma frase bonita que faria sucesso nas redes sociais, mas que deve ser encarada com algum ressalva.

Na estatÃstica, a confusÃ£o de tomar ruÃdos como sinais Ã© denominada overfitting. Modelos puramente estatÃsticos, com grande nÃºmero de variÃ¡veis e uma pequena quantidade de eventos para sua validaÃ§Ã£o, geralmente levam ao risco de overfitting. Esse risco Ã© consideravelmente menor quando se usa modelos fÃsicos de causa e efeito.

Segundo o autor, o caminho para maior objetividade Ã© reconhecer a influÃªncia que nossas premissas tÃªm em nossas previsÃµes.

A estatÃstica tem sido parte dos esportes desde hÃ¡ muito tempo. O primeiro conjunto de informaÃ§Ãµes – com cinco informaÃ§Ãµes sobre cada jogador – foi publicado em jornal por Henry Chadwick em 1859.

Nosso instinto Ã© categorizar as informaÃ§Ãµes, geralmente em um pequeno nÃºmero de categorias, pois isso facilita o entendimento.

A inspeÃ§Ã£o visual de um grÃ¡fico que mostra a interaÃ§Ã£o entre duas variÃ¡veis geralmente Ã© um caminho mais rÃ¡pido e confiÃ¡vel para identificar outliers nos dados do que um teste estatÃstico.

Predizer o passado Ã© um oximoro e obviamente nÃ£o pode ser contado entre os sucessos.

A estatÃstica Ã© uma das habilidades fundamentais necessÃ¡rias Ã ciÃªncia dos dados.

Uma previsÃ£o cientÃfica exige um resultado probabilÃstico, ou seja, nas previsÃµes Ã© importante informar tambÃ©m a incerteza. Coisa comum nas pesquisas eleitorais, porÃ©m rara nos resultados de outras previsÃµes. Laplace via a probabilidade como um meio caminho entre a ignorÃ¢ncia e o conhecimento.

A heurÃstica do â€œacompanhe a maioria, especialmente quando nÃ£o sabe nada melhorâ€ normalmente funciona bem.

Consenso nÃ£o Ã© sinÃ´nimo de unanimidade, mas um grande acordo obtido apÃ³s um processo de deliberaÃ§Ã£o. Ã‰, portanto, uma alternativa Ã votaÃ§Ã£o.

InformaÃ§Ã£o sÃ³ se transforma em conhecimento quando colocada em um contexto.

Fonte:

Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (InglÃªs)

Nota: JÃ¡ estÃ¡ disponÃvel em portuguÃªs.

Analisando dados â€“ Uma questÃ£o de percepÃ§Ã£o

Publicado em 31 de outubro de 2017 por Dorian Bachmann

Responder

As empresas tÃªm um impressionante volume de dados colhidos pelas pessoas ou gerados por sistemas. Esses dados, que nos permitem avaliar como estÃ£o o negÃ³cio e os processos sob nossa responsabilidade, frequentemente sÃ£o apresentadas na forma de tabelas, como a exemplificada adiante.

Tabela I â€“ Valores relacionados

x	10.0	8.0	13.0	9.0	11.0	14.0	6.0	4.0	12.0	7.0	5.0
y	7.46	6.77	12.74	7.11	7.81	8.84	6.08	5.39	8.15	6.42	5.73

Nossa tendÃªncia Ã© observar tais tabelas e concluir a situaÃ§Ã£o e a tendÃªncia dos processos de forma mais ou menos intuitiva. Mas, a realidade Ã© que – como seres humanos – somos muito ruins para interpretar nÃºmeros mostrados em tabelas. Mesmo fazendo uso de ferramentas estatÃsticas bÃ¡sicas, como mÃ©dia, desvio padrÃ£o, etc., estamos sujeitos a graves falhas na interpretaÃ§Ã£o de dados numÃ©ricos. Essa realidade foi muito bem demonstrada por Anscombe [1]. Ele criou a seguinte tabela, conhecida como Quarteto de Anscombe.

Tabela II â€“ Quarteto de Anscombe

I		II		III		IV
x	y	x	y	x	y	x	y
10.0	8.04	10.0	9.14	10.0	7.46	8.0	6.58
8.0	6.95	8.0	8.14	8.0	6.77	8.0	5.76
13.0	7.58	13.0	8.74	13.0	12.74	8.0	7.71
9.0	8.81	9.0	8.77	9.0	7.11	8.0	8.84
11.0	8.33	11.0	9.26	11.0	7.81	8.0	8.47
14.0	9.96	14.0	8.10	14.0	8.84	8.0	7.04
6.0	7.24	6.0	6.13	6.0	6.08	8.0	5.25
4.0	4.26	4.0	3.10	4.0	5.39	19.0	12.50
12.0	10.84	12.0	9.13	12.0	8.15	8.0	5.56
7.0	4.82	7.0	7.26	7.0	6.42	8.0	7.91
5.0	5.68	5.0	4.74	5.0	5.73	8.0	6.89

Fonte: Wikipedia. https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Curiosamente, as estatÃsticas calculadas para cada uma das quatro colunas com pares de valores Ã© muito parecida, como segue [2].

Propriedade	Valor
MÃ©dia de x	9 (exato)
VariÃ¢ncia de x	11 (exato)
MÃ©dia de y	7,50 (em atÃ© duas casas decimais)
VariÃ¢ncia de y	4,125 (+0,003)
CorrelaÃ§Ã£o entre x e y	0,816 (em atÃ© 3 casas decimais)
Linha de regressÃ£o linear em cada caso	y=3,00+0,500x (em atÃ© 2 e 3 casas decimais, respectivamente)
Coeficiente de determinaÃ§Ã£o da regressÃ£o linear	0,67 (em atÃ© duas casas decimais)

Fonte: Wikipedia. DisponÃvel em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O surpreendente Ã© que se esses dados forem apresentados graficamente, percebemos que sÃ£o muito diferentes, o que levaria a interpretaÃ§Ãµes distintas.

Fonte: By Anscombe.svg: SchutzDerivative works of this file:(label using subscripts): Avenue - Anscombe.svg, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=9838454

Ã‰ fÃ¡cil concluir, entÃ£o, que a forma mais segura de interpretar sÃ©ries numÃ©ricas – o elemento mais comum na gestÃ£o de processos – Ã© por meio de grÃ¡ficos. A riqueza da visualizaÃ§Ã£o grÃ¡fica permite identificar tendÃªncias, outliers e variaÃ§Ãµes com grande precisÃ£o, resultando em anÃ¡lises mais consistentes e decisÃµes mais sÃ³lidas e confiÃ¡veis.

Curiosidade

ConheÃ§a tambÃ©m o Datasaurus, uma experiÃªncia divertida que mostra vÃ¡rios grÃ¡ficos (www.autodeskresearch.com/publications/samestats), inclusive a figura de um dinossauro, feitos com conjuntos de dados que tÃªm as mesmas estatÃsticas.

ReferÃªncias:

F. J. Anscombe, F. J. Graphs in Statistical Analysis. The American Statistician. Vol. 27, No. 1 (Feb., 1973), pp. 17-21. DisponÃvel em:http://wpage.unina.it/francesco.caracciolo/micro/1/anscombe.pdf Acesso em 30 Out. 2017.

Wikipedia. DisponÃvel em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O grÃ¡fico certo comunica melhor

Publicado em 18 de outubro de 2017 por Dorian Bachmann

Responder

“GrÃ¡ficos mostram informaÃ§Ã£o quantitativa de uma maneira que revela muito mais que uma coleÃ§Ã£o de valores individuais. Por causa de sua natureza visual, grÃ¡ficos apresentam o perfil global dos dados. Os padrÃµes revelados pelos grÃ¡ficos permitem ao leitor detectar muitos pontos de interesse em uma Ãºnica coleÃ§Ã£o de informaÃ§Ã£o.” Stephen Few

GrÃ¡ficos de gestÃ£o

Publicado em 23 de maio de 2017 por Dorian Bachmann

Responder

Graficos4

Um relatÃ³rio ou uma apresentaÃ§Ã£o de gestÃ£o nÃ£o deve incluir vÃ¡rios tipos de grÃ¡ficos e muitas cores. Na verdade, grÃ¡ficos simples e com o mesmo formato facilitam o trabalho de interpretaÃ§Ã£o, o que resulta em menor esforÃ§o, melhores anÃ¡lises e decisÃµes mais inteligentes.

Os grÃ¡ficos mais usados para a gestÃ£o do desempenho de processos e sistemas sÃ£o:

GrÃ¡ficos de linha
GrÃ¡ficos de barra
GrÃ¡ficos de controle (control charts)

Os grÃ¡ficos de controle, embora exijam algum conhecimento para preparar e para analisar, sÃ£o muito eficazes por apresentarem as seguintes caracterÃsticas:

Mostram a mÃ©dia por meio de uma linha de referÃªncia. Essa linha geralmente Ã© calculada com base nos primeiros 10 nÃºmeros da sÃ©rie.
Mostram os limites da variaÃ§Ã£o natural. Todo processo apresenta oscilaÃ§Ãµes naturais que sÃ£o tÃpicas. Ao permitir identificar os resultados que estÃ£o fora dessa faixa de variaÃ§Ã£o natural, o grÃ¡fico chama a atenÃ§Ã£o para os problemas e situaÃ§Ãµes atÃpicas ou especiais que merecem atenÃ§Ã£o do gestor.

Bachmann

Damos valor à sua informação!

Arquivo da tag: grÃ¡ficos

Histograma

Visual Explanations: Images and Quantities, Evidence and Narrative

ComentÃ¡rios sobre o livro

GrÃ¡ficos e PercepÃ§Ã£o – I

Como interpretar grÃ¡ficos – I

The Signal and the Noise – Resumo do livro

Fonte:

Analisando dados â€“ Uma questÃ£o de percepÃ§Ã£o

O grÃ¡fico certo comunica melhor

GrÃ¡ficos de gestÃ£o