Histograma

Fotografia de um grupo de estudantes organizados por altura, mostrando um histograma bimodal.
Grupo de estudantes organizados por altura.

O Histograma ou Gráfico de Distribuição de Frequências é uma variação do gráfico de barras que mostra a proporção dos dados em uma amostra. Enquanto o gráfico de barras descreve os dados em barras e categorias separadas, o histograma representa os dados da mesma categoria no intervalo analisado, por isso, sem espaço entre as barras.

Os histogramas podem apresentar vários formatos:

Simétrico ou normal        

Ocorre quando o processo é padronizado e os dados são estáveis, permitindo variações pequenas. A maior quantidade de dados fica ao centro do gráfico e suas variações diminuem simetricamente dos dois lados.

Assimétrico

Geralmente acontece quando os dados não podem ultrapassar um limite. O pico se aproxima de um dos lados, e os dados fora de padrão decrescem para o lado oposto.

Bimodal       

O histograma bimodal, ou com dois picos, geralmente ocorre quando são tratadas duas amostras distintas. A análise deve ser feita separadamente, observando ao desenho dos dois gráficos. Edward Tufte [1] apresenta, didaticamente, um histograma com distribuição bimodal de estudantes de faculdade organizados por altura, (veja a foto).

Outros

Em outros casos, as barras têm praticamente o mesmo tamanho ou variam sem critério ou um padrão definido.

Esboço de um histograma.
Imagem por krzysztof-m em Pixabay 

Referência:

1. Tufte, Edward. Mini Tufte. Versão eletrônica. Página 40, reproduzido de Brian L. Joiner. “Living Histograms”. International Statistics Review, 43 (1975). pp. 339-240. Disponível em: https://www.cs.unm.edu/~pgk/IVCDs14/minitufte.pdf Acesso em 5.3.21

Visual Explanations: Images and Quantities, Evidence and Narrative

Comentários sobre o livro

Edward Tufte é um estatístico famoso pelas técnicas para apresentação de dados e informações, tendo muitas publicações sobre o tema. Neste livro ele descreve estratégias para representar movimentos, processos, mecanismos e relações de causa e efeito.

Ele mostra a evolução das representações gráficas ao longo da história e, inclusive, o provável primeiro gráfico com representação estatística de distâncias, além de diversas outras curiosidades.

Tufte enfatiza que más apresentações gráficas são um problema ético. Isso não significa que ele exija realidade nas imagens, mas que qualquer distorção deve ser informada com o devido destaque. Aliás, ele até apresenta a distorção de escalas como um mecanismo válido para a análise de dados.

Para exemplificar, ele apresenta em detalhes as análises que levaram a identificar a fonte da cólera em Londres em 1854 e o acidente com o ônibus espacial Challenger, que já havia explorado no livro Beautiful Evidence. Naquela publicação, ele fez uma análise das causas básicas do acidente que provocou a explosão do ônibus espacial, matando 11 pessoas e trazendo um prejuízo enorme à reputação da NASA. Ainda comenta as diferentes visões e explicações dos administradores, psicólogos e engenheiros que tentaram explicar os fatos que levaram à catástrofe.

Destaca, ainda, que embora a sequência temporal seja a mais adequada para analisar as tendências, não é uma boa prática para a análise de relações entre variáveis. Tufte exemplifica brilhantemente essa questão com a discussão sobre um gráfico usado para investigar o acidente com a Challenger, em que os dados, plotados na sequência histórica, dificulta perceber a relação entre temperatura e falhas dos anéis de borracha (o-rings) para vedação. São exemplos interessantes que contribuem para aumentar o espírito crítico do leitor.

Alguns destaques do texto:

  • Ausência de evidência não é evidência de ausência.
  • Criar ilusões ou mágicas é engajar-se no design da desinformação, corromper a conexão óptica, enganar o público.  Assim, as estratégias da magia determinam o que não fazer se seu objetivo é revelar a verdade, e não criar ilusões.
  • Como mágicos, quem faz os gráficos revela o que deseja revelar.
  • A lógica dos gráficos deve seguir a lógica da análise.
  • Gráficos ruins indicam estupidez estatística, assim como uma escrita pobre geralmente reflete pensamentos pobres.
  • Raciocinando sobre causalidade, variações na causa devem ser explicita e mensuravelmente ligadas às variações no efeito.
  • Faça todas as distinções visuais tão discretas quanto possível, mas claras e efetivas. Quando tudo é enfatizado, nada é enfatizado.
  • Nos gráficos, um arco-íris de cores confunde o que acontece com as cores com o que acontece com os dados.

Se uma imagem não vale mais que mil palavras, então não vale nada. – Ad Reinhardt

O livro

Tufte, Edward Rolf. Visual Explanations: Images and Quantities, Evidence and Narrative. Graphics Press, Connecticut, June, 2005.

Serviço: Este livro é uma leitura útil para quem tem a responsabilidade de gerar gráficos e interpretar informações,

Gráficos e Percepção – I

O gráfico de um site da Internet mostra a quantidade de casos confirmados do Covid19, em diversos países, por meio de barras verticais. Também mostra o percentual de mortes em relação ao número de casos confirmados; mas, para isso, foi usado um gráfico de linhas. 

Veja que, embora a figura compare um mesmo momento em diversos países, o uso do gráfico de linha sugere, intuitivamente, que estamos observando uma variação ao longo do tempo. 

A lição? Evitar o uso gráficos de linha para comparar resultados que se referem a um mesmo momento.

Como interpretar gráficos – I

O gráfico de barras é um dos melhores e mais práticos para a gestão dos indicadores e, felizmente, é muito comum. Mas exige um cuidado importante que nem sempre é observado.

Veja o gráfico abaixo, retirado de uma publicação que mostra a expectativa positiva dos empresários do comércio, serviços e turismo de cada região do Paraná para o 1º semestre de 2018.

Gráfico 1 – Percentual favorável entre as regiões paranaenses.
Fonte: Revista Fecomercio PR. Jan/fev 2018. pp. 12-13.

É fácil perceber, pelos números apresentados, que a região de Londrina tem uma percepção mais favorável que a de Maringá. Isso porque 66,0/44,4 é 1,49, ou aproximadamente 50% maior. Mas quando observamos as barras, e não os números do gráfico, a diferença parece ser mais elevada. Isso pode ocorrer por dois motivos: erro no desenho ou, o que é mais comum, não começar a escala vertical do gráfico (ordenada) no zero.

Refazendo o gráfico usando os valores apresentados (gráfico 2) e a escala iniciando em zero, como recomenda a boa prática, percebe-se uma diferença menor entre os resultados de Londrina e Maringá, como os números realmente indicam.

Gráfico 2 – Redesenho do gráfico 1 com a ordenada iniciando em zero.

A razão para apresentar um gráfico, junto ou em substituição a uma tabela, é facilitar a visualização das diferenças dos resultados. Quando a imagem não representa adequadamente os valores, ela atrapalha ao invés de ajudar. Portanto, ainda que muitas vezes o gráfico não fique esteticamente bonito, é importante que a escala vertical sempre mostre o zero.

E, nas análises, o primeiro passo deve ser confirmar que o gráfico representa adequadamente os dados que se deseja interpretar.

Nos relatórios e dashboards de tua empresa este cuidado é observado?

The Signal and the Noise – Resumo do livro

The signal and the Noise

Fazendo uso de exemplos fundamentados na política norte-americana, nos jogos de baseball, em projeções econômicas e na probabilidade de ocorrências de terremotos, o autor apresenta os aspectos mais importantes no trabalho de previsão de resultados.

Enquanto as eleições americanas são tema de conhecimento comum, as muitas considerações sobre beisebol – esporte pouco conhecido entre nós – podem ser enfadonhas; o capítulo sobre a bolha do pôquer foi, ao menos para mim, intragável.

Ainda assim, para os curiosos sobre o tema da análise e interpretação de dados, é um livro instigante e interessante. Mas, o foco do autor está nas muitas histórias interessantes e pouco contribui com ferramental para separar os sinais dos ruídos, como por exemplo o Controle Estatístico de Processos CEP, ferramenta apenas citada no texto.

Algumas observações selecionadas:

A verdadeira era da informação começou em 1440, com a invenção da imprensa por Johannes Guttemberg. Antes, uma página de livro manuscrito custava cerca de 20 dólares, limitando o acesso ao conhecimento.

É importante lembrar que os modelos são simplificações da realidade e devem ser usados com cuidado.

Um sinal é uma indicação de uma verdade subjacente por trás de uma estatística ou problema preditivo, enquanto ruídos são padrões aleatórios que podem facilmente ser confundidos com sinais. O sinal é a verdade. O ruído é o que nos distrai da verdade.

O objetivo de qualquer modelo de predição é capturar tantos sinais quanto possível e tão poucos ruídos quanto puder. Armstrong argumenta que “quanto mais complexo o modelo, piores são as previsões”. É uma frase bonita que faria sucesso nas redes sociais, mas que deve ser encarada com algum ressalva.

Na estatística, a confusão de tomar ruídos como sinais é denominada overfitting. Modelos puramente estatísticos, com grande número de variáveis e uma pequena quantidade de eventos para sua validação, geralmente levam ao risco de overfitting. Esse risco é consideravelmente menor quando se usa modelos físicos de causa e efeito.

Segundo o autor, o caminho para maior objetividade é reconhecer a influência que nossas premissas têm em nossas previsões.

A estatística tem sido parte dos esportes desde há muito tempo. O primeiro conjunto de informações – com cinco informações sobre cada jogador – foi publicado em jornal por Henry Chadwick em 1859.

Nosso instinto é categorizar as informações, geralmente em um pequeno número de categorias, pois isso facilita o entendimento.

A inspeção visual de um gráfico que mostra a interação entre duas variáveis geralmente é um caminho mais rápido e confiável para identificar outliers nos dados do que um teste estatístico.

Predizer o passado é um oximoro e obviamente não pode ser contado entre os sucessos.

A estatística é uma das habilidades fundamentais necessárias à ciência dos dados.

Uma previsão científica exige um resultado probabilístico, ou seja, nas previsões é importante informar também a incerteza. Coisa comum nas pesquisas eleitorais, porém rara nos resultados de outras previsões. Laplace via a probabilidade como um meio caminho entre a ignorância e o conhecimento.

A heurística do “acompanhe a maioria, especialmente quando não sabe nada melhor” normalmente funciona bem.

Consenso não é sinônimo de unanimidade, mas um grande acordo obtido após um processo de deliberação. É, portanto, uma alternativa à votação.

Informação só se transforma em conhecimento quando colocada em um contexto.

Fonte:

Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (Inglês)

Nota: Já está disponível em português.

Analisando dados – Uma questão de percepção

As empresas têm um impressionante volume de dados colhidos pelas pessoas ou gerados por sistemas. Esses dados, que nos permitem avaliar como estão o negócio e os processos sob nossa responsabilidade, frequentemente são apresentadas na forma de tabelas, como a exemplificada adiante.

Tabela I – Valores relacionados

x 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0
y 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73

Nossa tendência é observar tais tabelas e concluir a situação e a tendência dos processos de forma mais ou menos intuitiva. Mas, a realidade é que – como seres humanos – somos muito ruins para interpretar números mostrados em tabelas. Mesmo fazendo uso de ferramentas estatísticas básicas, como média, desvio padrão, etc., estamos sujeitos a graves falhas na interpretação de dados numéricos. Essa realidade foi muito bem demonstrada por Anscombe [1]. Ele criou a seguinte tabela, conhecida como Quarteto de Anscombe.

Tabela II – Quarteto de Anscombe

I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
Fonte: Wikipedia. https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Curiosamente, as estatísticas calculadas para cada uma das quatro colunas com pares de valores é muito parecida, como segue [2].

Propriedade Valor
Média de x 9 (exato)
Variância de x 11 (exato)
Média de y 7,50 (em até duas casas decimais)
Variância de y 4,125 (+0,003)
Correlação entre x e y 0,816 (em até 3 casas decimais)
Linha de regressão linear em cada caso y=3,00+0,500x (em até 2 e 3 casas decimais, respectivamente)
Coeficiente de determinação da regressão linear 0,67 (em até duas casas decimais)
Fonte: Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O surpreendente é que se esses dados forem apresentados graficamente, percebemos que são muito diferentes, o que levaria a interpretações distintas.

Fonte: By Anscombe.svg: SchutzDerivative works of this file:(label using subscripts): Avenue - Anscombe.svg, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=9838454

É fácil concluir, então, que a forma mais segura de interpretar séries numéricas – o elemento mais comum na gestão de processos – é por meio de gráficos. A riqueza da visualização gráfica permite identificar tendências, outliers e variações com grande precisão, resultando em análises mais consistentes e decisões mais sólidas e confiáveis.

Curiosidade

Conheça também o Datasaurus, uma experiência divertida que mostra vários gráficos (www.autodeskresearch.com/publications/samestats), inclusive a figura de um dinossauro, feitos com conjuntos de dados que têm as mesmas estatísticas.

Referências:

  1. F. J. Anscombe, F. J. Graphs in Statistical Analysis. The American Statistician. Vol. 27, No. 1 (Feb., 1973), pp. 17-21. Disponível em:http://wpage.unina.it/francesco.caracciolo/micro/1/anscombe.pdf Acesso em 30 Out. 2017.
  1. Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O gráfico certo comunica melhor

“Gráficos mostram informação quantitativa de uma maneira que revela muito mais que uma coleção de valores individuais. Por causa de sua natureza visual, gráficos apresentam o perfil global dos dados. Os padrões revelados pelos gráficos permitem ao leitor detectar muitos pontos de interesse em uma única coleção de informação.” Stephen Few

Gráficos de gestão

Graficos4

Um relatório ou uma apresentação de gestão não deve incluir vários tipos de gráficos e muitas cores. Na verdade, gráficos simples e com o mesmo formato facilitam o trabalho de interpretação, o que resulta em menor esforço, melhores análises e decisões mais inteligentes.

Os gráficos mais usados para a gestão do desempenho de processos e sistemas são:

  • Gráficos de linha
  • Gráficos de barra
  • Gráficos de controle (control charts)

Os gráficos de controle, embora exijam algum conhecimento para preparar e para analisar, são muito eficazes por apresentarem as seguintes características:

  1. Mostram os resultados ao longo do tempo (série temporal), oferecendo uma visão do contexto.
  2. Mostram a média por meio de uma linha de referência. Essa linha geralmente é calculada com base nos primeiros 10 números da série.
  3. Mostram os limites da variação natural. Todo processo apresenta oscilações naturais que são típicas. Ao permitir identificar os resultados que estão fora dessa faixa de variação natural, o gráfico chama a atenção para os problemas e situações atípicas ou especiais que merecem atenção do gestor.

Rever e simplificar os relatórios de gestão é, sem dúvida, uma tarefa que vale a pena o tempo despendido.