Visualização

Apesar de apresentar características positivas, a visualização gráfica avançada traz consigo alguns riscos ou dificuldades que devem ser conhecidos para que sejam evitados:

  • Sofisticação desnecessária. A ênfase excessiva na beleza estética e na sofisticação, por vezes, causa distração de gestores e dificulta a análise de dados.
  • A escolha do gráfico pode impor visão preconcebida da situação e dificultar análise equilibrada. A depender da escolha das escalas utilizadas, um mesmo gráfico pode dar a impressão de estagnação e a ambiguidade levará à análise errada do conteúdo.
  • Em diversos casos, os gestores satisfazem-se com a visualização de um único gráfico, o que acreditam ser suficiente para toda a compreensão do contexto, sem prospectar detalhamento mais informativo.

É muito importante que gráficos tenham profundidade e sejam, efetivamente, representativos dos dados, além de acompanhados de explicações e tabelas, sempre que possível.

Fonte: Bachmann, Coriceu. Princípios de Gestão de Sistemas de Informação: Melhor informação, melhor decisão. Kindle Edition. 2016. Disponível na www.amazon.com.br.

Gráficos e Percepção

O gráfico de um site da Internet mostra a quantidade de casos confirmados do Covid19, em diversos países, por meio de barras verticais. Também mostra o percentual de mortes em relação ao número de casos confirmados; mas, para isso, foi usado um gráfico de linhas. 

Veja que, embora a figura compare um mesmo momento em diversos países, o uso do gráfico de linha sugere, intuitivamente, que estamos observando uma variação ao longo do tempo. 

A lição? Evitar o uso gráficos de linha para comparar resultados que se referem a um mesmo momento.

Como interpretar gráficos – I

O gráfico de barras é um dos melhores e mais práticos para a gestão dos indicadores e, felizmente, é muito comum. Mas exige um cuidado importante que nem sempre é observado.

Veja o gráfico abaixo, retirado de uma publicação que mostra a expectativa positiva dos empresários do comércio, serviços e turismo de cada região do Paraná para o 1º semestre de 2018.

Gráfico 1 – Percentual favorável entre as regiões paranaenses.
Fonte: Revista Fecomercio PR. Jan/fev 2018. pp. 12-13.

É fácil perceber, pelos números apresentados, que a região de Londrina tem uma percepção mais favorável que a de Maringá. Isso porque 66,0/44,4 é 1,49, ou aproximadamente 50% maior. Mas quando observamos as barras, e não os números do gráfico, a diferença parece ser mais elevada. Isso pode ocorrer por dois motivos: erro no desenho ou, o que é mais comum, não começar a escala vertical do gráfico (ordenada) no zero.

Refazendo o gráfico usando os valores apresentados (gráfico 2) e a escala iniciando em zero, como recomenda a boa prática, percebe-se uma diferença menor entre os resultados de Londrina e Maringá, como os números realmente indicam.

Gráfico 2 – Redesenho do gráfico 1 com a ordenada iniciando em zero.

A razão para apresentar um gráfico, junto ou em substituição a uma tabela, é facilitar a visualização das diferenças dos resultados. Quando a imagem não representa adequadamente os valores, ela atrapalha ao invés de ajudar. Portanto, ainda que muitas vezes o gráfico não fique esteticamente bonito, é importante que a escala vertical sempre mostre o zero.

E, nas análises, o primeiro passo deve ser confirmar que o gráfico representa adequadamente os dados que se deseja interpretar.

Nos relatórios e dashboards de tua empresa este cuidado é observado?

The Signal and the Noise – Resumo do livro

The signal and the Noise

Fazendo uso de exemplos fundamentados na política norte-americana, nos jogos de baseball, em projeções econômicas e na probabilidade de ocorrências de terremotos, o autor apresenta os aspectos mais importantes no trabalho de previsão de resultados.

Enquanto as eleições americanas são tema de conhecimento comum, as muitas considerações sobre beisebol – esporte pouco conhecido entre nós – podem ser enfadonhas; o capítulo sobre a bolha do pôquer foi, ao menos para mim, intragável.

Ainda assim, para os curiosos sobre o tema da análise e interpretação de dados, é um livro instigante e interessante. Mas, o foco do autor está nas muitas histórias interessantes e pouco contribui com ferramental para separar os sinais dos ruídos, como por exemplo o Controle Estatístico de Processos CEP, ferramenta apenas citada no texto.

Algumas observações selecionadas:

A verdadeira era da informação começou em 1440, com a invenção da imprensa por Johannes Guttemberg. Antes, uma página de livro manuscrito custava cerca de 20 dólares, limitando o acesso ao conhecimento.

É importante lembrar que os modelos são simplificações da realidade e devem ser usados com cuidado.

Um sinal é uma indicação de uma verdade subjacente por trás de uma estatística ou problema preditivo, enquanto ruídos são padrões aleatórios que podem facilmente ser confundidos com sinais. O sinal é a verdade. O ruído é o que nos distrai da verdade.

O objetivo de qualquer modelo de predição é capturar tantos sinais quanto possível e tão poucos ruídos quanto puder. Armstrong argumenta que “quanto mais complexo o modelo, piores são as previsões”. É uma frase bonita que faria sucesso nas redes sociais, mas que deve ser encarada com algum ressalva.

Na estatística, a confusão de tomar ruídos como sinais é denominada overfitting. Modelos puramente estatísticos, com grande número de variáveis e uma pequena quantidade de eventos para sua validação, geralmente levam ao risco de overfitting. Esse risco é consideravelmente menor quando se usa modelos físicos de causa e efeito.

Segundo o autor, o caminho para maior objetividade é reconhecer a influência que nossas premissas têm em nossas previsões.

A estatística tem sido parte dos esportes desde há muito tempo. O primeiro conjunto de informações – com cinco informações sobre cada jogador – foi publicado em jornal por Henry Chadwick em 1859.

Nosso instinto é categorizar as informações, geralmente em um pequeno número de categorias, pois isso facilita o entendimento.

A inspeção visual de um gráfico que mostra a interação entre duas variáveis geralmente é um caminho mais rápido e confiável para identificar outliers nos dados do que um teste estatístico.

Predizer o passado é um oximoro e obviamente não pode ser contado entre os sucessos.

A estatística é uma das habilidades fundamentais necessárias à ciência dos dados.

Uma previsão científica exige um resultado probabilístico, ou seja, nas previsões é importante informar também a incerteza. Coisa comum nas pesquisas eleitorais, porém rara nos resultados de outras previsões. Laplace via a probabilidade como um meio caminho entre a ignorância e o conhecimento.

A heurística do “acompanhe a maioria, especialmente quando não sabe nada melhor” normalmente funciona bem.

Consenso não é sinônimo de unanimidade, mas um grande acordo obtido após um processo de deliberação. É, portanto, uma alternativa à votação.

Informação só se transforma em conhecimento quando colocada em um contexto.

Fonte:

Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (Inglês)

Nota: Já está disponível em português.

Analisando dados – Uma questão de percepção

As empresas têm um impressionante volume de dados colhidos pelas pessoas ou gerados por sistemas. Esses dados, que nos permitem avaliar como estão o negócio e os processos sob nossa responsabilidade, frequentemente são apresentadas na forma de tabelas, como a exemplificada adiante.

Tabela I – Valores relacionados

x 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0
y 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73

Nossa tendência é observar tais tabelas e concluir a situação e a tendência dos processos de forma mais ou menos intuitiva. Mas, a realidade é que – como seres humanos – somos muito ruins para interpretar números mostrados em tabelas. Mesmo fazendo uso de ferramentas estatísticas básicas, como média, desvio padrão, etc., estamos sujeitos a graves falhas na interpretação de dados numéricos. Essa realidade foi muito bem demonstrada por Anscombe [1]. Ele criou a seguinte tabela, conhecida como Quarteto de Anscombe.

Tabela II – Quarteto de Anscombe

I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
Fonte: Wikipedia. https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Curiosamente, as estatísticas calculadas para cada uma das quatro colunas com pares de valores é muito parecida, como segue [2].

Propriedade Valor
Média de x 9 (exato)
Variância de x 11 (exato)
Média de y 7,50 (em até duas casas decimais)
Variância de y 4,125 (+0,003)
Correlação entre x e y 0,816 (em até 3 casas decimais)
Linha de regressão linear em cada caso y=3,00+0,500x (em até 2 e 3 casas decimais, respectivamente)
Coeficiente de determinação da regressão linear 0,67 (em até duas casas decimais)
Fonte: Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O surpreendente é que se esses dados forem apresentados graficamente, percebemos que são muito diferentes, o que levaria a interpretações distintas.

Fonte: By Anscombe.svg: SchutzDerivative works of this file:(label using subscripts): Avenue - Anscombe.svg, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=9838454

É fácil concluir, então, que a forma mais segura de interpretar séries numéricas – o elemento mais comum na gestão de processos – é por meio de gráficos. A riqueza da visualização gráfica permite identificar tendências, outliers e variações com grande precisão, resultando em análises mais consistentes e decisões mais sólidas e confiáveis.

Curiosidade

Conheça também o Datasaurus, uma experiência divertida que mostra vários gráficos (www.autodeskresearch.com/publications/samestats), inclusive a figura de um dinossauro, feitos com conjuntos de dados que têm as mesmas estatísticas.

Referências:

  1. F. J. Anscombe, F. J. Graphs in Statistical Analysis. The American Statistician. Vol. 27, No. 1 (Feb., 1973), pp. 17-21. Disponível em:http://wpage.unina.it/francesco.caracciolo/micro/1/anscombe.pdf Acesso em 30 Out. 2017.
  1. Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O gráfico certo comunica melhor

“Gráficos mostram informação quantitativa de uma maneira que revela muito mais que uma coleção de valores individuais. Por causa de sua natureza visual, gráficos apresentam o perfil global dos dados. Os padrões revelados pelos gráficos permitem ao leitor detectar muitos pontos de interesse em uma única coleção de informação.” Stephen Few

Gráficos de gestão

Graficos4

Um relatório ou uma apresentação de gestão não deve incluir vários tipos de gráficos e muitas cores. Na verdade, gráficos simples e com o mesmo formato facilitam o trabalho de interpretação, o que resulta em menor esforço, melhores análises e decisões mais inteligentes.

Os gráficos mais usados para a gestão do desempenho de processos e sistemas são:

  • Gráficos de linha
  • Gráficos de barra
  • Gráficos de controle (control charts)

Os gráficos de controle, embora exijam algum conhecimento para preparar e para analisar, são muito eficazes por apresentarem as seguintes características:

  1. Mostram os resultados ao longo do tempo (série temporal), oferecendo uma visão do contexto.
  2. Mostram a média por meio de uma linha de referência. Essa linha geralmente é calculada com base nos primeiros 10 números da série.
  3. Mostram os limites da variação natural. Todo processo apresenta oscilações naturais que são típicas. Ao permitir identificar os resultados que estão fora dessa faixa de variação natural, o gráfico chama a atenção para os problemas e situações atípicas ou especiais que merecem atenção do gestor.

Rever e simplificar os relatórios de gestão é, sem dúvida, uma tarefa que vale a pena o tempo despendido.

Gráficos para gestão

graficos

Um relatório ou uma apresentação de gestão não deve incluir vários tipos de gráficos e muitas cores. Na verdade, gráficos simples e com o mesmo formato facilitam o trabalho de interpretação, o que resulta em menor esforço, melhores análises e decisões mais inteligentes.

Os gráficos mais usados para a gestão do desempenho de processos e sistemas são:

  • Gráficos de linha
  • Gráficos de barra
  • Gráficos de controle (control charts)

Os gráficos de controle, embora exijam algum conhecimento para preparar e para analisar, são muito eficazes por apresentarem as seguintes características:

1- mostram os resultados ao longo do tempo (série temporal), oferecendo uma visão da evolução.

2- mostram a média por meio de uma linha de referência. Essa linha geralmente é calculada com base nos primeiros 10 números da série.

3- mostram os limites da variação natural. Todo processo apresenta oscilações naturais que são típicas. Ao permitir identificar os resultados que estão fora dessa faixa de variação natural (outliers), o gráfico chama a atenção para os problemas e situações atípicas ou especiais que merecem atenção do gestor.

Queremos saber tua opinião:
- Em tua empresa os relatórios são simples?
- Quais os tipos de gráficos usados?