Histograma

Fotografia de um grupo de estudantes organizados por altura, mostrando um histograma bimodal.
Grupo de estudantes organizados por altura.

O Histograma ou Gráfico de Distribuição de Frequências é uma variação do gráfico de barras que mostra a proporção dos dados em uma amostra. Enquanto o gráfico de barras descreve os dados em barras e categorias separadas, o histograma representa os dados da mesma categoria no intervalo analisado, por isso, sem espaço entre as barras.

Os histogramas podem apresentar vários formatos:

Simétrico ou normal        

Ocorre quando o processo é padronizado e os dados são estáveis, permitindo variações pequenas. A maior quantidade de dados fica ao centro do gráfico e suas variações diminuem simetricamente dos dois lados.

Assimétrico

Geralmente acontece quando os dados não podem ultrapassar um limite. O pico se aproxima de um dos lados, e os dados fora de padrão decrescem para o lado oposto.

Bimodal       

O histograma bimodal, ou com dois picos, geralmente ocorre quando são tratadas duas amostras distintas. A análise deve ser feita separadamente, observando ao desenho dos dois gráficos. Edward Tufte [1] apresenta, didaticamente, um histograma com distribuição bimodal de estudantes de faculdade organizados por altura, (veja a foto).

Outros

Em outros casos, as barras têm praticamente o mesmo tamanho ou variam sem critério ou um padrão definido.

Esboço de um histograma.
Imagem por krzysztof-m em Pixabay 

Referência:

1. Tufte, Edward. Mini Tufte. Versão eletrônica. Página 40, reproduzido de Brian L. Joiner. “Living Histograms”. International Statistics Review, 43 (1975). pp. 339-240. Disponível em: https://www.cs.unm.edu/~pgk/IVCDs14/minitufte.pdf Acesso em 5.3.21

Visual Explanations: Images and Quantities, Evidence and Narrative

Comentários sobre o livro

Edward Tufte é um estatístico famoso pelas técnicas para apresentação de dados e informações, tendo muitas publicações sobre o tema. Neste livro ele descreve estratégias para representar movimentos, processos, mecanismos e relações de causa e efeito.

Ele mostra a evolução das representações gráficas ao longo da história e, inclusive, o provável primeiro gráfico com representação estatística de distâncias, além de diversas outras curiosidades.

Tufte enfatiza que más apresentações gráficas são um problema ético. Isso não significa que ele exija realidade nas imagens, mas que qualquer distorção deve ser informada com o devido destaque. Aliás, ele até apresenta a distorção de escalas como um mecanismo válido para a análise de dados.

Para exemplificar, ele apresenta em detalhes as análises que levaram a identificar a fonte da cólera em Londres em 1854 e o acidente com o ônibus espacial Challenger, que já havia explorado no livro Beautiful Evidence. Naquela publicação, ele fez uma análise das causas básicas do acidente que provocou a explosão do ônibus espacial, matando 11 pessoas e trazendo um prejuízo enorme à reputação da NASA. Ainda comenta as diferentes visões e explicações dos administradores, psicólogos e engenheiros que tentaram explicar os fatos que levaram à catástrofe.

Destaca, ainda, que embora a sequência temporal seja a mais adequada para analisar as tendências, não é uma boa prática para a análise de relações entre variáveis. Tufte exemplifica brilhantemente essa questão com a discussão sobre um gráfico usado para investigar o acidente com a Challenger, em que os dados, plotados na sequência histórica, dificulta perceber a relação entre temperatura e falhas dos anéis de borracha (o-rings) para vedação. São exemplos interessantes que contribuem para aumentar o espírito crítico do leitor.

Alguns destaques do texto:

  • Ausência de evidência não é evidência de ausência.
  • Criar ilusões ou mágicas é engajar-se no design da desinformação, corromper a conexão óptica, enganar o público.  Assim, as estratégias da magia determinam o que não fazer se seu objetivo é revelar a verdade, e não criar ilusões.
  • Como mágicos, quem faz os gráficos revela o que deseja revelar.
  • A lógica dos gráficos deve seguir a lógica da análise.
  • Gráficos ruins indicam estupidez estatística, assim como uma escrita pobre geralmente reflete pensamentos pobres.
  • Raciocinando sobre causalidade, variações na causa devem ser explicita e mensuravelmente ligadas às variações no efeito.
  • Faça todas as distinções visuais tão discretas quanto possível, mas claras e efetivas. Quando tudo é enfatizado, nada é enfatizado.
  • Nos gráficos, um arco-íris de cores confunde o que acontece com as cores com o que acontece com os dados.

Se uma imagem não vale mais que mil palavras, então não vale nada. – Ad Reinhardt

O livro

Tufte, Edward Rolf. Visual Explanations: Images and Quantities, Evidence and Narrative. Graphics Press, Connecticut, June, 2005.

Serviço: Este livro é uma leitura útil para quem tem a responsabilidade de gerar gráficos e interpretar informações,

Com o Big Data a estatística pode ser ainda mais perigosa

Image by Tumisu from Pixabay

Chris Anderson – famoso pelo seu livro “A Cauda Longa: Do Mercado de Massa para o Mercado de Nicho” – sugeriu que o uso do big data tornaria o método científico obsoleto [1]. Isso provavelmente não é verdade.

É incorreto gerar retrospectivamente hipóteses para se adequar aos padrões de dados que surgem após o término de um estudo. Essa prática é conhecida pelos estatísticos como “p-hacking” ou “data fishing” [2].

O epidemiologista John Ioannidis destacou esse ponto na área médica no artigo “Por que a maioria das descobertas de pesquisas publicadas é falsa” [3].

O argumento de Ioannidis é bem ilustrado pelo artigo “Consumo de chocolate, função cognitiva e ganhadores do Nobel” de Franz Messerli no New England Journal of Medicine [4]. O artigo relata “uma correlação linear significativa (r = 0,791, p <0,0001) entre o consumo de chocolate per capita e o número de ganhadores do Nobel por 10 milhões de pessoas em um total de 23 países. O texto especulou sobre os efeitos de alguns antioxidantes, encontrados no chocolate, na melhoria da capacidade de raciocínio.

O artigo, que pretendia ser uma paródia da temporada de prêmios Nobel, foi seriamente relatado nos principais meios de comunicação como, por exemplo, na Forbes [5]. Embora o artigo seja uma brincadeira, a correlação com elevada “significância estatística” é um fato real do conjunto de dados estudado pelo Dr. Messerli. Isso ilustra que os estudos de múltiplas correlações podem levar a resultados “significativos” em um sentido técnico, como sugerido por Chris Anderson, mas também podem ser enganosos ou sem sentido.

Assim, é interessante notar que a equipe internacional de físicos que anunciou a descoberta do bóson de Higgs, atenta ao problema de múltiplas comparações, usou um limiar extremamente baixo do valor de p “cinco-sigma” (<0,000001) [6].

Referências:

1. Anderson, Chris. The End of Theory: The data deluge makes the scientific method obsolete. Disponível em: http://www.wired.com/science/discoveries/magazine/16-07/pb_theory. Acesso em 18.04.20.

2. Tang, Jane,  Misusing Statistical Significance Tests Can End Your Career: A Cautionary Tale. https://marumatchbox.com/blog/misusing-statistical-significance-tests-can-end-your-career-a-cautionary-tale/ Acesso em 18.04.20.

3. Ioannidis, John. Why Most Published Research Findings Are False. 2005. Disponível em http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/. Acesso em 17.04.20.

4. Messerl. Franz H. i, Chocolate Consumption, Cognitive Function, and Nobel Laureates. The New England Journal of Medicine. 18.10.12. Disponível em http://www.nejm.org/doi/full/10.1056/NEJMon1211064. Acesso em 17.04.20.

5. Husten, Larry. Chocolate And Nobel Prizes Linked In Study. Disponível em: https://www.forbes.com/sites/larryhusten/2012/10/10/chocolate-and-nobel-prizes-linked-in-study/#33a8e4c91dd1 Acesso em 18.04.20.

6. Wasserman, Larry. The Higgs Boson and the p-value Police. Disponível em: http://normaldeviate.wordpress.com/2012/07/11/the-higgs-boson-and-the-p-value-police/. Acesso em 28.07.20.

Head First – Data analysis

Comentários sobre o livro

É quase um texto didático que aborda a análise de dados e apresenta diversas ferramentas para tornar essa atividade mais prática e eficaz, destacando os princípios fundamentais do trabalho:

  • Mostrar comparações, contrastes e diferenças.
  • Mostrar causalidade, mecanismo, explicações e estrutura sistemática.
  • Mostrar dados multivariados; ou seja, mais de uma ou duas variáveis.
  • Integrar completamente palavras, números, imagens e diagramas.
  • Descrever minuciosamente as evidências.

O texto oferece dicas sobre o uso do Excel e, também (Capítulo 9) uma introdução prática e simples ao software estatístico R, disponível gratuitamente na Internet e um dos mais usados para a análise de dados. O capítulo sobre erros é especialmente útil e didático.

Seguem alguns conceitos apresentados no livro:

  • A visualização dos dados objetiva, na maioria das vezes, facilitar comparações.
  • Como regra geral, o eixo horizontal do gráfico de dispersão representa a variável independente (a variável que imaginamos ser uma causa), e o eixo vertical a variável dependente (que imaginamos ser o efeito).
  • Uma maneira de tornar a visualização multivariada (isto é, com mais de duas variáveis) é colocar vários gráficos de dispersão de duas variáveis próximos uns dos outros, para facilitar a comparação visual.
  • Um aspecto importante da análise de dados é sua consolidação resumida por meio de médias, medianas, etc., com foco no que é importante saber para monitorar ou melhorar o processo.
  • A regressão é uma ferramenta estatística incrivelmente poderosa que, quando usada corretamente, tem a capacidade de ajudar a prever determinados valores.  Quando usada em um experimento controlado, a regressão pode realmente ajudar a prever o futuro.
  • A extrapolação é diferente da interpolação, na qual você está prevendo pontos dentro do seu intervalo de dados e para a qual a regressão é projetada. A interpolação é boa, mas você deve desconfiar da extrapolação.
  • A divisão de dados em grupos é chamada de segmentação, e é útil para usar diferentes modelos preditivos para os subgrupos, resultando em menos erros em todos os modelos.
  • O segredo sujo da análise de dados é que, como analista, você pode gastar mais tempo limpando os dados do que analisando-os.

O livro:

Milton, Michael. Head First: Data Analysis. O’Reilly Media, USA. 2009. ISBN: 978-0-596-15393-9. (em inglês) – Disponível em português: “Use a Cabeça! Análise de Dados”, pela Alta Books.

Nudge: Improving Decisions About Health, Wealth, and Happiness.

Nudge: Improving Decisions About Health, Wealth, and Happiness.

Crítica do livro

Escrito por Richard H. Thaler, ganhador do Prêmio Nobel de Economia e Cass R. Sunstein, laureado pelo governo da Noruega pelo uso prático dos conhecimentos acadêmicos, o livro descreve como pequenos cuidados no design das alternativas oferecidas às pessoas podem contribuir para melhores decisões, com ganhos para todos e sem interferência na liberdade individual das pessoas.

Os autores justificam essas ações, ou “nudges”, porque questionam a capacidade das pessoas de fazer boas escolhas, ainda que no interesse delas próprias. Citam que em muitos casos as decisões acabam sendo tomadas pelas pessoas que estruturam os processos, os chamados “arquitetos das decisões“. Isso ocorre, por exemplo, quando são definidos os “defaults”, ou as opções que serão automaticamente adotadas se não forem informadas ou selecionadas outras. Afinal, poucas pessoas se dão ao trabalho de fazer personalizações e ajustes para sua situação particular, seja em um software, seja em um contrato.

Em alguns trechos, como quando discute opções para bolsas de estudos e planos de previdência, o texto fica chato. Mas, no geral, tem exemplos interessantes e agradáveis.

É uma boa leitura para executivos, jornalistas, designers, curiosos e para quem deseja se aprimorar na capacidade de analisar criticamente as situações ou tomar melhores decisões. Deveria ser leitura obrigatória para todo legislador.

Fonte

Thaler, Richard H. e Sunstein, Cass R. Nudge: Improving Decisions About Health, Wealth, and Happiness. Penguin Books. USA. 2009.

Média versus Mediana

Imagem pelo autor

A mediana corresponde a observação do meio de um conjunto ordenado de dados, de forma que exista um número igual de observações maiores e menores que ela. Como consequência, não é afetada por dados excepcionalmente altos ou baixos.

A média aritmética, usualmente chamada apenas de “média”, por outro lado, soma todos os pontos de dados e divide pelo número de pontos de dados para determinar o valor “normal”.  Assim, a média pode ser bastante influenciada por dados excepcionalmente altos ou baixos.

Veja a diferença se, por exemplo, você tiver 100 pontos de dados, onde 97 deles são 100 e os três últimos valores são 1.000,  10.000 e 100.000,  que seriam dados extremos:

 ● Mediana = 100

 ● Média aritmética = 1.207

Essa é uma discrepância bastante grande entre as duas estatísticas que indicam o ponto central dos dados. Então, devemos ser cuidadosos na escolha para a publicação e análise dos dados.

A vantagem da mediana, em relação à média, é que a mediana geralmente representa melhor o valor típico da amostra, pois não é distorcida por valores extremamente altos ou baixos. Portanto, nas comparações, de modo geral é melhor usar a mediana. Entretanto, o ideal é que a decisão seja tomada depois de observar a distribuição dos dados.

Nota: Quando um texto em inglês usa o termo “average”, pode estar se referindo à média, à mediana ou à moda, três conceitos de valor central bastante diferente. É preciso cuidado. – Darrel Huff

Curva de distribuição normal

A distribuição normal, também chamada distribuição gaussiana ou de Gauss, é uma das distribuições de probabilidade mais usadas para modelar fenômenos naturais. Isso porque grande número de fenômenos apresenta uma distribuição de probabilidade bem próxima da normal.

As distribuições normais têm as seguintes características:

  • Forma simétrica de sino.
  • Média e mediana iguais; ambas localizadas no centro da distribuição.
  • Aproximadamente 68% dos dados estão dentro de um desvio padrão da média.
  • Aproximadamente 95% dos dados estão dentro de 2 desvios padrão da média.
  • Aproximadamente 99,7% dos dados estão dentro de 3 desvios padrão da média.

Saiba mais em: https://pt.khanacademy.org/math/statistics-probability/modeling-distributions-of-data/normal-distributions-library/a/normal-distributions-review

How to lie with statistics

Capa do livro.

Este livro é um clássico e, por ser muito citado, há tempos queria ler.

Na verdade, esperava um livro bastante técnico, mas fui surpreendido com um texto leve e com histórias interessantes.

Em sua defesa para a publicação das formas como a estatística é usada para distorcer as informações, o autor afirma que os bandidos já conhecem esses truques; pessoas honestas devem aprendê-las em legítima defesa.

O texto critica fortemente a qualidade das amostras usadas nas pesquisas de opinião.

Além de interessante, o livro é útil para despertar o senso crítico tanto de analistas de dados quanto do cidadão comum que se informa por meio da leitura e da televisão. Veja, adiante, algumas considerações do autor:

  • O uso de figuras, em substituição às barras, no clássico gráfico de barras, distorce a informação, pois mesmo quando a altura é proporcional às das barras, quase sempre cria uma percepção diferente, devido à noção que temos das áreas e dos volumes das figuras.
  • Existem muitas maneiras de expressar qualquer resultado. Você pode, por exemplo, expressar exatamente o mesmo fato, chamando-o de um retorno de vendas de um por cento, um retorno de investimento de quinze por cento, um lucro de dez milhões de dólares, um aumento de lucros de quarenta por cento (comparativamente à média de 1935-39), ou uma diminuição de sessenta por cento em relação ao ano anterior.  O truque é escolher o que soa melhor para o objetivo em questão e confiar que poucos que o lerem reconhecerão o quão imperfeitamente reflete a situação.
  • Um tipo comum de correlação é aquele em que a relação é real, mas não é possível ter certeza de qual das variáveis ​​é a causa e qual o efeito.  Em alguns desses casos, causa e efeito podem mudar de lugar de tempos em tempos. Ou, de fato, ambos podem ser causa e efeito ao mesmo tempo.  Uma correlação entre renda e propriedade de ações pode ser desse tipo.
  • Permitir que o tratamento estatístico e a presença hipnótica de números e pontos decimais seja incompreensível para as relações causais é pouco melhor que a superstição. E muitas vezes é mais seriamente enganador. É como a convicção entre o povo de Vanuatu que o piolho no corpo produz boa saúde. A observação ao longo dos séculos ensinou-lhes que as pessoas de boa saúde geralmente tinham piolhos, enquanto os doentes muitas vezes não. A observação em si foi precisa e correta, pois ocorreram ao longo de muitos anos. Daí a conclusão a que essas pessoas primitivas tiraram de suas evidências: os piolhos tornam um homem saudável. Todo mundo deveria tê-los.

Nota; O e-book está disponível para download gratuito na Internet.

O livro

Huff, Darrel. How to Lie with Statistics. W. W. Norton & Company Inc. New York, 1954.

Indicadores mais comuns no RH

Imagem de Mohamed Hassan por Pixabay

O Estudo de Indicadores RH 2020, feito pela Carreira Müller, levantou as métricas de RH mais usadas pelas empresas. Os resultados (ver tabela) confirmam a Rotatividade como a preferida pelos profissionais da área, sendo monitorada por 86% dos entrevistados, enquanto o Custo da Rotatividade – indicador considerado mais relevante pela alta direção das empresas – é acompanhado por apenas 16% das organizações.

Também é interessante notar que mais de um terço das empresas acompanha o Índice de Reclamações Trabalhistas, evidenciando a dificuldade de atender uma legislação complexa e sujeita a muitas interpretações.

Tabela – Indicadores apurados pelo RH

Deseja ajuda para escolher e analisar os indicadores e obter melhores resultados? Podemos ajudar. Conheça nosso serviço.

Controle Estatístico de Processos – CEP

Do mesmo modo que há pequenas variações no sabor dos bolos ou churrascos, ainda que preparados pela mesma pessoa, todos os processos têm alguma variação natural e inerente.

Então, se o resultado de um indicador é um pouco melhor ou pior que no momento anterior, isso não indica, necessariamente, que o processo melhorou ou piorou.

Muitas vezes, levados por resultados que estão dentro da faixa normal de variação, tendemos a atuar de forma indevida no processo, provocando sua piora ou o desperdício de recursos.

A dificuldade do gestor é distinguir o que é uma variação normal, que deve ser ignorada,  de uma  mudança real que exige a correção do processo.

Embora esses sinais às vezes sejam facilmente percebidas, como quando ocorre um erro humano ou uma alteração nas características da matéria prima, na maioria dos casos não é evidente. Por exemplo, as decorrentes de desgaste de equipamentos ou da substituição de pessoas sem o treinamento adequado, em que o desempenho do processo ou as características dos produtos pioram paulatinamente.

Uma técnica eficaz para distinguir os ruídos dos sinais que indicam problemas é o uso do Controle Estatístico de Processo (CEP).

Essa abordagem, mais científica, pode trazer grandes ganhos às organizações.

Variações naturais Quando alguém com cerca de 72 kg deseja controlar seu peso e sobe na balança todo dia, no mesmo horário, pode observar medidas como as da tabela adiante.

Momento Dia 1 Dia 2 Dia 3 Dia 4 Dia 5 Dia 6
Peso, kg 72,3 72,5 72,1 71,8 72,3 71,9

Ao pesar 72,5 kg, a pessoa não decidiria iniciar imediatamente uma dieta. Ela sabe que pequenas variações são normais e não representam descontrole no peso.

Entretanto essa mesma pessoa, ao observar o indicador mensal de absenteísmo em sua empresa, sente-se na obrigação de “tomar uma ação” se o resultado do indicador se elevou um pouco.

Por quê isso acontece? Porque com seu peso ela já tem sensibilidade sobre quais variações podem ser consideradas normais, mas o mesmo não acontece na medida do absenteísmo.

Essas variações naturais, típicas de um processo ou sistema, são denominadas de ruídos. Portanto, são diferentes de valores que sinalizam algum tipo de problema; no exemplo, um aumento ou uma diminuição do peso que pudesse justificar uma dieta ou atenção médica.

Carta de Controle – CEP

A carta de controle é um gráfico constituído por uma linha horizontal, central, que representa a média dos valores medidos de uma característica. Acima e abaixo, simetricamente a linha central, são colocados duas linhas que, de forma calculada, delimitam os valores considerados normais, de acordo com uma probabilidade de ocorrência. Os valores que ocorrem em tomo da média, dentro dos limites, superior e inferior, tem variações aleatórias produzidas por múltiplas causas, variações essas que somente poderão ser reduzidas se o processo for modificado (Variação Crônica). Valores fora dos limites mostram que houve uma causa preponderante para as suas ocorrências, que pode ser descoberta e corrigida (Variação Esporádica).

Lembram do Alice no País das Maravilhas?  a menina tomava o líquido de um vidrinho e crescia; tomava de outro e diminuía. Voltava a tomar do primeiro e crescia novamente. Nós não vivemos em um mundo mágico. Vivemos em um mundo regido pela estatística. Então, quando temos variações de crescimento e redução em uma série de dados, temos duas situações: os dados não foram bem colhidos e temos um problema de representatividade ou as variações são pequenos para cima e para baixo indicando que se trata de um processo estável e sob controle.

A probabilidade de ocorrer sete pontos do mesmo lado da linha central fazer parte da variação de rotina é próxima de zero (0,78%, para ser preciso).

Referências

1. Campos, Vicente Falconi, TQC – Controle da Qualidade Total: no estilo japonês, Belo Horizonte, Editora de Desenvolvimento Gerencial, 1999.

2. Wheeler, Donald J. Understanding Variation: The key to managing chaos. SPC Press, Inc. Tenesse. 1993.

3. Siqueira, Luiz G. P. Controle Estatístico do Processo. Pioneira. São Paulo. 1997.

Serviço: A Bachmann & Associados oferece serviço de consultoria, ajudando sua equipe a construir e usar Gráficos de Controle (CEP) de modo fácil e prático.