Head First – Data analysis

Comentários sobre o livro

É quase um texto didático que aborda a análise de dados e apresenta diversas ferramentas para tornar essa atividade mais prática e eficaz, destacando os princípios fundamentais do trabalho:

  • Mostrar comparações, contrastes e diferenças.
  • Mostrar causalidade, mecanismo, explicações e estrutura sistemática.
  • Mostrar dados multivariados; ou seja, mais de uma ou duas variáveis.
  • Integrar completamente palavras, números, imagens e diagramas.
  • Descrever minuciosamente as evidências.

O texto oferece dicas sobre o uso do Excel e, também (Capítulo 9) uma introdução prática e simples ao software estatístico R, disponível gratuitamente na Internet e um dos mais usados para a análise de dados. O capítulo sobre erros é especialmente útil e didático.

Seguem alguns conceitos apresentados no livro:

  • A visualização dos dados objetiva, na maioria das vezes, facilitar comparações.
  • Como regra geral, o eixo horizontal do gráfico de dispersão representa a variável independente (a variável que imaginamos ser uma causa), e o eixo vertical a variável dependente (que imaginamos ser o efeito).
  • Uma maneira de tornar a visualização multivariada (isto é, com mais de duas variáveis) é colocar vários gráficos de dispersão de duas variáveis próximos uns dos outros, para facilitar a comparação visual.
  • Um aspecto importante da análise de dados é sua consolidação resumida por meio de médias, medianas, etc., com foco no que é importante saber para monitorar ou melhorar o processo.
  • A regressão é uma ferramenta estatística incrivelmente poderosa que, quando usada corretamente, tem a capacidade de ajudar a prever determinados valores.  Quando usada em um experimento controlado, a regressão pode realmente ajudar a prever o futuro.
  • A extrapolação é diferente da interpolação, na qual você está prevendo pontos dentro do seu intervalo de dados e para a qual a regressão é projetada. A interpolação é boa, mas você deve desconfiar da extrapolação.
  • A divisão de dados em grupos é chamada de segmentação, e é útil para usar diferentes modelos preditivos para os subgrupos, resultando em menos erros em todos os modelos.
  • O segredo sujo da análise de dados é que, como analista, você pode gastar mais tempo limpando os dados do que analisando-os.

O livro:

Milton, Michael. Head First: Data Analysis. O’Reilly Media, USA. 2009. ISBN: 978-0-596-15393-9. (em inglês) – Disponível em português: “Use a Cabeça! Análise de Dados”, pela Alta Books.

How to lie with statistics

Capa do livro.

Este livro é um clássico e, por ser muito citado, há tempos queria ler.

Na verdade, esperava um livro bastante técnico, mas fui surpreendido com um texto leve e com histórias interessantes.

Em sua defesa para a publicação das formas como a estatística é usada para distorcer as informações, o autor afirma que os bandidos já conhecem esses truques; pessoas honestas devem aprendê-las em legítima defesa.

O texto critica fortemente a qualidade das amostras usadas nas pesquisas de opinião.

Além de interessante, o livro é útil para despertar o senso crítico tanto de analistas de dados quanto do cidadão comum que se informa por meio da leitura e da televisão. Veja, adiante, algumas considerações do autor:

  • O uso de figuras, em substituição às barras, no clássico gráfico de barras, distorce a informação, pois mesmo quando a altura é proporcional às das barras, quase sempre cria uma percepção diferente, devido à noção que temos das áreas e dos volumes das figuras.
  • Existem muitas maneiras de expressar qualquer resultado. Você pode, por exemplo, expressar exatamente o mesmo fato, chamando-o de um retorno de vendas de um por cento, um retorno de investimento de quinze por cento, um lucro de dez milhões de dólares, um aumento de lucros de quarenta por cento (comparativamente à média de 1935-39), ou uma diminuição de sessenta por cento em relação ao ano anterior.  O truque é escolher o que soa melhor para o objetivo em questão e confiar que poucos que o lerem reconhecerão o quão imperfeitamente reflete a situação.
  • Um tipo comum de correlação é aquele em que a relação é real, mas não é possível ter certeza de qual das variáveis ​​é a causa e qual o efeito.  Em alguns desses casos, causa e efeito podem mudar de lugar de tempos em tempos. Ou, de fato, ambos podem ser causa e efeito ao mesmo tempo.  Uma correlação entre renda e propriedade de ações pode ser desse tipo.
  • Permitir que o tratamento estatístico e a presença hipnótica de números e pontos decimais seja incompreensível para as relações causais é pouco melhor que a superstição. E muitas vezes é mais seriamente enganador. É como a convicção entre o povo de Vanuatu que o piolho no corpo produz boa saúde. A observação ao longo dos séculos ensinou-lhes que as pessoas de boa saúde geralmente tinham piolhos, enquanto os doentes muitas vezes não. A observação em si foi precisa e correta, pois ocorreram ao longo de muitos anos. Daí a conclusão a que essas pessoas primitivas tiraram de suas evidências: os piolhos tornam um homem saudável. Todo mundo deveria tê-los.

Nota; O e-book está disponível para download gratuito na Internet.

O livro

Huff, Darrel. How to Lie with Statistics. W. W. Norton & Company Inc. New York, 1954.

Causa ou efeito?

Alguns autores, como Maram Marimuthu et alii [1] identificaram uma correlação positiva entre o desempenho das organizações e o investimento em capital humano, incluindo as ações de treinamento.

A conclusão óbvia trazida pelo texto é que vale a pena treinar. Mas, sendo isento na análise, temos que concluir que, ainda que os fatos estejam relacionados, não temos segurança para afirmar o que é causa e o que é efeito. Afinal, também é possível acreditar que organizações com negócios mais favoráveis e lucrativos tenham mais recursos para investir em treinamento.

Uma análise semelhante foi apresentada por Sara Kaplan [2] ao afirmar “Verifiquei se as pesquisas científicas realmente corroboram a ideia de que diversidade traz melhor desempenho e minha conclusão é que não há necessariamente uma relação de causa e efeito. É bem possível que diversidade e performance sejam dois aspectos de ‘ser uma ótima empresa’”.

Então, na análise de dados, sempre que temos resultados que se correlacionam, devemos ser bastante críticos em tentar saber o que é causa, o que é efeito ou, ainda o que é apenas consequência de algum terceiro motivo ou coincidência.

Referências:

  1. Marimuthu, M., Arokiasamy, L. and Ismail, M. Human Capital Development and Its Impact on Firm Performance: Evidence From Developmental Economics. Uluslararası Sosyal Arastırmalar Dergisi. The Journal of International Social Research. Volume 2 / 8 Summer 2009. pp. 265 – 272. Disponível em: http://www.sosyalarastirmalar.com/cilt2/sayi8pdf/marimuthu_arokiasamy_ismail.pdf. Acesso em 20.06.19
  2. Revista HSM. Vamos inovar em diversidade de gênero? Dez 4, 2017.

Uma análise deficiente

Ultimamente temos vistos muitas análises sobre a disseminação e até mesmo sobre a letalidade do Coronavirus baseadas na evolução nos casos confirmados da doença (gráfico).

Gráfico: Evolução nos casos confirmados da doença

Fonte: Olhar Digital. Disponível em: https://olhardigital.com.br/coronavirus/noticia/china-diz-ter-desenvolvido-nanomaterial-que-desativa-novo-coronavirus/98781. Acesso em 4.4.20.

Em uma análise superficial, podemos concluir que de 30 de março (323 casos) para 31 de março (1138 casos) houve um crescimento de 352% no número de infectados. Esses números têm sido usados, inclusive, para fazer projeções. Mas, como a observação dos resultados dos dias seguintes confirma, o novo patamar se deve ao maior número de exames diários que passou a ser realizado.

Esse é um exemplo típico de análise feita sem avaliar corretamente as características ou fonte dos dados usados.  Sabemos que o número de exames é pequeno perto da possível população infectada e, portanto, o número de casos confirmados tem pouca utilidade.

Uma informação potencialmente mais útil, embora ainda falha devido à baixa representatividade, seria o percentual de pessoas testadas que tiveram resultado positivo. Curiosamente, esse indicador não é divulgado.

Seja criterioso. Cuide da saúde e também da qualidade das análises.

Serviço: A página da Olhar Digital em: https://olhardigital.com.br/coronavirus/noticia/china-diz-ter-desenvolvido-nanomaterial-que-desativa-novo-coronavirus/98781 é informativa e atualizada diariamente. Uma boa referência.

Controle Estatístico de Processos – CEP

Do mesmo modo que há pequenas variações no sabor dos bolos ou churrascos, ainda que preparados pela mesma pessoa, todos os processos têm alguma variação natural e inerente.

Então, se o resultado de um indicador é um pouco melhor ou pior que no momento anterior, isso não indica, necessariamente, que o processo melhorou ou piorou.

Muitas vezes, levados por resultados que estão dentro da faixa normal de variação, tendemos a atuar de forma indevida no processo, provocando sua piora ou o desperdício de recursos.

A dificuldade do gestor é distinguir o que é uma variação normal, que deve ser ignorada,  de uma  mudança real que exige a correção do processo.

Embora esses sinais às vezes sejam facilmente percebidas, como quando ocorre um erro humano ou uma alteração nas características da matéria prima, na maioria dos casos não é evidente. Por exemplo, as decorrentes de desgaste de equipamentos ou da substituição de pessoas sem o treinamento adequado, em que o desempenho do processo ou as características dos produtos pioram paulatinamente.

Uma técnica eficaz para distinguir os ruídos dos sinais que indicam problemas é o uso do Controle Estatístico de Processo (CEP).

Essa abordagem, mais científica, pode trazer grandes ganhos às organizações.

Variações naturais Quando alguém com cerca de 72 kg deseja controlar seu peso e sobe na balança todo dia, no mesmo horário, pode observar medidas como as da tabela adiante.

Momento Dia 1 Dia 2 Dia 3 Dia 4 Dia 5 Dia 6
Peso, kg 72,3 72,5 72,1 71,8 72,3 71,9

Ao pesar 72,5 kg, a pessoa não decidiria iniciar imediatamente uma dieta. Ela sabe que pequenas variações são normais e não representam descontrole no peso.

Entretanto essa mesma pessoa, ao observar o indicador mensal de absenteísmo em sua empresa, sente-se na obrigação de “tomar uma ação” se o resultado do indicador se elevou um pouco.

Por quê isso acontece? Porque com seu peso ela já tem sensibilidade sobre quais variações podem ser consideradas normais, mas o mesmo não acontece na medida do absenteísmo.

Essas variações naturais, típicas de um processo ou sistema, são denominadas de ruídos. Portanto, são diferentes de valores que sinalizam algum tipo de problema; no exemplo, um aumento ou uma diminuição do peso que pudesse justificar uma dieta ou atenção médica.

Carta de Controle – CEP

A carta de controle é um gráfico constituído por uma linha horizontal, central, que representa a média dos valores medidos de uma característica. Acima e abaixo, simetricamente a linha central, são colocados duas linhas que, de forma calculada, delimitam os valores considerados normais, de acordo com uma probabilidade de ocorrência. Os valores que ocorrem em tomo da média, dentro dos limites, superior e inferior, tem variações aleatórias produzidas por múltiplas causas, variações essas que somente poderão ser reduzidas se o processo for modificado (Variação Crônica). Valores fora dos limites mostram que houve uma causa preponderante para as suas ocorrências, que pode ser descoberta e corrigida (Variação Esporádica).

Lembram do Alice no País das Maravilhas?  a menina tomava o líquido de um vidrinho e crescia; tomava de outro e diminuía. Voltava a tomar do primeiro e crescia novamente. Nós não vivemos em um mundo mágico. Vivemos em um mundo regido pela estatística. Então, quando temos variações de crescimento e redução em uma série de dados, temos duas situações: os dados não foram bem colhidos e temos um problema de representatividade ou as variações são pequenos para cima e para baixo indicando que se trata de um processo estável e sob controle.

A probabilidade de ocorrer sete pontos do mesmo lado da linha central fazer parte da variação de rotina é próxima de zero (0,78%, para ser preciso).

Referências

1. Campos, Vicente Falconi, TQC – Controle da Qualidade Total: no estilo japonês, Belo Horizonte, Editora de Desenvolvimento Gerencial, 1999.

2. Wheeler, Donald J. Understanding Variation: The key to managing chaos. SPC Press, Inc. Tenesse. 1993.

3. Siqueira, Luiz G. P. Controle Estatístico do Processo. Pioneira. São Paulo. 1997.

Serviço: A Bachmann & Associados oferece serviço de consultoria, ajudando sua equipe a construir e usar Gráficos de Controle (CEP) de modo fácil e prático.

Pode-se confiar nas pesquisas de satisfação?

Nas pesquisas de satisfação, independentemente de quão claras as instruções possam ser, as pessoas irão interpretá-las ou despreza-las acidentalmente. Os cientistas categorizam isso como erros de resposta. Em média, 6% a 20% de todas as pesquisas concluídas pelos clientes contêm erros de resposta. É um fato inevitável da realização de um programa de pesquisa válido.

Além disso, aumentar o tamanho da amostra não elimina o problema, mas traz erros ainda maiores. Portanto, você deve corrigir esses erros usando uma abordagem sistemática e consistente para fornecer a máxima integridade, precisão e imparcialidade para criar relatórios a partir de pesquisas.

Reproduzido de: Rembach, Jim. Survey Calibration Improves Employee Buy-in. Disponível em  http://metrics.net/what-is-survey-calibration/. Acesso em out. 2012.

Como interpretar gráficos – I

O gráfico de barras é um dos melhores e mais práticos para a gestão dos indicadores e, felizmente, é muito comum. Mas exige um cuidado importante que nem sempre é observado.

Veja o gráfico abaixo, retirado de uma publicação que mostra a expectativa positiva dos empresários do comércio, serviços e turismo de cada região do Paraná para o 1º semestre de 2018.

Gráfico 1 – Percentual favorável entre as regiões paranaenses.
Fonte: Revista Fecomercio PR. Jan/fev 2018. pp. 12-13.

É fácil perceber, pelos números apresentados, que a região de Londrina tem uma percepção mais favorável que a de Maringá. Isso porque 66,0/44,4 é 1,49, ou aproximadamente 50% maior. Mas quando observamos as barras, e não os números do gráfico, a diferença parece ser mais elevada. Isso pode ocorrer por dois motivos: erro no desenho ou, o que é mais comum, não começar a escala vertical do gráfico (ordenada) no zero.

Refazendo o gráfico usando os valores apresentados (gráfico 2) e a escala iniciando em zero, como recomenda a boa prática, percebe-se uma diferença menor entre os resultados de Londrina e Maringá, como os números realmente indicam.

Gráfico 2 – Redesenho do gráfico 1 com a ordenada iniciando em zero.

A razão para apresentar um gráfico, junto ou em substituição a uma tabela, é facilitar a visualização das diferenças dos resultados. Quando a imagem não representa adequadamente os valores, ela atrapalha ao invés de ajudar. Portanto, ainda que muitas vezes o gráfico não fique esteticamente bonito, é importante que a escala vertical sempre mostre o zero.

E, nas análises, o primeiro passo deve ser confirmar que o gráfico representa adequadamente os dados que se deseja interpretar.

Nos relatórios e dashboards de tua empresa este cuidado é observado?

Cuidado com a cegueira diagnóstica

Diagrama de Venn com dois círculos. Subvalorizado e bobagens. A interseção corresponde aquilo que é sobrevalorizado.

A análise dos resultados dos indicadores de gestão, embora bastante objetiva, está sujeita ao nosso comportamento psicológico. Afinal, somos todos humanos! Tendo consciência disso, podemos fazer análises mais isentas e tomar melhores decisões.

Segundo Ori e Rom Brafman, no livro “Sway: The Irresistible Pull of Irrational Behavior”, quando as pessoas chegam a uma conclusão, elas desenvolvem “cegueira diagnóstica”. Elas querem que tudo se encaixe em seu conceito. Isso ocorre basicamente de dois modos.

Viés de aceitação

Cada vez que um dado diz o contrário do que queremos, nos preocupamos em ir mais fundo e questionar sua veracidade. Entretanto, se o dado reforça nosso ponto de vista, é aceito com facilidade. Esse fenômeno é chamado de Viés de Aceitação e frequentemente influencia as análises feitas.

A melhor forma de prevenir os efeitos do Viés de Aceitação é estar consciente de sua existência e estabelecer, a priori, as ações de validação dos dados que serão realizadas.

Viés de Confirmação

O uso de dados e ferramentas de análise para justificar crenças é chamado de Viés de Confirmação (Confirmation Bias). E, com a disseminação das técnicas de Big Data, esse problema tende a ser cada vez mais comum, na medida em que ferramentas estatísticas e softwares complexos permitem diferentes análises que podem ser usadas para provar as teses pretendidas.

Com um grande volume de dados um profissional inexperiente, ou mal intencionado, acaba sempre conseguindo um conjunto de números que serve para confirmar quaisquer crenças ou suposições.

Como o Viés de Confirmação atende à necessidade humana de reforçar pontos de vista conhecidos e que trazem conforto ou conveniência, muitas vezes é provocado de forma inconsciente.

Conhece alguma situação em que isso aconteceu em tua organização? Como ocorreu?

Nota: Texto inspirado em: Better Decision Making with Objective Data is Impossible, de Jack Webb, www.sloanreview.mit.edu

Escolha dos indicadores – Pensamento de segunda ordem

Quase todo mundo pode antecipar os resultados imediatos de suas ações. Esse tipo de pensamento de primeira ordem é fácil e seguro, mas também é uma maneira de garantir que você obtenha os mesmos resultados obtidos por todos. O pensamento de segunda ordem é pensar mais à frente e holisticamente. Isso requer que consideremos não apenas nossas ações e suas consequências imediatas, mas também os efeitos subsequentes dessas ações. Não considerar os efeitos de segunda e terceira ordem pode desencadear um desastre.

Fonte: General Thinking Tools: 9 Mental Models to Solve Difficult Problems. Disponível em: https://hackerfall.com/story/general-thinking-tools-mental-models-to-solve-diff Acesso em 13.06.19.

Uma história curiosa.

A história dos testes de “significância” envolve estatísticos que se desprezavam.  Tudo começou com um grupo de acadêmicos que se reuniu para o chá, em 1920. Uma delas foi a Dra. Blanche Bristol que, quando recebeu uma xícara de chá de um colega, recusou.  O homem colocava o chá e depois acrescentava o leite.  A Dra. Bristol rejeitou-o porque preferia que o leite fosse despejado primeiro no copo.  O Dr. Ronald Aylmer Fisher, que servira o chá, afirmou que ela não notaria a diferença.  Ela insistiu que podia.  O Dr. Fisher propôs um teste, que ele descreveu em seu livro The Design of Experiments. Ele prepararia oito xícaras de chá;  quatro com o chá derramado primeiro e quatro com o leite servido primeiro.  Ela tinha que adivinhar qual era qual.

Ele propôs a hipótese nula de que ela seria incapaz de fazer isso corretamente.  Fisher calculou que a chance de adivinhar todos os copos corretamente era de 1/70.  Ele estava disposto a reconhecer sua habilidade (rejeitando a hipótese nula) apenas nesse caso.  Ela, supostamente, acertou todos.  A hipótese nula foi rejeitada.  Este foi o começo do teste de significância.

Fonte: The Danger of Relying on “Statistical Significance”. By Andrew Grenville. June 3, 2019. Disponível em: https://marumatchbox.com/blog/danger-of-relying-on-statistical-significance/ Acesso em 3.06.19.

Nota: O artigo questiona o uso dos testes estatísticos na forma como têm sido aplicados nas pesquisas científicas. Vale a leitura.