Média geométrica – Você sabe quando usar?

A média geométrica é uma medida de tendência central usada para calcular a média de valores multiplicativos ou proporcionais, sendo especialmente útil quando os dados são percentuais, taxas de crescimento, índices ou razões.

Definição formal

A média geométrica de n números positivos x1,x2,…,xn​ é a raiz enésima do produto de todos os valores.

Média geométrica = (X1 x X2 x X3 … Xn)1/n

Ela é útil em situações em que os valores a serem agregados possuem escalas diferentes, crescimento proporcional ou quando se deseja evitar que valores extremos tenham impacto desproporcional no resultado.

Um bom exemplo é o Índice de Desenvolvimento Humano (IDH). O indicador utiliza a média geométrica, em vez da média aritmética, para equilibrar os três componentes (saúde, educação e renda) e garantir que um único aspecto muito alto não compense um muito baixo:

IDH = (Índice de Saúde × Índice de Educação × Índice de Renda)1/3

Situações em que a média geométrica é mais apropriada que a aritmética.

1. Proporcionalidade e equilíbrio

No IDH, se um país tem excelente desempenho em saúde e renda, mas um indicador ruim em educação, a média aritmética poderia inflar artificialmente o resultado. A média geométrica enfatiza o equilíbrio entre os fatores e reduz esse efeito. Exemplo:

Se um país tem os seguintes indicadores normalizados de IDH:

  • Saúde = 0,8
  • Educação = 0,5
  • Renda = 0,9

Média aritmética = (0,8 + 0,5 + 0,9) / 3 = 0,73

Média geométrica = (0,8 x 0,5 x 0,9)1/3 = 0,71

Enquanto a média aritmética permite que um valor elevado em uma dimensão compense integralmente um valor baixo em outra, a média geométrica permite apenas compensação parcial. Assim, um desempenho muito baixo em uma dimensão reduz fortemente o resultado final, mesmo se as demais forem altas.

No exemplo, o IDH ficou em 0,71. Caso o cálculo utilizasse a média aritmética, o resultado seria mais elevado (0,73) e, portanto, menos sensível ao baixo resultado na dimensão “educação”.

2. Retornos decrescentes

A média geométrica é menos influenciada por um acréscimo em um valor elevado do que pelo mesmo acréscimo em um valor mais baixo. Assim, quando um indicador já está em nível elevado, o mesmo aumento absoluto contribui menos para o índice composto do que se esse indicador estivesse em um nível mais baixo, como exemplificado a seguir:

Situação 1

Os três indicadores normalizados de um país (saúde, educação e renda) são iguais a 0,80.

Média geométrica: (0,80 x 0,80 x 0,80)1/3= 0,800

Situação 2

Aumento de 0,10 em um dos indicadores.

Média geométrica: (0,90 x 0,80 x 0,80)1/3= 0,8326

            Variação no índice = 0,033

Situação 3

Aumento de 0,10 no indicador que já é o mais elevado.

Média geométrica: (1,00 x 0,80 x 0,80)1/3= 0,8590

            Variação no índice = 0,0264

Da situação 1 para a 2 houve um ganho de aproximadamente 0,0326, e da situação 2 para a 3 o ganho foi de cerca de 0,0264, mostrando que, embora o acréscimo tenha sido o mesmo (0,10), o segundo aumento (em um valor já mais alto) resultou em um ganho menor na média geométrica. Esse comportamento ilustra a propriedade de retornos decrescentes e ajuda a evitar que desempenhos muito altos em uma dimensão ocultem deficiências em outras.

3. Taxas de crescimento

Ao calcular crescimentos percentuais (inflação, taxa de juros, crescimento populacional etc.), a média geométrica é mais precisa, pois preserva a multiplicação sucessiva dos valores ao longo do tempo. Exemplo:

Se um investimento cresce 10% em um ano e 20% no seguinte, a taxa média de crescimento é mais bem estimada com a média geométrica do que com a aritmética.

Um investimento de 100 cresce 10% no primeiro ano, passando a 110 (fator de crescimento: 1,10). No segundo ano, cresce 20%, passando a 132 (fator: 1,20).

Média geométrica = (1,1 x 1,2)1/2 = 1,1489

Essa média corresponde a uma taxa composta anual de aproximadamente 14,89%, mais precisa do que a média aritmética de 15%, que ignora o efeito acumulado, como mostra a comparação:

100 x 1,10 x 1,20 = 132

Usando a média aritmética das taxas anuais:

Média aritmética = (10 + 20) / 2 = 15 ou, 1,15 na forma decimal

100 x 1,152 = 132,25, uma diferença de 0,25, ou de 0,19%.

Usando a média geométrica:

Média geométrica = (1,10 x 1,20)1/2 = 1,1489

100 x 1,14892 = 131,9971

Resultado mais próximo do valor real (132). E essa diferença aumenta à medida que o número de períodos cresce.

Resumo

A decisão de usar a média geométrica deve considerar as seguintes propriedades matemáticas:

  1. Sensibilidade a extremos: valores muito baixos puxam o índice composto para baixo, destacando áreas críticas. O mesmo acontece para valores muitos elevados.
  2. Retornos decrescentes: a média geométrica incorpora a ideia de que avanços adicionais em um indicador de alta performance trazem retornos menores.
  3. Escala proporcional: um crescimento percentual similar em qualquer dimensão gera o mesmo impacto percentual no resultado.

POST251223 de dez/25

Os verdadeiros estatísticos sempre cantam seus resultados antecipadamente

Desenho de dois círculos com bolinhas coloridas. Um maior, representando a população e outro menor, representando uma amostra do primeiro, e uma flecha do primeiro para o segundo.

“Sempre que os charlatães encontram um padrão, inspiram-se e testam os mesmos dados para esse mesmo padrão para publicar o resultado com um valor p ou dois, legitimadores, ao lado de sua teoria. Eles estão mentindo para você (e talvez também para eles mesmos).

Esse valor-p não tem significado, a menos que você tenha se comprometido com sua hipótese ANTES de analisar seus dados.

Felizmente, se você tiver muitos dados, terá uma bela oportunidade de aproveitar análises e estatísticas sem trapacear. Você também tem a proteção perfeita contra charlatães. É a chamada divisão de dados e, na minha opinião, a ideia mais poderosa em ciência de dados.” — Cassie Kozyrkov

Crédito: Texto da Cassie Kozyrkov em: https://towardsdatascience.com/how-to-spot-a-data-charlatan-85785c991433

Post 220922 de mai/25

Benchmarking de Custos de Manutenção na Fabricação de Celulose

O relatório Análise Comparativa do Custo de Manutenção de Fábricas de Celulose 2007, produzido pela Bachmann & Associados, em parceria com a Associação Brasileira Técnica de Celulose e Papel – ABTCP,  mostrou que o principal componente do custo de manutenção é a contratação de serviços de terceiros (46% do custo total), seguido pelo custo de materiais (31,5%) e, finalmente, pelo custo de pessoal próprio (22,5%). O estudo contou com os dados de 8 fabricantes nacionais de celulose.

Um novo levantamento será realizado no início de 2011. Para participar, envie um e-mail para indicadoresabtcp@bachmann.com.br

Post de fev/11 ajustado em set/23

Média versus Mediana

Imagem pelo autor

A mediana corresponde a observação do meio de um conjunto ordenado de dados, de forma que exista um número igual de observações maiores e menores que ela. Como consequência, não é afetada por dados excepcionalmente altos ou baixos.

A média aritmética, usualmente chamada apenas de “média”, por outro lado, soma todos os pontos de dados e divide pelo número de pontos de dados para determinar o valor “normal”.  Assim, a média pode ser bastante influenciada por poucos dados excepcionalmente altos ou baixos.

Veja a diferença se, por exemplo, você tiver 100 resultados, onde 97 deles são 100 e os três últimos valores são 1.000,  10.000 e 100.000,  que seriam dados extremos:

 ● Mediana = 100

 ● Média aritmética = 1.207

Essa é uma discrepância bastante grande entre as duas estatísticas que indicam o ponto central dos dados. Então, devemos ser cuidadosos na escolha para a análise e publicação de dados.

Em resumo

A vantagem, em relação à média, é que a mediana geralmente representa melhor o valor típico da amostra, pois não é distorcida por valores extremamente altos ou baixos. Portanto, nas comparações, de modo geral é melhor usar a mediana. Entretanto, o ideal é que a decisão seja tomada depois de observar a distribuição dos dados.

Nota: Quando um texto em inglês usa o termo “average”, pode estar se referindo à média, à mediana ou à moda, três conceitos de valor central bastante diferente. É preciso cuidado. – Darrel Huff

Post de jul/20, atualizado em mar/22.

Curva de distribuição normal

A distribuição normal, também chamada distribuição gaussiana ou de Gauss, é uma das distribuições de probabilidade mais usadas para modelar fenômenos naturais. Isso porque grande número de fenômenos apresenta uma distribuição de probabilidade bem próxima da normal.

As distribuições normais têm as seguintes características:

  • Forma simétrica de sino.
  • Média e mediana iguais; ambas localizadas no centro da distribuição.
  • Aproximadamente 68% dos dados estão dentro de um desvio-padrão da média.
  • Aproximadamente 95% dos dados estão dentro de 2 desvios-padrão da média.
  • Aproximadamente 99,7% dos dados estão dentro de 3 desvios-padrão da média.

Saiba mais em: https://pt.khanacademy.org/math/statistics-probability/modeling-distributions-of-data/normal-distributions-library/a/normal-distributions-review

Post de jul/20 atualizado em mar/22.

Controle Estatístico de Processos – O nome impressiona, mas é simples e útil

Quando os resultados pioram, seja o PIB, seja a inflação, a tendência dos governos é de colocar a culpa no ambiente externo, no clima ou na crise mundial. Na verdade, não só os governos se comportam assim. Isso faz parte da natureza humana.
E, pior, muitas vezes procuramos responsáveis por resultados que não foram verdadeiramente melhores ou piores que no período anterior.

O que é o CEP

Do mesmo modo que há pequenas variações no sabor dos bolos ou churrascos, ainda que preparados pela mesma pessoa, todos os processos têm alguma variação natural e inerente.

Então, se o resultado de um indicador é um pouco melhor ou pior que no momento anterior, isso não indica, necessariamente, que o processo melhorou ou piorou.

Explicando: os processos têm uma variação natural, portanto, mesmo processos estáveis apresentam variações para mais e para menos em uma determinada faixa, ainda que não haja qualquer ação ou efeito externo.
Apenas resultados superiores ou inferiores a essa faixa normal de variação merecem ser analisados para identificar a causa da mudança.

Mas, muitas vezes, levados por resultados que estão dentro da faixa normal de variação, tendemos a atuar de forma indevida no processo, provocando sua piora ou o desperdício de recursos.

A dificuldade do gestor é distinguir o que é uma variação normal, que deve ser ignorada,  de uma  mudança real que exige a correção do processo.

Embora esses sinais às vezes sejam facilmente percebidos, como quando ocorre um erro humano ou uma alteração nas características da matéria prima, na maioria dos casos não é evidente. Por exemplo, as decorrentes de desgaste de equipamentos ou da substituição de pessoas sem o treinamento adequado, em que o desempenho do processo ou as características dos produtos pioram paulatinamente.

Uma técnica eficaz para distinguir os ruídos dos sinais que indicam problemas é o uso do Controle Estatístico de Processo (CEP).

Essa abordagem, mais científica, pode trazer grandes ganhos às organizações.

Quando alguém com cerca de 72 kg deseja controlar seu peso e sobe na balança todo dia, no mesmo horário, pode observar medidas como as da tabela adiante.

Momento Dia 1 Dia 2 Dia 3 Dia 4 Dia 5 Dia 6
Peso, kg 72,3 72,5 72,1 71,8 72,3 71,9

Ao pesar 72,5 kg, a pessoa não decidiria iniciar imediatamente uma dieta. Ela sabe que pequenas variações são normais e não representam descontrole no peso.

Entretanto essa mesma pessoa, ao observar o indicador mensal de rotatividade em sua empresa – com números similares – sente-se na obrigação de “tomar uma ação” se o resultado do indicador se elevou um pouco.

Por quê isso acontece? Porque com seu peso ela já tem sensibilidade sobre quais variações podem ser consideradas normais, mas o mesmo não acontece na medida do absenteísmo.

Essas variações naturais, típicas de um processo ou sistema, são denominadas de ruídos. Portanto, são diferentes de valores que sinalizam algum tipo de problema; no exemplo, um aumento ou uma diminuição do peso que pudesse justificar uma dieta ou atenção médica.

Carta de Controle – CEP

A carta de controle é um gráfico constituído por uma linha horizontal, central, que representa a média dos valores medidos de uma característica. Acima e abaixo, simetricamente a linha central, são colocados duas linhas que, de forma calculada, delimitam os valores considerados normais, de acordo com uma probabilidade de ocorrência. Os valores que ocorrem em tomo da média, dentro dos limites, superior e inferior, tem variações aleatórias produzidas por múltiplas causas, variações essas que somente poderão ser reduzidas se o processo for modificado (Variação Crônica). Valores fora dos limites mostram que houve uma causa preponderante para as suas ocorrências, que pode ser descoberta e corrigida (Variação Esporádica).

Lembram do livro “Alice no País das Maravilhas”?  a menina tomava o líquido de um vidrinho e crescia; tomava de outro e diminuía. Voltava a tomar do primeiro e crescia novamente. Nós não vivemos em um mundo mágico. Vivemos em um mundo regido pela estatística. Então, quando temos variações de crescimento e redução em uma série de dados, temos duas situações: os dados não foram bem colhidos e temos um problema de representatividade ou as variações são pequenos para cima e para baixo indicando que se trata de um processo estável e sob controle.

Referências

1. Campos, Vicente Falconi, TQC Controle da Qualidade Total: no estilo japonês, Belo Horizonte, Editora de Desenvolvimento Gerencial, 1999.

2. Wheeler, Donald J. Understanding Variation: The key to managing chaos. SPC Press, Inc. Tenesse. 1993.

3. Siqueira, Luiz G. P. Controle Estatí­stico do Processo. Pioneira. São Paulo. 1997.

Serviço: A Bachmann & Associados oferece serviço de consultoria, ajudando sua equipe a construir e usar Gráficos de Controle (CEP) de modo fácil e prático.

Uma estratégia inteligente

Usualmente buscamos melhorar o resultado médio de um indicador importante para a organização ou para o processo do qual somos responsáveis. Essa pode não ser, entretanto, a forma mais eficaz de conseguir melhorias.

As melhorias conseguidas com esse foco geralmente são temporárias e pouco significativas. Alguns autores [1, 2] defendem, com bons argumentos, que a verdadeira melhoria é conseguida quando trabalhamos para reduzir a variabilidade. Isso porque essa ação exige um conhecimento mais profundo dos processos.

Essa abordagem depende de uma análise mais sofisticada, pois não basta calcular a média aritmética dos resultados obtidos em determinado período. Embora a variabilidade possa ser medida pela diferença (range) entre o maior valor e o menor valor no período, o ideal é uma análise gráfica dos resultados ao longo do tempo. A melhor ferramenta para essa análise é o gráfico XmR.

Referências

  1. Barr, Stacey. How to Meaningfully Measure On-Time Delivery of Anything Disponível em https://www.staceybarr.com/measure-up/how-to-meaningfully-measure-on-time-delivery-of-anything/ Acesso em 19.06.18.
  2. Wheeler, Donald. Understanding Variation:The Key to Managing Chaos. SPC Press, Inc. 1993.

Post de 8.01.19 atualizado em 26.07.23,

Os números são os mesmos, mas…

Imagem de Gerd Altmann por Pixabay 

Diferentes formas de mostrar a mesma coisa, mas com diferentes impactos

A forma como os dados são apresentados é relevante para que haja entendimento e uma correta interpretação da realidade. Esse aspecto se aplica tanto às notícias quanto às informações empresariais e, nos dois casos, pode levar à diferentes conclusões, influenciando as decisões tomadas. Assim, o analista tem muita responsabilidade ao escolher o indicador ou a abordagem que será usada na publicação dos resultados.

Vejamos o seguinte texto, extraído do Balanço Social da Petros de 2009 [1]: “Ao final de 2009 havia 129 empregados negros e pardos na Fundação. Em comparação com o ano anterior, quando a Petros registrou um total de 108 empregados negros e pardos, o aumento foi de 17,6%”.

Mostrado dessa forma, a instituição parece ter dado um grande passo para a diversidade de sua equipe. Mas, como o corpo funcional da Fundação Petros cresceu de 431 em 2008 para 469 em 2009, o percentual de empregados negros e pardos cresceu de 25,0% para 27,5%, o que representa um acréscimo de 2,5 pontos percentuais no período.

Nos dois casos a informação é a mesma, mas a forma de apresentar e o impacto são diferentes. Em sua opinião, qual é a forma mais apropriada e ética de mostrar a evolução ocorrida?

Referência:

1. Petros, Relatório Anual de Responsabilidade Social Empresarial 2009: Balanço Social. Rio de Janeiro. 2010. p. 58

Post de abril/18, atualizado em jul/22.

Qualidade dos dados. Isso é um problema?

Imagem por Tumisu em Pixabay 

A qualidade dos dados refere-se à sua capacidade de atender à finalidade pretendida. Você pode estar usando o indicador certo, mas se os dados para o cálculo estiverem errados, tuas decisões também serão erradas.

A qualidade — o grau em que os dados são adequados para uso — é julgada no momento do uso. Se atender às necessidades naquele momento, pode ser considerado “de qualidade”.

A qualidade dos indicadores e sua capacidade de contribuir para a gestão depende dos dados usados nos cálculos. Infelizmente, a experiência mostra que é comum que tais dados não sejam adequados. As principais razões são:

  • Erros por falta de padronização na coleta ou falha de entendimento sobre o que se deseja.
  • Mudança não informada na forma da coleta, para simplificar o processo.
  • Dados colhidos sem cuidado ou responsabilidade, como muitas vezes é feito na apropriação de tempo das pessoas em que qualquer soma que resulte em 40 horas por semana parece aceitável.
  • Erros na transcrição dos dados.
  • Dados manipulados para melhorar os resultados ou esconder algum resultado ruim.

O hábito de dar uma “melhorada” nos dados para que resultados ruins não cheguem aos superiores ou ao público é, infelizmente, bastante comum.

Essa prática, delicadamente chamada de “massagear os dados”, leva a situações como a de Detroit, nos Estados Unidos. A cidade acabou acusada de camuflar a quantidade de mortes porque não queria ser conhecida como a “capital norte-americana dos homicídios”. Após análise, os críticos concluíram que Detroit adotava um critério diferente das demais grandes cidades americanas para contar os assassinatos. Eles escaparam do rótulo, mas os funcionários foram atacados pela mídia [1].

Lee Schwartz, especialista em indicadores, conta um caso em que os produtos que não podiam ser entregues no prazo eram negociados com os clientes e se eles concordavam com a mudança de data, eram computados como “Entregues no Prazo (“On Time Delivery“) [2].

As organizações devem abordar de frente a qualidade dos dados, implementar políticas, criar estruturas organizacionais e promover cultura na qual [3]:

  • Os criadores de dados criam dados corretamente, pela primeira vez, com total entendimento do que isso significa para os clientes, aqueles que usam os dados que eles criam.
  • Os clientes de dados devem comunicar seus requisitos de dados às fontes de dados e fornecer feedback quando os dados estiverem errados.
  • Praticamente todos reconhecem que são ao mesmo tempo criadores e clientes de dados.

Antes de usar um conjunto de resultados no cálculo de indicadores é necessário efetuar uma “limpeza” na amostra. Essa atividade, que inclui identificar e, se for o caso, excluir outliers, buscar valores faltantes e esclarecer anomalias, é frequentemente ignorada, com péssimos efeitos para a gestão e para a credibilidade dos responsáveis.

Portanto, para uma gestão eficaz, os dados devem ser adequados, válidos e confiáveis. Parte da solução do problema é adotar uma cultura na qual os resultados dos indicadores são usados como aprendizado para a melhoria dos processos e não para premiar ou penalizar as pessoas.

        Apenas informações confiáveis permitem conclusões confiáveis. Daí a importância da qualidade dos dados.

Os indicadores em tua organização oferecem referência adequada para responder as perguntas associadas à gestão? Qual é o maior problema encontrado?

Referências

1. Is Your Data Cheating on You? Disponível em: www.domo.com/learn/executive-brief-is-your-data-cheating-on-you Acesso em 10.10.16

2. It’s All in the numbers – KPI Best Practices. Disponível em:https://www.industryweek.com/operations/continuous-improvement/article/22008174/its-all-in-the-numbers-kpi-best-practices Acesso em 13.12.22.

3. Redman, Thomas C. Break the Bad Data Habit. Harvard Business Review. May 30, 2012. Disponível em https://hbr.org/2012/05/break-the-bad-data-habit Acesso em 17.4.24

Saiba mais

Números significativos / Arredondamento de números / Caracterizando a qualidade dos dados

POST170321 de mar/17 atualizado em abr/24

Boas Práticas no Uso de Números

Desenho de uma tela de notebook com gráficos sobre um fundo cinza com imagens de outros gráficos.
Imagem de Oberholster Venita por Pixabay

A Associação Americana de Estatística apresentou, em junho de 2016, orientações para transformar a estatística em uma ciência e não um conjunto de ferramentas. Convencidos que um melhor uso dos dados irá melhorar a pesquisa e a inovação, seis estatísticos de prestígio publicaram as Dez Regras para a Prática Efetiva da Estatística:

  1. Os métodos estatísticos devem permitir que os dados sejam usados para responder questões científicas.
  2. Sinais sempre vêm com ruídos.
  3. Planeje pensando à frente, bastante à frente.
  4. Preocupe-se com a qualidade dos dados.
  5. Análise estatística é mais que um conjunto de cálculos.
  6. Mantenha a simplicidade.
  7. Forneça avaliação da variabilidade.
  8. Verifique suas premissas.
  9. Quando possível, replique.
  10. Faça sua análise reproduzível.

Fonte: PUBLIC RELEASE: 23-JUN-2016. Leading statisticians establish steps to convey statistics a science not a toolbox. Disponível em http://www.eurekalert.org/pub_releases/2016-06/asa-lse062316. Agora indisponível.

Os números não mentem. Mas mentem muitos que usam os números.

Post de out/16 atualizado em mar/24.