Prevendo o futuro – Extrapolações

Gráfico de pontos extrapolado com reta

Extrapolação é o processo mais elementar para fazer previsões. Mas, apresenta uma falha básica. Presume que a tendência vai continuar, o que muitas vezes não é verdade. Extrapolações em escalas exponenciais são particularmente arriscadas (Nate, p. 213).

Observando o crescimento da participação feminina no mercado de trabalho no Paraná no período de 2009 a 2013 fiz uma projeção – de brincadeira – apresentada no Bom Dia RH de outubro de 2014, concluindo que em 2030 todos os postos de trabalho estariam tomados por mulheres. Embora contrariando o bom senso, os número indicavam isso.

A maioria dos economistas confia em seu julgamento quando faz previsões, ao invés de tomar apenas os resultados de modelos estatísticos (Nate, p. 198). Estudo feito nos Estados Unidos (ref. 62 do Nate. Capítulo 6) concluiu que isso resulta em previsões cerca de 15% mais acuradas. Mas, o julgamento pessoal também cria espaço para distorções derivadas – muitas vezes de forma inconsciente – de crenças, preconceitos e interesses pessoais.

Com o advento do big data, alguns autores (ref. 56 da p. 481 do Nate) acreditam que o volume de dados disponíveis permite previsões e conclusões que prescindem de um modelo teórico consistente. Infelizmente, isso não parece ser verdade. Até porque um modelo de causa e efeito permite agir com previsibilidade. Segundo Nate (p. 197), inferências estatísticas são muito mais fortes quando ancoradas na teoria.

Referências

  1. Bachmann & Associados. 6º Benchmarking Paranaense de RH. 2014. Curitiba. PR. “Em média, as mulheres já dominam (2012) 38,0% dos postos de trabalho. Caso o crescimento continuasse no mesmo ritmo dos útimos 4 anos, em 2036 não haverá mais empregos para homens”.
  2. Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (Inglês) Já disponível em português.

Falácias estatísticas exigem interpretação

Talheres, colocados na vertical, com alimentos saudeaveis espetados neles. Coisas como tomate.

Saiu na capa da CNN, segunda-feira 22.10.18: “Alimentos orgânicos reduzem o risco de câncer, diz estudo”.

Quem se der ao trabalho de pular a reportagem e ir direto para o estudo vai perceber que as amostras de populações com baixa frequência de câncer têm uma série de hábitos: elas fumam menos, bebem menos álcool, têm menos gordura no corpo, possuem maior renda média, maior nível educacional, fazem esportes regularmente e comem alimentos orgânicos.

Percebe a nuance?

Nada contra o alimento orgânico, mas ele não é a causa em si por trás da redução do risco de câncer. Ele é apenas um marcador das outras verdadeiras causas.

Por exemplo: se você ganha bem, você tem mais dinheiro sobrando para comprar os alimentos orgânicos, que são tipicamente mais caros; e você tem também dinheiro sobrando para se aposentar numa boa.

NOTA: Texto transcrito de e-mail da Empiricus (Rodolfo Amstalden) de 27.10.18.

Analisando dados

Funil com gráficos de linhas internamente

Ao analisar dados, devemos levar em conta os números mas, também, o contexto em que eles foram colhidos e as características dos processos e das pessoas que serão impactadas pelo resultado da análise. Devemos buscar uma visão abrangente, incluindo aspectos técnicos, humanos, políticos e, por vezes, até de clima. Um alerta sábio sobre os cuidados que devemos ter nas análises foi dado pelo general Donald Rumsfeld.

Existem conhecidos conhecidos. Estas são coisas que sabemos que sabemos.

Existem desconhecidos conhecidos. Ou seja, há coisas que sabemos que não sabemos.

Mas também há desconhecidos desconhecidos. Coisas que não sabemos que não sabemos.

Donald Rumsfeld

Um benefício caro mas importante

Gráfico de barras com a evolução dos custos de saúde nas empresas.

Evolução dos custos dos planos de saúde nas empresas, % da folha

O custo dos planos de saúde representa parcela importante da folha de pagamento das empresas. Levantamento da Mercer Marsh Beneficios [1] mostra que, ao longo dos anos, esse custo está crescendo rapidamente, dado que a “inflação” nos serviços de saúde é maior que a elevação de preços em geral.

Em tua empresa, qual é o indicador usado para monitorar esse importante custo? Anote nos comentários.

Fonte: 1 – Revista Melhor: gestão de pessoas. Dez. 2017. pp. 44-45.

Como as pessoas reagem aos números

Se um político pretende usar os números para explicar alguma coisa aos eleitores, diz Gary Base, cientista da Universidade do Kansas, deve mostrá-los em três formatos.

Por exemplo: se ele pretende conseguir verba para montar centros de tratamento de uma doença rara, deve dizer que essa doença atinge um a cada mil brasileiros – ou seja, atinge 185 mil brasileiros. Gary Base estuda como as pessoas compreendem os números: diz que, no geral, elas acham mais fácil compreender frequências (um a cada mil), grandes porcentagens (20% ou 60%) e números absolutos (185 mil).

Mas uma coisa é explicar, outra é persuadir. Se um político pretende persuadir os eleitores, deve mostrar só o número absoluto, especialmente se for grande, como 185 mil. As pessoas dão maior importância para 185 mil brasileiros do que para 0,1% dos brasileiros, embora o número seja o mesmo.

Ao contrário, se o político da oposição pretende dissuadir os eleitores, deve usar só a versão pequena do número – 0,1%. “As pessoas não entendem números assim de verdade”, diz Base. “O que elas entendem é: isso é muito, muito pouco.”

Fonte: Revista Informática Hoje ano 24 – Julho 2008, p. 6.

The Signal and the Noise – Resumo do livro

The signal and the Noise

Fazendo uso de exemplos fundamentados na política norte-americana, nos jogos de baseball, em projeções econômicas e na probabilidade de ocorrências de terremotos, o autor apresenta os aspectos mais importantes no trabalho de previsão de resultados.

Enquanto as eleições americanas são tema de conhecimento comum, as muitas considerações sobre beisebol – esporte pouco conhecido entre nós – podem ser enfadonhas; o capítulo sobre a bolha do pôquer foi, ao menos para mim, intragável.

Ainda assim, para os curiosos sobre o tema da análise e interpretação de dados, é um livro instigante e interessante. Mas, o foco do autor está nas muitas histórias interessantes e pouco contribui com ferramental para separar os sinais dos ruídos, como por exemplo o Controle Estatístico de Processos CEP, ferramenta apenas citada no texto.

Algumas observações selecionadas:

A verdadeira era da informação começou em 1440, com a invenção da imprensa por Johannes Guttemberg. Antes, uma página de livro manuscrito custava cerca de 20 dólares, limitando o acesso ao conhecimento.

É importante lembrar que os modelos são simplificações da realidade e devem ser usados com cuidado.

Um sinal é uma indicação de uma verdade subjacente por trás de uma estatística ou problema preditivo, enquanto ruídos são padrões aleatórios que podem facilmente ser confundidos com sinais. O sinal é a verdade. O ruído é o que nos distrai da verdade.

O objetivo de qualquer modelo de predição é capturar tantos sinais quanto possível e tão poucos ruídos quanto puder. Armstrong argumenta que “quanto mais complexo o modelo, piores são as previsões”. É uma frase bonita que faria sucesso nas redes sociais, mas que deve ser encarada com algum ressalva.

Na estatística, a confusão de tomar ruídos como sinais é denominada overfitting. Modelos puramente estatísticos, com grande número de variáveis e uma pequena quantidade de eventos para sua validação, geralmente levam ao risco de overfitting. Esse risco é consideravelmente menor quando se usa modelos físicos de causa e efeito.

Segundo o autor, o caminho para maior objetividade é reconhecer a influência que nossas premissas têm em nossas previsões.

A estatística tem sido parte dos esportes desde há muito tempo. O primeiro conjunto de informações – com cinco informações sobre cada jogador – foi publicado em jornal por Henry Chadwick em 1859.

Nosso instinto é categorizar as informações, geralmente em um pequeno número de categorias, pois isso facilita o entendimento.

A inspeção visual de um gráfico que mostra a interação entre duas variáveis geralmente é um caminho mais rápido e confiável para identificar outliers nos dados do que um teste estatístico.

Predizer o passado é um oximoro e obviamente não pode ser contado entre os sucessos.

A estatística é uma das habilidades fundamentais necessárias à ciência dos dados.

Uma previsão científica exige um resultado probabilístico, ou seja, nas previsões é importante informar também a incerteza. Coisa comum nas pesquisas eleitorais, porém rara nos resultados de outras previsões. Laplace via a probabilidade como um meio caminho entre a ignorância e o conhecimento.

A heurística do “acompanhe a maioria, especialmente quando não sabe nada melhor” normalmente funciona bem.

Consenso não é sinônimo de unanimidade, mas um grande acordo obtido após um processo de deliberação. É, portanto, uma alternativa à votação.

Informação só se transforma em conhecimento quando colocada em um contexto.

Fonte:

Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (Inglês)

Nota: Já está disponível em português.

A estatística é poderosa e… perigosa.

Como as análises são probabilísticas, um pouco de persistência geralmente permite “validar” qualquer hipótese.
Um exemplo divertido, mas que merece reflexão, é apresentado por Steve Brooks [1] no cartoon que ilustra este post. Vale a leitura.

Referência:

  1. Brooks, Steve.Breaking News: 1 in 20 Statistical Tests Are Wrong! Disponivel em https://select-statistics.co.uk/blog/breaking-news-1-in-20-statistical-tests-are-wrong Acesso em 23.03.18.

Métricas de RH

Medidas

Como todos os gestores, os responsáveis pelas áreas de recursos humanos das organizações precisam balizar e avaliar suas ações por meio de indicadores. Mas, diferentemente de muitos outros, os gestores de RH precisam conviver com dois tipos de métricas.

Os indicadores que medem aspectos objetivos, como rotatividade, tempo de treinamento por empregado, etc. e os que avaliam aspectos intangíveis, como clima organizacional e nível de engajamento, entre outros. Isto porque as métricas objetivas, embora mais fáceis de obter e mais confiáveis em seus resultados, não são suficientes para a gestão de pessoas.

De modo geral, as medidas de parâmetros intangíveis são obtidas por meio de pesquisas e expressam o “sentimento” das pessoas. Nessas pesquisas, geralmente o empregado aponta seu grau de concordância ou discordância com uma afirmação apresentada, como no exemplo:

Afirmação: “Minha remuneração é justa.”

Discordo completamente

Discordo com ressalvas

Não concordo nem discordo

Concordo com ressalvas

Concordo completamente

1

2

3

4

5

Os resultados numéricos (percentuais de respostas nos grupos 1 e 2, grupo 3 e grupos 4 e 5) descrevem o sentimento da equipe em relação ao aspecto avaliado.

Este tipo de métrica é particularmente útil para avaliar as mudanças de percepção ao longo do tempo, comparando resultados obtidos em diferentes épocas e após diferentes ações de gestão.

Médias versus extremos

No uso da média temos que ficar atentos a duas situações. Na primeira, um valor atípico (outlier) distorce a média, induzindo a erros de interpretação.

No segundo, o número ou os números extremos são mais interessantes ou úteis que a média em si.

O uso da média, ou ainda melhor, da mediana nas análises tem a vantagem de eliminar o efeito de números extremos que, geralmente, estão associados às excepcionalidades ou mesmo aos erros. Entretanto, há casos em que os valores extremos podem ser mais úteis e relevantes para a gestão, como demonstra o depoimento de Guilherme Lessa, Diretor de TI do Banco Matone [1]:

“Antes a equipe de TI só considerava a média das notas que recebia dos usuários; hoje, considera os extremos. Se alguma nota está abaixo de seis ou sete, significa que a TI está fazendo algo errado, então alguém liga para a pessoa que deu a nota abaixo da média para descobrir o que aconteceu”.

Referência: 1. Revista Informática Hoje. Nº 629. 2010, p. 7.

Analisando dados – Uma questão de percepção

As empresas têm um impressionante volume de dados colhidos pelas pessoas ou gerados por sistemas. Esses dados, que nos permitem avaliar como estão o negócio e os processos sob nossa responsabilidade, frequentemente são apresentadas na forma de tabelas, como a exemplificada adiante.

Tabela I – Valores relacionados

x 10.0 8.0 13.0 9.0 11.0 14.0 6.0 4.0 12.0 7.0 5.0
y 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73

Nossa tendência é observar tais tabelas e concluir a situação e a tendência dos processos de forma mais ou menos intuitiva. Mas, a realidade é que – como seres humanos – somos muito ruins para interpretar números mostrados em tabelas. Mesmo fazendo uso de ferramentas estatísticas básicas, como média, desvio padrão, etc., estamos sujeitos a graves falhas na interpretação de dados numéricos. Essa realidade foi muito bem demonstrada por Anscombe [1]. Ele criou a seguinte tabela, conhecida como Quarteto de Anscombe.

Tabela II – Quarteto de Anscombe

I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
Fonte: Wikipedia. https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Curiosamente, as estatísticas calculadas para cada uma das quatro colunas com pares de valores é muito parecida, como segue [2].

Propriedade Valor
Média de x 9 (exato)
Variância de x 11 (exato)
Média de y 7,50 (em até duas casas decimais)
Variância de y 4,125 (+0,003)
Correlação entre x e y 0,816 (em até 3 casas decimais)
Linha de regressão linear em cada caso y=3,00+0,500x (em até 2 e 3 casas decimais, respectivamente)
Coeficiente de determinação da regressão linear 0,67 (em até duas casas decimais)
Fonte: Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O surpreendente é que se esses dados forem apresentados graficamente, percebemos que são muito diferentes, o que levaria a interpretações distintas.

Fonte: By Anscombe.svg: SchutzDerivative works of this file:(label using subscripts): Avenue - Anscombe.svg, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=9838454

É fácil concluir, então, que a forma mais segura de interpretar séries numéricas – o elemento mais comum na gestão de processos – é por meio de gráficos. A riqueza da visualização gráfica permite identificar tendências, outliers e variações com grande precisão, resultando em análises mais consistentes e decisões mais sólidas e confiáveis.

Curiosidade

Conheça também o Datasaurus, uma experiência divertida que mostra vários gráficos (www.autodeskresearch.com/publications/samestats), inclusive a figura de um dinossauro, feitos com conjuntos de dados que têm as mesmas estatísticas.

Referências:

  1. F. J. Anscombe, F. J. Graphs in Statistical Analysis. The American Statistician. Vol. 27, No. 1 (Feb., 1973), pp. 17-21. Disponível em:http://wpage.unina.it/francesco.caracciolo/micro/1/anscombe.pdf Acesso em 30 Out. 2017.
  1. Wikipedia. Disponível em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.