Prevendo o futuro – ExtrapolaÃ§Ãµes

Publicado em 12 de março de 2019 por Dorian Bachmann

GrÃ¡fico de pontos extrapolado com reta

ExtrapolaÃ§Ã£o Ã© o processo mais elementar para fazer previsÃµes. Mas, apresenta uma falha bÃ¡sica. Presume que a tendÃªncia vai continuar, o que muitas vezes nÃ£o Ã© verdade. ExtrapolaÃ§Ãµes em escalas exponenciais sÃ£o particularmente arriscadas (Nate, p. 213).

Observando o crescimento da participaÃ§Ã£o feminina no mercado de trabalho no ParanÃ¡ no perÃodo de 2009 a 2013 fiz uma projeÃ§Ã£o – de brincadeira – apresentada no Bom Dia RH de outubro de 2014, concluindo que em 2030 todos os postos de trabalho estariam tomados por mulheres. Embora contrariando o bom senso, os nÃºmero indicavam isso.

A maioria dos economistas confia em seu julgamento quando faz previsÃµes, ao invÃ©s de tomar apenas os resultados de modelos estatÃsticos (Nate, p. 198). Estudo feito nos Estados Unidos (ref. 62 do Nate. CapÃtulo 6) concluiu que isso resulta em previsÃµes cerca de 15% mais acuradas. Mas, o julgamento pessoal tambÃ©m cria espaÃ§o para distorÃ§Ãµes derivadas – muitas vezes de forma inconsciente – de crenÃ§as, preconceitos e interesses pessoais.

Com o advento do big data, alguns autores (ref. 56 da p. 481 do Nate) acreditam que o volume de dados disponÃveis permite previsÃµes e conclusÃµes que prescindem de um modelo teÃ³rico consistente. Infelizmente, isso nÃ£o parece ser verdade. AtÃ© porque um modelo de causa e efeito permite agir com previsibilidade. Segundo Nate (p. 197), inferÃªncias estatÃsticas sÃ£o muito mais fortes quando ancoradas na teoria.

ReferÃªncias

Bachmann & Associados. 6Âº Benchmarking Paranaense de RH. 2014. Curitiba. PR. â€œEm mÃ©dia, as mulheres jÃ¡ dominam (2012) 38,0% dos postos de trabalho. Caso o crescimento continuasse no mesmo ritmo dos Ãºtimos 4 anos, em 2036 nÃ£o haverÃ¡ mais empregos para homensâ€.
Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (InglÃªs) JÃ¡ disponÃvel em portuguÃªs.

FalÃ¡cias estatÃsticas exigem interpretaÃ§Ã£o

Publicado em 19 de dezembro de 2018 por Dorian Bachmann

Responder

Talheres, colocados na vertical, com alimentos saudeaveis espetados neles. Coisas como tomate.

Saiu na capa da CNN, segunda-feira 22.10.18: â€œAlimentos orgÃ¢nicos reduzem o risco de cÃ¢ncer, diz estudoâ€.

Quem se der ao trabalho de pular a reportagem e ir direto para o estudo vai perceber que as amostras de populaÃ§Ãµes com baixa frequÃªncia de cÃ¢ncer tÃªm uma sÃ©rie de hÃ¡bitos: elas fumam menos, bebem menos Ã¡lcool, tÃªm menos gordura no corpo, possuem maior renda mÃ©dia, maior nÃvel educacional, fazem esportes regularmente e comem alimentos orgÃ¢nicos.

Percebe a nuance?

Nada contra o alimento orgÃ¢nico, mas ele nÃ£o Ã© a causa em si por trÃ¡s da reduÃ§Ã£o do risco de cÃ¢ncer. Ele Ã© apenas um marcador das outras verdadeiras causas.

Por exemplo: se vocÃª ganha bem, vocÃª tem mais dinheiro sobrando para comprar os alimentos orgÃ¢nicos, que sÃ£o tipicamente mais caros; e vocÃª tem tambÃ©m dinheiro sobrando para se aposentar numa boa.

NOTA: Texto transcrito de e-mail da Empiricus (Rodolfo Amstalden) de 27.10.18.

Analisando dados

Publicado em 8 de novembro de 2018 por Dorian Bachmann

Responder

Funil com grÃ¡ficos de linhas internamente

Ao analisar dados, devemos levar em conta os nÃºmeros mas, tambÃ©m, o contexto em que eles foram colhidos e as caracterÃsticas dos processos e das pessoas que serÃ£o impactadas pelo resultado da anÃ¡lise. Devemos buscar uma visÃ£o abrangente, incluindo aspectos tÃ©cnicos, humanos, polÃticos e, por vezes, atÃ© de clima. Um alerta sÃ¡bio sobre os cuidados que devemos ter nas anÃ¡lises foi dado pelo general Donald Rumsfeld.

Existem conhecidos conhecidos. Estas sÃ£o coisas que sabemos que sabemos.

Existem desconhecidos conhecidos. Ou seja, hÃ¡ coisas que sabemos que nÃ£o sabemos.

Mas tambÃ©m hÃ¡ desconhecidos desconhecidos. Coisas que nÃ£o sabemos que nÃ£o sabemos.

Donald Rumsfeld

Um benefÃcio caro mas importante

Publicado em 5 de julho de 2018 por Dorian Bachmann

Responder

GrÃ¡fico de barras com a evoluÃ§Ã£o dos custos de saÃºde nas empresas.

EvoluÃ§Ã£o dos custos dos planos de saÃºde nas empresas, % da folha

O custo dos planos de saÃºde representa parcela importante da folha de pagamento das empresas. Levantamento da Mercer Marsh Beneficios [1] mostra que, ao longo dos anos, esse custo estÃ¡ crescendo rapidamente, dado que a “inflaÃ§Ã£o” nos serviÃ§os de saÃºde Ã© maior que a elevaÃ§Ã£o de preÃ§os em geral.

Em tua empresa, qual Ã© o indicador usado para monitorar esse importante custo? Anote nos comentÃ¡rios.

Fonte: 1 – Revista Melhor: gestÃ£o de pessoas. Dez. 2017. pp. 44-45.

Como as pessoas reagem aos nÃºmeros

Publicado em 26 de junho de 2018 por Dorian Bachmann

Responder

Se um polÃtico pretende usar os nÃºmeros para explicar alguma coisa aos eleitores, diz Gary Base, cientista da Universidade do Kansas, deve mostrÃ¡-los em trÃªs formatos.

Por exemplo: se ele pretende conseguir verba para montar centros de tratamento de uma doenÃ§a rara, deve dizer que essa doenÃ§a atinge um a cada mil brasileiros â€“ ou seja, atinge 185 mil brasileiros. Gary Base estuda como as pessoas compreendem os nÃºmeros: diz que, no geral, elas acham mais fÃ¡cil compreender frequÃªncias (um a cada mil), grandes porcentagens (20% ou 60%) e nÃºmeros absolutos (185 mil).

Mas uma coisa Ã© explicar, outra Ã© persuadir. Se um polÃtico pretende persuadir os eleitores, deve mostrar sÃ³ o nÃºmero absoluto, especialmente se for grande, como 185 mil. As pessoas dÃ£o maior importÃ¢ncia para 185 mil brasileiros do que para 0,1% dos brasileiros, embora o nÃºmero seja o mesmo.

Ao contrÃ¡rio, se o polÃtico da oposiÃ§Ã£o pretende dissuadir os eleitores, deve usar sÃ³ a versÃ£o pequena do nÃºmero â€“ 0,1%. â€œAs pessoas nÃ£o entendem nÃºmeros assim de verdadeâ€, diz Base. â€œO que elas entendem Ã©: isso Ã© muito, muito pouco.â€

Fonte:Â Revista InformÃ¡tica Hoje ano 24 â€“ Julho 2008, p. 6.

The Signal and the Noise – Resumo do livro

Publicado em 28 de maio de 2018 por Dorian Bachmann

Responder

The signal and the Noise

Fazendo uso de exemplos fundamentados na polÃtica norte-americana, nos jogos de baseball, em projeÃ§Ãµes econÃ´micas e na probabilidade de ocorrÃªncias de terremotos, o autor apresenta os aspectos mais importantes no trabalho de previsÃ£o de resultados.

Enquanto as eleiÃ§Ãµes americanas sÃ£o tema de conhecimento comum, as muitas consideraÃ§Ãµes sobre beisebol – esporte pouco conhecido entre nÃ³s – podem ser enfadonhas; o capÃtulo sobre a bolha do pÃ´quer foi, ao menos para mim, intragÃ¡vel.

Ainda assim, para os curiosos sobre o tema da anÃ¡lise e interpretaÃ§Ã£o de dados, Ã© um livro instigante e interessante. Mas, o foco do autor estÃ¡ nas muitas histÃ³rias interessantes e pouco contribui com ferramental para separar os sinais dos ruÃdos, como por exemplo o Controle EstatÃstico de Processos CEP, ferramenta apenas citada no texto.

Algumas observaÃ§Ãµes selecionadas:

A verdadeira era da informaÃ§Ã£o comeÃ§ou em 1440, com a invenÃ§Ã£o da imprensa por Johannes Guttemberg. Antes, uma pÃ¡gina de livro manuscrito custava cerca de 20 dÃ³lares, limitando o acesso ao conhecimento.

Ã‰ importante lembrar que os modelos sÃ£o simplificaÃ§Ãµes da realidade e devem ser usados com cuidado.

Um sinal Ã© uma indicaÃ§Ã£o de uma verdade subjacente por trÃ¡s de uma estatÃstica ou problema preditivo, enquanto ruÃdos sÃ£o padrÃµes aleatÃ³rios que podem facilmente ser confundidos com sinais. O sinal Ã© a verdade. O ruÃdo Ã© o que nos distrai da verdade.

O objetivo de qualquer modelo de prediÃ§Ã£o Ã© capturar tantos sinais quanto possÃvel e tÃ£o poucos ruÃdos quanto puder. Armstrong argumenta que â€œquanto mais complexo o modelo, piores sÃ£o as previsÃµesâ€. Ã‰ uma frase bonita que faria sucesso nas redes sociais, mas que deve ser encarada com algum ressalva.

Na estatÃstica, a confusÃ£o de tomar ruÃdos como sinais Ã© denominada overfitting. Modelos puramente estatÃsticos, com grande nÃºmero de variÃ¡veis e uma pequena quantidade de eventos para sua validaÃ§Ã£o, geralmente levam ao risco de overfitting. Esse risco Ã© consideravelmente menor quando se usa modelos fÃsicos de causa e efeito.

Segundo o autor, o caminho para maior objetividade Ã© reconhecer a influÃªncia que nossas premissas tÃªm em nossas previsÃµes.

A estatÃstica tem sido parte dos esportes desde hÃ¡ muito tempo. O primeiro conjunto de informaÃ§Ãµes – com cinco informaÃ§Ãµes sobre cada jogador – foi publicado em jornal por Henry Chadwick em 1859.

Nosso instinto Ã© categorizar as informaÃ§Ãµes, geralmente em um pequeno nÃºmero de categorias, pois isso facilita o entendimento.

A inspeÃ§Ã£o visual de um grÃ¡fico que mostra a interaÃ§Ã£o entre duas variÃ¡veis geralmente Ã© um caminho mais rÃ¡pido e confiÃ¡vel para identificar outliers nos dados do que um teste estatÃstico.

Predizer o passado Ã© um oximoro e obviamente nÃ£o pode ser contado entre os sucessos.

A estatÃstica Ã© uma das habilidades fundamentais necessÃ¡rias Ã ciÃªncia dos dados.

Uma previsÃ£o cientÃfica exige um resultado probabilÃstico, ou seja, nas previsÃµes Ã© importante informar tambÃ©m a incerteza. Coisa comum nas pesquisas eleitorais, porÃ©m rara nos resultados de outras previsÃµes. Laplace via a probabilidade como um meio caminho entre a ignorÃ¢ncia e o conhecimento.

A heurÃstica do â€œacompanhe a maioria, especialmente quando nÃ£o sabe nada melhorâ€ normalmente funciona bem.

Consenso nÃ£o Ã© sinÃ´nimo de unanimidade, mas um grande acordo obtido apÃ³s um processo de deliberaÃ§Ã£o. Ã‰, portanto, uma alternativa Ã votaÃ§Ã£o.

InformaÃ§Ã£o sÃ³ se transforma em conhecimento quando colocada em um contexto.

Fonte:

Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t. The Penguin Press. New York, 2012. (InglÃªs)

Nota: JÃ¡ estÃ¡ disponÃvel em portuguÃªs.

A estatÃstica Ã© poderosa e… perigosa.

Publicado em 23 de março de 2018 por Dorian Bachmann

Responder

Como as anÃ¡lises sÃ£o probabilÃsticas, um pouco de persistÃªncia geralmente permite â€œvalidarâ€ qualquer hipÃ³tese.
Um exemplo divertido, mas que merece reflexÃ£o, Ã© apresentado por Steve Brooks [1] no cartoon que ilustra este post. Vale a leitura.

ReferÃªncia:

Brooks, Steve.Breaking News: 1 in 20 Statistical Tests Are Wrong! Disponivel em https://select-statistics.co.uk/blog/breaking-news-1-in-20-statistical-tests-are-wrong Acesso em 23.03.18.

MÃ©tricas de RH

Publicado em 6 de fevereiro de 2018 por Dorian Bachmann

Responder

Medidas

Como todos os gestores, os responsÃ¡veis pelas Ã¡reas de recursos humanos das organizaÃ§Ãµes precisam balizar e avaliar suas aÃ§Ãµes por meio de indicadores. Mas, diferentemente de muitos outros, os gestores de RH precisam conviver com dois tipos de mÃ©tricas.

Os indicadores que medem aspectos objetivos, como rotatividade, tempo de treinamento por empregado, etc. e os que avaliam aspectos intangÃveis, como clima organizacional e nÃvel de engajamento, entre outros. Isto porque as mÃ©tricas objetivas, embora mais fÃ¡ceis de obter e mais confiÃ¡veis em seus resultados, nÃ£o sÃ£o suficientes para a gestÃ£o de pessoas.

De modo geral, as medidas de parÃ¢metros intangÃveis sÃ£o obtidas por meio de pesquisas e expressam o â€œsentimentoâ€ das pessoas. Nessas pesquisas, geralmente o empregado aponta seu grau de concordÃ¢ncia ou discordÃ¢ncia com uma afirmaÃ§Ã£o apresentada, como no exemplo:

Discordo completamente	Discordo com ressalvas	NÃ£o concordo nem discordo	Concordo com ressalvas	Concordo completamente
1	2	3	4	5

Os resultados numÃ©ricos (percentuais de respostas nos grupos 1 e 2, grupo 3 e grupos 4 e 5) descrevem o sentimento da equipe em relaÃ§Ã£o ao aspecto avaliado.

Este tipo de mÃ©trica Ã© particularmente Ãºtil para avaliar as mudanÃ§as de percepÃ§Ã£o ao longo do tempo, comparando resultados obtidos em diferentes Ã©pocas e apÃ³s diferentes aÃ§Ãµes de gestÃ£o.

Publicado em 12 de dezembro de 2017 por Dorian Bachmann

Responder

No uso da mÃ©dia temos que ficar atentos a duas situaÃ§Ãµes. Na primeira, um valor atÃpico (outlier) distorce a mÃ©dia, induzindo a erros de interpretaÃ§Ã£o.

O uso da mÃ©dia, ou ainda melhor, da mediana nas anÃ¡lises tem a vantagem de eliminar o efeito de nÃºmeros extremos que, geralmente, estÃ£o associados Ã s excepcionalidades ou mesmo aos erros. Entretanto, hÃ¡ casos em que os valores extremos podem ser mais Ãºteis e relevantes para a gestÃ£o, como demonstra o depoimento de Guilherme Lessa, Diretor de TI do Banco Matone [1]:

“Antes a equipe de TI sÃ³ considerava a mÃ©dia das notas que recebia dos usuÃ¡rios; hoje, considera os extremos. Se alguma nota estÃ¡ abaixo de seis ou sete, significa que a TI estÃ¡ fazendo algo errado, entÃ£o alguÃ©m liga para a pessoa que deu a nota abaixo da mÃ©dia para descobrir o que aconteceu”.

ReferÃªncia: 1. Revista InformÃ¡tica Hoje. NÂº 629. 2010, p. 7.

Analisando dados â€“ Uma questÃ£o de percepÃ§Ã£o

Publicado em 31 de outubro de 2017 por Dorian Bachmann

Responder

As empresas tÃªm um impressionante volume de dados colhidos pelas pessoas ou gerados por sistemas. Esses dados, que nos permitem avaliar como estÃ£o o negÃ³cio e os processos sob nossa responsabilidade, frequentemente sÃ£o apresentadas na forma de tabelas, como a exemplificada adiante.

Tabela I â€“ Valores relacionados

x	10.0	8.0	13.0	9.0	11.0	14.0	6.0	4.0	12.0	7.0	5.0
y	7.46	6.77	12.74	7.11	7.81	8.84	6.08	5.39	8.15	6.42	5.73

Nossa tendÃªncia Ã© observar tais tabelas e concluir a situaÃ§Ã£o e a tendÃªncia dos processos de forma mais ou menos intuitiva. Mas, a realidade Ã© que – como seres humanos – somos muito ruins para interpretar nÃºmeros mostrados em tabelas. Mesmo fazendo uso de ferramentas estatÃsticas bÃ¡sicas, como mÃ©dia, desvio padrÃ£o, etc., estamos sujeitos a graves falhas na interpretaÃ§Ã£o de dados numÃ©ricos. Essa realidade foi muito bem demonstrada por Anscombe [1]. Ele criou a seguinte tabela, conhecida como Quarteto de Anscombe.

Tabela II â€“ Quarteto de Anscombe

I		II		III		IV
x	y	x	y	x	y	x	y
10.0	8.04	10.0	9.14	10.0	7.46	8.0	6.58
8.0	6.95	8.0	8.14	8.0	6.77	8.0	5.76
13.0	7.58	13.0	8.74	13.0	12.74	8.0	7.71
9.0	8.81	9.0	8.77	9.0	7.11	8.0	8.84
11.0	8.33	11.0	9.26	11.0	7.81	8.0	8.47
14.0	9.96	14.0	8.10	14.0	8.84	8.0	7.04
6.0	7.24	6.0	6.13	6.0	6.08	8.0	5.25
4.0	4.26	4.0	3.10	4.0	5.39	19.0	12.50
12.0	10.84	12.0	9.13	12.0	8.15	8.0	5.56
7.0	4.82	7.0	7.26	7.0	6.42	8.0	7.91
5.0	5.68	5.0	4.74	5.0	5.73	8.0	6.89

Fonte: Wikipedia. https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Curiosamente, as estatÃsticas calculadas para cada uma das quatro colunas com pares de valores Ã© muito parecida, como segue [2].

Propriedade	Valor
MÃ©dia de x	9 (exato)
VariÃ¢ncia de x	11 (exato)
MÃ©dia de y	7,50 (em atÃ© duas casas decimais)
VariÃ¢ncia de y	4,125 (+0,003)
CorrelaÃ§Ã£o entre x e y	0,816 (em atÃ© 3 casas decimais)
Linha de regressÃ£o linear em cada caso	y=3,00+0,500x (em atÃ© 2 e 3 casas decimais, respectivamente)
Coeficiente de determinaÃ§Ã£o da regressÃ£o linear	0,67 (em atÃ© duas casas decimais)

Fonte: Wikipedia. DisponÃvel em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

O surpreendente Ã© que se esses dados forem apresentados graficamente, percebemos que sÃ£o muito diferentes, o que levaria a interpretaÃ§Ãµes distintas.

Fonte: By Anscombe.svg: SchutzDerivative works of this file:(label using subscripts): Avenue - Anscombe.svg, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=9838454

Ã‰ fÃ¡cil concluir, entÃ£o, que a forma mais segura de interpretar sÃ©ries numÃ©ricas – o elemento mais comum na gestÃ£o de processos – Ã© por meio de grÃ¡ficos. A riqueza da visualizaÃ§Ã£o grÃ¡fica permite identificar tendÃªncias, outliers e variaÃ§Ãµes com grande precisÃ£o, resultando em anÃ¡lises mais consistentes e decisÃµes mais sÃ³lidas e confiÃ¡veis.

Curiosidade

ConheÃ§a tambÃ©m o Datasaurus, uma experiÃªncia divertida que mostra vÃ¡rios grÃ¡ficos (www.autodeskresearch.com/publications/samestats), inclusive a figura de um dinossauro, feitos com conjuntos de dados que tÃªm as mesmas estatÃsticas.

ReferÃªncias:

F. J. Anscombe, F. J. Graphs in Statistical Analysis. The American Statistician. Vol. 27, No. 1 (Feb., 1973), pp. 17-21. DisponÃvel em:http://wpage.unina.it/francesco.caracciolo/micro/1/anscombe.pdf Acesso em 30 Out. 2017.

Wikipedia. DisponÃvel em: https://en.wikipedia.org/wiki/Anscombe%27s_quartet Acesso em 30 Out. 2017.

Bachmann

Damos valor à sua informação!

Arquivo da tag: estatÃstica

Prevendo o futuro – ExtrapolaÃ§Ãµes

FalÃ¡cias estatÃsticas exigem interpretaÃ§Ã£o

Analisando dados

Um benefÃcio caro mas importante

Como as pessoas reagem aos nÃºmeros

The Signal and the Noise – Resumo do livro

Fonte:

A estatÃstica Ã© poderosa e… perigosa.

MÃ©tricas de RH

MÃ©dias versus extremos

Analisando dados â€“ Uma questÃ£o de percepÃ§Ã£o