Com o Big Data a estatística pode ser ainda mais perigosa

Image by Tumisu from Pixabay

Chris Anderson – famoso pelo seu livro “A Cauda Longa: Do Mercado de Massa para o Mercado de Nicho” – sugeriu que o uso do big data tornaria o método científico obsoleto [1]. Isso provavelmente não é verdade.

É incorreto gerar retrospectivamente hipóteses para se adequar aos padrões de dados que surgem após o término de um estudo. Essa prática é conhecida pelos estatísticos como “p-hacking” ou “data fishing” [2].

O epidemiologista John Ioannidis destacou esse ponto na área médica no artigo “Por que a maioria das descobertas de pesquisas publicadas é falsa” [3].

O argumento de Ioannidis é bem ilustrado pelo artigo “Consumo de chocolate, função cognitiva e ganhadores do Nobel” de Franz Messerli no New England Journal of Medicine [4]. O artigo relata “uma correlação linear significativa (r = 0,791, p <0,0001) entre o consumo de chocolate per capita e o número de ganhadores do Nobel por 10 milhões de pessoas em um total de 23 países. O texto especulou sobre os efeitos de alguns antioxidantes, encontrados no chocolate, na melhoria da capacidade de raciocínio.

O artigo, que pretendia ser uma paródia da temporada de prêmios Nobel, foi seriamente relatado nos principais meios de comunicação como, por exemplo, na Forbes [5]. Embora o artigo seja uma brincadeira, a correlação com elevada “significância estatística” é um fato real do conjunto de dados estudado pelo Dr. Messerli. Isso ilustra que os estudos de múltiplas correlações podem levar a resultados “significativos” em um sentido técnico, como sugerido por Chris Anderson, mas também podem ser enganosos ou sem sentido.

Assim, é interessante notar que a equipe internacional de físicos que anunciou a descoberta do bóson de Higgs, atenta ao problema de múltiplas comparações, usou um limiar extremamente baixo do valor de p “cinco-sigma” (<0,000001) [6].

Referências:

1. Anderson, Chris. The End of Theory: The data deluge makes the scientific method obsolete. Disponível em: http://www.wired.com/science/discoveries/magazine/16-07/pb_theory. Acesso em 18.04.20.

2. Tang, Jane,  Misusing Statistical Significance Tests Can End Your Career: A Cautionary Tale. https://marumatchbox.com/blog/misusing-statistical-significance-tests-can-end-your-career-a-cautionary-tale/ Acesso em 18.04.20.

3. Ioannidis, John. Why Most Published Research Findings Are False. 2005. Disponível em http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/. Acesso em 17.04.20.

4. Messerl. Franz H. i, Chocolate Consumption, Cognitive Function, and Nobel Laureates. The New England Journal of Medicine. 18.10.12. Disponível em http://www.nejm.org/doi/full/10.1056/NEJMon1211064. Acesso em 17.04.20.

5. Husten, Larry. Chocolate And Nobel Prizes Linked In Study. Disponível em: https://www.forbes.com/sites/larryhusten/2012/10/10/chocolate-and-nobel-prizes-linked-in-study/#33a8e4c91dd1 Acesso em 18.04.20.

6. Wasserman, Larry. The Higgs Boson and the p-value Police. Disponível em: http://normaldeviate.wordpress.com/2012/07/11/the-higgs-boson-and-the-p-value-police/. Acesso em 28.07.20.

Big Data e o RH

Teclado de computador sob um retângulo onde está escrito Big Data.
Imagem de Gerd Altmann por Pixabay

Big data é o termo que descreve o grande volume de dados – estruturados e não estruturados – que não consegue ser tratado pelos softwares tradicionais.

Portanto, o termo se refere ao processamento de volumes colossais de dados, o que exige máquinas e algoritmos poderosos. Mas, além da quantidade de dados, o Big Data se diferencia pela capacidade de processar dados não estruturados, como continuamente produzidos em grandes quantidades por sensores digitais, equipamentos de gravação de áudio e vídeo, dispositivos de computação móvel, pesquisas na Internet, redes sociais, tecnologias de mídia e assim por diante.

Explicando: As antigas planilhas do RH tinham campos preenchidos com informações específicas de cada colaborador, como: nome, data de nascimento, etc. Então uma pesquisa para, por exemplo, saber a idade média dos colaboradores era fácil. Mas essas fichas também tinham um espaço para observações. As análises das informações anotadas ali só podiam ser feitas por humanos, por não estarem “estruturadas” ou em um formato padronizado. A mesma informação poderia ter redações diferentes quando anotada por pessoas diferentes. Por exemplo:

• Teve afastamento pelo INSS por 25 dias.

• Ela tirou licença médica de 25 dias.

• Faltou vinte e cinco dias por motivos de saúde.

As ferramentas de Big Data são capazes de interpretar essas várias redações e entender que se trata da mesma informação.

Mas não assuma que todo problema analítico é um problema de big data. Entenda primeiro a causa básica dos problemas e, em seguida, selecione as tecnologias analíticas certas para resolvê-los. Muitos problemas podem ser resolvidos sem grande armazenamento de dados ou análise de big data. Nenhum tipo de análise é melhor que o outro. Cada um faz coisas diferentes, resolve problemas diferentes e requer diferentes softwares e arquiteturas [1].

Embora o termo big data seja relativamente novo, o ato de coletar e armazenar grandes quantidades de informações para análises é antigo. O conceito ganhou força no começo dos anos 2000, quando o analista Doug Laney articulou a definição mais aceita de big data em três Vs [2]:

Volume. Organizações coletam dados de fontes variadas, incluindo transações financeiras, mídias sociais e informações de sensores ou dados transmitidos de máquina para máquina. No passado, armazená-los teria sido um problema — mas novas tecnologias (como o Hadoop) aliviaram esse fardo.

Velocidade. Os dados são transmitidos numa velocidade sem precedentes e devem ser tratados em tempo hábil. Etiquetas RFID, sensores e medidores inteligentes estão impulsionando a necessidade de lidar com torrentes de dados praticamente em tempo real.

Variedade. Dados são gerados em inúmeros formatos — desde estruturados (numéricos, em bases de dados tradicionais) a não-estruturados (documentos de texto, e-mail, vídeo e áudio).

O Big Data é a matéria-prima do processo da People Analytics. Serve para obter insights que levam a decisões melhores e ações estratégicas de negócio.

Dados não estruturados compõem mais de 90% dos dados gerados em todo o mundo, por isso é mais importante do que nunca examiná-los como parte da estratégia de dados de sua empresa. Bernard Marr

Referências:

  1. SAS. What Kind of Big Data Problem Do You Have? Disponível em: https://www.sas.com/pt_br/whitepapers/what-kind-of-big-data-problem-107085.html. Acesso em 25.03.20.
  2. SAS. Big Data: What it is and why it matters. Disponível em: https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html. Acesso em 25.03.20.

Post publicado em agosto de 2019 e atualizado em maio de 2020.

Transformação digital. O que o RH tem com isso?

Um estudo apontou que 98% dos entrevistados acreditam que a Transformação Digital é necessária, mas 86% afirmaram que as equipes não estão preparadas para essa mudança. O principal fator que atrapalha essa transformação, segundo 45% deles, é a falta de budget; 15% afirmam ser a falta de conhecimento técnico; 14% dizem que a cultura da empresa impede esse tipo de mudança; e 11% entendem que falta tempo para realizar projetos desse tipo [1].

Acredito que essa visão ocorre pela forte associação que existe entre a transformação digital e o uso de recursos tecnológicos (hardware e software) que têm custos elevados. Justamente o RH deveria ter um foco maior nas pessoas (humanware) e alavancar a transformação pelo investimento em incentivo e capacitação das pessoas, que é o alicerce mais importante e barato nesse processo de mudança. Vale a reflexão.

Na B&A capacitamos as pessoas para entender a lógica da escolha e uso dos indicadores, em trabalho a quatro mãos com os clientes, privilegiando a inteligência sobre a tecnologia.

Referência:

  1. Revista Melhor Online. Disponível em: https://revistamelhor.com.br/pesquisa-dificuldades-do-rh-com-a-transformacao-digital/  Acesso em 22.07.19.

Big Data. O que é isso?

Compreendendo diferentes tipos de dados e suas implicações

Hoje em dia ouvimos muito sobre Big Data e como isso pode ser valioso para a empresa. Mas a maioria dos gerentes não entende a diferença entre Big Data e Small Data (dados pequenos) e usa o termo Big Data indiscriminadamente. Como você se refere a seus dados não importa muito, mas é importante saber as diferenças entre os vários tipos.

Os “pequenos”, que apesar de seu nome, são extremamente úteis; são dados gerenciáveis ​​(capazes de caber em um único servidor), estruturados (linhas e colunas) e são alterados com pouca frequência. É mais provável que sejam provenientes dos sistemas de transação da organização, como sistemas financeiros, de CRM ou de gerenciamento de pedidos. Esse tipo de dados provavelmente foi analisado por muitos anos. Não há muita publicidade nos dias de hoje, mas é essencial para conhecer os clientes, entender o desempenho financeiro da empresa e ajustar a cadeia de suprimentos.

O Big Data é indisciplinado. É grande demais para caber em um único servidor, é relativamente desestruturado e se movimenta rapidamente. É mais provável que seja sobre o mundo fora de suas transações comerciais – o que seus clientes e clientes em potencial estão dizendo nas mídias sociais, o que eles estão contando aos representantes do call center e como eles estão circulando pela sua loja. O Big Data oferece grandes oportunidades, mas geralmente é um desafio colocá-lo em um formato estruturado que possa ser facilmente analisado. Se você quiser segui-lo, seu colaborador provavelmente precisará ser um cientista de dados.

Reproduzido de 5 Essential Principles for Understanding Analytics de Tom Davenporthbr.org. Disponível em https://hbr.org/2015/10/5-essential-principles-for-understanding-analytics Acesso em 17.07.18.

Publicado originalmente em 2.08.18, teve a linguagem corrigida em 7.08.20 e foi revisado em nov/22,