Com o Big Data a estatística pode ser ainda mais perigosa

Image by Tumisu from Pixabay

Chris Anderson – famoso pelo seu livro “A Cauda Longa: Do Mercado de Massa para o Mercado de Nicho” – sugeriu que o uso do big data tornaria o método científico obsoleto [1]. Isso provavelmente não é verdade.

É incorreto gerar retrospectivamente hipóteses para se adequar aos padrões de dados que surgem após o término de um estudo. Essa prática é conhecida pelos estatísticos como “p-hacking” ou “data fishing” [2].

O epidemiologista John Ioannidis destacou esse ponto na área médica no artigo “Por que a maioria das descobertas de pesquisas publicadas é falsa” [3].

O argumento de Ioannidis é bem ilustrado pelo artigo “Consumo de chocolate, função cognitiva e ganhadores do Nobel” de Franz Messerli no New England Journal of Medicine [4]. O artigo relata “uma correlação linear significativa (r = 0,791, p <0,0001) entre o consumo de chocolate per capita e o número de ganhadores do Nobel por 10 milhões de pessoas em um total de 23 países. O texto especulou sobre os efeitos de alguns antioxidantes, encontrados no chocolate, na melhoria da capacidade de raciocínio.

O artigo, que pretendia ser uma paródia da temporada de prêmios Nobel, foi seriamente relatado nos principais meios de comunicação como, por exemplo, na Forbes [5]. Embora o artigo seja uma brincadeira, a correlação com elevada “significância estatística” é um fato real do conjunto de dados estudado pelo Dr. Messerli. Isso ilustra que os estudos de múltiplas correlações podem levar a resultados “significativos” em um sentido técnico, como sugerido por Chris Anderson, mas também podem ser enganosos ou sem sentido.

Assim, é interessante notar que a equipe internacional de físicos que anunciou a descoberta do bóson de Higgs, atenta ao problema de múltiplas comparações, usou um limiar extremamente baixo do valor de p “cinco-sigma” (<0,000001) [6].

Referências:

1. Anderson, Chris. The End of Theory: The data deluge makes the scientific method obsolete. Disponível em: http://www.wired.com/science/discoveries/magazine/16-07/pb_theory. Acesso em 18.04.20.

2. Tang, Jane,  Misusing Statistical Significance Tests Can End Your Career: A Cautionary Tale. https://marumatchbox.com/blog/misusing-statistical-significance-tests-can-end-your-career-a-cautionary-tale/ Acesso em 18.04.20.

3. Ioannidis, John. Why Most Published Research Findings Are False. 2005. Disponível em http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/. Acesso em 17.04.20.

4. Messerl. Franz H. i, Chocolate Consumption, Cognitive Function, and Nobel Laureates. The New England Journal of Medicine. 18.10.12. Disponível em http://www.nejm.org/doi/full/10.1056/NEJMon1211064. Acesso em 17.04.20.

5. Husten, Larry. Chocolate And Nobel Prizes Linked In Study. Disponível em: https://www.forbes.com/sites/larryhusten/2012/10/10/chocolate-and-nobel-prizes-linked-in-study/#33a8e4c91dd1 Acesso em 18.04.20.

6. Wasserman, Larry. The Higgs Boson and the p-value Police. Disponível em: http://normaldeviate.wordpress.com/2012/07/11/the-higgs-boson-and-the-p-value-police/. Acesso em 28.07.20.

60 Dias em Harvard – Comentários sobre o livro

O autor, Allan Costa – bastante conhecido dos paranaenses por ter sido superintendente do SEBRAE/PR e diretor presidente do CELEPAR – descreve sua experiência de 60 dias em um programa intensivo de educação executiva voltado a profissionais que ocupam cargos de alta gerência (presidência, diretoria) em grandes organizações, na mais famosa universidade do mundo na área de gestão.

O programa adota como metodologia o estudo de casos e uma das coisas mais interessantes do livro são os resumos feitos pelo autor da maioria dos casos estudados, enriquecidos com bem-humoradas opiniões pessoais.

Ele também comenta sobre alguns professores, como Kaplan, Porter e outros bastante famosos.

Uma leitura útil e agradável para gestores e para quem já fez ou deseja fazer um MBA. Particularmente interessante para quem, como eu, já fez um MBA baseado em estudo de casos (COPPEAD). Recomendo.

O livro: Costa, Allan. 60 dias em Harvard. eBook Kindle. Amazon 2017.

Serviço: O livro está disponível nas versões impressa e para download em https://www.amazon.com.br/60-Dias-Harvard-ALLAN-COSTA/dp/8558490619

The Pyramid Principle

Comentários e um pequeno resumo do livro

O livro, um clássico sobre a escrita de relatórios técnicos, foi escrito para orientar os novos profissionais da McKinsey na escrita de relatórios técnicos claros e convincentes.

Boa parte do texto ensina a analisar e resolver problemas, pois a autora percebeu que a pouca de clareza dos textos decorre, muitas vezes, da falta de compreensão sobre aquilo que o redator está escrevendo.

O livro é antigo, escrito na década de 70, tornando algumas considerações desatualizadas; mas isso não chega a tirar o mérito naquilo que a autora se propõe a fazer.

Seguem alguns conceitos apresentados no livro:

O fundamento, que dá título ao livro é o Princípio da Pirâmide – Os conteúdos devem ser apresentados da mensagem principal para as ideias que a suportam, em níveis que seguem do geral para o específico; daí a analogia com uma pirâmide.

A intenção é apresentar ideias e conclusões que se sustentam pela consistência e raciocínio, usando uma estrutura lógica (vertical e horizontal) e hierárquica, o que implica começar pelo resultado e esclarecer em seguida como ele foi obtido.

Uma ideia é uma declaração que levanta uma questão na mente do leitor porque conta alguma coisa que ele não sabe.

Ideias em qualquer nível devem sumarizar as ideias dos níveis inferiores.

As ideias devem ser agrupadas, para facilidade de interpretação do leitor, e as ideias em um grupo devem ser do mesmo tipo e precisam ficar sob um rótulo representado pelo plural de um substantivo. Exemplo: Recomendações.

As ideias, em cada grupo, devem ser colocadas em alguma ordem; entretanto a autora admite apenas quatro possibilidades lógicas:

  1. Dedutivamente (premissa mais importante, premissa complementar e, então, a conclusão).
  2. Cronologicamente (primeiro, segundo, etc.).
  3. Estruturalmente (Araucária, Curitiba, Brasília).
  4. Comparativamente (o mais importante, o segundo mais importante, etc.).

As duas únicas formas lógicas possíveis para estabelecer relações entre ideias são:

  • Dedutiva: se a=b e b=c, portanto a=c

A lógica dedutiva resulta em uma conclusão.

  • Indutiva: sorvete de abacate e sorvete de abacaxi são sorvetes de frutas.

A lógica indutiva resulta em inferência.

A dedução é sequencial, enquanto a indução não.

O nome dos tópicos de um relatório deve ser informativo. Um bloco chamado “descobertas” ou “conclusões” não ajuda o posicionamento do leitor. Uma alternativa aceitável em alguns documentos seria, por exemplo, “Próximos passos”.

As estruturas lógicas devem ser mutuamente exclusivas e coletivamente exaustivas (MECE).

  • Mutuamente exclusiva informa que não há superposição.
  • Coletivamente exaustiva indica que nada fica faltando; tudo foi incluído.

Outras dicas da autora:

  • Se a ideia defendida no texto não fica clara nos primeiros 30 segundos de leitura, o documento deve ser reescrito.
  • A introdução deve resumir apenas o que o leitor já sabe e tem como verdadeiro; deve ser uma história que o leitor já conhece. Deve mais lembrar que informar.
  • Sempre coloque os dados históricos e cronológicos na introdução.
  • Limite os conteúdos, em cada oportunidade, ao máximo de sete (Regra dos Sete), pois nossa capacidade de memorização e concatenação de ideias é limitada.
  • Nunca escreva sobre categorias, mas apenas sobre ideias.
  • Como regra geral, é melhor apresentar a ação desejada (o que o leitor deve fazer) e, depois, explicar as razões, ao menos nos níveis mais altos do documento.
  • Antes de escrever, visualize as ideias na forma de imagens. Isso ajudará a dar clareza ao texto. Uma dica é identificar os substantivos e as relações entre eles.

O livro

Minto, Bárbara. The Pyramid Principle: Logic in writing and thinking. Prentice Hall. 2016. (Em inglês).