Com o Big Data a estatística pode ser ainda mais perigosa

Image by Tumisu from Pixabay

Chris Anderson – famoso pelo seu livro “A Cauda Longa: Do Mercado de Massa para o Mercado de Nicho” – sugeriu que o uso do big data tornaria o método científico obsoleto [1]. Isso provavelmente não é verdade.

É incorreto gerar retrospectivamente hipóteses para se adequar aos padrões de dados que surgem após o término de um estudo. Essa prática é conhecida pelos estatísticos como “p-hacking” ou “data fishing” [2].

O epidemiologista John Ioannidis destacou esse ponto na área médica no artigo “Por que a maioria das descobertas de pesquisas publicadas é falsa” [3].

O argumento de Ioannidis é bem ilustrado pelo artigo “Consumo de chocolate, função cognitiva e ganhadores do Nobel” de Franz Messerli no New England Journal of Medicine [4]. O artigo relata “uma correlação linear significativa (r = 0,791, p <0,0001) entre o consumo de chocolate per capita e o número de ganhadores do Nobel por 10 milhões de pessoas em um total de 23 países. O texto especulou sobre os efeitos de alguns antioxidantes, encontrados no chocolate, na melhoria da capacidade de raciocínio.

O artigo, que pretendia ser uma paródia da temporada de prêmios Nobel, foi seriamente relatado nos principais meios de comunicação como, por exemplo, na Forbes [5]. Embora o artigo seja uma brincadeira, a correlação com elevada “significância estatística” é um fato real do conjunto de dados estudado pelo Dr. Messerli. Isso ilustra que os estudos de múltiplas correlações podem levar a resultados “significativos” em um sentido técnico, como sugerido por Chris Anderson, mas também podem ser enganosos ou sem sentido.

Assim, é interessante notar que a equipe internacional de físicos que anunciou a descoberta do bóson de Higgs, atenta ao problema de múltiplas comparações, usou um limiar extremamente baixo do valor de p “cinco-sigma” (<0,000001) [6].

Referências:

1. Anderson, Chris. The End of Theory: The data deluge makes the scientific method obsolete. Disponível em: http://www.wired.com/science/discoveries/magazine/16-07/pb_theory. Acesso em 18.04.20.

2. Tang, Jane,  Misusing Statistical Significance Tests Can End Your Career: A Cautionary Tale. https://marumatchbox.com/blog/misusing-statistical-significance-tests-can-end-your-career-a-cautionary-tale/ Acesso em 18.04.20.

3. Ioannidis, John. Why Most Published Research Findings Are False. 2005. Disponível em http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/. Acesso em 17.04.20.

4. Messerl. Franz H. i, Chocolate Consumption, Cognitive Function, and Nobel Laureates. The New England Journal of Medicine. 18.10.12. Disponível em http://www.nejm.org/doi/full/10.1056/NEJMon1211064. Acesso em 17.04.20.

5. Husten, Larry. Chocolate And Nobel Prizes Linked In Study. Disponível em: https://www.forbes.com/sites/larryhusten/2012/10/10/chocolate-and-nobel-prizes-linked-in-study/#33a8e4c91dd1 Acesso em 18.04.20.

6. Wasserman, Larry. The Higgs Boson and the p-value Police. Disponível em: http://normaldeviate.wordpress.com/2012/07/11/the-higgs-boson-and-the-p-value-police/. Acesso em 28.07.20.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Please leave these two fields as-is:

Protected by Invisible Defender. Showed 403 to 187.325 bad guys.