Chris Anderson – famoso pelo seu livro “A Cauda Longa: Do Mercado de Massa para o Mercado de Nicho†– sugeriu que o uso do big data tornaria o método cientÃfico obsoleto [1]. Isso provavelmente não é verdade.
É incorreto gerar retrospectivamente hipóteses para se adequar aos padrões de dados que surgem após o término de um estudo. Essa prática é conhecida pelos estatÃsticos como “p-hacking†ou “data fishing†[2].
O epidemiologista John Ioannidis destacou esse ponto na área médica no artigo “Por que a maioria das descobertas de pesquisas publicadas é falsa†[3].
O argumento de Ioannidis é bem ilustrado pelo artigo “Consumo de chocolate, função cognitiva e ganhadores do Nobel” de Franz Messerli no New England Journal of Medicine [4]. O artigo relata “uma correlação linear significativa (r = 0,791, p <0,0001) entre o consumo de chocolate per capita e o número de ganhadores do Nobel por 10 milhões de pessoas em um total de 23 paÃses. O texto especulou sobre os efeitos de alguns antioxidantes, encontrados no chocolate, na melhoria da capacidade de raciocÃnio.
O artigo, que pretendia ser uma paródia da temporada de prêmios Nobel, foi seriamente relatado nos principais meios de comunicação como, por exemplo, na Forbes [5]. Embora o artigo seja uma brincadeira, a correlação com elevada “significância estatÃstica” é um fato real do conjunto de dados estudado pelo Dr. Messerli. Isso ilustra que os estudos de múltiplas correlações podem levar a resultados “significativos” em um sentido técnico, como sugerido por Chris Anderson, mas também podem ser enganosos ou sem sentido.
Assim, é interessante notar que a equipe internacional de fÃsicos que anunciou a descoberta do bóson de Higgs, atenta ao problema de múltiplas comparações, usou um limiar extremamente baixo do valor de p “cinco-sigma” (<0,000001) [6].
Referências:
1. Anderson, Chris. The End of Theory: The data deluge makes the scientific method obsolete. DisponÃvel em: http://www.wired.com/science/discoveries/magazine/16-07/pb_theory. Acesso em 18.04.20.
2. Tang, Jane, Misusing Statistical Significance Tests Can End Your Career: A Cautionary Tale. https://marumatchbox.com/blog/misusing-statistical-significance-tests-can-end-your-career-a-cautionary-tale/ Acesso em 18.04.20.
3. Ioannidis, John. Why Most Published Research Findings Are False. 2005. DisponÃvel em http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/. Acesso em 17.04.20.
4. Messerl. Franz H. i, Chocolate Consumption, Cognitive Function, and Nobel Laureates. The New England Journal of Medicine. 18.10.12. DisponÃvel em http://www.nejm.org/doi/full/10.1056/NEJMon1211064. Acesso em 17.04.20.
5. Husten, Larry. Chocolate And Nobel Prizes Linked In Study. DisponÃvel em: https://www.forbes.com/sites/larryhusten/2012/10/10/chocolate-and-nobel-prizes-linked-in-study/#33a8e4c91dd1 Acesso em 18.04.20.
6. Wasserman, Larry. The Higgs Boson and the p-value Police. DisponÃvel em: http://normaldeviate.wordpress.com/2012/07/11/the-higgs-boson-and-the-p-value-police/. Acesso em 28.07.20.