Média versus Mediana

Imagem pelo autor

A mediana corresponde a observação do meio de um conjunto ordenado de dados, de forma que exista um número igual de observações maiores e menores que ela. Como consequência, não é afetada por dados excepcionalmente altos ou baixos.

A média aritmética, usualmente chamada apenas de “média”, por outro lado, soma todos os pontos de dados e divide pelo número de pontos de dados para determinar o valor “normal”.  Assim, a média pode ser bastante influenciada por poucos dados excepcionalmente altos ou baixos.

Veja a diferença se, por exemplo, você tiver 100 resultados, onde 97 deles são 100 e os três últimos valores são 1.000,  10.000 e 100.000,  que seriam dados extremos:

 ● Mediana = 100

 ● Média aritmética = 1.207

Essa é uma discrepância bastante grande entre as duas estatísticas que indicam o ponto central dos dados. Então, devemos ser cuidadosos na escolha para a análise e publicação de dados.

Em resumo

A vantagem, em relação à média, é que a mediana geralmente representa melhor o valor típico da amostra, pois não é distorcida por valores extremamente altos ou baixos. Portanto, nas comparações, de modo geral é melhor usar a mediana. Entretanto, o ideal é que a decisão seja tomada depois de observar a distribuição dos dados.

Nota: Quando um texto em inglês usa o termo “average”, pode estar se referindo à média, à mediana ou à moda, três conceitos de valor central bastante diferente. É preciso cuidado. – Darrel Huff

Post de jul/20, atualizado em mar/22.

Curva de distribuição normal

A distribuição normal, também chamada distribuição gaussiana ou de Gauss, é uma das distribuições de probabilidade mais usadas para modelar fenômenos naturais. Isso porque grande número de fenômenos apresenta uma distribuição de probabilidade bem próxima da normal.

As distribuições normais têm as seguintes características:

  • Forma simétrica de sino.
  • Média e mediana iguais; ambas localizadas no centro da distribuição.
  • Aproximadamente 68% dos dados estão dentro de um desvio-padrão da média.
  • Aproximadamente 95% dos dados estão dentro de 2 desvios-padrão da média.
  • Aproximadamente 99,7% dos dados estão dentro de 3 desvios-padrão da média.

Saiba mais em: https://pt.khanacademy.org/math/statistics-probability/modeling-distributions-of-data/normal-distributions-library/a/normal-distributions-review

Post de jul/20 atualizado em mar/22.

Eleições, uma questão de amostra

O exemplo é antigo, mas as práticas dos institutos de pesquisa não parecem ter mudado.  A visão crítica é essencial na interpretação das pesquisas.

“Qual a lição a tirar desse erro do Ipea, que divulgou que 65% dos brasileiros concordam que ‘mulheres que usam roupas que mostram o corpo merecem ser atacadas’, quando o número correto é 26%?

O Ipea teve o mérito de corrigir o seu erro. Mas mesmo os números corrigidos podem continuar a suscitar dúvidas. A pesquisa domiciliar, da forma como o Ipea fez, distorce a amostragem. Eles ouvem os pesquisados em casa, durante o dia. Nesse horário é mais provável encontrar em casa pessoas mais velhas, mulheres e pessoas com baixa escolaridade. Esses perfis não são representativos da população brasileira. Na amostra de entrevistados do Ipea, mais de 65% são mulheres, enquanto a taxa real da população brasileira feminina é de 52%. Eu não concordo com quem dá valor a essas aferições meramente probabilísticas. A confusão recente do Ipea só reforçou minhas convicções”. Mauro Paulino – Diretor do DataFolha.

Fonte: Revista Veja. Editora Abril. Edição 2369 – ano 47 – n°16. 16 de abril de 2014. p. 23. Páginas amarelas. Entrevista com Mauro Paulino – Diretor do DataFolha.

Post de 7.10.14, atualizado em 18.3.22.