Média versus Mediana

Imagem pelo autor

A mediana corresponde a observação do meio de um conjunto ordenado de dados, de forma que exista um número igual de observações maiores e menores que ela. Como consequência, não é afetada por dados excepcionalmente altos ou baixos.

A média aritmética, usualmente chamada apenas de “média”, por outro lado, soma todos os pontos de dados e divide pelo número de pontos de dados para determinar o valor “normal”.  Assim, a média pode ser bastante influenciada por dados excepcionalmente altos ou baixos.

Veja a diferença se, por exemplo, você tiver 100 pontos de dados, onde 97 deles são 100 e os três últimos valores são 1.000,  10.000 e 100.000,  que seriam dados extremos:

 â— Mediana = 100

 â— Média aritmética = 1.207

Essa é uma discrepância bastante grande entre as duas estatísticas que indicam o ponto central dos dados. Então, devemos ser cuidadosos na escolha para a publicação e análise dos dados.

A vantagem da mediana, em relação à média, é que a mediana geralmente representa melhor o valor típico da amostra, pois não é distorcida por valores extremamente altos ou baixos. Portanto, nas comparações, de modo geral é melhor usar a mediana. Entretanto, o ideal é que a decisão seja tomada depois de observar a distribuição dos dados.

Nota: Quando um texto em inglês usa o termo “average”, pode estar se referindo à média, à mediana ou à moda, três conceitos de valor central bastante diferente. É preciso cuidado. – Darrel Huff

Curva de distribuição normal

A distribuição normal, também chamada distribuição gaussiana ou de Gauss, é uma das distribuições de probabilidade mais usadas para modelar fenômenos naturais. Isso porque grande número de fenômenos apresenta uma distribuição de probabilidade bem próxima da normal.

As distribuições normais têm as seguintes características:

  • Forma simétrica de sino.
  • Média e mediana iguais; ambas localizadas no centro da distribuição.
  • Aproximadamente 68% dos dados estão dentro de um desvio padrão da média.
  • Aproximadamente 95% dos dados estão dentro de 2 desvios padrão da média.
  • Aproximadamente 99,7% dos dados estão dentro de 3 desvios padrão da média.

Saiba mais em: https://pt.khanacademy.org/math/statistics-probability/modeling-distributions-of-data/normal-distributions-library/a/normal-distributions-review