Наглядная разница, почему среднее значение это — плохо, а медиана — это хорошо.

Сначала возьмем простой пример.

Цифры: 1, 5, 8, 4, 3, 9. 

Считаем:

  • Среднее: 5
  • Медиана: 4.5

Вроде почти одно и то же.

Но если такой набор цифр (последняя сильно завышена относительно других):

1, 5, 8, 4, 3, 90

Считаем:

  • Среднее: 18.5
  • Медиана: 4.5

Средняя сразу увеличилась, а медиана нет, потому что медиана сначала упорядочивает цифры по возрастанию и показывает реальную середину среди цифр, благодаря чему откидывает какие-то редкие всплески.

Средняя ЗП по России тоже считается медианой, потому что если бы была средняя, то учитывались бы зарплаты депутатов и гендиректоров корпораций, что некорректно. Но обычных людей больше, чем депутатов и гендиректоров, поэтому реальную цифру покажет только медиана.

Так и мы. У всех сайтов в топе обычно примерно похожие показатели по символам, вхождениям и так далее. Но у поиска бывают эксперименты, поэтому в выдаче иногда могут появляться сайты, которые статистически могут сильно отличаться от остальных в топе. И чтобы не реагировать на эти сильно низкие или сильно высокие значения, используется медиана.

Почему в анализе текста используется медиана?
3.8 (76%) 5 votes