Better Explained: Как правильно посчитать среднюю температуру по больнице

Среднее значение кажется очень простым термином. Именно простота делает его таким лукавым. Давайте поговорим о том, какие средние значения бывают, и как их использовать правильно. 

Время чтения: 13 минут
Better Explained: Как правильно посчитать среднюю температуру по больнице

Простой пример: Утром вы ведёте машину до работы со скоростью 30 км/ч, потому что вы не хотите на работу, а обратно едете уже со скоростью 60 км/ч, потому что спешите попасть домой. Какова средняя скорость вашего передвижения в этот день?

Подсказка: Нет, не 45 км/ч.

А пока вот вам небольшая табличка.

Но что всё это значит?

Давайте начнём сначала. Что вообще мы понимаем под словом «среднее»? Для большинства из нас это «какое-то число посередине» либо некое сбалансированное по каким-то критериям число.

Можно предложить более универсальную интерпретацию понятия «среднее значение». Среднее значение какого-либо ряда значений — это то, которым можно заменить любую единицу ряда и получить тот же результат. Условно говоря, я могу выбросить все представленные данные, кроме среднего значения, и общий смысл не изменится.

Одна из целей получения среднего значения — это понять суть выборки данных с помощью репрезентативного образца. Но сам процесс вычисления среднего значения зависит от того, каким образом взаимодействуют элементы группы данных. Давайте посмотрим, как это происходит.

Среднее арифметическое

Среднее арифметическое знакомо нам всем со школы:

среднее арифметическое = сумма всех величин/количество величин

Задачка: вы весите 75 кг и зашли в лифт с подростком весом 50 кг и толстяком весом 175 кг. Каков средний вес вашей группы?

На самом деле вопрос стоит так: Если заменить вашу весёлую компанию тремя клонированными людьми с одинаковым весом, каким весом должен обладать каждый такой клон?

В этом случае мы просто заказываем на фабрике по производству клонов человека трёх экземпляров весом в 100 килограмм каждый (Помним: (75+50+175)/3) и довольно потираем руки.

Преимущества среднего арифметического:

  • Отлично работает для совокупностей, значения которых легко складываются;
  • Просто вычисляется: складывай, разделяй и властвуй;
  • Интуитивно понятно — среднее арифметическое для нас как раз и является «числом где-то в середине» между наибольшим и наименьшим значением.

Недостатки среднего арифметического:

  • Среднее арифметическое не работает для числовых рядов с большим разбросом в значениях. Ну, скажем, среднее арифметическое чисел 100, 200 и -300 — это 0, а это уже обескураживает.

Среднее арифметическое срабатывает в 80% случаев. К сожалению, 20% оставшихся случаев и вынуждают нас искать альтернативы для подсчёта среднего значения.

Медиана

Медиана — это та самая грань, которая отделяет наибольшие значения от наименьших. То самое «число посередине». Постойте-постойте, а разве среднее арифметическое делает не то же самое?

Вот вам простой пример. Какое число находится в середине этого ряда?

1, 2, 3, 4, 100

Число «3» находится в середине ряда. И хотя среднее арифметическое (22) является «средним», оно никак не отражает распределения этих чисел. Интуитивно (и абсолютно правильно!) мы считаем, что в середине этого ряда всё-таки 3, а не 22. Здесь среднее значение увеличилось благодаря резко отклоняющемуся от общей массы значению, 100.

Медиана решает эту проблему. Медиана делит наш числовой ряд на две равные части, причём первая половина имеет значения меньше либо равные медиане, а вторая — больше либо равные. Если в середине числового ряда оказывается два числа, мы просто берём среднее арифметическое этих двух чисел, чтобы получить медиану. В числовом ряду 1, 2, 3, 4 медианой станет число 2,5. Именно медиана позволяет выбивающимся из общей массы числам вроде 100 в нашем примере выше не влиять на общее впечатление о числовом ряде.

Преимущества медианы:

  • Прекрасно справляется с резко отклоняющимися значениями, поэтому зачастую является самым репрезентативным значением для группы;
  • Разбивает данные на две группы, состоящие из одинакового количества элементов.

Недостатки медианы:

  • Немного усложняются вычисления: необходимо разбить ряд на две части;
  • Медиана менее популярна; если вы скажете «среднее медианное значение», люди запросто могут подумать, что вы говорите о среднем арифметическом. Отсюда возникают недопонимания.

Такие средние значения, как цены на недвижимость или, например, уровень дохода часто вычисляются именно по медиане, потому что нам важна именно средняя стоимость большей части домов в конкретном районе или средний уровень доходов большей части населения. В таком случае Билл Гейтс с годовым доходом в несколько миллиардов не испортит нам всю статистику. Видите, как много зависит от того, как мы работаем с имеющимися данными?

Мода

Само слово может звучать странно, но оно означает всего лишь наиболее часто встречающийся в группе элемент. На практике обычно мода определяется путём опросов и сбора мнений. Да, действительно порой бывают случаи, когда лучшим способом получить наиболее репрезентативный образец данных является сбор откликов.

Ну, скажем, вы планируете вечеринку, и вам нужно выбрать день для её проведения. Дни недели — такой же числовой ряд, что и любой другой. Это всего лишь числа от 1 до 7. Среднее арифметическое и медиана тут не помогут (Лиза и Паша могут в пятницу, а Коля и Петя — в воскресенье; поэтому назначим субботу). Что делать в таком случае? Конечно, выбрать тот день, который выберет большинство.

Как правило, мода используется для получения наиболее репрезентативного значения в нечисловых рядах. Популярные цвета в сезоне, хиты продаж, рейтинги фильмов и музыки, лучшие кафе и закусочные определяются именно по моде.

Преимущества моды: - Прекрасно работает для получения представления об общественном мнении; - Даёт представление о потребностях большой части людей (там, где среднее арифметическое даёт лишь осечку); - Проста для понимания.

Недостатки моды: - Для её вычисления требуется больше усилий (нужно собрать мнения и обработать их); - Победителю достаётся всё: мода выявляет только одного лидера.

Среднее геометрическое

Наш «усреднённый элемент» зависит от того, что мы делаем с уже существующими элементами группы данных. В большинстве случаев элементы просто складываются, и среднее арифметическое прекрасно работает. Но иногда нам нужно что-то большее. Например, когда мы работаем с инвестициями, площадью и объёмом. В таких случаях данные взаимодействуют между собой именно путём умножения (ожидаемая доходность, объём или площадь фигуры вычисляются с помощью умножения), и это меняет наш подход к выявлению средних значений.

Вот пример. Какой инвестиционный портфель вы предпочтёте? Иными словами, какой из них принесёт большую прибыль в течение типичного года?

  • Портфель А: +10%, -10%, +10%, -10%
  • Портфель Б: +30%, -30%, +30%, -30%

Выглядят они похоже. Наша повседневная логика, построенная на привычке к среднему арифметическому, говорит нам, что оба портфеля достаточно рискованны, и оба в среднем приведут к убыткам или нулевой прибыли. Поэтому, наверное, мы выберем портфель Б, поскольку в успешный год он принесёт больше прибыли.

И это неверно! На фондовом рынке с таким подходом мы с вами точно бы прогорели. Проценты с инвестиций умножаются, а не складываются. Мы не можем просто взять и использовать среднее арифметическое, нам нужно найти действительный коэффициент окупаемости. Коэффициент окупаемости считается достаточно просто: берём условные 100% нашего текущего капитала в качестве единицы. Далее представляем колебания доходности-убытка, представленные в описании портфелей, добавляя к нашей единице или вычитая из неё процентные показатели. Затем перемножаем полученные колебания и получаем коэффициент. Для расчёта среднегодового значения коэффициента окупаемости делим полученный коэффициент на 4 (поскольку элементов в нашем числовом ряду четыре).

  • Портфель А:

Коэффициент окупаемости: 1,1 * 0,9 * 1,1 * 0,9 = 0,98 (2% убытка)

Среднегодовое значение: (0,98)^(1/4) = 0,5% годового убытка

  • Портфель Б:

Коэффициент окупаемости: 1,3 * 0,7 * 1,3 * 0,7 = 0,83 (17% убытка)

Среднегодовое значение: (0,83)^(1/4) = 4,6% годового убытка

Выбор между 2% или 17%? Огромная разница! Конечно, разумный человек отказался бы от обоих портфелей, но из двух зол лучше выбрать Портфель А. И именно здесь среднее арифметическое не работает.

Несколько примеров, где работает среднее геометрическое:

  • Темпы инфляции: У вас есть показатели в 1%, 2% и 10%. Каков средний показатель инфляции за конкретный период времени? (1,01 * 1,02 * 1,10)^(1/3) = 4,3%.
  • Скидки: У вас есть три скидочных купона на 50%, 25% и 35%. Какова средняя скидка? (0,5 * 0,75 * 0,65)^(1/3) = 37.5%.
  • Площадь: У вас есть участок земли 40х60 м. Вам нужно вычислить «усреднённую сторону» — иными словами, сторону квадрата примерно той же площади. (40 * 60)^(0.5) = 49 м.
  • Объём: У вас есть коробка 12х24х48 см. Вам снова нужна усреднённая сторона, то есть сторона куба примерно того же объёма. (12 * 24 * 48)^(1/3) = 24 см.

Среднее геометрическое помогает найти «типичный элемент» среди группы элементов, взаимодействующих друг с другом путём умножения. И, как видим, у него множество практических применений.

Среднее гармоническое

Среднее гармоническое представить сложнее, чем предыдущих представителей «средних», но оно не менее полезно. Между прочим, само понятие «гармоники» в математике связано с обратными числами (1/2, 1/3 и т.д.). Среднее гармоническое помогает нам вычислить среднее арифметическое в рядах чисел, заданных обратными значениями. Это случается чаще, чем вы можете подумать.

Например, если я еду со скоростью 30 км/ч, это значит, что я получаю определённый результат (30 км) за какую-либо единицу времени (1 час). Когда мы хотим узнать среднее значение для нескольких скоростей (Х и Y), нужно думать о результате и единицах измерения, а не об исходных цифрах.

средняя скорость = общий результат/общая единица измерения

Возьмём двух работников: Х и Y. Оба работают в одном проекте и выполняют одинаковое количество работы, но скорость их работы разная. Какова средняя скорость их работы?

Скажем, работник Х кладёт 30 кирпичей в час, а работник Y — 60 кирпичей в час. Значит, на один кирпич у каждого работника уходит:

  • У работника X укладка одного кирпича займёт 1/X времени (1/30);
  • У работника Y укладка одного кирпича займёт 1/Y времени (1/60)

Складываем результаты и единицы измерения:

Общий результат: 2 кирпича (Х и Y уложили по одному) Общая единица времени: 1/X + 1/Y (у каждого уходит разное количество времени)

Средней скоростью обоих работников будет:

Если бы у нас было 3 работника (X, Y и Z), их средняя скорость вычислялась бы по формуле:

Здорово же иметь одну формулу вместо того, чтобы каждый раз заниматься долгими вычислениями. Даже вычисляя среднюю скорость 5 нерадивых работников стало бы головной болью. Помните наш первый пример про скорость, с которой вы едете на работу и домой? Чтобы найти среднюю скорость вашего передвижения в тот день, мы просто используем формулу.

При этом нам даже не нужно знать, где находится дом или офис! Теперь вместо X и Y у нас не кирпичи, а количество километров за единицу времени. Вне зависимости от расстояния результат один и тот же: допустим, некое количество километров R мы проходим на скорости X, а другое количество километров R — на скорости Y. Средняя скорость при этом будет вычисляться так же, как вычисляется средняя скорость прохождения 1 км на скорости X и одного километра на скорости Y:

Ключевая идея: Среднее гармоническое используется тогда, когда один и тот же объём работы выполняется на разных скоростях.

Ещё более ключевая идея: Помните, что среднее значение — это один элемент, способный передать суть целой группы элементов. В нашем примере с работой и офисой в среднем туда-обратно мы едем на скорости 40 км/ч (вместо 30 км/ч туда и 60 км/ч обратно). Важно помнить, что средней скоростью мы заменяем каждую «стадию».

Ещё несколько примеров из жизни среднего гармонического:

  • Передача данных: Мы передаём данные между клиентом и сервером. Клиент посылает данные за плату 10 Гб/доллар, а сервер получает их за плату 20 Гб/доллар. Каково среднее количество Гб, которые можно передать и получить за один доллар? Мы усредняем значения для клиента и для сервера: 2 / (1/10 + 1/20) = 13,3 Гб/доллар для каждой стороны. Поскольку данные и передаются, и получаются (каждая сторона выполняет свою половину работу), мы делим это значение на 2 и получаем следующее значение: 6,65 Гб за доллар.
  • Продуктивность машины: У нас есть производственная установка для подготовки и полировки деталей. За час установка может подготовить 25 деталей; либо за тот же час она может отполировать 10 деталей. Какова средняя производительность установки? Усредняем значения для каждой стадии: 2 / (1/25 + 1/10) = 14,28 деталей/час. Снова делим это значение на два, поскольку нас интересует средняя производительность установки, если она занимается сразу двумя фазами: получаем 7,14 деталей/час.

В чём здесь фокус?

Среднее гармоническое действительно не самая очевидная вещь. Дело в том, что если бы у вас было две разных установки, одна из которых работает со скоростью 10 деталей/час, а другая — 20 деталей/час, конечно, их средняя производительность составляла бы 15 деталей/час. В этом случае вы имеете полное право просто сложить их производительность и вычислить среднее арифметическое, ведь установки работают независимо друг от друга.

Если не верите в среднее гармоническое, можно устроить себе обратную проверку. Мы утверждаем, что наша универсальная установка по заготовке и полировке деталей справляется с 7,14 деталями в час. Проверим: мы знаем, что за час машина либо обрабатывает 25 деталей, либо полирует 10. Получаем:

Подготовка: 7,14/25 = 0,29 часов Полировка: 7,14/10 = 0,71 часов

Да-да, 0,29 + 0,71 = 1, цифры работают: для полного цикла изготовления 7,14 деталей действительно требуется один час.

В качестве заключения

Даже такая простая на первый взгляд идея, как «среднее значение», имеет множество применений. Мы здесь рассмотрели лишь самые основные и не затронули средневзвешенное, центр тяжести, математическое ожидание и многое другое. Но мы поняли главные принципы:

  • Среднее значение призвано отразить основную суть всех элементов в группе
  • Тип среднего значения зависит от того, как взаимодействуют элементы в группе (складываются? умножаются? становятся обратными величинами? просто выбираются?)

Спасибо прекрасной статье на Better Explained.

Удачных вам статистических изысканий и не забудьте прочитать другие статьи из серии переводов Better Explained: Удивительные применения теоремы Пифагора, Как развить математическую интуицию? и Открытие числа Пи.
Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
13 марта 2015, 12:00

Оставайтесь в курсе


У вас есть интересная новость или материал из сферы образования или популярной науки?
Расскажите нам!
Присылайте материалы на hello@newtonew.com
--