Better Explained: как полюбить математическую статистику

Теорию вероятностей и математическую статистику на профильных факультетах изучают глубоко и долго. Однако мы все в повседневной жизни постоянно сталкиваемся с этими разделами математики. 

Время чтения: 6 минут
Better Explained: как полюбить математическую статистику

В этой статье не будет ни одной формулы и ни одной диаграммы. Этот материал — скорее пригласительный жест в мир статистических данных и методов, этакая мотивация: «Заходи к нам, у нас тут весело!»

Для начала разберёмся: в чём разница между этими двумя научными областями (теория вероятностей и математическая статистика), идущими рука об руку?

Проведём наглядную аналогию.

Теория вероятностей уже знает животное, а потом вычисляет, какие следы оно оставляет. Теория вероятностей прямолинейна. У вас есть медведь. Измеряем длину и ширину его лапы, его вес и другие характеристики, проделываем некоторые подсчёты и восклицаем: «О, наш Мишутка весом в 200 кг и длиной стопы в 70 см оставит вот такой след!». Сравните с классическими академическими задачами: «Имеется симметричная монета. Каковы возможные варианты выпадения орлов и решек после 10 бросков?»

Статистика имеет дело со следом, а после угадывает животное.

Источник: Википедия

Статистика имеет дело со следом, а после угадывает животное. Статистика сложнее. Мы измеряем имеющиеся следы и пытаемся вычислить, какое животное могло их оставить. Сравните: «Если выпало 6 орлов и 4 решки, какова вероятность того, что монета симметричная?»

Какими методами статистика ищет животное?

Получить следы. Каждый элемент данных — кусочек паззла. Чем больше у нас данных, тем понятнее становится общая картина. Один кусочек может не сказать нам ничего. По нескольким мы уже можем представить цельное изображение.

Измерить базовые характеристики. У каждого следа есть глубина, ширина и высота. У каждого набора данных есть медиана, среднее число, стандартные отклонения и т.д. Эти общие универсальные описания дают грубый, приближенный результат: «Ширина этого следа составляет 18 см. Это маленький медведь или большой человек?»

Найти виды. Нашими подозреваемыми (то, что называется вероятностным пространством) могут быть десятки различных видов животных. Мы сужаем поле рассматриваемых видов, исходя из той системы координат, в которой находимся. Дело происходит в лесу? Исключаем зебр. Рассматриваем поле закрытых вопросов с двумя вариантами ответов? Используем биномиальное (двучленное) распределение.

Найти конкретное животное. Раз у нас есть вероятностное пространство (медведи), мы смотрим в таблицу общих характеристик. «След шириной в 18 см и глубиной в 5 см обычно принадлежит трёхлетнему медведю весом в 200 кг». Такие таблицы составляются исходя из распределения вероятностей после измерения животного, находящегося в зоопарке.

Сделать дополнительные прогнозы. Раз мы знаем животное, мы можем предсказать его поведение в будущем и другие черты. Например, «согласно нашим вычислениям, Мишутка обязательно нагадит в лесу». Статистика на основе самих данных даёт нам информацию об источнике этих данных.

Очевидно, что эта медвежья метафора не претендует на точность, но она явно более понятна и удобоварима, чем «Статистика — это наука о вопросах сбора, измерения и анализа массовых данных».

Если вас не убедила эта метафора, давайте посмотрим, какие статистические приёмы мы можем использовать при поисках медведя.

Вот так работает экстраполяция.

Источник: Википедия

  • Каковы самые распространённые виды животных в этих широтах? (Распределение вероятностей)
  • Можем ли мы предсказать, как будет выглядеть следующий след? (Экстраполяция)
  • Идут ли следы вдоль тропы? (Прямая регрессии)
  • Вот следы двух разных животных. Какое из них быстрее? Больше? (Сравнение эффективности)
  • Следовали ли животные в одном направлении? (Корреляция)
  • Ведут ли следы к одной точке? (Поиск причинно-следственных связей: например, два медведя гонятся за одним зайцем).

Известный американский журналист и поп-социолог Малкольм Гладуэлл в 2009 году опубликовал сборник своих статей «Что видела собака: Про первопроходцев, гениев второго плана, поздние таланты, а также другие истории». В этой книге есть куча увлекательных историй, в которых тесно переплетается жизнь и различные отрасли науки (в основном математическая статистика, математическое моделирование, социология и психология). Помимо прочего есть там одна показательная глава «Опасные мысли: немного о психологическом профилировании преступников». Это небольшое расследование о расследованиях; в нём говорится о том, как происходит психологическое профилирование серийных маньяков-убийц. Профессиональный профайлер — это психолог-бихевиорист, который на основе предоставленных полицией данных описывает конкретного человека, совершившего преступление. К услугам профайлеров в отчаяньи прибегали американские полицейские в 70-80-е годы прошлого века, когда информацию о преступнике приходилось собирать по крупицам. Легендарной стала история о том, как профайлер-психиатр, ярый последователь Фрейда Джеймс Брассел навёл полицию на след маньяка, описав его как холостого славянина, живущего с матерью, безупречно опрятного. И обязательно в момент поимки он будет в двубортном костюме, застёгнутом на все пуговицы. Так и оказалось в итоге, хотя многие другие характеристики, указанные Брасселом при обрисовке портрета, не совпали с реальностью. 

В процессе поисков преступника всегда лежат статистические методы.

Источник: Википедия

Классическая детективная история начинается с трупа и закручивается вокруг поисков преступника детективом. Прорабатываются версии. Забрасываются сети, в которые попадает всё больше и больше подозреваемых: дворецкий, отвергнутый любовник, озлобленный племянник, таинственный европеец. Это и есть детектив. При составлении психологического профиля круг поисков только сужается... Ищите славянина средних лет в двубортном костюме. Составление психологического профиля не задаётся вопросом «кто это сделал?», а описывает конкретного человека — того, кто совершил преступление.

— «Что видела собака...»отрывок из книги

 

Чувствуете статистические принципы, лежащие в основе профилирования?

Конечно, профессия профайлера канула в лету — во-первых, по причине своей научной несостоятельности; а во-вторых, по причине развития информационных технологий. Теперь на смену интуиции пришли  огромные базы данных, информацию из которых можно обрабатывать за считанные секунды, и методы математической статистики. 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
18 мая 2015, 16:00

Оставайтесь в курсе


У вас есть интересная новость или материал из сферы образования или популярной науки?
Расскажите нам!
Присылайте материалы на hello@newtonew.com
--