Профессора и авторы книги «О чём говорят цифры» Томас Дэвенпорт и Ким Джин Хо рассказывают, из чего состоит процесс анализа больших объёмов данных и где могут быть востребованы специалисты в этой области. Однако эта книга предназначена не для профессиональных аналитиков. Авторы говорят о том, что она может быть полезна всем для того, чтобы стать хотя бы компетентным пользователем данных. Сейчас, в условиях быстрого накопления большого массива сведений, надо уметь хотя бы понимать, как с этими данными можно работать и какую информацию из них извлекать.
Хотя напрямую книга «О чём говорят цифры» не посвящена образованию, специалистам в этой области она тоже может быть полезна. Сейчас компьютерные технологии всё больше проникают даже в традиционное образование, не говоря уж о дистанционном, которое и есть само по себе компьютерные технологии. И, говоря о классическом школьном или вузовском образовании, мы сейчас ещё обычно находимся в рамках старой парадигмы и не задумываемся, какой огромный пласт данных о наших учениках мы просто не замечаем.
Источник: flickr.com.
Рассмотрим самый простой пример. Всё чаще в школах учителя проводят тестирования учеников на знания с помощью компьютерных, автоматизированных тестов. Даётся вопрос, несколько вариантов ответов, ученик выбирает свой вариант и получает свой результат (правильный ответ был или нет). Однако даже здесь, в такой простой ситуации, мы могли бы запомнить и проанализировать такие действия ученика, как изменение им варианта ответа, движения его мышки (по ним можно понять колебания ученика между вариантами), время его ответов и другую информацию, которая даст нам не только итоговый результат (знает ответ ученик или нет), но и сведения о том, насколько он был уверен в ответе, не угадал ли он правильный вариант, какие другие предположения о правильном ответе у него были и другое. И это в самом простом варианте! А если в системе у вас есть не только тесты, но и другие задания, лекции и прочее, то возможности анализа данных о поведении пользователей возрастают многократно!
Для дистанционного образования разрабатываются специальные системы адаптивного обучения, самая известная из которых, пожалуй, Knewton, про которую мы писали ранее. Это системы, которые нацелены именно на сбор данных и анализ информации о поведении пользователя. Для традиционного и смешанного образования таких систем пока что нет. Конечно, частично это связано с недостаточным использованием компьютеров и электронных систем в школьном, например, образовании. Но более важно, возможно, то, что учителя ничего не знают об анализе больших массивов данных, не понимают, как с этим работать и какую информацию им это может дать, и, как следствие, не хотят развиваться в этом направлении.
Такое длинное введение нам потребовалось, чтобы рассказать вам, почему эту книгу, казалось бы, очень далёкую от сферы образования, стоило бы прочитать каждому учителю и каждому руководителю в этой области. Давайте теперь больше поговорим о содержании книги.
Аналитикой авторы называют методы математического или статистического анализа, с помощью которых в данных можно найти логику и эффективно их использовать. Авторы сосредоточены на методах количественной, а не качественной аналитики и считают, что в большинстве случаев анализ массивов данных более эффективен, чем прогнозы на основе качественного анализа.
Традиционные базы данных имеют дело со структурированными данными. Такие данные противопоставляются большим данным, которые также называются неструктурированными данными. Именно анализ больших данных приобретает всё большую популярность и всё большую значимость в последнее время.
2000 год стал началом массированного использования интернета, когда компании приступили к анализу огромных массивов данных в виде текста, изображений и щелчков мышки. Сейчас уже наступила эпоха больших данных, когда обработка нескольких петабайт информации стала для организаций рутинным делом (1 петабайт равен 1024 терабайта, или 1015 байт, то есть 1 125 899 906 842 624 (квадриллион) байт информации). Например, хранилище информации eBay имеет объём более чем в 40 петабайт. Телекоммуникации и социальные медиа поставляют огромные объёмы информации социальной направленности. Объём аудио- и видеоданных, которые хотят проанализировать организации, растёт в геометрической прогрессии. Жалко, что пока эти данные больше связаны с развлечениями пользователей и возможностью что-то им продать, хотя потихоньку big data приходит и в сферу образования.
Источник: Издательство «МИФ».
В книге приводится много примеров того, как анализ данных применяется в разных сферах жизни. Например, любой текст представляет собой пример неструктурированных данных. Поскольку он состоит из определенной последовательности слов, его трудно разложить по строкам и столбцам таблицы. Но в тексте возможно путем анализа найти логические закономерности.
В конце ХХ века Томас Менденхолл в ходе исследований вопроса о том, действительно ли Шекспир был автором всех приписываемых ему произведений, опубликовал две статьи, в которых изложил статистический подход к проблеме определения авторства. Метод Менденхолла, впоследствии получивший название стилометрии, или количественного анализа литературного стиля, основан на предположении о том, что, хочет он того или нет, каждый автор чаще использует одни слова, чем другие, и сохраняет одинаковый литературный стиль, по крайней мере в долгосрочной перспективе. С позиций количественного анализа это означает, что доля слов определенной длины будет постоянной во всех текстах, написанных данным автором. Если доля слов определенной длины в двух разных текстах существенно отличается, это можно считать подтверждением того, что тексты написаны разными авторами.
Источник: commons.wikimedia.org.
Отпечатки пальцев также представляют собой неструктурированные данные, причем довольно большого объема — если изображение высококачественное. Когда полицейские сравнивают их, то они не накладывают одно изображение на другое. Сначала они определяют несколько ключевых точек на каждом отпечатке. Затем по этим точкам формируется карта (многоугольник). Именно по этим картам производится сравнение. Особое значение имеет тот факт, что карта представляет собой структурированные данные, к тому же небольшого объема, даже если исходное изображение «весило» много.
Экономист из Принстона Орли Ашенфельтер составил уравнение для прогнозирования аукционной цены на марочные французские вина. Большинство экспертов сходятся в том, что хорошее вино получается в том случае, если предшествующая зима была дождливой, в сезон созревания винограда стояла теплая погода, а в сезон его сбора — сухая. Экономист учел в уравнении данные о погоде, осадках, выдержке вина и выявил, что включенные в уравнение переменные на 83% объясняют отклонения в ценах на вино. Возраст вина, умеренная температура в период созревания и количество осадков в течение предшествующей зимы оказывают прямое положительное влияние на цену вина, то есть увеличивают ее.
Далёкие от образования примеры? Возможно, хотя до конца мы с этим согласится не можем. Представьте, как можно было бы поменять систему нашего образования, если бы мы внедрили полноценные механизмы определения того, сам ли ребёнок выполнил своё задание? Или даже более сложный и красивый сценарий: можно ведь собрать данные о паттернах поведения учеников во время прохождения тестов по какой-либо теме или какому-либо предмету (о том, какие варианты они выбирали, какой ответ на какой меняли, как двигалась их мышка и т.д.). Это помогло бы нам понять, какие проблемы есть у детей в понимании данного конкретного предмета не на примере отдельного ребёнка (который и сам может не понимать, чего именно он не понимает), а в масштабах всех учеников нашей страны. В итоге такой анализ способствовал бы качественному улучшению нашей образовательной системы, а ведь анализ прохождения тестов — это только самое простое, что вообще можно сделать в рамках анализа больших массивов данных, надо только озаботиться их полученим.
Подводя итог, мы бы сказали, что книгу «О чём говорят цифры» стоит прочесть каждому, кто так или иначе связан со сферой образования. Не думая о том, как собрать и проанализировать большие объёмы данных в этой сфере, мы теряем важный источник информации о наших учениках. В XXI веке такое уже недопустимо.