Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - страница 11
А множество потенциально излечимых больных, которых мы вовремя не диагностируем? Разве это не происходит лишь потому, что болезни на ранней стадии имеют гораздо меньше симптомов, чем в своей тяжелой форме?
Опасны ли социальные сети? Ведь они отражают только то, что мы уже знаем и чему верим, не посягая на нашу точку зрения, поскольку отбирают факты и события в пределах нашей зоны комфорта. Или, что еще хуже, те рассказы, которые люди выбирают для публикаций в социальных сетях, могут создавать у нас ложное представление о том, что жизнь всех остальных людей удивительно легка и прекрасна, а это прямой путь к депрессии – ведь в своей жизни мы встречаем так много препятствий.
Мы привыкли думать о данных как о числах. Но данные необязательно должны быть числами, включая и темные данные. Вот вам пример, в котором отсутствующей критической информацией является одна буква.
Арктическим экспедициям 1852, 1857 и 1875 гг. поставлялось Arctic Ale – пиво с особо низкой температурой замерзания, изготовленное Сэмюэлем Аллсоппом. Альфред Барнард, написавший историю британского пивоварения, попробовал этот эль в 1889 г., описав его как напиток «приятного коричневого оттенка, обладающий вкусом вина и орехов и таким шипением, словно был сварен только что… Из-за большого количества оставшегося неферментированного экстракта, его следует рассматривать как чрезвычайно ценный и питательный продукт»[10]. Как раз то, что нужно в арктических экспедициях.
В 2007 г. бутылка из партии 1852 г. была выставлена на аукционе eBay со стартовой ценой $299. Продавец, у которого она хранилась в течение 50 лет, неправильно написал название пива, пропустив одну «р» в слове «Allsopp». Как следствие, предмет не обнаруживался поисковыми запросами любителей винтажного пива, так что поступило только две заявки. Из них победила заявка 25-летнего Даниэля Вудула, который предложил целых $304. Стремясь определить ценность покупки, Вудул тут же вновь выставил бутылку на продажу, но на этот раз с правильным названием. В ответ было подано 157 заявок с максимально предложенной ценой $503 300.
В этом случае одна пропущенная буква стоила полмиллиона долларов[11]. Это наглядный пример того, что потеря информации может привести к значительным последствиям. Как мы увидим далее, полмиллиона долларов – ничто по сравнению с убытками в других ситуациях, связанных с отсутствием данных. Они способны разрушать судьбы, уничтожать компании и, как в случае с Challenger, приводить к гибели людей. Короче говоря, отсутствующие данные важны.
В случае с Arctic Ale чуть большее внимание помогло бы избежать проблемы. Небрежность, безусловно, одна из самых распространенных причин появления темных данных, но далеко не единственная. Неприятный факт заключается в том, что данные могут стать темными по очень широкому ряду причин, и далее в книге мы увидим это.
Заманчиво считать темные данные исключительно тем, что можно было бы получить, но по каким-то причинам не удалось. Безусловно, это самый очевидный вид темных данных. Отсутствующие данные по заработной плате в опросе, в котором часть респондентов отказалась разглашать эту информацию, конечно, являются темными данными, но также ими является и уровень заработной платы безработных, которые не получают ее и, следовательно, просто не могут назвать. Ошибки измерения и неточности скрывают истинные значения; обобщая данные (например, вычисляя средние значения), мы теряем детали; неверные формулировки запросов искажают смысл того, что мы хотим узнать. В более общем понимании любую неизвестную характеристику некоей генеральной совокупности (статистики часто используют термин «