Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - страница 2
Мы едва закончили колледж, когда разразился кризис субстандартного ипотечного кредитования. Мы оба устроились на работу в ВВС в 2009 году, когда найти работу было очень трудно. Нам повезло, поскольку мы обладали востребованным навыком – мы умели работать с данными. Мы каждый день работали над преобразованием результатов исследований, проведенных аналитиками и учеными ВВС, в продукты, которые могло бы использовать правительство. Наш прием на работу стал предвестником грядущего роста важности тех ролей, которые мы исполняли. Будучи специалистами по работе с данными, мы наблюдали за развитием ипотечного кризиса с интересом и любопытством.
У кризиса субстандартного ипотечного кредитования было множество причин[3]. Приводя его здесь в качестве примера, мы не отрицаем прочие факторы, однако, по нашему мнению, важнейшим из них была серьезная проблема с данными. Банки и инвесторы создали модели для оценки ценности обеспеченных ипотекой долговых обязательств (CDO) – инвестиционных инструментов, ставших причиной обвала рынка США.
Облигации с ипотечным покрытием считались безопасными инструментами, поскольку распределяли риск дефолта по кредиту между несколькими инвестиционными единицами. Идея заключалась в том, что если лишь некоторые активы в портфеле ипотечных кредитов окажутся убыточными, это не окажет существенного влияния на стоимость всего портфеля.
И все же, если поразмыслить, становится очевидно, что некоторые фундаментальные предположения были неверны. В первую очередь речь идет о допущении независимости между возможными дефолтами, то есть предположении о том, что если заемщик А не выполнит обязательства по кредиту, это не повлияет на риск неплатежа заемщика Б. Впоследствии мы узнали о том, что дефолты происходят по принципу домино, то есть предыдущий дефолт может предсказать вероятность дальнейших дефолтов. Дефолт по одному ипотечному кредиту приводил к снижению стоимости находящейся поблизости недвижимости, что способствовало росту риска дефолта по соответствующим кредитам. По сути, один дом утягивал за собой соседние.
Допущение независимости фактически связанных между собой событий – распространенная ошибка в статистике.
Но давайте углубимся в эту историю. Инвестиционные банки создали модели, которые переоценили эти инвестиции. Модели, о которых мы поговорим далее в книге, – это упрощенные версии реальности. Они используют предположения о реальном мире для понимания и предсказания определенных явлений.
А кто создавал эти модели? Это были люди, которые заложили основы будущей профессии дата-сайентиста. Люди вроде нас. Статистики, экономисты, физики – люди, которые занимались машинным обучением, искусственным интеллектом и статистикой. Они работали с данными. И они были умны. Невероятно умны.
И все же что-то пошло не так. Может быть, они не сумели задать правильные вопросы? Или информация о риске и неопределенности не была должным образом донесена до лиц, принимающих решения, в результате чего у них возникла иллюзия совершенно предсказуемого рынка недвижимости? А может быть, кто-то откровенно соврал о результатах?
Но больше всего нас интересовало то, как избежать подобных ошибок в нашей собственной работе?
У нас было много вопросов, и об ответах мы могли лишь гадать, но одно было ясно – это была крупномасштабная катастрофа с данными. И она обещала быть не последней.