Модельное мышление. Как анализировать сложные явления с помощью математических моделей - страница 27
Создание избыточного количества категорий приводит к чрезмерной подгонке данных, а она препятствует прогнозированию будущих событий. Предположим, мы хотим использовать данные о покупках продуктов за прошлый месяц для прогнозирования данных за нынешний месяц. Ежемесячные расходы домохозяйств отличаются. Модель, которая относит каждое домохозяйство к его собственной категории, предскажет, что оно потратит столько же, сколько и в прошлом месяце. Но это будет не очень хороший прогноз, учитывая ежемесячные колебания расходов. Отнеся домохозяйства к категории им подобных, мы сможем использовать средний объем расходов на продукты аналогичных домохозяйств для создания более точного прогноза.
Для этого мы будем рассматривать ежемесячный объем расходов каждого домохозяйства как одно из значений распределения (о распределениях рассказывается в главе 5). У этого распределения есть среднее значение и дисперсия. Задача построения модели категоризации – создать категории на основе атрибутов таким образом, чтобы у домохозяйств в рамках одной категории были близкие средние значения. Тогда объем расходов одной семьи за первый месяц позволит определить объем расходов другой семьи за второй месяц. Однако ни один вариант категоризации не может быть идеальным. Средний объем расходов домохозяйств, входящих в одну категорию, будет немного отличаться. Мы называем это погрешностью категоризации.
Увеличивая категории, мы увеличиваем и погрешность категоризации, поскольку возрастает вероятность отнесения к одной категории домохозяйств с разными средними значениями. Впрочем, более крупные категории основаны на большем количестве данных, а значит, оценки среднего в каждой категории будут точнее (см. правило квадратного корня в главе 5). Погрешность, возникающая из-за неправильной оценки среднего, называется погрешностью оценки. По мере увеличения категорий погрешность оценки уменьшается. Включение одного или даже десяти домохозяйств в одну категорию не позволит получить точную оценку среднего, если они будут существенно разниться по ежемесячному объему расходов. Тысяча домохозяйств в одной категории обеспечат такую оценку.
Итак, мы получили важный интуитивный вывод: увеличение количества категорий влечет за собой погрешность категоризации в связи с отнесением домохозяйств с разными средними значениями к одной категории. Статистики называют это систематической ошибкой модели.
Если вам понравилась книга, поддержите автора, купив полную версию по ссылке ниже.
Продолжить чтение