Предсказываем тренды. С Rattle и R в мир моделей классификации - страница 34
Для реализации идей данного раздела могут быть использованы следующие пакеты: caret, CORElearn, minerva, pROC и randomForest. Перечень полезных функций:
оценивает корреляцию между предикторами и целевой переменной;
оценивает ранговую корреляцию по Спирмену между предикторами и целевой переменной;
количественно оценивает отношения между предикторами и целевой переменной;
вычисляет статистику MIC между предикторами и целевой переменной;
для категориальных предикторов оценивает по одному связь между предиктором и целевой переменной. Применение ко всем предикторам выполняется по apply;
для категориальных целевой переменной вычисляется статистика Relief нескольких версий. Также функция может быть использована для индекса Gini;
для категориальной целевой переменной отбирает наиболее значимые для нее предикторы. Имеет высокую вычислительную эффективность;
для категориальной целевой переменной отбирает наиболее значимые для нее предикторы.
11. Выбор предикторов
С практической точки зрения модель с меньшим количеством предикторов легче поддается толкованию, а для платных источников котировок может привести к уменьшению затрат. Статистически более привлекательно оценивать меньше параметров. Кроме того, что более важно, на некоторые модели могут негативно влиять не информативные предикторы.
Некоторые модели естественно стойкие к неинформативным предикторам. Модели, основанные на дереве, например, интуитивно проводят отбор предикторов. Например, если предиктор не используется ни в одном расщеплении во время построения дерева, уравнение предсказания функционально независимо от предиктора.
Важное различие, которое будет сделано в выборе предиктора, является различием контролируемых и безнадзорных методах (методы с учителем и без учителя). Если значение целевой переменной игнорируется во время устранения предикторов, то метод безнадзорный (без учителя). В каждом случае целевая переменная не зависит от фильтрования. Для контролируемых методов (с учителем) предикторы определенно выбраны с целью увеличения точности или поиска такого подмножества предикторов, которое уменьшает сложность модели. Здесь значения целевой переменной обычно используется для определения величины значимости предикторов.
Проблемы, связанные с каждым типом выбора предиктора, очень отличаются, и имеются большие объемы литературы по этой теме.
11.1. Следствия использования неинформативных предикторов
Прежде всего, выбор предиктора направлен на удаление не информативных или избыточных предикторов из модели. Как со многими проблемами, обсужденными в этом тексте, выбор значимости предиктора зависит от используемой модели. Во многих моделях оцениваются параметры каждой составляющей в модели. Из-за этого присутствие не информативных предикторов может прибавить неопределенность к предсказаниям и уменьшить полную эффективность модели.
Учитывая потенциальное негативное воздействие, есть потребность поиска минимального подмножества предикторов. Основная цель состоит в уменьшении их количества, но таким способом, который максимизирует результативность. Как мы можем уменьшить сложность, негативно не влияя на эффективность модели?
11.2. Подходы для сокращения количества предикторов
Кроме моделей со встроенным выбором предиктора, большинство подходов для сокращения количества предикторов может быть разделено на две главных категории: