Предсказываем тренды. С Rattle и R в мир моделей классификации - страница 37

В то время как методы фильтра достаточно простые и быстрые, есть субъективизм в процедуре. У большинства методов нет очевидной точки разделения для отбора предикторов в модель. Даже в случае гипотез, основанных на статистических тестах, пользователь все равно должен выбрать уровни значимости, которые будут применены в итоге.

11.5. Выбор смещения

В то время как некоторые методы фильтра или процедуры поиска более эффективны, чем другие, более важный вопрос связан с тем, как вычисляется результативность модели (особенно при небольшом объеме выборки). Может произойти переобучение предикторов к учебным данным, что без надлежащей проверки может остаться незамеченным.

Коэффициенты ошибок «пропускают один», были основаны на модели SVM после выбора предикторов. Было предположено, что при повторении выбора предиктора с немного отличающимся набором данных, результаты могут измениться. Оказывается, что в некоторых случаях неопределенность, стимулированная выбором предиктора, может быть гораздо больше, чем неопределенность в модели (как только предикторы были выбраны). Более того было показано, что стратегия перекрестной проверки «пропускает один» может достигать нулевых ошибок даже при полностью не информативных предикторах.

Логическая ошибка в исходном подходе четкая. Модель создавалась из набора данных обучения и, используя эти данные, предикторы были оценены и упорядочены. Если модель подогнана снова, используя только важные предикторы, результативность почти наверняка изменится к лучшему для этого же набора данных.

Методологическая ошибка произошла, потому что выбор предиктора не рассмотрели как часть процесса построения модели. Также, этот процесс следует включить в пределах процедуры ресемплирования так, чтобы изменение выбора предиктора было получено в результатах.

Чтобы должным образом повторно дискретизировать процесс выбора предиктора, необходим «внешний» цикл ресемплирования, который охватывает весь процесс.

Было показано, что при бутстрэпинге, 10-кратной перекрестной проверке или повторения набора тестов должным образом использовать методы ресемплирования, то результаты модели определяются правильно.

У дополнительного уровня ресемплирования может быть значимое негативное воздействие на вычислительную эффективность процесса выбора предиктора. Однако особенно с небольшими наборами данных обучения, этот процесс решительно уменьшит возможности переобучения к предикторам.

Риск переобучения этим способом не ограничен рекурсивным выбором предиктора или обертками вообще. При использовании других процедур поиска или фильтрации для сокращения количества предикторов риск все еще остается.

Следующие ситуации увеличивают вероятность смещения выбора:

– набор данных небольшой;

– число предикторов большое (так как возрастает вероятность объявления значимым неинформативного предиктора);

– предсказательные возможности модели не оправданно велики (например, модели черного ящика), которая, более вероятно, переобучена на данных;

– независимый набор тестов не доступен.

Когда набор данных большой, рекомендуются отдельные наборы данных для выбора предикторов, настройки модели и проверки заключительной модели (и набор предикторов). Для небольших наборов данных обучения надлежащее ресемплирование критично. Если объем данных не слишком маленький, то также рекомендуется отделить небольшой набор для тестирования, чтобы проверить дважды на отсутствие грубых ошибок.

Назад Вперед

Похожие книги

Предсказываем тренды. С Rattle и R в мир моделей классификации

Александр Фоменко

Просто о бизнесе

Книга является практическим руководством по обучению моделей предсказаниям трендов на рынке Форекс. Берем исторические значения исходных данных – котировок, индикаторов, макроэкономических данных, и на них учим модель предсказывать «лонги-шорты».Данная книга является практическим применением пакета Rattle к рынку Форекс и терминалу МТ4 c комментариями идеологии моделей классификации и их оценки.Книга доступна новичкам, а также полезна опытным тре

Читать онлайн

Управление запасами

Андрей Батуров

Просто о бизнесе

Управление запасами является кульминацией всех действий, направленных на управление запасами. Используя правильные стратегии управления запасами, вы гарантируете, что у вас всегда есть нужный объем запасов, сводя при этом к минимуму риск возникновения узких мест и чрезмерных затрат. Всем компаниям, имеющим физические запасы, требуется стратегия управления запасами.В книге подробнее рассматривается, что означает управление запасами и как вы можете

Читать онлайн

Прочность вашего бизнеса

Игорь Клипиницер

Просто о бизнесе

Игорь Клипиницер – бизнес-консультант с 25-летним опытом работы с компаниями малого и среднего бизнеса, а в прошлом – топ-менеджер КамАЗа, ответственный за организационное развитие компании. Книга рассказывает о трех простых шагах, которые необходимо сделать владельцу бизнеса для того, чтобы компания стала прочной, то есть устойчивой к внешним воздействиям.

Читать онлайн

100 уроков менеджмента. Методическое пособие для управленческой элиты

Олег Кулагин

Просто о бизнесе

В книге рассмотрены общие основы управления и представлена пошаговая технология формирования и развития системы управления предприятием в виде «пирамиды регулярного менеджмента», состоящей из десяти блоков. В каждом из них кратко рассмотрены основные управленческие инструменты и методики, отражающие симпатии и убеждения автора на основе личного опыта управленческого консультирования и доступных разработок ведущих российских и зарубежных специалис

Читать онлайн

Камасутра для репетитора. 173 способа найти ученика

Теодор Донцу

Просто о бизнесе

Данная книга создана для помощи как школьным учителям, студентам старших курсов педагогических ВУЗов, молодым учителям, так и центрам дополнительного образования или онлайн школам. В ней описаны практические инструменты, сайты, агрегаторы и нечестные способы привлечения клиентов на репетиторство. Минимум теории и куча практики. Книга поделена на блоки: инструменты для всех; инструменты для опытных преподавателей; сайты и агрегаторы. Здесь вы найд

Читать онлайн

Нил Сорский

Елена Романенко

Биографии и мемуары

Рассказать о жизни святого – сложная задача. Его жизнь не так событийна, как жизнь государя или полководца. Его внутренний мир – это вообще тайна «за семью печатями». Однако повествуя о жизни преподобного Нила Сорского, видного церковного деятеля Средневековой Руси, автор находит свой ключ к «заветной двери». Этим ключом послужили тексты 24 житий древних святых, которые Нил Сорский отобрал в свои сборники. Они сохранились в автографах преподобног

Читать онлайн

В шатре бедуина

Энни Уэст

Современные любовные романы

Шейх Амир поклялся обелить запятнанное имя своей семьи, и меньше всего ему нужна неприятность в лице чувственной блондинки почти без одежды, зато с дерзким характером. Своевольная Кэсси была похищена бандитами и продана в гарем к шейху, но она отказывается быть игрушкой в руках мужчины. И все же то время, что она провела в шатре Амира, притворяясь его любовницей, не оставило ее равнодушной…

Читать онлайн