Алгоритмы машинного обучения: базовый курс - страница 17

Как правильно разделить данные?

Разделение данных на обучающую, тестовую и, при необходимости, валидационную выборки – это важный этап машинного обучения, который напрямую влияет на качество модели. Если данные распределены неправильно, модель может либо не получить достаточно информации для обучения, либо оказаться плохо протестированной, что приведёт к некорректным предсказаниям на реальных данных.

Чаще всего данные делят в пропорции: 70-80% на обучение и 20-30% на тестирование. Такой баланс выбран неслучайно. Если выделить слишком мало данных для обучения, модель не сможет выявить устойчивые закономерности, так как у неё будет недостаточно примеров. Если же оставить слишком мало данных для тестирования, то сложно будет объективно оценить качество модели: её результаты на новой информации могут оказаться случайными.

Дополнительно иногда выделяют валидационную выборку – отдельный набор данных, который используется во время настройки модели. Это особенно важно при выборе гиперпараметров, таких как сложность модели или скорость обучения. Валидационные данные позволяют тестировать различные конфигурации модели без риска подгонки под тестовую выборку. Если этого не делать, можно случайно подобрать модель, которая хорошо работает только на тестовых данных, но плохо справляется с реальными задачами.

Такое разделение можно сравнить с процессом подготовки спортсмена к соревнованиям. На этапе тренировок (обучающая выборка) он изучает технику, развивает выносливость и учится справляться с нагрузками. Перед важным турниром он может участвовать в контрольных тренировках и пробных забегах (валидационная выборка), где тестирует свою подготовку. Но финальная проверка его навыков – это соревнование (тестовая выборка), на котором становится ясно, насколько хорошо он умеет применять свои знания и навыки в реальных условиях.

Без тестирования на новых данных невозможно сказать, действительно ли модель научилась решать задачу или просто запомнила ответы из обучающей выборки. Если модель показывает отличные результаты на обучающих данных, но терпит неудачу на тестовых, значит, она переобучилась и не сможет работать с реальными данными. Именно поэтому правильное разделение данных является обязательным шагом в процессе создания моделей машинного обучения.

Рассмотрим несколько примеров кода на Python с использованием библиотеки `scikit-learn`, чтобы лучше понять процесс разделения данных.

Пример 1: Базовое разбиение данных

Этот код показывает, как разделить данные на обучающую и тестовую выборки с помощью `train_test_split`.

```python

from sklearn.model_selection import train_test_split

import numpy as np

# Создадим массив данных (обычно здесь загружаются реальные данные)

X = np.array([[i] for i in range(1, 11)]) # Признаки (например, номера объектов)

y = np.array([i * 2 for i in range(1, 11)]) # Целевые значения (например, цены)

# Разделяем на 80% обучение, 20% тест

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Обучающая выборка (X_train):", X_train.ravel())

print("Тестовая выборка (X_test):", X_test.ravel())

```

Вывод: Обучающая и тестовая выборки будут сформированы случайным образом, но примерно 80% данных пойдет на обучение, а 20% на тестирование.

Пример 2: Добавление валидационной выборки

Иногда, помимо тестовой выборки, выделяют валидационную. Это можно сделать в два этапа.

Назад Вперед

Похожие книги

Алгоритмы машинного обучения: базовый курс

Тайлер Венс

Самоучители

Практическое руководство для новичков, которые хотят понять основы машинного обучения. Здесь представлены ключевые алгоритмы, такие как линейная регрессия, деревья решений, методы опорных векторов и нейронные сети, а также объясняется работа с данными и инструменты Python.Четкие объяснения, примеры кода и практические задачи помогут быстро освоить теорию и начать применять машинное обучение в реальных проектах. Книга идеально подходит для студент

Читать онлайн

Создай свой VPN. Безопасное использование интернета

Джейд Картер

Самоучители

Книга будет полезна для тех, кто стремится к созданию собственной виртуальной частной сети (VPN). Она охватывает широкий спектр тем, начиная с основ безопасности сетей и технологий VPN, и заканчивая практическими шагами по настройке и обслуживанию серверов и клиентов VPN. Автор подробно рассматривает различные аспекты создания VPN, включая выбор платформы и инфраструктуры, обеспечение безопасности данных, оптимизацию производительности и интеграц

Читать онлайн

Ценителям и адептам своего духовного состояния. Активация носителя человечности. Энергоинформационный комплекс

igorfengshui

Самоучители

Материал посвящается ценителям и адептам совершенствования, находящимися в поиске своих или чьих-нибудь сверхспособностей.Практическое руководство от исследователя мастерства истинности.

Читать онлайн

Самоучитель бокса. Как встать с дивана и начать тренироваться

Александр Колесников

Самоучители

Книга, которую вы держите сейчас в руках, написана профессиональным боксером, двукратным рекордсменом Книги рекордов России, который в возрасте 42 лет впервые вышел на профессиональный ринг.В доступной и увлекательной форме автор рассказывает историю отечественного бокса, знакомит читателя с первыми чемпионами Российской империи и пошагово дает советы, как начать осваивать боксерское мастерство в домашних условиях, не отходя от своего любимого ди

Читать онлайн

Английский по любви. Бережные уроки для тех, кто много раз начинал

Анастасия Иванова

Самоучители

Вас когда-нибудь пугала мысль об изучении английского языка? Забудьте о страхе!«Английский по любви» – уникальный самоучитель, созданный для начинающих и тех, кто многократно пробовал, но так и не смог довести дело до конца. Вас ждет мягкое погружение в язык без скучной теории и сухой практики.В книге:[ul]разбор основных времен и других грамматических тем через увлекательную подачу с примерами и заданиями на основе историй о женщинах;трекеры отсл

Читать онлайн

Тхэквондо для лиц с ПОДА (раздел керуги). учебно-методическое пособие

Е. В. Головихин

Руководства

Новый паралимпийский вид спорта тхэквондо ВТФ ПОДА с 2020 года станет полноправным олимпийским спортом среди спортсменов с ПОДА. В пособии изложен практический опыт работы с инвалидами и результаты научных исследований.

Читать онлайн

Законы удачи. Система достижения успеха, которая никогда не дает сбоев

Брайан Трейси

Зарубежная деловая литература

Удача предсказуема. Успех и счастье не сваливаются на голову случайно. Все в жизни происходит по определенным причинам. У любого события всегда есть повлекшие его факторы, и самым важным из всех факторов удачи является понимание того, чего вы хотите. Вы получите четкие инструкции и наконец уясните, что люди имеют то, что имеют, только благодаря самим себе и тому, о чем они думают и что делают большую часть времени.

Читать онлайн