Алгоритмы машинного обучения: базовый курс - страница 39
df = pd.read_csv(url)
# Оставляем только нужные колонки
df = df[['Survived', 'Pclass', 'Age', 'SibSp', 'Parch']]
# Удаляем строки с пропущенными значениями
df.dropna(inplace=True)
# Разделяем на признаки и целевую переменную
X = df[['Pclass', 'Age', 'SibSp', 'Parch']]
y = df['Survived']
# Стандартизация данных для улучшения качества модели
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# Разбиваем на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
```
Шаг 2: Обучение модели логистической регрессии
Создадим и обучим модель.
```python
# Создаем модель логистической регрессии
log_model = LogisticRegression()
# Обучаем модель
log_model.fit(X_train, y_train)
# Предсказываем выживаемость пассажиров
y_pred = log_model.predict(X_test)
```
Шаг 3: Оценка качества модели
Выведем метрики точности и классификационный отчет.
```python
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy:.2f}")
print(classification_report(y_test, y_pred))
```
Шаг 4: Интерпретация результатов
Посмотрим, какие факторы сильнее всего влияют на предсказания модели.
```python
feature_names = ['Pclass', 'Age', 'SibSp', 'Parch']
coefficients = log_model.coef_[0]
# Визуализируем влияние факторов
plt.figure(figsize=(8, 5))
sns.barplot(x=feature_names, y=coefficients)
plt.xlabel("Признаки")
plt.ylabel("Коэффициенты модели")
plt.title("Влияние факторов на вероятность выживания")
plt.show()
```
Вывод: если коэффициент у какого-то признака положительный, значит, этот фактор увеличивает вероятность выживания, а если отрицательный – снижает.
Сравнение и выводы
Линейная и логистическая регрессия применяются в разных задачах, но оба метода имеют схожий принцип работы.
– Линейная регрессия хорошо подходит для предсказания числовых значений, например, стоимости квартир. Ее коэффициенты позволяют понять, какие факторы оказывают наибольшее влияние на итоговое значение.
– Логистическая регрессия применяется в задачах классификации. Она предсказывает вероятность принадлежности к определенному классу, что полезно для медицинской диагностики, оценки риска отказа клиентов, предсказания выживаемости пассажиров и других задач.
Оба метода просты, эффективны и легко интерпретируются, что делает их отличным выбором для базовых задач машинного обучения.
В машинном обучении линейные модели часто сталкиваются с проблемой переобучения, особенно если количество признаков велико или среди них есть коррелированные. В таких случаях модель может подстраиваться под шум в данных, что приводит к плохим результатам на новых примерах.
Чтобы решить эту проблему, применяют регуляризацию – метод, который добавляет штраф за сложность модели и тем самым ограничивает величину коэффициентов. Основные виды регуляризации для линейных моделей – Ridge (L2-регуляризация) и Lasso (L1-регуляризация).
Почему нужна регуляризация?
Рассмотрим пример: у нас есть модель линейной регрессии, которая предсказывает стоимость квартиры на основе площади, количества комнат и удаленности от центра. Если данные содержат шум или признаки сильно скоррелированы, модель может присвоить слишком большие веса несущественным параметрам, что приведет к переобучению.
Регуляризация помогает сгладить влияние отдельных признаков, контролируя их коэффициенты, и делает модель более устойчивой.