Алгоритмы машинного обучения: базовый курс - страница 28

plt.xlabel("Сумма покупок")

plt.ylabel("Частота покупок")

plt.show()

```

Шаг 2: Применение PCA для снижения размерности

Хотя наши данные уже имеют всего два признака, на реальных данных размерность может быть гораздо выше. В этом случае PCA поможет нам снизить размерность, например, до двух компонент для визуализации и дальнейшего анализа.

```python

# Применяем PCA для уменьшения размерности

pca = PCA(n_components=2)

X_pca = pca.fit_transform(X_scaled)

# Визуализируем данные после PCA

plt.scatter(X_pca[:, 0], X_pca[:, 1], alpha=0.5)

plt.title("Данные после PCA")

plt.xlabel("Первая главная компонента")

plt.ylabel("Вторая главная компонента")

plt.show()

```

Шаг 3: Применение K-means для кластеризации

Теперь, когда мы применили PCA для снижения размерности, можно использовать алгоритм K-means для сегментации данных. Для этого мы заранее определим количество кластеров, например, 2, так как мы знаем, что данные состоят из двух групп клиентов.

```python

# Применяем K-means для кластеризации

kmeans = KMeans(n_clusters=2, random_state=42)

y_kmeans = kmeans.fit_predict(X_pca)

# Визуализируем результаты кластеризации

plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y_kmeans, cmap='viridis', alpha=0.5)

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X', label='Центроиды')

plt.title("Результаты кластеризации K-means")

plt.xlabel("Первая главная компонента")

plt.ylabel("Вторая главная компонента")

plt.legend()

plt.show()

```

Шаг 4: Анализ результатов

После выполнения этих шагов мы получим два кластера, которые будут представлены на графике с различными цветами. Красные крестики на графике показывают центроиды кластеров. Эти центроиды представляют собой средние значения для каждого из кластеров.

Шаг 5: Проверка объяснённой дисперсии с помощью PCA

Для того чтобы понять, насколько эффективно мы сохранили информацию при уменьшении размерности, можно проверить, сколько дисперсии данных объясняется выбранными компонентами. В случае с нашим набором данных, PCA должен хорошо сохранить информацию, так как мы работаем с низким числом признаков.

```python

# Выводим долю объясненной дисперсии для каждой главной компоненты

print("Доля объясненной дисперсии для каждой компоненты:", pca.explained_variance_ratio_)

print("Общая объясненная дисперсия (для 2 компонент):", np.sum(pca.explained_variance_ratio_))

```

Результат:

1. Визуализация после применения PCA: После применения PCA мы видим данные, упорядоченные вдоль двух главных компонент. Хотя у нас всего два исходных признака, PCA позволяет выразить данные в линейной комбинации этих признаков, что помогает выделить важные закономерности.

2. Кластеризация с K-means: После применения K-means мы получаем два кластера клиентов. Это позволяет сегментировать клиентов на группы с схожими покупательскими привычками, что может быть полезно для таргетированной маркетинговой кампании.

3. Объяснённая дисперсия: Ожидаемая доля объяснённой дисперсии поможет понять, сколько информации мы потеряли при применении PCA. В случае с двумя компонентами результат обычно будет достаточно высоким, особенно для данных с явными группами.

В этом примере мы использовали PCA для снижения размерности данных о покупках клиентов и применили алгоритм K-means для сегментации этих клиентов. Этот подход можно использовать для более сложных задач, когда данные имеют много признаков, и важно выявить скрытые группы в данных. PCA позволяет уменьшить размерность без значительных потерь информации, а K-means помогает легко и быстро сегментировать клиентов на основе основных признаков.

Назад Вперед

Похожие книги

Алгоритмы машинного обучения: базовый курс

Тайлер Венс

Самоучители

Практическое руководство для новичков, которые хотят понять основы машинного обучения. Здесь представлены ключевые алгоритмы, такие как линейная регрессия, деревья решений, методы опорных векторов и нейронные сети, а также объясняется работа с данными и инструменты Python.Четкие объяснения, примеры кода и практические задачи помогут быстро освоить теорию и начать применять машинное обучение в реальных проектах. Книга идеально подходит для студент

Читать онлайн

Создай свой VPN. Безопасное использование интернета

Джейд Картер

Самоучители

Книга будет полезна для тех, кто стремится к созданию собственной виртуальной частной сети (VPN). Она охватывает широкий спектр тем, начиная с основ безопасности сетей и технологий VPN, и заканчивая практическими шагами по настройке и обслуживанию серверов и клиентов VPN. Автор подробно рассматривает различные аспекты создания VPN, включая выбор платформы и инфраструктуры, обеспечение безопасности данных, оптимизацию производительности и интеграц

Читать онлайн

Ценителям и адептам своего духовного состояния. Активация носителя человечности. Энергоинформационный комплекс

igorfengshui

Самоучители

Материал посвящается ценителям и адептам совершенствования, находящимися в поиске своих или чьих-нибудь сверхспособностей.Практическое руководство от исследователя мастерства истинности.

Читать онлайн

Самоучитель бокса. Как встать с дивана и начать тренироваться

Александр Колесников

Самоучители

Книга, которую вы держите сейчас в руках, написана профессиональным боксером, двукратным рекордсменом Книги рекордов России, который в возрасте 42 лет впервые вышел на профессиональный ринг.В доступной и увлекательной форме автор рассказывает историю отечественного бокса, знакомит читателя с первыми чемпионами Российской империи и пошагово дает советы, как начать осваивать боксерское мастерство в домашних условиях, не отходя от своего любимого ди

Читать онлайн

Английский по любви. Бережные уроки для тех, кто много раз начинал

Анастасия Иванова

Самоучители

Вас когда-нибудь пугала мысль об изучении английского языка? Забудьте о страхе!«Английский по любви» – уникальный самоучитель, созданный для начинающих и тех, кто многократно пробовал, но так и не смог довести дело до конца. Вас ждет мягкое погружение в язык без скучной теории и сухой практики.В книге:[ul]разбор основных времен и других грамматических тем через увлекательную подачу с примерами и заданиями на основе историй о женщинах;трекеры отсл

Читать онлайн

Тхэквондо для лиц с ПОДА (раздел керуги). учебно-методическое пособие

Е. В. Головихин

Руководства

Новый паралимпийский вид спорта тхэквондо ВТФ ПОДА с 2020 года станет полноправным олимпийским спортом среди спортсменов с ПОДА. В пособии изложен практический опыт работы с инвалидами и результаты научных исследований.

Читать онлайн

Никто не спит. 7 стратегий для здоровья и счастья

Биджой Э. Джон

Клиническая психология

Треть своей жизни мы проводим в постели – весомая причина следить за качеством сна. В книге «Никто не спит» доктор Джон исследует проблемы со сном, включая бессонницу, апноэ и нарколепсию. Он подробно рассматривает влияние сна на здоровье и весь организм: гормоны, давление, память, набор веса, либидо и т. д.Доктор Биджой Джон подчеркивает, что расстройство сна часто связано с психологическими проблемами, такими как тревожность, депрессия и зависи

Читать онлайн