Алгоритмы машинного обучения: базовый курс - страница 22

precision = precision_score(y_real, y_pred)

recall = recall_score(y_real, y_pred)

f1 = f1_score(y_real, y_pred)

print(f"Точность (Precision): {precision:.2f}")

print(f"Полнота (Recall): {recall:.2f}")

print(f"F1-метрика: {f1:.2f}")

```

Выводы:

Выбор метрики зависит от задачи.

– В регрессии лучше всего использовать RMSE или R², если важно понять, насколько модель точна.

– В классификации точность (Accuracy) хороша только при сбалансированных классах. При дисбалансе лучше смотреть на Precision, Recall и F1-score.

Метрики помогают не только оценить качество модели, но и понять, как её можно улучшить, например, добавив новые признаки или изменив параметры алгоритма.

Глава 5. Несувервизорное обучение

– Кластеризация: алгоритмы K-means и DBSCAN
– Снижение размерности: PCA
– Пример: сегментация данных

В мире машинного обучения многие задачи требуют работы с данными, для которых нет заранее подготовленных ответов. Представьте, что у вас есть огромный массив информации, но вы не знаете, как её структурировать, какие закономерности в ней скрыты и какие группы объектов можно выделить. Именно для таких случаев используется несупервизорное (без учителя) обучение.

В отличие от супервайзного обучения, где модель обучается на размеченных данных (где есть входные параметры и правильные ответы), несупервайзное обучение работает без заранее определённых меток. Оно помогает выявлять скрытые структуры в данных, группировать похожие объекты и уменьшать размерность данных, чтобы упростить их анализ.

В этой главе мы разберём два ключевых направления несупервайзного обучения:

– Кластеризацию, которая позволяет объединять похожие объекты в группы без предварительного знания о них. Мы рассмотрим два популярных алгоритма: K-means, который находит кластеры по заданному числу групп, и DBSCAN, который может выявлять группы любой формы, включая выбросы.

– Снижение размерности, которое помогает упростить анализ данных, убирая лишние признаки. Мы разберём метод PCA (анализ главных компонент), который позволяет визуализировать многомерные данные и находить в них основные закономерности.

В завершение мы рассмотрим практический пример, связанный с сегментацией данных, где продемонстрируем, как несупервайзное обучение может помочь выявить структуру в неразмеченной информации.

Кластеризация: алгоритмы K-means и DBSCAN

Кластеризация – это один из важнейших методов в рамках несупервизорного обучения, который позволяет разделить набор данных на группы, или кластеры, таким образом, что объекты внутри одного кластера схожи между собой, а объекты из разных кластеров – различаются. Этот метод используется, когда мы не знаем заранее, как классифицировать объекты, но хотим понять, есть ли в данных какие-то скрытые структуры или закономерности.

Одними из самых популярных и широко используемых алгоритмов кластеризации являются K-means и DBSCAN. Оба алгоритма имеют свои особенности и применяются в разных ситуациях, в зависимости от структуры данных.

Алгоритм K-means

K-means – это простой, но мощный алгоритм, который хорошо работает, когда данные имеют явно выраженные кластеры с похожими размерами и формой. В процессе работы K-means нужно заранее указать число кластеров, которое модель должна найти в данных. Идея алгоритма заключается в том, чтобы минимизировать внутрикластерное расстояние между объектами, при этом максимизируя расстояние между кластерами.

Назад Вперед

Похожие книги

Алгоритмы машинного обучения: базовый курс

Тайлер Венс

Самоучители

Практическое руководство для новичков, которые хотят понять основы машинного обучения. Здесь представлены ключевые алгоритмы, такие как линейная регрессия, деревья решений, методы опорных векторов и нейронные сети, а также объясняется работа с данными и инструменты Python.Четкие объяснения, примеры кода и практические задачи помогут быстро освоить теорию и начать применять машинное обучение в реальных проектах. Книга идеально подходит для студент

Читать онлайн

Создай свой VPN. Безопасное использование интернета

Джейд Картер

Самоучители

Книга будет полезна для тех, кто стремится к созданию собственной виртуальной частной сети (VPN). Она охватывает широкий спектр тем, начиная с основ безопасности сетей и технологий VPN, и заканчивая практическими шагами по настройке и обслуживанию серверов и клиентов VPN. Автор подробно рассматривает различные аспекты создания VPN, включая выбор платформы и инфраструктуры, обеспечение безопасности данных, оптимизацию производительности и интеграц

Читать онлайн

Ценителям и адептам своего духовного состояния. Активация носителя человечности. Энергоинформационный комплекс

igorfengshui

Самоучители

Материал посвящается ценителям и адептам совершенствования, находящимися в поиске своих или чьих-нибудь сверхспособностей.Практическое руководство от исследователя мастерства истинности.

Читать онлайн

Самоучитель бокса. Как встать с дивана и начать тренироваться

Александр Колесников

Самоучители

Книга, которую вы держите сейчас в руках, написана профессиональным боксером, двукратным рекордсменом Книги рекордов России, который в возрасте 42 лет впервые вышел на профессиональный ринг.В доступной и увлекательной форме автор рассказывает историю отечественного бокса, знакомит читателя с первыми чемпионами Российской империи и пошагово дает советы, как начать осваивать боксерское мастерство в домашних условиях, не отходя от своего любимого ди

Читать онлайн

Английский по любви. Бережные уроки для тех, кто много раз начинал

Анастасия Иванова

Самоучители

Вас когда-нибудь пугала мысль об изучении английского языка? Забудьте о страхе!«Английский по любви» – уникальный самоучитель, созданный для начинающих и тех, кто многократно пробовал, но так и не смог довести дело до конца. Вас ждет мягкое погружение в язык без скучной теории и сухой практики.В книге:[ul]разбор основных времен и других грамматических тем через увлекательную подачу с примерами и заданиями на основе историй о женщинах;трекеры отсл

Читать онлайн

Тхэквондо для лиц с ПОДА (раздел керуги). учебно-методическое пособие

Е. В. Головихин

Руководства

Новый паралимпийский вид спорта тхэквондо ВТФ ПОДА с 2020 года станет полноправным олимпийским спортом среди спортсменов с ПОДА. В пособии изложен практический опыт работы с инвалидами и результаты научных исследований.

Читать онлайн

Перегонщица

Ирина Демченко

Короткие любовные романы

Любовная история на фоне приключений с перегоном автомобилей конца нулевых годов. Девушка расстается с парнем, а потом отправляется с друзьями перегнать машину. По пути на них нападают. И теперь ей нужно спастись от бандитов и вернуться домой. Но в этом ей помогает новый знакомый.

Читать онлайн