Алгоритмы машинного обучения: базовый курс - страница 34

done = False

total_reward = 0

while not done:

action = epsilon_greedy(state) # Выбор действия

if is_valid_move(state, action):

next_state = (state[0] + actions[action][0], state[1] + actions[action][1])

else:

next_state = state # Если движение невозможно, остаемся на месте

# Получение награды

if maze[next_state[0]][next_state[1]] == 2:

reward = 100 # Если агент достиг выхода, награда

done = True

elif maze[next_state[0]][next_state[1]] == 1:

reward = -10 # Если агент столкнулся со стеной, штраф

else:

reward = -1 # Пустая клетка, небольшая отрицательная награда для побуждения к поиску выхода

# Обновление Q-таблицы

q_table[state[0], state[1], action] = q_table[state[0], state[1], action] + learning_rate * (

reward + discount_factor * np.max(q_table[next_state[0], next_state[1]]) – q_table[state[0], state[1], action]

)

state = next_state # Переход к следующему состоянию

total_reward += reward

if episode % 100 == 0:

print(f"Episode {episode}/{num_episodes}, Total Reward: {total_reward}")

# Тестирование обученной модели

state = (0, 0)

done = False

total_reward = 0

steps = []

while not done:

action = np.argmax(q_table[state[0], state[1]]) # Лучшее действие по Q-таблице

if is_valid_move(state, action):

next_state = (state[0] + actions[action][0], state[1] + actions[action][1])

else:

next_state = state

# Получение награды

if maze[next_state[0]][next_state[1]] == 2:

reward = 100

done = True

elif maze[next_state[0]][next_state[1]] == 1:

reward = -10

else:

reward = -1

state = next_state

total_reward += reward

steps.append(state)

print(f"Test Total Reward: {total_reward}")

print("Optimal path to the exit:")

print(steps)

```

Объяснение шагов кода:

1. Определение лабиринта: Лабиринт задан двумерным массивом, где 0 – это свободная клетка, 1 – стена, а 2 – выход. Агент должен найти путь из верхнего левого угла к выходу, избегая стен.

2. Инициализация Q-таблицы: Мы создаём Q-таблицу размером ( n_{text{rows}} times n_{text{cols}} times 4 ), где 4 – это количество возможных действий (вверх, вниз, влево, вправо).

3. epsilon-greedy стратегия: Агент выбирает действие с использованием ε-стратегии. С вероятностью ε агент выбирает случайное действие (для исследования), а с вероятностью 1 – ε выбирает наилучшее действие (по текущим значениям в Q-таблице).

4. Обновление Q-таблицы: После выполнения действия агент получает награду. Если он дошёл до выхода, он получает большую положительную награду. Если он столкнулся с стеной, то получит штраф. Для других клеток даётся небольшая отрицательная награда, чтобы побудить агента искать выход. Q-таблица обновляется с учётом полученной награды и наилучшей стратегии для следующего состояния.

5. Тестирование: После обучения агент проходит через лабиринт, следуя оптимальной стратегии, которая была извлечена из обученной Q-таблицы.

Результаты

После обучения агент будет способен пройти лабиринт, следуя оптимальному пути, избегая стен и минимизируя количество шагов до выхода.

Q-learning – это метод, который позволяет агентам учиться принимать оптимальные решения в различных средах, используя опыт. Он подходит для множества задач, начиная от игр и робототехники и заканчивая оптимизацией бизнес-процессов и управления.

Полусупервизорные подходы

Полусупервизорное обучение – это метод машинного обучения, который сочетает в себе как размеченные, так и неразмеченные данные. В отличие от традиционного супервизорного обучения, где все данные имеют метки (цели), и несупервизорного обучения, где метки отсутствуют, полусупервизорное обучение позволяет использовать как небольшую часть размеченных данных, так и большое количество неразмеченных. Этот подход особенно полезен, когда получение меток для данных является дорогим или трудоемким процессом, а неразмеченные данные доступны в большом объеме.

Назад Вперед

Похожие книги

Алгоритмы машинного обучения: базовый курс

Тайлер Венс

Самоучители

Практическое руководство для новичков, которые хотят понять основы машинного обучения. Здесь представлены ключевые алгоритмы, такие как линейная регрессия, деревья решений, методы опорных векторов и нейронные сети, а также объясняется работа с данными и инструменты Python.Четкие объяснения, примеры кода и практические задачи помогут быстро освоить теорию и начать применять машинное обучение в реальных проектах. Книга идеально подходит для студент

Читать онлайн

Создай свой VPN. Безопасное использование интернета

Джейд Картер

Самоучители

Книга будет полезна для тех, кто стремится к созданию собственной виртуальной частной сети (VPN). Она охватывает широкий спектр тем, начиная с основ безопасности сетей и технологий VPN, и заканчивая практическими шагами по настройке и обслуживанию серверов и клиентов VPN. Автор подробно рассматривает различные аспекты создания VPN, включая выбор платформы и инфраструктуры, обеспечение безопасности данных, оптимизацию производительности и интеграц

Читать онлайн

Ценителям и адептам своего духовного состояния. Активация носителя человечности. Энергоинформационный комплекс

igorfengshui

Самоучители

Материал посвящается ценителям и адептам совершенствования, находящимися в поиске своих или чьих-нибудь сверхспособностей.Практическое руководство от исследователя мастерства истинности.

Читать онлайн

Самоучитель бокса. Как встать с дивана и начать тренироваться

Александр Колесников

Самоучители

Книга, которую вы держите сейчас в руках, написана профессиональным боксером, двукратным рекордсменом Книги рекордов России, который в возрасте 42 лет впервые вышел на профессиональный ринг.В доступной и увлекательной форме автор рассказывает историю отечественного бокса, знакомит читателя с первыми чемпионами Российской империи и пошагово дает советы, как начать осваивать боксерское мастерство в домашних условиях, не отходя от своего любимого ди

Читать онлайн

Английский по любви. Бережные уроки для тех, кто много раз начинал

Анастасия Иванова

Самоучители

Вас когда-нибудь пугала мысль об изучении английского языка? Забудьте о страхе!«Английский по любви» – уникальный самоучитель, созданный для начинающих и тех, кто многократно пробовал, но так и не смог довести дело до конца. Вас ждет мягкое погружение в язык без скучной теории и сухой практики.В книге:[ul]разбор основных времен и других грамматических тем через увлекательную подачу с примерами и заданиями на основе историй о женщинах;трекеры отсл

Читать онлайн

Тхэквондо для лиц с ПОДА (раздел керуги). учебно-методическое пособие

Е. В. Головихин

Руководства

Новый паралимпийский вид спорта тхэквондо ВТФ ПОДА с 2020 года станет полноправным олимпийским спортом среди спортсменов с ПОДА. В пособии изложен практический опыт работы с инвалидами и результаты научных исследований.

Читать онлайн

Никто не спит. 7 стратегий для здоровья и счастья

Биджой Э. Джон

Клиническая психология

Треть своей жизни мы проводим в постели – весомая причина следить за качеством сна. В книге «Никто не спит» доктор Джон исследует проблемы со сном, включая бессонницу, апноэ и нарколепсию. Он подробно рассматривает влияние сна на здоровье и весь организм: гормоны, давление, память, набор веса, либидо и т. д.Доктор Биджой Джон подчеркивает, что расстройство сна часто связано с психологическими проблемами, такими как тревожность, депрессия и зависи

Читать онлайн