Алгоритмы машинного обучения: базовый курс - страница 31

next_state, reward, done, _, _ = env.step(action) # Выполняем действие

total_reward += reward

state = next_state # Переход к следующему состоянию

# Если агент упал (закончилась игра), завершаем

if done:

break

# Выводим итоговую награду

print(f"Total Reward: {total_reward}")

```

Этот код показывает, как агент взаимодействует с средой, выбирает действия и накапливает награды. Но такой агент не обучается, он просто случайно выполняет действия, что делает его неэффективным. Нам нужно сделать так, чтобы агент обучался и максимизировал свои награды.

Шаг 4: Алгоритм Q-learning

Q-learning – это один из популярных методов обучения с подкреплением, который помогает агенту учиться на основе награды, которую он получает за выполнение определённого действия в каждом состоянии. Агент заполняет таблицу значений Q (ценности состояния-действия), которая описывает, насколько выгодно выполнить действие в конкретном состоянии.

Мы начнем с создания таблицы Q для всех состояний и действий. Сначала пространство состояний среды CartPole сильно большое и непрерывное, поэтому нам нужно будет дискретизировать его, чтобы работать с таблицей Q.

Шаг 5: Реализация алгоритма Q-learning

Пример реализации алгоритма Q-learning для задачи CartPole:

```python

# Устанавливаем параметры

learning_rate = 0.1 # Скорость обучения

discount_factor = 0.99 # Дисконтирование будущих наград

epsilon = 0.1 # Вероятность выбора случайного действия (исследование)

num_episodes = 1000 # Количество эпизодов обучения

# Инициализация Q-таблицы

# Преобразуем состояния в дискретные

def discretize_state(state):

discrete_state = [

int(state[0] // 0.1),

int(state[1] // 0.1),

int(state[2] // 0.1),

int(state[3] // 0.1)

]

return tuple(discrete_state)

# Размеры Q-таблицы (по оси состояния и действия)

q_table = np.zeros((6, 6, 6, 6, env.action_space.n)) # для CartPole (4 признака, 2 действия)

# Функция для выбора действия с учётом epsilon-greedy стратегии

def epsilon_greedy(state):

if random.uniform(0, 1) < epsilon:

return random.choice([0, 1]) # Случайный выбор

else:

return np.argmax(q_table[state]) # Лучшее действие по таблице Q

# Обучение агента

for episode in range(num_episodes):

state = discretize_state(env.reset()) # Начальное состояние, дискретизация

done = False

total_reward = 0

while not done:

action = epsilon_greedy(state) # Выбор действия

next_state, reward, done, _, _ = env.step(action) # Выполнение действия

next_state = discretize_state(next_state) # Дискретизация следующего состояния

# Обновление Q-значения по формуле Q-learning

q_table[state][action] = q_table[state][action] + learning_rate * (

reward + discount_factor * np.max(q_table[next_state]) – q_table[state][action]

)

state = next_state # Переход к новому состоянию

total_reward += reward

if episode % 100 == 0:

print(f"Episode {episode}/{num_episodes}, Total Reward: {total_reward}")

```

Шаг 6: Тестирование обученного агента

После того как агент обучился с использованием Q-learning, мы можем протестировать его эффективность. В тестировании агент будет следовать стратегии, основанной на максимизации ценности действия, и применять её без случайных выборов.

```python

# Тестирование агента

state = discretize_state(env.reset())

done = False

total_reward = 0

while not done:

action = np.argmax(q_table[state]) # Лучшее действие по таблице Q

next_state, reward, done, _, _ = env.step(action)

state = discretize_state(next_state) # Дискретизация следующего состояния

Назад Вперед

Похожие книги

Алгоритмы машинного обучения: базовый курс

Тайлер Венс

Самоучители

Практическое руководство для новичков, которые хотят понять основы машинного обучения. Здесь представлены ключевые алгоритмы, такие как линейная регрессия, деревья решений, методы опорных векторов и нейронные сети, а также объясняется работа с данными и инструменты Python.Четкие объяснения, примеры кода и практические задачи помогут быстро освоить теорию и начать применять машинное обучение в реальных проектах. Книга идеально подходит для студент

Читать онлайн

Создай свой VPN. Безопасное использование интернета

Джейд Картер

Самоучители

Книга будет полезна для тех, кто стремится к созданию собственной виртуальной частной сети (VPN). Она охватывает широкий спектр тем, начиная с основ безопасности сетей и технологий VPN, и заканчивая практическими шагами по настройке и обслуживанию серверов и клиентов VPN. Автор подробно рассматривает различные аспекты создания VPN, включая выбор платформы и инфраструктуры, обеспечение безопасности данных, оптимизацию производительности и интеграц

Читать онлайн

Ценителям и адептам своего духовного состояния. Активация носителя человечности. Энергоинформационный комплекс

igorfengshui

Самоучители

Материал посвящается ценителям и адептам совершенствования, находящимися в поиске своих или чьих-нибудь сверхспособностей.Практическое руководство от исследователя мастерства истинности.

Читать онлайн

Самоучитель бокса. Как встать с дивана и начать тренироваться

Александр Колесников

Самоучители

Книга, которую вы держите сейчас в руках, написана профессиональным боксером, двукратным рекордсменом Книги рекордов России, который в возрасте 42 лет впервые вышел на профессиональный ринг.В доступной и увлекательной форме автор рассказывает историю отечественного бокса, знакомит читателя с первыми чемпионами Российской империи и пошагово дает советы, как начать осваивать боксерское мастерство в домашних условиях, не отходя от своего любимого ди

Читать онлайн

Английский по любви. Бережные уроки для тех, кто много раз начинал

Анастасия Иванова

Самоучители

Вас когда-нибудь пугала мысль об изучении английского языка? Забудьте о страхе!«Английский по любви» – уникальный самоучитель, созданный для начинающих и тех, кто многократно пробовал, но так и не смог довести дело до конца. Вас ждет мягкое погружение в язык без скучной теории и сухой практики.В книге:[ul]разбор основных времен и других грамматических тем через увлекательную подачу с примерами и заданиями на основе историй о женщинах;трекеры отсл

Читать онлайн

Тхэквондо для лиц с ПОДА (раздел керуги). учебно-методическое пособие

Е. В. Головихин

Руководства

Новый паралимпийский вид спорта тхэквондо ВТФ ПОДА с 2020 года станет полноправным олимпийским спортом среди спортсменов с ПОДА. В пособии изложен практический опыт работы с инвалидами и результаты научных исследований.

Читать онлайн

Никто не спит. 7 стратегий для здоровья и счастья

Биджой Э. Джон

Клиническая психология

Треть своей жизни мы проводим в постели – весомая причина следить за качеством сна. В книге «Никто не спит» доктор Джон исследует проблемы со сном, включая бессонницу, апноэ и нарколепсию. Он подробно рассматривает влияние сна на здоровье и весь организм: гормоны, давление, память, набор веса, либидо и т. д.Доктор Биджой Джон подчеркивает, что расстройство сна часто связано с психологическими проблемами, такими как тревожность, депрессия и зависи

Читать онлайн