Усиленное обучение - страница 14
Однако в реальных задачах часто сложно или невозможно задать явную функцию переходов. В таких случаях модель переходов может быть обучена на основе опыта агента, используя данные о предыдущих взаимодействиях с окружающей средой. Например, в задаче управления роботом модель переходов может быть обучена на основе данных о движении робота и его реакции на внешние воздействия.
Давайте представим простой пример использования модели переходов в контексте игры на шахматной доске.
Предположим, у нас есть шахматная доска, и агент (шахматная программа или игрок) хочет предсказать, в какие состояния он может попасть после совершения определенного хода. В этом случае модель переходов определяет вероятности перехода между состояниями (расположениями фигур на доске) в результате выполнения определенного действия (хода фигурой).
Если вам понравилась книга, поддержите автора, купив полную версию по ссылке ниже.
Продолжить чтение