Reinforcement Learning
Reinforcement Learning (Обучение с подкреплением) — это область машинного обучения, изучающая, как агенты должны действовать в окружающей среде, чтобы максимизировать кумулятивное вознаграждение. В отличие от обучения с учителем, здесь нет размеченных пар «вход-выход»; агент учится методом проб и ошибок, получая обратную связь от среды в виде наград или штрафов за свои действия.
Что такое «Reinforcement Learning» простыми словами
Как научить робота ходить? Нельзя написать формулу для каждого мускула. Обучение с подкреплением — это метод «кнута и пряника». Робот пробует двигаться. Упал — получает штраф (-1). Сделал шаг — награду (+1). После миллиона падений робот сам находит такую стратегию движений, которая приносит максимум очков. Так ИИ учится играть в Mario, водить машину и управлять охлаждением дата-центров.
Обучение агента через взаимодействие со средой и получение наград.
Агент совершает действия в Среде, переходит в новые состояния и получает Награду (число). Цель Агента — максимизировать суммарную награду.
В обучении с подкреплением (Reinforcement Learning, RL) политика (Policy) — это «мозг» или стратегия агента. Если агент — это игрок, то политика — это книга правил, по которой он решает, какое действие предпринять в конкретной ситуации.
Обозначается политика греческой буквой π(пи).