Reinforcement Learning

Бонус за регистрацию!
Зарегистрируйся и получи бонус
15 рублей

Reinforcement Learning (Обучение с подкреплением) — это область машинного обучения, изучающая, как агенты должны действовать в окружающей среде, чтобы максимизировать кумулятивное вознаграждение. В отличие от обучения с учителем, здесь нет размеченных пар «вход-выход»; агент учится методом проб и ошибок, получая обратную связь от среды в виде наград или штрафов за свои действия.

Что такое «Reinforcement Learning» простыми словами

Как научить робота ходить? Нельзя написать формулу для каждого мускула. Обучение с подкреплением — это метод «кнута и пряника». Робот пробует двигаться. Упал — получает штраф (-1). Сделал шаг — награду (+1). После миллиона падений робот сам находит такую стратегию движений, которая приносит максимум очков. Так ИИ учится играть в Mario, водить машину и управлять охлаждением дата-центров.

Вопросы и ответы
Что такое обучение с подкреплением?

Обучение агента через взаимодействие со средой и получение наград.

Что такое агент, среда и награда в RL?

Агент совершает действия в Среде, переходит в новые состояния и получает Награду (число). Цель Агента — максимизировать суммарную награду.

Что такое политика (Policy) в RL?

В обучении с подкреплением (Reinforcement Learning, RL) политика (Policy) — это «мозг» или стратегия агента. Если агент — это игрок, то политика — это книга правил, по которой он решает, какое действие предпринять в конкретной ситуации.

Обозначается политика греческой буквой  π(пи).

160
Константин Колясников

Эпоха (в обучении)

Эпоха (в обучении) — это один полный проход алгоритма обучения через весь тренировочный набор данных. Обучение нейросети обычно требует множества эпох, чтобы веса модели достаточно скорректировалис...
Константин Колясников

Цифровая гигиена (в контексте ИИ)

Цифровая гигиена (в контексте ИИ) — это набор практик по безопасному и ответственному использованию технологий ИИ. Включает проверку фактов (борьба с галлюцинациями), защиту личных данных от попада...
Константин Колясников
Термины подгружаются