Q-Learning
Q-Learning — это алгоритм обучения с подкреплением, который ищет оптимальную стратегию действий для агента. Цель алгоритма — выучить Q-функцию (функцию ценности действия), которая предсказывает ожидаемую суммарную награду за выполнение определенного действия в данном состоянии. Deep Q-Network (DQN) объединяет этот подход с нейронными сетями для решения задач в сложных средах (например, игры Atari).
Что такое «Q-Learning» простыми словами
Представьте робота в лабиринте. Он делает шаг и получает -1 очко. Находит выход — получает +100. Q-Learning — это табличка в памяти робота. В ней записано: «Если я в клетке А и пойду направо, получу 10 очков». Сначала таблица пуста. Робот тыкается, падает, обновляет таблицу. Со временем таблица (Q-функция) становится идеальной картой сокровищ, по которой робот всегда находит лучший путь.
Алгоритм обучения с подкреплением, который ищет лучшую стратегию действий.
Таблица, где для каждого состояния среды записана ценность (Q-value) каждого возможного действия. Агент выбирает действие с макс. Q.
Q-значение в алгоритме Q-обучения (Q-Learning) обновляется на каждом шаге агента. Это происходит в Q-таблице — матрице, где строки обозначают возможные состояния среды, а столбцы — возможные действия агента в этих состояниях. Значения в таблице отражают ожидаемую суммарную награду за выполнение действия в данном состоянии.
В начале обучения Q-таблица инициализируется нулями или случайными значениями, что представляет начальное предположение о том, насколько хороши различные действия в различных состояниях.