Rectified Linear Unit (ReLU)

Rectified Linear Unit (ReLU) — это функция активации, определяемая как положительная часть своего аргумента: f(x) = max(0, x). ReLU стала самой популярной функцией активации в глубоких нейронных сетях, так как она вычислительно эффективна и помогает решить проблему затухающего градиента, позволяя обучать более глубокие и сложные модели быстрее и качественнее.

Что такое «Rectified Linear Unit (ReLU)» простыми словами

Нейроны должны быть нелинейными, иначе сеть будет просто калькулятором. Раньше использовали сложные кривые (сигмоиды). ReLU (Rectified Linear Unit) — это гениальная простота. Формула: «Если число меньше 0, верни 0. Если больше — верни само число». Эта функция считается мгновенно и позволяет учить очень глубокие сети, не теряя сигнал (градиент) по пути. Это стандарт де-факто в современном Deep Learning.

Вопросы и ответы

Что такое функция активации ReLU?

Функция активации, возвращающая x, если x>0, и 0 в противном случае.

Почему ReLU решает проблему затухания градиента?

ReLU не насыщается в положительной области (производная = 1). Это позволяет градиенту беспрепятственно проходить через множество слоев глубокой сети.

Что такое «мертвые нейроны» ReLU?

«Мертвые нейроны» ReLU возникают, когда веса обновляются так, что взвешенная сумма входов для нейрона становится всегда отрицательной на всех примерах. Градиент ReLU в отрицательной области равен 0. Веса перестают обновляться, и нейрон навсегда «умирает», выдавая ноль. Лечится Leaky ReLU или правильной инициализацией.

209

ChatGPT

25.11.2025