Эпоха (в обучении) — это один полный проход алгоритма обучения через весь тренировочный набор данных. Обучение нейросети обычно требует множества эпох, чтобы веса модели достаточно скорректировалис...
ReLU
Бонус за регистрацию!
Зарегистрируйся и получи бонус
ReLU (Rectified Linear Unit) — это самая популярная функция активации в глубоком обучении. Она работает просто: если вход больше 0, она возвращает его же, если меньше — возвращает 0. ReLU вычислительно эффективна и помогает бороться с проблемой затухающего градиента, позволяя обучать очень глубокие сети.
Что такое «ReLU» простыми словами
Самая популярная «кнопка» в нейросетях. Работает просто: если сигнал минус — выдай ноль (тишина). Если плюс — передай как есть. Эта гениальная простота позволила обучать глубокие сети, не теряя сигнал по дороге.
Вопросы и ответы
Почему функция ReLU стала самой популярной в глубоком обучении, заменив сигмоиду и тангенс?
ReLU (Rectified Linear Unit) — самая популярная активация f(x)=max(0,x). Она проста, быстра и решает проблему затухания градиента для положительных значений, позволяя обучать глубокие сети.
Что такое проблема «умирающего ReLU» и как она возникает?
Если нейрон ReLU уходит в зону отрицательных значений, его выход и градиент становятся нулем. Веса перестают обновляться, и нейрон «умирает», навсегда выключаясь из работы сети.
Как Leaky ReLU решает проблему «умирающих нейронов»?
Leaky ReLU (f(x)=x при x>0, f(x)=0.01x при x<0) имеет небольшую производную в отрицательной области. Это позволяет градиенту течь даже через неактивные нейроны, возвращая их к жизни в процессе обучения.