Стохастический градиентный спуск
Стохастический градиентный спуск (SGD) — это эффективный итеративный алгоритм оптимизации целевой функции (обычно функции потерь), используемый для обучения нейросетей и линейных моделей. В отличие от классического градиентного спуска, который считает градиент по всему датасету, SGD обновляет веса на основе одного случайного примера или небольшого мини-батча. Это вносит шум в процесс, помогая выходить из локальных минимумов и значительно ускоряя обучение на больших данных.
Что такое «Стохастический градиентный спуск» простыми словами
Представьте, что вы спускаетесь с горы в густом тумане. Вы можете каждый раз ощупывать землю вокруг себя на 10 метров, чтобы найти идеальный спуск (обычный градиентный спуск), но это очень долго. Стохастический спуск предлагает другое: сделайте быстрый шаг в случайном направлении, которое кажется правильным, основываясь только на том, что у вас под ногами прямо сейчас. Вас будет немного шатать из стороны в сторону, но зато вы сбежите с горы в 100 раз быстрее.