Эпоха (в обучении) — это один полный проход алгоритма обучения через весь тренировочный набор данных. Обучение нейросети обычно требует множества эпох, чтобы веса модели достаточно скорректировалис...
Хеширование
Бонус за регистрацию!
Зарегистрируйся и получи бонус
Хеширование — это преобразование входных данных произвольной длины в строку фиксированной длины (хеш) с помощью алгоритма. В ML применяется «хеширование признаков» (feature hashing) для работы с категориальными данными высокой размерности, позволяя сэкономить память и ускорить обучение, жертвуя небольшой точностью из-за возможных коллизий.
Что такое «Хеширование» простыми словами
Цифровая мясорубка. Берет любой файл (книгу, фильм) и перемалывает в уникальную строку символов фиксированной длины (хеш). Измените одну запятую в книге — хеш изменится полностью. Используется для поиска дубликатов и быстрой работы с категориями.
Вопросы и ответы
Как хеширование (Feature Hashing) помогает работать с категориальными данными высокой размерности?
Хеширование (Feature Hashing) позволяет работать с категориальными признаками без словаря. Оно отображает значения в вектор фиксированной длины. Возможны коллизии, но для больших данных это эффективно.
В чем риск коллизий при использовании хеширования признаков?
Хеширование отображает признаки в вектор фиксированного размера. Разные признаки могут попасть в одну ячейку (коллизия). Это вносит шум, но при большом размере вектора влияние коллизий на качество модели обычно незначительно.
Как «трюк хеширования» позволяет обучать модели на потоковых данных?
Feature Hashing («трюк хеширования») отображает признаки в вектор фиксированного размера через хеш-функцию. Это не требует хранения словаря (mapping). Можно обучать модель на потоке данных, где появляются новые признаки, без перестройки модели.