Хеширование
Бонус за регистрацию!
новые тарифы и нейросети
Хеширование — это преобразование входных данных произвольной длины в строку фиксированной длины (хеш) с помощью алгоритма. В ML применяется «хеширование признаков» (feature hashing) для работы с категориальными данными высокой размерности, позволяя сэкономить память и ускорить обучение, жертвуя небольшой точностью из-за возможных коллизий.
Что такое «Хеширование» простыми словами
Цифровая мясорубка. Берет любой файл (книгу, фильм) и перемалывает в уникальную строку символов фиксированной длины (хеш). Измените одну запятую в книге — хеш изменится полностью. Используется для поиска дубликатов и быстрой работы с категориями.
Вопросы и ответы
Хеширование (Feature Hashing) позволяет работать с категориальными признаками без словаря. Оно отображает значения в вектор фиксированной длины. Возможны коллизии, но для больших данных это эффективно.
Хеширование отображает признаки в вектор фиксированного размера. Разные признаки могут попасть в одну ячейку (коллизия). Это вносит шум, но при большом размере вектора влияние коллизий на качество модели обычно незначительно.
Feature Hashing («трюк хеширования») отображает признаки в вектор фиксированного размера через хеш-функцию. Это не требует хранения словаря (mapping). Можно обучать модель на потоке данных, где появляются новые признаки, без перестройки модели.