Хеширование

Бонус за регистрацию!
Зарегистрируйся и получи бонус
15 рублей

Хеширование — это преобразование входных данных произвольной длины в строку фиксированной длины (хеш) с помощью алгоритма. В ML применяется «хеширование признаков» (feature hashing) для работы с категориальными данными высокой размерности, позволяя сэкономить память и ускорить обучение, жертвуя небольшой точностью из-за возможных коллизий.

Что такое «Хеширование» простыми словами

Цифровая мясорубка. Берет любой файл (книгу, фильм) и перемалывает в уникальную строку символов фиксированной длины (хеш). Измените одну запятую в книге — хеш изменится полностью. Используется для поиска дубликатов и быстрой работы с категориями.

Вопросы и ответы
Как хеширование (Feature Hashing) помогает работать с категориальными данными высокой размерности?
Хеширование (Feature Hashing) позволяет работать с категориальными признаками без словаря. Оно отображает значения в вектор фиксированной длины. Возможны коллизии, но для больших данных это эффективно.
В чем риск коллизий при использовании хеширования признаков?
Хеширование отображает признаки в вектор фиксированного размера. Разные признаки могут попасть в одну ячейку (коллизия). Это вносит шум, но при большом размере вектора влияние коллизий на качество модели обычно незначительно.
Как «трюк хеширования» позволяет обучать модели на потоковых данных?
Feature Hashing («трюк хеширования») отображает признаки в вектор фиксированного размера через хеш-функцию. Это не требует хранения словаря (mapping). Можно обучать модель на потоке данных, где появляются новые признаки, без перестройки модели.
232
Константин Колясников

Эпоха (в обучении)

Эпоха (в обучении) — это один полный проход алгоритма обучения через весь тренировочный набор данных. Обучение нейросети обычно требует множества эпох, чтобы веса модели достаточно скорректировалис...
Константин Колясников

Цифровая гигиена (в контексте ИИ)

Цифровая гигиена (в контексте ИИ) — это набор практик по безопасному и ответственному использованию технологий ИИ. Включает проверку фактов (борьба с галлюцинациями), защиту личных данных от попада...
Константин Колясников

Tanh (Гиперболический тангенс)

Tanh (Гиперболический тангенс) — это функция активации, похожая на сигмоиду, но масштабированная в диапазон от -1 до 1. Благодаря центрированию вокруг нуля, она часто работает лучше сигмоиды в скры...
Константин Колясников
Термины подгружаются