One-Hot Encoding

Бонус за регистрацию!
Зарегистрируйся и получи бонус
15 рублей

One-Hot Encoding — это популярный метод кодирования категориальных переменных для использования в алгоритмах машинного обучения. Каждая категория превращается в бинарный вектор, где только один элемент равен 1 (hot), а остальные — 0. Это позволяет избежать ложного упорядочивания категорий, которое может возникнуть при использовании Label Encoding, но значительно увеличивает размерность данных при большом числе уникальных значений.

Что такое «One-Hot Encoding» простыми словами

Как объяснить компьютеру цвета? Красный=1, Синий=2? Тогда Синий будет «в два раза больше» Красного. Это бред. One-Hot Encoding создает новые колонки: «Это Красный?», «Это Синий?». И ставит 1 или 0. Теперь цвета равноправны, никакой ложной математики. Это самый надежный способ превратить категории в числа, понятные нейросети, хотя таблица становится шире.

Вопросы и ответы
Как работает One-Hot Encoding?
Метод кодирования категорий, где каждая категория — это вектор из нулей и одной единицы.
Почему One-Hot Encoding создает разреженные матрицы?
Каждая категория становится отдельным столбцом. Если категорий тысячи, матрица состоит в основном из нулей, что неэффективно по памяти (нужны эмбеддинги).
Как бороться с проклятием размерности в One-Hot?
Проклятие размерности в One-Hot (когда категорий тысячи) решается снижением размерности. Используют: 1) Feature Hashing (сворачивание в фиксированный вектор); 2) Target Encoding (замена категории на среднее целевой переменной); 3) Embeddings (обучаемые плотные векторы, как в NLP); 4) Объединение редких категорий в "Other".
383
Константин Колясников

Эпоха (в обучении)

Эпоха (в обучении) — это один полный проход алгоритма обучения через весь тренировочный набор данных. Обучение нейросети обычно требует множества эпох, чтобы веса модели достаточно скорректировалис...
Константин Колясников

Цифровая гигиена (в контексте ИИ)

Цифровая гигиена (в контексте ИИ) — это набор практик по безопасному и ответственному использованию технологий ИИ. Включает проверку фактов (борьба с галлюцинациями), защиту личных данных от попада...
Константин Колясников
Термины подгружаются