Уникальные значения

Бонус за регистрацию!
Зарегистрируйся и получи бонус
15 рублей

Уникальные значения (Unique Values) — это перечень всех неповторяющихся вариантов данных в конкретном признаке (столбце). Анализ количества уникальных значений (кардинальности) критически важен на этапе разведочного анализа: он помогает определить тип переменной (категориальная или непрерывная) и выбрать правильную стратегию кодирования (One-Hot или Label Encoding).

Что такое «Уникальные значения» простыми словами

Представьте, что у вас есть список гостей на свадьбу (100 человек). В колонке «Пол» будет всего 2 уникальных значения: М и Ж. В колонке «Имя» может быть 80 уникальных (много тезок). А в колонке «Номер телефона» — 100 уникальных (все разные). Анализ уникальных значений помогает понять, с чем мы имеем дело: с категориями, которые повторяются, или с уникальными идентификаторами. Это первое, что проверяет дата-сайентист, глядя на данные.

Вопросы и ответы
Зачем анализировать уникальные значения в датасете?
Чтобы понять разнообразие данных, выявить категории и обнаружить ошибки или дубликаты.
Как выявить дубликаты в базе данных по уникальным значениям?
Используются алгоритмы нечеткого поиска дубликатов (fuzzy matching), сравнение по хешам или специализированные ML-модели для дедупликации записей (entity resolution).
Как кардинальность (число уникальных значений) влияет на выбор типа данных?
Кардинальность — число уникальных значений категориального признака. Низкая (пол: м/ж) идеальна для One-Hot. Высокая (ZIP-код, ID пользователя) создает при One-Hot тысячи разреженных столбцов, раздувая память и усложняя обучение (проклятие размерности). Для высокой кардинальности используют Embeddings или Target Encoding.
238
Константин Колясников

Эпоха (в обучении)

Эпоха (в обучении) — это один полный проход алгоритма обучения через весь тренировочный набор данных. Обучение нейросети обычно требует множества эпох, чтобы веса модели достаточно скорректировалис...
Константин Колясников

Цифровая гигиена (в контексте ИИ)

Цифровая гигиена (в контексте ИИ) — это набор практик по безопасному и ответственному использованию технологий ИИ. Включает проверку фактов (борьба с галлюцинациями), защиту личных данных от попада...
Константин Колясников
Термины подгружаются