Уникальные значения

Уникальные значения (Unique Values) — это перечень всех неповторяющихся вариантов данных в конкретном признаке (столбце). Анализ количества уникальных значений (кардинальности) критически важен на этапе разведочного анализа: он помогает определить тип переменной (категориальная или непрерывная) и выбрать правильную стратегию кодирования (One-Hot или Label Encoding).

Что такое «Уникальные значения» простыми словами

Представьте, что у вас есть список гостей на свадьбу (100 человек). В колонке «Пол» будет всего 2 уникальных значения: М и Ж. В колонке «Имя» может быть 80 уникальных (много тезок). А в колонке «Номер телефона» — 100 уникальных (все разные). Анализ уникальных значений помогает понять, с чем мы имеем дело: с категориями, которые повторяются, или с уникальными идентификаторами. Это первое, что проверяет дата-сайентист, глядя на данные.

Вопросы и ответы

Зачем анализировать уникальные значения в датасете?

Чтобы понять разнообразие данных, выявить категории и обнаружить ошибки или дубликаты.

Как выявить дубликаты в базе данных по уникальным значениям?

Используются алгоритмы нечеткого поиска дубликатов (fuzzy matching), сравнение по хешам или специализированные ML-модели для дедупликации записей (entity resolution).

Как кардинальность (число уникальных значений) влияет на выбор типа данных?

Кардинальность — число уникальных значений категориального признака. Низкая (пол: м/ж) идеальна для One-Hot. Высокая (ZIP-код, ID пользователя) создает при One-Hot тысячи разреженных столбцов, раздувая память и усложняя обучение (проклятие размерности). Для высокой кардинальности используют Embeddings или Target Encoding.

238

ChatGPT

25.11.2025