Уникальные значения
Уникальные значения (Unique Values) — это перечень всех неповторяющихся вариантов данных в конкретном признаке (столбце). Анализ количества уникальных значений (кардинальности) критически важен на этапе разведочного анализа: он помогает определить тип переменной (категориальная или непрерывная) и выбрать правильную стратегию кодирования (One-Hot или Label Encoding).
Что такое «Уникальные значения» простыми словами
Представьте, что у вас есть список гостей на свадьбу (100 человек). В колонке «Пол» будет всего 2 уникальных значения: М и Ж. В колонке «Имя» может быть 80 уникальных (много тезок). А в колонке «Номер телефона» — 100 уникальных (все разные). Анализ уникальных значений помогает понять, с чем мы имеем дело: с категориями, которые повторяются, или с уникальными идентификаторами. Это первое, что проверяет дата-сайентист, глядя на данные.