Data Drift

Бонус за регистрацию!
Зарегистрируйся и получи бонус
15 рублей

Data Drift (Дрейф данных) — это изменение статистических характеристик входных данных с течением времени, которое приводит к снижению точности модели. Дрейф может быть вызван сезонностью, изменением предпочтений пользователей или внешними событиями. Мониторинг дрейфа — обязательная часть MLOps.

Что такое «Data Drift» простыми словами

Представьте, что вы обучили ИИ предсказывать спрос на мороженое. Модель отлично работала 5 лет. Но вдруг случилась пандемия или изменился климат. Поведение людей изменилось, старые закономерности больше не работают. Это Дрейф данных. Модель не сломалась технически, но она «сошла с ума», потому что реальность вокруг изменилась. Поэтому за моделями нужно следить вечно и переобучать их на свежих данных.

Вопросы и ответы
Что такое дрейф данных (Data Drift)?
Изменение статистических свойств данных со временем, приводящее к устареванию модели.
Как обнаружить дрейф данных с помощью тестов Колмогорова-Смирнова?
Тест Колмогорова-Смирнова сравнивает распределения признаков в новой порции данных и в обучающей выборке. Если распределения значимо отличаются — произошел дрейф (Data Drift).
Как мониторить Data Drift в продакшене?
Мониторинг Data Drift в продакшене включает отслеживание статистических метрик входных данных. Сравниваются распределения (гистограммы) признаков на трейне и в текущем потоке. Используются тесты: PSI (Population Stability Index), дивергенция Кульбака-Лейблера (KL), тест Колмогорова-Смирнова. Если метрика превышает порог, значит, данные изменились и модель может врать.
464
Константин Колясников

Эпоха (в обучении)

Эпоха (в обучении) — это один полный проход алгоритма обучения через весь тренировочный набор данных. Обучение нейросети обычно требует множества эпох, чтобы веса модели достаточно скорректировалис...
Константин Колясников

Цифровая гигиена (в контексте ИИ)

Цифровая гигиена (в контексте ИИ) — это набор практик по безопасному и ответственному использованию технологий ИИ. Включает проверку фактов (борьба с галлюцинациями), защиту личных данных от попада...
Константин Колясников
Термины подгружаются