Big Data

Бонус за регистрацию!
Зарегистрируйся и получи бонус
15 рублей

Big Data (Большие данные) — это термин, описывающий наборы данных такого объема и сложности, что традиционные инструменты обработки данных не могут с ними справиться. Big Data характеризуются «тремя V»: Volume (объем), Velocity (скорость поступления) и Variety (разнообразие форматов). Обработка таких данных требует технологий вроде Hadoop, Spark и облачных вычислений.

Что такое «Big Data» простыми словами

Если данные помещаются в Excel на вашем ноутбуке — это не Big Data. Big Data — это когда данных так много (петабайты), что один компьютер физически не может их сохранить. Это все лайки в Фейсбуке за год, все транзакции Visa за день, данные с адронного коллайдера. Чтобы работать с ними, нужны не мощные компьютеры, а целые кластеры из тысяч машин, которые делят задачу на кусочки и решают её сообща.

Вопросы и ответы
Что подразумевают под Big Data?
Данные огромного объема, скорости поступления и разнообразия форматов (3V).
Что такое «четвертое V» (Veracity) в Big Data?
Veracity (достоверность) означает качество и надежность данных. В Big Data много шума и ошибок, поэтому очистка и верификация данных критически важны.
Что такое «Volume, Velocity, Variety»?
Три "V" больших данных: Volume (объем — терабайты), Velocity (скорость — потоковая обработка в реальном времени), Variety (разнообразие — структурированные, текст, видео, логи). Сейчас добавляют Veracity (достоверность) и Value (ценность).
73
Константин Колясников

Эпоха (в обучении)

Эпоха (в обучении) — это один полный проход алгоритма обучения через весь тренировочный набор данных. Обучение нейросети обычно требует множества эпох, чтобы веса модели достаточно скорректировалис...
Константин Колясников

Цифровая гигиена (в контексте ИИ)

Цифровая гигиена (в контексте ИИ) — это набор практик по безопасному и ответственному использованию технологий ИИ. Включает проверку фактов (борьба с галлюцинациями), защиту личных данных от попада...
Константин Колясников
Термины подгружаются