TF-IDF

Бонус за регистрацию!
Зарегистрируйся и получи бонус
15 рублей

TF-IDF (Term Frequency — Inverse Document Frequency) — это статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов (корпуса). Вес слова пропорционален частоте его использования в документе и обратно пропорционален частоте использования слова во всех документах коллекции. Это помогает выделить уникальные ключевые слова.

Что такое «TF-IDF» простыми словами

Как найти главные слова в документе? Если считать просто частоту, победят слова «и», «в». TF-IDF — это умный фильтр. Он смотрит: слово часто встречается в этом документе (TF), но редко во всех остальных (IDF)? Значит, это уникальное ключевое слово! Например, в статье про космос слово «орбита» будет иметь высокий TF-IDF, а слово «является» — почти ноль.

Вопросы и ответы
Что показывает метрика TF-IDF?
Статистическая мера, используемая для оценки важности слова в контексте документа.
Почему редкие слова имеют высокий IDF?
IDF (Inverse Document Frequency) логарифмически штрафует слова, которые встречаются во многих документах (предлоги, союзы), так как они не уникальны для конкретного текста.
Как считать TF-IDF?
Считать TF-IDF: 1) TF (Term Frequency) = (кол-во вхождений слова в док) / (всего слов в доке). 2) IDF (Inverse Document Frequency) = log(всего доков / (кол-во доков с этим словом)). 3) TF-IDF = TF * IDF. Высокий вес у слов, частых в этом документе, но редких в остальных.
140
Константин Колясников

Эпоха (в обучении)

Эпоха (в обучении) — это один полный проход алгоритма обучения через весь тренировочный набор данных. Обучение нейросети обычно требует множества эпох, чтобы веса модели достаточно скорректировалис...
Константин Колясников

Цифровая гигиена (в контексте ИИ)

Цифровая гигиена (в контексте ИИ) — это набор практик по безопасному и ответственному использованию технологий ИИ. Включает проверку фактов (борьба с галлюцинациями), защиту личных данных от попада...
Константин Колясников
Термины подгружаются