TF-IDF

TF-IDF (Term Frequency — Inverse Document Frequency) — это статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов (корпуса). Вес слова пропорционален частоте его использования в документе и обратно пропорционален частоте использования слова во всех документах коллекции. Это помогает выделить уникальные ключевые слова.

Что такое «TF-IDF» простыми словами

Как найти главные слова в документе? Если считать просто частоту, победят слова «и», «в». TF-IDF — это умный фильтр. Он смотрит: слово часто встречается в этом документе (TF), но редко во всех остальных (IDF)? Значит, это уникальное ключевое слово! Например, в статье про космос слово «орбита» будет иметь высокий TF-IDF, а слово «является» — почти ноль.

Вопросы и ответы

Что показывает метрика TF-IDF?

Статистическая мера, используемая для оценки важности слова в контексте документа.

Почему редкие слова имеют высокий IDF?

IDF (Inverse Document Frequency) логарифмически штрафует слова, которые встречаются во многих документах (предлоги, союзы), так как они не уникальны для конкретного текста.

Как считать TF-IDF?

Считать TF-IDF: 1) TF (Term Frequency) = (кол-во вхождений слова в док) / (всего слов в доке). 2) IDF (Inverse Document Frequency) = log(всего доков / (кол-во доков с этим словом)). 3) TF-IDF = TF * IDF. Высокий вес у слов, частых в этом документе, но редких в остальных.

140

ChatGPT

25.11.2025