TF-IDF
TF-IDF (Term Frequency — Inverse Document Frequency) — это статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов (корпуса). Вес слова пропорционален частоте его использования в документе и обратно пропорционален частоте использования слова во всех документах коллекции. Это помогает выделить уникальные ключевые слова.
Что такое «TF-IDF» простыми словами
Как найти главные слова в документе? Если считать просто частоту, победят слова «и», «в». TF-IDF — это умный фильтр. Он смотрит: слово часто встречается в этом документе (TF), но редко во всех остальных (IDF)? Значит, это уникальное ключевое слово! Например, в статье про космос слово «орбита» будет иметь высокий TF-IDF, а слово «является» — почти ноль.