Косинусное сходство
Косинусное сходство — это метрика, используемая для измерения степени сходства между двумя векторами в многомерном пространстве. Она вычисляется как косинус угла между ними и принимает значения от -1 до 1. В ИИ это стандартный способ сравнения текстовых документов или изображений после их превращения в эмбеддинги: чем меньше угол (ближе к 1), тем более похожи объекты по смыслу, независимо от их размера (длины текста).
Что такое «Косинусное сходство» простыми словами
Как математически измерить, насколько похожи два текста? Мы превращаем их в векторы (стрелочки в пространстве). Если стрелочки смотрят в одну сторону (угол между ними мал), тексты похожи. Если в разные — тексты о разном. Косинусное сходство — это число от 0 до 1, показывающее близость смыслов. Это основа поиска похожих документов и плагиата.