t-SNE

t-SNE (t-Distributed Stochastic Neighbor Embedding) — это алгоритм машинного обучения для визуализации данных высокой размерности. Он нелинейно проецирует многомерные данные в двух- или трехмерное пространство так, чтобы похожие объекты располагались близко друг к другу, а непохожие — далеко. t-SNE широко используется для визуального анализа кластеров в данных.

Что такое «t-SNE» простыми словами

Данные живут в 100-мерном пространстве. Мы не можем это представить. t-SNE — это проектор, который отображает эти 100 измерений на плоский лист бумаги (2D). Он старается сохранить соседей: если точки были рядом там, они будут рядом и тут. В итоге мы видим красивые кластеры-острова: вот тут кучкуются «кошки», тут «собаки». Это лучший способ увидеть структуру данных глазами.

Вопросы и ответы

Для чего используется алгоритм t-SNE?

Алгоритм машинного обучения для визуализации многомерных данных.

Почему t-SNE лучше PCA для визуализации кластеров?

t-SNE сохраняет локальную структуру данных (соседей), что позволяет красиво разложить кластеры на плоскости, но искажает глобальные расстояния.

Как интерпретировать график t-SNE?

Интерпретировать график t-SNE: он показывает кластеры похожих объектов. Близкие точки на графике, скорее всего, похожи в исходном пространстве. НО: расстояния между кластерами и размеры кластеров в t-SNE часто не имеют физического смысла (зависят от перплексии). Нельзя делать выводы о плотности или глобальной структуре.

181

ChatGPT

25.11.2025