t-SNE
t-SNE (t-Distributed Stochastic Neighbor Embedding) — это алгоритм машинного обучения для визуализации данных высокой размерности. Он нелинейно проецирует многомерные данные в двух- или трехмерное пространство так, чтобы похожие объекты располагались близко друг к другу, а непохожие — далеко. t-SNE широко используется для визуального анализа кластеров в данных.
Что такое «t-SNE» простыми словами
Данные живут в 100-мерном пространстве. Мы не можем это представить. t-SNE — это проектор, который отображает эти 100 измерений на плоский лист бумаги (2D). Он старается сохранить соседей: если точки были рядом там, они будут рядом и тут. В итоге мы видим красивые кластеры-острова: вот тут кучкуются «кошки», тут «собаки». Это лучший способ увидеть структуру данных глазами.