Звуковой спектр (Спектрограмма)
Звуковой спектр (Спектрограмма) — это визуальное представление спектра частот сигнала, меняющегося во времени. В задачах обработки звука и речи с помощью ИИ (ASR, TTS) аудиосигнал часто преобразуется в спектрограмму (обычно мел-спектрограмму), что позволяет применять мощные алгоритмы компьютерного зрения (например, CNN) для анализа аудио. Это стандартный шаг препроцессинга в современных голосовых технологиях.
Что такое «Звуковой спектр (Спектрограмма)» простыми словами
Мы слышим звук ушами, а нейросети «видят» его глазами. Спектрограмма — это картинка, на которой звук нарисован в виде цветных пятен (чем ярче пятно, тем громче звук на этой частоте). Превратив голос в картинку, мы можем использовать мощные алгоритмы распознавания изображений, чтобы научить компьютер понимать речь или определять птиц по пению.