在音频压缩的发展历程中,最直接的做法是对语音波形本身进行采样、量化和压缩,也就是所谓的波形编码。这类方法从“信号长什么样”出发,基于Python的数字音频处理:音频压缩方法(一)波形编码对每一个采样点进行处理,设计相对简单,但为了保持较好的音质,往往需要较高的比特率。如果我们能直接对这个发声过程进行建模,用少量具有物理意义的参数来描述语音,而不是逐点传输波形,就有可能在较低比特率下保持可懂、可辨认的语音质量。这类方法被统称为参数编码。
从生理结构上看,人说话可以粗略分为两个部分:声源和声道。如果把声源看成系统的输入,把声道看成一个具有若干共振峰的滤波器,那么语音生成过程就可以被看作一个典型的“源–滤波”系统,一旦相关参数被估计和编码,我们就可以在接收端用相同的源–滤波模型进行合成,从而重建出具有可懂度的语音。

分析端:对每一帧语音信号进行自相关分析和递推,估计出 LPC 系数和增益,同时根据残差信号的周期性来估计基频,并判断该帧是有声音素还是无声音素;
合成端:构造相应的激励信号(例如有声音素用脉冲串、无声音素用噪声),再通过由 LPC 系数定义的全极点滤波器进行滤波,从而合成出近似原始的语音。
这样,每一帧语音只需传输一小组系数和几个激励参数,就能在另一端重建出具有可懂度的语音波形,实现了参数编码的高压缩率优势。

