数字音频信号的基本处理

时间：2023-03-10 理论教育版权反馈

【摘要】：声音信号的基本处理包括噪音消除，音量的提升和音量的标准化处理。噪音信号在讲话和音乐的间歇时表现得特别明显。应该尽量保证音频的最高值在0dB左右。而标准化功能会根据要求对音频文件的音量进行自动处理。在对声音处理完成后，常常要生成为各种格式的声音文件。WMA格式也是被广泛支持的音频编码方式，几乎所有的主流音频处理软件都对它有良好的支持。

4.2.2　数字音频信号的基本处理

数字音频信号的基本处理包括音量的提升和降低，编辑、噪音消除以及输出等工作。

1.数字声音的编辑

声音信号的编辑比较简单，如图4‐13所示的是声音编辑窗口，横向是时间，其操作方法和文字处理几乎一样，用鼠标拖动可选择，图4‐13中的高亮部分就是被选择的部分。然后可对被选择部分使用编辑菜单中的复制、剪切、删除等命令。命令的快捷方式也和Windows其他操作一样，分别是复制（Ctrl＋C），剪切（Ctrl＋X），粘贴（Ctrl＋V）。

图4‐13　声音编辑窗口

此外，声音的常用编辑技巧还包括：

（1）插入空白声音。如果要在音频中插入一段空白或静默的声音，只要用鼠标先点击要插入的位置，然后在菜单中选择插入—静音（英语用Mute或Silence表示）就可以了。

（2）给声音编辑点打上标记。与视频文件在当前播放点可以直接显示某处的画面内容不同，由于声音是连续波形，内容必须通过播放才知道，因此在编辑时寻找内容还必须播放才行。为提高效率，在音频编辑时将主要内容点标上标记可以大大提高效率。

如图4‐14所示是在常用音频编辑软件Cooledit和Soundforge中打上标记。此项功能是常用命令，因此两个软件都设置了快捷键。在Cooledit中按下F8，Soundforge按下M键即可在光标当前所在位置打上标记。

图4‐14　利用标记加速编辑

2.数字音频信号的基本处理

声音信号的基本处理包括噪音消除，音量的提升和音量的标准化处理。一般通过话筒录入的声音都要经过这三个步骤的处理。

（1）噪音消除

音频信号中的噪音包括电路本身的噪音和环境噪音。噪音信号在讲话和音乐的间歇时表现得特别明显。音频处理软件去除噪音主要有两种思路：

图4‐15　设置噪音门滤除噪音

第一种思路，考虑噪音一般比主音要轻得多，因此设立一个门槛，高度设为噪音的最高电平，凡是低于这个门槛的声音就当作噪音滤除。这种方法适用于噪音电平和主音电平相差较大的情况。优点是去除语音间歇处的噪音比较干净，但对混杂在主音中的噪音无能为力。软件SoundForge使用的就是这种方法。如图4‐15所示，噪音电平的值在－33dB左右，因此将噪音的阈值设为略高于－33dB。图中设为－31dB，这样噪音电平就被过滤了。

第二种方法，是利用软件提取噪音的频率特征样本，然后通过计算去除整个文件中相同频率特征的声音，典型的软件是Cooledit。这种方法适用于噪音频率特征单一的情况，比如都是计算机的电流噪音。使用这种方法也会去除节目部分频率的声音。

如图4‐16所示，先在效果菜单中选择噪音消除命令中的降噪器。然后在跳出的对话框中，第一步，先选择噪音采样，把要消除的噪音记录下来；第二步，再点击确定执行去除噪音的工作。这个过程一般要持续2～3次才能把大部分噪音消除。

图4‐16　Cooledit噪音消除

（2）音量的提升

在音频编辑时，通过耳机或喇叭播放来判别声音是否响亮是非常不准确的，因为耳机、喇叭的灵敏度相差很大，各个课堂教室的扩音系统也不相同。应该尽量保证音频的最高值在0dB左右。

如图4‐17所示的波形，最大峰值为－5dB，说明声音偏轻。可以利用音量的提升功能，将音量总体提升5dB。要注意的是控制提升量不要超过峰值电平与0dB的差，否则提升过量会造成波形失真。

图4‐17　音量提升

音量提升适用于局部区域的音量调整，如果音频文件很长，用音量提升功能来手动控制每段的音量就比较麻烦，因为音量提升功能不会判断音量提升后有没有出现失真。而标准化功能会根据要求对音频文件的音量进行自动处理。

（3）音量的标准化（Normalize）

在制作和播放声音文件时，经常会碰见的情况是不同的音频文件音量差别比较大，给播放带来麻烦。好的音频制作应该保证一个课件，或一张CD里面所有歌曲、语音的平均电平值是一样的，而标准化（Nomarlize）或称规范化就是调节音频文件的音量使之保持在一个通用的标准中，从而使经过标准化处理后的各个音频文件音量相同。

不同软件对标准化的处理也不一样，如Cooledit只是简单地把最高音量提升到0dB。而用SoundForge则可以非常灵活地根据要求自动提升不同比例的音量。例如，我们录了一节课，有可能教师开始授课时声音比较轻，后来逐渐提高了声音，利用SoundForge的平均电平标准化功能，可以方便地进行调整，使得前后声音的音量差距缩小。

由于最高声音信号的值是0dB，那么声音信号平均值越接近0dB，总体音量就越大，声音的起伏就越小。如图4‐18中所示，将平均音量设定为－10dB，这个值是比较大的，适用于人的语音文件。如果是音乐文件，为了突出音乐的起伏，一般将平均音量电平设为－16dB。

图4‐18　标准化电平设置

3.数字音频信号的压缩与输出

在对声音处理完成后，常常要生成为各种格式的声音文件。一般只要在文件的另存为窗口中保存成相应的格式就可以了，这儿介绍常用的三种格式，即Wave、MP3和WMA格式的输出。

图4‐19　音频文件输出选项

（1）非压缩格式文件Wave的输出

Wave格式文件既可以是非压缩也可以是压缩的声音信息。由于Wave的压缩格式压缩率不高，一般.wav格式都用来保存非压缩的音频文件，此时文件尺寸较大，但是音频信号因为没有压缩而保持原始的质量。如图4‐19所示，在声音编辑软件中选择“另存为”后有多个.wav格式的保存选项，此时，“Windows PCM （*.wav）”是保存为非压缩格式的文件。

（2）MP3文件格式的输出

MP3格式文件保存选项较多，主要分为VBR（可变码率）和CBR（固定码率）两种方式。固定码率是指在整个文件中采用相同的压缩率进行压缩，而VBR方式则根据声音的内容，在指定的范围内自动选择压缩码率，因此使用VBR方式压缩效率更高些，但是用VBR方式压缩的MP3文件，在某些MP3播放机上可能会显示错误的文件时间长度。

选择CBR方式，MP3将以固定码率的方式进行编码，以图4‐20中的CBR方式为例，128Kbps是码率，44100Hz是抽样频率。