音频应用的深度学习- MATLAB & Simulink - 卡塔尔世界杯8强比赛直播

音频应用的深度学习

开发带有深度学习的音频应用程序通常包括创建和访问数据集、预处理和探索数据、开发预测模型以及部署和共享应用程序。MATLAB^®提供工具箱以支持开发的每个阶段。

虽然Audio Toolbox™支持深度学习工作流的每个阶段，但它的主要贡献是访问和创建数据而且预处理和探索数据．

访问和创建数据

当你能够访问大型训练数据集时，深度学习网络表现最佳。然而，音频、语音和声学信号的多样性，以及缺乏大型标记良好的数据集，使得访问大型训练集变得困难。当对音频文件使用深度学习方法时，您可能需要开发新的数据集或扩展现有的数据集。您可以使用信号贴标签机应用程序，帮助您放大或创建新的标签数据集。

一旦有了初始数据集，就可以通过应用增强技术(如音调移动、时移、音量控制和噪声添加)来扩大它。您想应用的增强类型取决于您的音频、语音或声学应用程序的相关特性。例如，音调转换(或声道扰动)和时间拉伸是自动语音识别(ASR)的典型增强技术。对于远场ASR，利用人工混响对训练数据进行增广是常见的方法。音频工具箱提供了audioDataAugmenter帮助你确定地或概率地应用增广。

深度学习工作流程中使用的训练数据通常太大，无法装入内存。高效访问数据和执行常见的深度学习任务(例如将数据集划分为训练集、验证集和测试集)可能很快就会变得难以管理。音频工具箱提供了audioDatastore帮助您管理和加载大型数据集。

预处理和探索数据

音频数据预处理包括将音频文件重采样到一致的采样率、删除静默区域和将音频剪辑到一致的持续时间等任务。您可以通过使用MATLAB、信号处理工具箱™和DSP系统工具箱™来完成这些任务。音频工具箱提供额外的特定于音频的工具，以帮助您执行预处理，例如detectSpeech而且voiceActivityDetector．

音频是高度维度的，包含冗余和通常不必要的信息。历史上，mel频率倒谱系数(mfcc)和低层次特征，如过零率和谱形状描述符，已经成为从音频信号中提取的主要特征，用于机器学习系统。根据这些特征训练的机器学习系统计算效率高，通常需要较少的训练数据。音频工具箱提供了audioFeatureExtractor这样你就可以有效地提取音频特征。

深度学习体系结构的进步、计算能力的增强以及大型且标记良好的数据集减少了对手工设计功能的依赖。最先进的结果通常是使用mel光谱图(melSpectrogram)、线性谱图或原始音频波形。音频工具箱提供了audioFeatureExtractor这样你就可以提取多个听觉谱图，比如mel谱图、γ matone谱图或Bark谱图，并将它们与低级描述符配对。使用audioFeatureExtractor使您能够系统地确定深度学习模型的音频特征。或者，您也可以使用melSpectrogram快速提取MEL光谱图的功能。Audio Toolbox还提供了修改的离散余弦变换(多层螺旋ct)，它返回一个紧凑的光谱表示，而不会损失任何信息。

示例应用程序和工作流

选择特征、决定应用哪种增强和预处理以及设计深度学习模型都取决于训练数据的性质和想要解决的问题。“音频工具箱”提供了一些例子，说明了适应不同数据集和音频应用的深度学习工作流程。该表按网络类型(卷积神经网络、全连接神经网络或循环神经网络)和问题类别(分类、回归或序列对序列)列出了音频深度学习示例。

CNN或足球俱乐部

LSTM、BiLSTM或GRU

分类

例子	预处理和扩充	特征提取与时频变换
用深度学习训练语音指令识别模型		的`audioFeatureExtractor`对象用于提取log-Bark谱。
基于后期融合的声学场景识别	混乱	`melSpectrogram`，`waveletScattering`(小波工具箱)
基于gpu的特征提取加速音频深度学习	混乱	的`audioFeatureExtractor`对象用于提取MEL谱。

例子	预处理和扩充	特征提取与时频变换
语音情感识别	`audioDataAugmenter`	的`audioFeatureExtractor`对象用于提取`gtcc`，`mfcc`,梅尔`spectralCrest`．
音频特征的顺序特征选择	`detectSpeech`	的`audioFeatureExtractor`对象用于扫描提取的特征的组合。
基于声学的机器故障识别	混乱	的`audioFeatureExtractor`对象用于提取光谱描述符。

回归或Sequence-to-Sequence

例子	预处理和扩充	特征提取与时频变换
使用深度学习网络去噪语音		`stft`，`istft`，`压缩机`
用深度学习网络分离鸡尾酒会信息源		`stft`，`istft`
训练生成对抗网络(GAN)用于声音合成		`stft`，`istft`
端到端深度语音分离		`stft`，`istft`

例子	预处理和扩充	特征提取与时频变换
基于深度学习的噪声语音活动检测	`detectSpeech`	的`audioFeatureExtractor`对象用于提取`spectralCentroid`，`spectralCrest`，`spectralEntropy`，`spectralFlux`，`spectralKurtosis`，`spectralSkewness`，`spectralRolloffPoint`，`spectralSlope`,`harmonicRatio`．
基于MFCC和LSTM网络的噪声关键字发现	`detectSpeech`，`audioDataAugmenter`	`mfcc`

参考文献

[1] Purwins, H.， B. Li, T. Virtanen, J. Schülter, S. Y. Chang, T. Sainath。“音频信号处理的深度学习”信号处理专题选刊．2019年第2期第13卷第206-219页。

另请参阅

audioFeatureExtractor|audioDataAugmenter|audioDatastore|信号贴标签机