音频的机器学习和深度学习

数据集管理、标记和扩充;音频、语音和声学应用的分割和特征提取

Audio Toolbox™提供了为音频、语音和声学应用开发机器和深度学习解决方案的功能，包括说话人识别、语音命令识别、声学场景识别等。

使用audioDatastore吸收大量音频数据集并并行处理文件。
使用信号贴标签机通过手动和自动标注音频记录来构建音频数据集。
使用audioDataAugmenter为增强和合成音频数据集创建内置或自定义信号处理方法的随机管道。
使用audioFeatureExtractor在共享中间计算的同时提取不同特征的组合。

Audio Toolbox还提供对文本到语音和语音到文本的第三方api的访问，它包括预先训练的VGGish和YAMNet模型，以便您可以执行迁移学习、分类声音和提取特征嵌入。使用预先训练的网络需要深度学习工具箱™。

类别

数据集管理和标记
摄取、创建和标记大型数据集
特征提取
梅尔谱图，MFCC，音高，谱描述符
数据增加
增加管道，移位音调和时间，拉伸时间，控制音量和噪声
分割
检测和隔离语音和其他声音
Pretrained模型
转移学习，声音分类，特征嵌入，预训练音频深度学习网络
语音转录与合成
为文本到语音和语音到文本使用预先训练的模型或第三方api
代码生成和GPU支持
生成可移植的C/ c++ /MEX函数，并使用gpu部署或加速处理

特色的例子

在Simulink中建模智能音箱

在Simulink中建模智能音箱系统^®该系统集成了语音命令识别功能，并能实时操作。

开放模式

用深度学习训练语音指令识别模型

训练一个深度学习模型来检测音频中语音命令的存在。

打开生活的脚本

基于Intel MKL-DNN的语音指令识别代码生成

在Intel®处理器上部署特征提取和卷积神经网络(CNN)用于语音命令识别。为了生成特征提取和网络代码，您可以使用MATLAB®Coder™和用于深度神经网络(MKL-DNN)的Intel®数学内核库。在本例中，生成的代码是一个MATLAB可执行(MEX)函数，该函数由MATLAB脚本调用，该脚本显示所预测的语音命令以及时域信号和听觉谱图。关于音频预处理和网络训练的详细信息，请参见基于深度学习的语音命令识别。

打开生活的脚本

树莓派语音指令识别代码生成

为树莓派™部署特征提取和卷积神经网络(CNN)来识别语音命令。为了生成特征提取和网络代码，您可以使用MATLAB Coder™、MATLAB®树莓派硬件支持包和ARM®计算库。在本例中，生成的代码是树莓派上的可执行文件，由MATLAB脚本调用，该脚本显示预测的语音命令以及信号和听觉谱图。MATLAB脚本和树莓派上可执行文件之间的交互使用用户数据报协议(UDP)进行处理。关于音频预处理和网络训练的详细信息，请参见基于深度学习的语音命令识别。

打开生活的脚本

基于MFCC和LSTM网络的噪声关键字发现

利用深度学习网络识别嘈杂语音中的关键词。特别地，该示例使用了双向长短期记忆(BiLSTM)网络和mel频率倒谱系数(MFCC)。

打开生活的脚本

使用深度学习网络去噪语音

使用深度学习网络去噪语音信号。该示例比较了应用于同一任务的两种网络类型:全连接网络和卷积网络。

打开生活的脚本

用深度学习网络分离鸡尾酒会信息源

使用深度学习网络分离语音信号。

打开生活的脚本

训练生成对抗网络(GAN)用于声音合成

训练和使用生成对抗网络(GAN)来生成声音。

打开生活的脚本

利用音高和MFCC识别说话人

演示了一种基于从录音语音中提取的特征来识别人的机器学习方法。用来训练分类器的特征是语音的浊音段的音调和梅尔频率倒谱系数(MFCC)。这是一种封闭集扬声器识别:将被测试扬声器的音频与所有可用的扬声器模型(有限集)进行比较，并返回最接近的匹配。

打开生活的脚本

使用i- vector验证说话人

说话人验证，或身份验证，是确认说话人的身份是他们声称的那个人的任务。说话人验证多年来一直是一个活跃的研究领域。早期的性能突破是在声学特征(通常是mfcc)上使用高斯混合模型和通用背景模型(GMM-UBM)[1]。例如，请参见使用高斯混合模型验证说话人。GMM-UBM系统的主要困难之一是会话间的变化。联合因子分析(JFA)通过分别建模说话人间变异和通道或会话变异[2][3]来补偿这种变异。然而，[4]发现JFA中的信道因子也包含扬声器的信息，并提出将信道和扬声器空间组合成一个总变率空间。然后使用后端程序(如线性判别分析(LDA)和类内协方差归一化(WCCN))来补偿会话间的变异，然后进行评分，如余弦相似度评分。[5]提出用概率LDA (PLDA)模型代替余弦相似度评分。[11]和[12]提出了一种方法来高斯化i向量，因此在PLDA中进行高斯假设，称为G-PLDA或简化PLDA。 While i-vectors were originally proposed for speaker verification, they have been applied to many problems, like language recognition, speaker diarization, emotion recognition, age estimation, and anti-spoofing [10]. Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开生活的脚本

端到端深度语音分离

使用端到端深度学习网络进行与说话人无关的语音分离。

打开生活的脚本