特征提取

梅尔谱图，MFCC，音高，谱描述符

从音频信号中提取特征，作为机器学习或深度学习系统的输入。使用单独的函数，例如melSpectrogram，mfcc，球场,spectralCentroid，或使用audioFeatureExtractor对象来创建最小化冗余计算的特征提取管道。在实时脚本中，使用提取音频功能图形化地选择要提取的特征。

对象

`audioFeatureExtractor`	简化音频特征提取
`ivectorSystem`	创建i向量系统

实时编辑任务

提取音频功能

简化实时编辑器中的音频特征提取

功能

全部展开

听觉谱图

`audioDelta`	计算δ特征
`designAuditoryFilterBank`	设计听觉滤波器组
`melSpectrogram`	梅尔·光谱图

听觉倒谱系数

`audioDelta`	计算δ特征
`cepstralCoefficients`	提取倒谱系数
`gtcc`	提取伽玛酮倒谱系数，对数能量，δ和δ - δ
`mfcc`	提取音频信号的MFCC、log能量、delta和delta-delta

功能嵌入

`openl3Embeddings`	提取OpenL3特性嵌入
`vggishEmbeddings`	提取VGGish特征嵌入

周期性和协调性

`audioDelta`	计算δ特征
`harmonicRatio`	谐波比率
`球场`	估计音频信号的基频
`pitchnn`	用深度学习神经网络估计音高

光谱描述符

`audioDelta`	计算δ特征
`spectralCentroid`	音频信号和听觉谱图的谱质心
`spectralCrest`	音频信号和听觉谱图的谱峰
`spectralDecrease`	音频信号和听觉谱图的谱降低
`spectralEntropy`	音频信号和听觉谱图的谱熵
`spectralFlatness`	音频信号和听觉谱图的谱平坦度
`spectralFlux`	音频信号和听觉谱图的谱通量
`spectralKurtosis`	音频信号和听觉谱图的谱峰度
`spectralRolloffPoint`	音频信号和听觉谱图的谱滚落点
`spectralSkewness`	音频信号和听觉谱图的谱偏度
`spectralSlope`	音频信号和听觉谱图的谱斜率
`spectralSpread`	音频信号和听觉谱图的谱扩频

域转换

`erb2hz`	从等效矩形带宽(ERB)尺度转换为赫兹
`bark2hz`	从树皮刻度转换为赫兹
`mel2hz`	从梅尔尺度转换为赫兹
`hz2erb`	从赫兹转换为等效矩形带宽(ERB)尺度
`hz2bark`	从赫兹转换为树皮尺度
`hz2mel`	从赫兹转换为梅尔尺度
`phon2sone`	把phon转换成sone
`sone2phon`	把sone转换成phon

块

音频δ	计算δ特征
听觉谱图	从音频中提取mel, Bark或ERB谱图
Cepstral系数	从谱图中提取倒谱系数
设计听觉滤波器组	设计频域听觉滤波器组
梅尔滤波器组设计	设计频域mel滤波器组
梅尔·光谱图	从音频中提取mel谱图
MFCC	从音频中提取mel频率倒谱系数

主题

音频分类的特征选择
执行音频特征选择，为说话人识别或单词识别任务选择一个特征集。
光谱描述符
光谱描述符概述及应用。
学习使用深度学习的预强调过滤器
利用卷积深度网络学习一种用于语音识别的预强调滤波器。

特色的例子

使用x向量的说话人识别

开发一个x向量系统来执行说话人识别。

打开实时脚本

使用x向量的扬声器diization

说话人划分是根据说话人身份将音频信号划分为多个片段的过程。它回答了“谁在什么时候说话”的问题，而不事先知道说话人，而且根据应用程序的不同，不事先知道说话人的数量。

打开实时脚本

利用内存不足特性训练语音数字识别网络

使用转换后的数据存储在内存不足的听觉谱图上训练语音数字识别网络。在本例中，您使用audioDatastore和audioFeatureExtractor从音频中提取听觉谱图，并将它们写入磁盘。然后在训练期间使用signalDatastore访问特性。当训练特性不适合内存时，工作流是有用的。在这个工作流程中，您只提取一次特征，如果您正在迭代深度学习模型设计，这将加快您的工作流程。

打开实时脚本

利用内存外音频数据训练语音数字识别网络

使用转换后的数据存储在内存不足的音频数据上训练语音数字识别网络。在本例中，您将对用于训练卷积神经网络(CNN)的音频数据应用一个随机的音调偏移。对于每个训练迭代，使用audioDataAugmenter对象增强音频数据，然后使用audioFeatureExtractor对象提取特征。本例中的工作流适用于训练循环中使用的任何随机数据增强。当底层音频数据集或训练特性不适合内存时，工作流也适用。

打开实时脚本

用深度学习训练语音指令识别模型

训练一个深度学习模型来检测音频中语音命令的存在。

打开实时脚本

基于深度学习的噪声语音活动检测

利用深度学习在低信噪比环境中检测语音区域。该示例使用语音命令数据集训练双向长短期记忆(BiLSTM)网络来检测语音活动。

打开实时脚本

基于小波散射和深度学习的语音数字识别

使用机器和深度学习技术对语音数字进行分类。在本例中，使用小波时间散射和支持向量机(SVM)和长短期记忆(LSTM)网络进行分类。您还应用贝叶斯优化来确定合适的超参数，以提高LSTM网络的准确性。此外，该示例说明了使用深度卷积神经网络(CNN)和mel频率谱图的方法。

打开实时脚本

音频特征的顺序特征选择

一种典型的语音数字识别特征选择工作流程。

打开实时脚本

基于后期融合的声学场景识别

建立一个多模型后期融合系统用于声学场景识别。该示例使用mel谱图训练卷积神经网络(CNN)和使用小波散射训练集成分类器。该示例使用TUT数据集进行训练和评估[1]。

打开实时脚本

使用i- vector验证说话人

说话人验证，或身份验证，是确认说话人的身份是他们声称的那个人的任务。说话人验证多年来一直是一个活跃的研究领域。早期的性能突破是在声学特征(通常是mfcc)上使用高斯混合模型和通用背景模型(GMM-UBM)[1]。例如，请参见使用高斯混合模型验证说话人。GMM-UBM系统的主要困难之一是会话间的变化。联合因子分析(JFA)通过分别建模说话人间变异和通道或会话变异[2][3]来补偿这种变异。然而，[4]发现JFA中的信道因子也包含扬声器的信息，并提出将信道和扬声器空间组合成一个总变率空间。然后使用后端程序(如线性判别分析(LDA)和类内协方差归一化(WCCN))来补偿会话间的变异，然后进行评分，如余弦相似度评分。[5]提出用概率LDA (PLDA)模型代替余弦相似度评分。[11]和[12]提出了一种方法来高斯化i向量，因此在PLDA中进行高斯假设，称为G-PLDA或简化PLDA。 While i-vectors were originally proposed for speaker verification, they have been applied to many problems, like language recognition, speaker diarization, emotion recognition, age estimation, and anti-spoofing [10]. Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开实时脚本

基于高斯混合模型的说话人验证

说话人验证，或认证，是验证给定的语音段属于给定的说话人的任务。在说话人验证系统中，所有其他说话人的集合都是未知的，因此，一个话语属于验证目标的可能性与它不属于验证目标的可能性进行比较。这与说话人识别任务相反，在识别任务中，每个说话人的可能性都被计算出来，然后这些可能性被比较。说话人验证和说话人识别可以依赖于文本，也可以独立于文本。在本例中，您使用高斯混合模型/通用背景模型(GMM-UBM)创建了一个依赖文本的说话者验证系统。

打开实时脚本