VGGish预处理

对音频进行VGGish特征提取预处理

在页面中全部展开

库:
音频工具箱/深度学习

描述

VGGish预处理块从音频输入中生成mel谱图，然后您可以将该谱图提供给VGGish预训练的网络或接受与VGGish相同输入的网络。

港口

输入

全部展开

`Port_1`——声音数据
列向量

声音数据，指定为单通道信号(列向量)。如果输入信号采样率(Hz)是16e3，对输入帧长度没有限制。如果输入信号采样率(Hz)与16e3不同，则输入帧长度必须是块执行的重采样操作的抽取因子的倍数。如果输入帧长度不满足这个条件，块抛出一个带有抽取因子信息的错误消息。

数据类型:单|双

输出

全部展开

`Port_1`——梅尔光谱图
96, - 64矩阵

由输入音频信号生成的Mel谱图，作为96 × 64矩阵返回，其中:

96——表示每个mel谱图中25毫秒帧数
64——表示跨度为125赫兹到7.5 kHz的mel频带数

的值决定了连续96 × 64 mel谱图之间的重叠重叠的百分比(%)参数。您可以将mel谱图作为输入提供给VGGish预训练网络，或提供给接受与VGGish相同输入的网络。

数据类型:单

参数

全部展开

`输入信号采样率(Hz)`-以Hz为单位的输入信号采样率
`16 e3`(默认)|阳性标量

输入信号的采样率(以Hz为单位)，指定为正标量。

`重叠的百分比(%)`-连续mel光谱图之间的重叠百分比
`50`(默认)| [0 100]

指定连续mel谱图之间的重叠百分比为[0 100)范围内的标量。

模型的例子

比较VGGish嵌入块与等效VGGish块

说明VGGish嵌入块等价于VGGish预处理块和VGGish块的级联。

开放模式

块特征

数据类型	`双`\|`单`
直接引线	`没有`
多维信号	`没有`
适应信号	`没有`
讨论二阶导数过零检测	`没有`

算法

全部展开

预处理步骤

VGGish Embeddings块使用以下步骤对音频数据进行预处理，使其符合VGGish网络所需的格式。

Cast音频数据到单一精度和重采样到16khz。
使用25毫秒周期汉恩窗(400个样本)，10毫秒跳(160个样本)和512点DFT计算单边短时傅里叶变换。
将复谱值转换为幅值，丢弃相位信息。
将单侧幅值stft通过64波段熔融间距滤波器组。这样做将257长度的STFT向量转换为64长度的mel尺度向量。
将64长度的向量转换为对数尺度。
将矢量缓冲到大小为96 × 64的输出中，其中96是mel光谱图中的光谱数，64是mel波段数。的值决定了连续96 × 64 mel谱图之间的重叠重叠的百分比(%)参数。

参考文献

[1]格梅克，约特F.，丹尼尔P. W.埃利斯，迪伦弗里德曼，艾伦詹森，韦德劳伦斯，R.钱宁摩尔，马诺基普拉卡尔和马文里特。“音频集:音频事件的本体和人类标记数据集。”在2017 IEEE声学、语音和信号处理国际会议, 776 - 80。新奥尔良，洛杉矶:IEEE, 2017。https://doi.org/10.1109/ICASSP.2017.7952261。

[2] Hershey, Shawn, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal等，《CNN大规模音频分类的架构》。在2017 IEEE声学、语音和信号处理国际会议131 - 35。新奥尔良，洛杉矶:IEEE, 2017。https://doi.org/10.1109/ICASSP.2017.7952132。

扩展功能

C / c++代码生成
使用Simulink®Coder™生成C和c++代码。

版本历史

介绍了R2022a

另请参阅

VGGish预处理

描述

港口

输入

Port_1——声音数据列向量

输出

Port_1——梅尔光谱图96, - 64矩阵

参数

输入信号采样率(Hz)-以Hz为单位的输入信号采样率16 e3(默认)|阳性标量

重叠的百分比(%)-连续mel光谱图之间的重叠百分比50(默认)| [0 100]

模型的例子

比较VGGish嵌入块与等效VGGish块

块特征

算法

预处理步骤

参考文献

扩展功能

C / c++代码生成使用Simulink®Coder™生成C和c++代码。

版本历史

另请参阅

应用程序

块

功能

`Port_1`——声音数据
列向量

`Port_1`——梅尔光谱图
96, - 64矩阵

`输入信号采样率(Hz)`-以Hz为单位的输入信号采样率
`16 e3`(默认)|阳性标量

`重叠的百分比(%)`-连续mel光谱图之间的重叠百分比
`50`(默认)| [0 100]

C / c++代码生成
使用Simulink®Coder™生成C和c++代码。