VGGish

VGGish嵌入提取网络

展开全部页面

库:
音频工具箱/深度学习

描述

VGGish块利用预先训练的卷积神经网络，该神经网络在AudioSet数据集上训练，从音频信号中提取特征嵌入。

港口

输入

全部展开

`Port_1`-梅尔光谱图
96 × 64矩阵| 96 × 64 × 1 ×N数组

Mel谱图，指定为96 × 64矩阵或96 × 64 × 1 × -N数组,地点:

96——表示每个mel谱图中25毫秒帧的数量
64——表示跨越125 Hz到7.5 kHz的mel频带的数量
N——表示mel谱图的数量。

您可以使用VGGish预处理块生成MEL谱图。所有的光谱图都是96 × 64的尺寸。

数据类型:单|双

输出

全部展开

`Port_1`——嵌入
N128年——矩阵

VGGish特征嵌入，返回为N-by-128矩阵，其中N是输入的MEL谱图的数量。特征嵌入是音频数据的紧凑表示。

数据类型:单

参数

全部展开

`Mini-batch大小`-小批量的大小
`128`(默认值)|正整数

用于预测的小批的大小指定为正整数。更大的迷你批处理需要更多的内存，但可以导致更快的预测。

模型的例子

比较VGGish嵌入块与等效VGGish块

说明VGGish Embeddings块等价于VGGish预处理块和VGGish块的级联。

开放模式

块特征

数据类型	`双`\|`单`
直接引线	`没有`
多维信号	`没有`
适应信号	`没有`
讨论二阶导数过零检测	`没有`

参考文献

[1] Gemmeke, Jort F.， Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal和Marvin Ritter。音频集:音频事件的本体和人类标记数据集在2017 IEEE声学、语音和信号处理国际会议(ICASSP), 776 - 80。新奥尔良，洛杉矶:IEEE, 2017。https://doi.org/10.1109/ICASSP.2017.7952261。

[2] Hershey, Shawn, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal等，“用于大规模音频分类的CNN架构。”在2017 IEEE声学、语音和信号处理国际会议(ICASSP)131 - 35。新奥尔良，洛杉矶:IEEE, 2017。https://doi.org/10.1109/ICASSP.2017.7952132。

扩展功能

C/ c++代码生成
使用Simulink®Coder™生成C和c++代码。

使用注意事项和限制:

若要生成不依赖于第三方库的泛型C代码，请使用配置参数>代码生成一般类别，设置语言参数C．
要生成c++代码，请在配置参数>代码生成一般类别，设置语言参数c++．若要指定用于生成代码的目标库，请使用代码生成>接口类别，设置目标库参数。将此参数设置为没有一个生成不依赖于第三方库的通用c++代码。
对于基于ert的目标，支持:可变大小信号参数中的代码生成>接口窗格必须启用。
有关支持代码生成的网络和层的列表，请参见代码生成支持的网络和层(MATLAB编码器)．

版本历史

R2022a中引入

另请参阅

VGGish

描述

港口

输入

Port_1-梅尔光谱图96 × 64矩阵| 96 × 64 × 1 ×N数组

输出

Port_1——嵌入N128年——矩阵

参数

Mini-batch大小-小批量的大小128(默认值)|正整数

模型的例子

比较VGGish嵌入块与等效VGGish块

块特征

参考文献

扩展功能

C/ c++代码生成使用Simulink®Coder™生成C和c++代码。

版本历史

另请参阅

应用程序

块

功能

`Port_1`-梅尔光谱图
96 × 64矩阵| 96 × 64 × 1 ×N数组

`Port_1`——嵌入
N128年——矩阵

`Mini-batch大小`-小批量的大小
`128`(默认值)|正整数

C/ c++代码生成
使用Simulink®Coder™生成C和c++代码。