主要内容

VGGish

VGGish嵌入提取网络

  • 库:
  • 音频工具箱/深度学习

  • VGGish块

描述

VGGish块利用预先训练的卷积神经网络,该神经网络在AudioSet数据集上训练,从音频信号中提取特征嵌入。

港口

输入

全部展开

Mel谱图,指定为96 × 64矩阵或96 × 64 × 1 × -N数组,地点:

  • 96——表示每个mel谱图中25毫秒帧的数量

  • 64——表示跨越125 Hz到7.5 kHz的mel频带的数量

  • N——表示mel谱图的数量。

您可以使用VGGish预处理块生成MEL谱图。所有的光谱图都是96 × 64的尺寸。

数据类型:|

输出

全部展开

VGGish特征嵌入,返回为N-by-128矩阵,其中N是输入的MEL谱图的数量。特征嵌入是音频数据的紧凑表示。

数据类型:

参数

全部展开

用于预测的小批的大小指定为正整数。更大的迷你批处理需要更多的内存,但可以导致更快的预测。

块特征

数据类型

|

直接引线

没有

多维信号

没有

适应信号

没有

讨论二阶导数过零检测

没有

参考文献

[1] Gemmeke, Jort F., Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal和Marvin Ritter。音频集:音频事件的本体和人类标记数据集在2017 IEEE声学、语音和信号处理国际会议(ICASSP), 776 - 80。新奥尔良,洛杉矶:IEEE, 2017。https://doi.org/10.1109/ICASSP.2017.7952261。

[2] Hershey, Shawn, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal等,“用于大规模音频分类的CNN架构。”在2017 IEEE声学、语音和信号处理国际会议(ICASSP)131 - 35。新奥尔良,洛杉矶:IEEE, 2017。https://doi.org/10.1109/ICASSP.2017.7952132。

扩展功能

版本历史

R2022a中引入

Baidu
map