主要内容

OpenL3

OpenL3嵌入式提取网络

  • 库:
  • 音频工具箱/深度学习

  • OpenL3块

描述

OpenL3Block利用一个预先训练的卷积神经网络,从音频信号中提取特征嵌入。这些嵌入是功能强大的音频表示,可以用于分类等任务。此块需要深度学习工具箱™。

港口

输入

全部展开

声谱图由音频生成,指定为N——- - - - - -矩阵或一个N——- - - - - --by-1-by -K数组中。K表示谱图的数量,和N——- - - - - -是谱图的大小和量值有关吗光谱类型参数。

  • 梅尔(128乐队)—网络接受128 × 199的mel谱图,其中128为mel频带数,199为时间跳数。

  • 梅尔(256乐队)—网络接受大小为256 × 199的mel谱图,其中256为mel频带数,199为时间跳数。

  • 线性—网络接受大小为257 × 197的正单边谱图,其中257为FFT长度,197为时间跳数。

数据类型:|

输出

全部展开

输出嵌入,返回为K——- - - - - -l矩阵,K输入谱图的数量,和l嵌入长度参数。

数据类型:

参数

全部展开

由音频生成并用作神经网络输入的频谱类型,指定为梅尔(128乐队)梅尔(256乐队),或线性.此参数指定网络输入的大小Port_1

神经网络训练的音频内容类型,指定为环境声音音乐听起来.将此参数设置为环境声音使用预先训练过的环境音频数据神经网络,并将其设置为音乐听起来使用预先训练过的音乐数据网络。

输出嵌入长度,指定为5126144

用于预测的小批量的大小,指定为正整数。更大的迷你批处理大小需要更多的内存,但可以导致更快的预测。

块特征

数据类型

|

直接引线

没有

多维信号

没有

适应信号

没有

讨论二阶导数过零检测

没有

参考文献

[1]克莱默、杰森等。“看,听,并了解更多:深度音频嵌入的设计选择。”在2019 IEEE声学、语音和信号处理国际会议(ICASSP), 2019, pp. 3852-56。DOI.org (Crossref), doi: 10.1109 / / ICASSP.2019.8682475。

扩展功能

版本历史

介绍了R2022b

Baidu
map