OpenL3

OpenL3嵌入式提取网络

在页面中全部展开

库:
音频工具箱/深度学习

描述

的OpenL3Block利用一个预先训练的卷积神经网络，从音频信号中提取特征嵌入。这些嵌入是功能强大的音频表示，可以用于分类等任务。此块需要深度学习工具箱™。

港口

输入

全部展开

`Port_1`- - - - - -谱图
矩阵| 4-D阵列

声谱图由音频生成，指定为N——- - - - - -米矩阵或一个N——- - - - - -米-by-1-by -K数组中。K表示谱图的数量，和N——- - - - - -米是谱图的大小和量值有关吗光谱类型参数。

梅尔(128乐队)—网络接受128 × 199的mel谱图，其中128为mel频带数，199为时间跳数。
梅尔(256乐队)—网络接受大小为256 × 199的mel谱图，其中256为mel频带数，199为时间跳数。
线性—网络接受大小为257 × 197的正单边谱图，其中257为FFT长度，197为时间跳数。

数据类型:单|双

输出

全部展开

`Port_1`——嵌入
矩阵

输出嵌入，返回为K——- - - - - -l矩阵,K输入谱图的数量，和l由嵌入长度参数。

数据类型:单

参数

全部展开

`光谱类型`-频谱类型
`梅尔(128乐队)`(默认)|`梅尔(256乐队)`|`线性`

由音频生成并用作神经网络输入的频谱类型，指定为梅尔(128乐队)，梅尔(256乐队),或线性．此参数指定网络输入的大小Port_1．

`内容类型`-音频内容的类型
`环境声音`(默认)|`音乐听起来`

神经网络训练的音频内容类型，指定为环境声音或音乐听起来．将此参数设置为环境声音使用预先训练过的环境音频数据神经网络，并将其设置为音乐听起来使用预先训练过的音乐数据网络。

`嵌入长度`-输出嵌入长度
`512`(默认)|`6144`

输出嵌入长度，指定为512或6144．

`Mini-batch大小`-小批量的大小
`128`(默认)|正整数

用于预测的小批量的大小，指定为正整数。更大的迷你批处理大小需要更多的内存，但可以导致更快的预测。

块特征

数据类型	`双`\|`单`
直接引线	`没有`
多维信号	`没有`
适应信号	`没有`
讨论二阶导数过零检测	`没有`

参考文献

[1]克莱默、杰森等。“看，听，并了解更多:深度音频嵌入的设计选择。”在2019 IEEE声学、语音和信号处理国际会议(ICASSP)， 2019, pp. 3852-56。DOI.org (Crossref), doi: 10.1109 / / ICASSP.2019.8682475。

扩展功能

C / c++代码生成
使用Simulink®Coder™生成C和c++代码。

使用注意事项和限制:

生成不依赖于第三方库的泛型C代码配置参数>代码生成一般类别，设置语言参数C．
中生成c++代码配置参数>代码生成一般类别，设置语言参数c++．为代码生成指定目标库，请在代码生成>接口类别,设置目标库参数。将此参数设置为没有一个生成不依赖于第三方库的通用c++代码。
对于基于ert的目标，支持:适应信号参数代码生成>接口窗格必须启用。
有关代码生成支持的网络和层的列表，请参见代码生成支持的网络和层(MATLAB编码器)．

版本历史

介绍了R2022b

另请参阅

块

OpenL3嵌入|OpenL3预处理|YAMNet|VGGish

功能

openl3|openl3Embeddings|openl3Preprocess|yamnet|vggish

OpenL3

描述

港口

输入

Port_1- - - - - -谱图矩阵| 4-D阵列

输出

Port_1——嵌入矩阵

参数

光谱类型-频谱类型梅尔(128乐队)(默认)|梅尔(256乐队)|线性

内容类型-音频内容的类型环境声音(默认)|音乐听起来

嵌入长度-输出嵌入长度512(默认)|6144

Mini-batch大小-小批量的大小128(默认)|正整数

块特征

参考文献

扩展功能

C / c++代码生成使用Simulink®Coder™生成C和c++代码。

版本历史

另请参阅

块

功能

`Port_1`- - - - - -谱图
矩阵| 4-D阵列

`Port_1`——嵌入
矩阵

`光谱类型`-频谱类型
`梅尔(128乐队)`(默认)|`梅尔(256乐队)`|`线性`

`内容类型`-音频内容的类型
`环境声音`(默认)|`音乐听起来`

`嵌入长度`-输出嵌入长度
`512`(默认)|`6144`

`Mini-batch大小`-小批量的大小
`128`(默认)|正整数

C / c++代码生成
使用Simulink®Coder™生成C和c++代码。