主要内容

VGGish预处理

对音频进行VGGish特征提取预处理

  • 库:
  • 音频工具箱/深度学习

  • VGGish预处理块

描述

VGGish预处理块从音频输入中生成mel谱图,然后您可以将该谱图提供给VGGish预训练的网络或接受与VGGish相同输入的网络。

港口

输入

全部展开

声音数据,指定为单通道信号(列向量)。如果输入信号采样率(Hz)是16e3,对输入帧长度没有限制。如果输入信号采样率(Hz)与16e3不同,则输入帧长度必须是块执行的重采样操作的抽取因子的倍数。如果输入帧长度不满足这个条件,块抛出一个带有抽取因子信息的错误消息。

数据类型:|

输出

全部展开

由输入音频信号生成的Mel谱图,作为96 × 64矩阵返回,其中:

  • 96——表示每个mel谱图中25毫秒帧数

  • 64——表示跨度为125赫兹到7.5 kHz的mel频带数

的值决定了连续96 × 64 mel谱图之间的重叠重叠的百分比(%)参数。您可以将mel谱图作为输入提供给VGGish预训练网络,或提供给接受与VGGish相同输入的网络。

数据类型:

参数

全部展开

输入信号的采样率(以Hz为单位),指定为正标量。

指定连续mel谱图之间的重叠百分比为[0 100)范围内的标量。

块特征

数据类型

|

直接引线

没有

多维信号

没有

适应信号

没有

讨论二阶导数过零检测

没有

算法

全部展开

参考文献

[1]格梅克,约特F.,丹尼尔P. W.埃利斯,迪伦弗里德曼,艾伦詹森,韦德劳伦斯,R.钱宁摩尔,马诺基普拉卡尔和马文里特。“音频集:音频事件的本体和人类标记数据集。”在2017 IEEE声学、语音和信号处理国际会议, 776 - 80。新奥尔良,洛杉矶:IEEE, 2017。https://doi.org/10.1109/ICASSP.2017.7952261。

[2] Hershey, Shawn, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal等,《CNN大规模音频分类的架构》。在2017 IEEE声学、语音和信号处理国际会议131 - 35。新奥尔良,洛杉矶:IEEE, 2017。https://doi.org/10.1109/ICASSP.2017.7952132。

扩展功能

C / c++代码生成
使用Simulink®Coder™生成C和c++代码。

版本历史

介绍了R2022a

Baidu
map