音频工具箱

音频工具箱

设计和分析语音、声学和音频处理系统

开始:

带音频接口的流媒体采集和播放

连接到标准的笔记本电脑和桌面声卡,在任何文件组合和实时输入和输出之间流传输低延迟多通道音频。

连接到标准音频驱动程序

使用标准的音频驱动程序(如ASIO、WASAPI、CoreAudio和ALSA)跨Windows从声卡(如USB或Thunderbolt™)中读写音频样本®、Mac®和Linux®操作系统。

低延迟多通道音频流

处理实时音频MATLAB具有毫秒的往返延迟。

四通道麦克风阵列的现场原始输入。

机器学习和深度学习

标注、扩充、创建和摄取音频和语音数据集,提取特征,并计算时频转换。使用统计和机器学习工具箱™、深度学习工具箱™或其他机器学习工具开发音频和语音分析。

预训练深度学习模型

使用深度学习来执行复杂的信号处理任务,用一行代码提取音频嵌入。访问已建立的预先训练的网络,如YAMNet、VGGish、CREPE和OpenL3,并在预先配置的特征提取函数的帮助下应用它们。

显示由识别的声音类型的词云classifySound在一个特定的音频片段中。

音频、语音和声学的特征提取

将信号转换为时频表示,如Mel、Bark和ERB谱图。计算倒谱系数,如MFCC和GTCC,以及标量特征,如音高、和声和谱描述符。使用预训练的深度学习模型(VGGish, OpenL3)和i向量系统提取高级特征和信号嵌入。使用兼容的GPU卡加速特征提取。

机器学习模型和训练食谱

用您的音频数据集训练最先进的机器学习。使用已建立的模型系统,例如i向量,用于说话人识别和验证等应用。从工作示例中了解如何为音频、语音和声学应用程序设计和训练高级神经网络和层。

由不同的说话人说话的交错段的语音记录波形,颜色高亮显示哪个说话人在每个检测到的语音区域说话。

利用x向量对包括五个不同说话人在内的语音信号进行离散化。

导入、注释和预处理音频数据集

读取、分区和预处理大型音频记录集合。用应用程序手动标注音频信号。使用预先训练的机器学习模型自动识别和分割感兴趣的区域。

音频标签应用程序中感兴趣的区域标签。

音频标签应用程序中感兴趣的区域标签。

扩充和合成音频和语音数据集

使用音高移动、时间拉伸和其他音频处理效果的组合设置随机数据增强管道。使用基于文本到语音的云服务从文本中创建合成语音记录。

音色不变基音移位的共振峰估计。

音频处理算法与效果

生成标准波形,应用常见的音频效果,并设计具有动态参数调谐和实时可视化的音频处理系统。

音频过滤器和均衡器

模型和应用参数均衡器,图形均衡器,搁置和变斜率滤波器。设计和模拟数字交叉,八度和分数八度滤波器。

交互式调优的三波段交叉滤波器与实时可视化。

动态范围控制和效果

建模并应用动态范围处理算法,如压缩机、限位器、膨胀器和噪声门。用递归参数模型添加人工混响。

压缩机动态响应的交互式调整。

用框图进行系统仿真

使用Simulink的音频处理块库设计和模拟系统模型®.使用交互控件和动态图调优参数和可视化系统行为。

Simulink模型的组合可视化,包括位于模型层次结构的不同级别的块和子系统,一个过滤器响应的图,以及一个带有调节参数值的交互表盘的用户界面。

Simulink中多波段动态范围压缩机模型的细节。

实时音频的原型

在MATLAB中通过交互式实时听力测试验证音频处理算法。

通过用户界面进行实时参数调优

自动为音频处理算法的可调参数创建用户界面。测试单独的算法与音频测试台架应用程序和调优参数运行程序与自动生成的交互控件。

交互式调谐自定义三波段参数均衡器使用音频试验台。

参数控制和消息交换的MIDI连接性

利用MIDI控制面交互改变MATLAB算法参数。通过发送和接收任何类型的MIDI消息来控制外部硬件或响应事件。

框图显示了一个键盘MIDI控制器向MATLAB会话发送MIDI消息,该会话依次处理消息,合成音符波形,并通过扬声器播放生成的样本。

用MATLAB编写了一种乐器合成器的MIDI消息和音频信号流。

声学测量与空间音频

测量系统响应,分析和测量信号,并设计空间音频处理系统。

标准计量与分析

应用声压级(SPL)表和响度表记录或现场信号。用倍频和分数倍频滤波器分析信号。对原始记录应用符合标准的A-, C-或k加权过滤器。测量声音的锐度、粗糙度和波动强度。

跨两个三倍频频带的不同SPL测量的可视化。

脉冲响应测量

用最大长度序列(MLS)和指数扫频正弦信号(ESS)测量声学和音频系统的脉冲和频率响应。开始与脉冲响应测量应用程序。自动化测量通过编程生成激励信号和估计系统响应。

脉冲响应测量器应用程序的捕获,显示时域和频域的估计响应,一个菜单,包含可绘制的其他估计脉冲响应列表,以及应用程序中可用的其他交互控制。

脉冲响应测量应用程序。

具有房间脉冲响应的高效卷积

利用频域重叠添加或重叠保存实现有效地卷积具有长脉冲响应的信号。使用自动脉冲响应划分来权衡计算速度的延迟。

MATLAB图,显示了一个相当长的脉冲响应随时间变化的绝对值,Y轴使用对数刻度。五秒钟后,图显示归一化绝对值还没有变得小于初始振幅的千分之一。

持续5秒的脉冲响应或在44100Hz下超过220k采样。

空间音频

编码和解码不同的双声子格式。插值空间采样的头部相关传递函数(HRTF)。

图中显示一个双耳人体模型,三个扬声器位于球形扇形的顶点,代表头部相关传递函数已知的三个点,第四个点位于扇形内的随机位置,需要对头部相关传递函数进行估计。

可获得HRTF测量的所需声源位置和最近角度的示例。

生成和主机音频插件

用MATLAB编写的原型音频处理算法作为标准音频插件;使用外部音频插件作为常规的MATLAB对象。

生成音频插件

直接从MATLAB代码生成VST插件、AU插件和独立的可执行插件,而不需要手动设计用户界面。对于更高级的插件原型,生成准备构建的juec++项目(需要MATLAB Coder™)。

一个用MATLAB生成的音频插件的UI,正如所见,它是在REAPER,一个著名的数字音频工作站内使用。UI包括各种滑块和旋钮排列在一个3乘3的网格上。

多波段参数EQ示例:VST插件由MATLAB代码生成,并在REAPER中运行。

托管外部音频插件

使用外部VST和AU插件作为常规的MATLAB对象。更改插件参数和编程处理MATLAB数组。或者,自动化插件参数与用户界面和MIDI控件的关联。主机插件从您的MATLAB代码生成,以提高执行效率。

左边是用于音频去噪的商业音频插件的UI,有一个大旋钮来设置噪声抑制的级别。在右边,几行代码展示了如何导入相同的插件并以编程方式作为MATLAB对象使用。

音频去噪的外部VST插件(Accusonus ERA-N)和MATLAB编程接口示例。

目标嵌入式和实时音频系统

使用代码生成在软件设备上实现音频处理设计,并自动访问音频接口。

CPU和GPU目标的代码生成

与MathWorks®编码产品,从2022世界杯八强谁会赢?作为工具箱函数、对象和块提供的信号处理和机器学习算法生成C和c++源代码。生成CUDA的源代码,从选择特征提取函数mfcc而且melSpectrogram

图中报告了语音命令识别系统在每个预测周期中所消耗的时间,显示所使用的时间远远低于可用时间预算50。

基于深度学习的语音命令识别系统在ARM Cortex-A处理器上的动态解析优化实现

低成本和移动设备

通过使用板载或外部多声道音频接口,在树莓派™上设计原型音频处理。为Android创建交互式控制面板作为移动应用程序®或iOS设备。

树莓派板的照片。

用于设计原型的树莓派3板。

实现零延迟的系统

原型音频处理设计具有单样本输入和输出,用于自适应噪声控制、助听器验证或其他需要最小往返DSP延迟的应用。自动目标Speedgoat音频机器和ST发现板直接从Simulink模型。

Baidu
map