帮助中心帮助中心

语音转录与合成

为文本到语音和语音到文本使用预先训练的模型或第三方api

Audio Toolbox™提供了小词汇表识别和声音合成的示例。使用wav2vec 2.0预训练网络来执行一般的语音到文本的转录speech2text．您可以从文件交换下载音频工具箱扩展功能语音合成而且语音识别通过接口到流行的第三方api。支持的接口包括谷歌^®演讲中,IBM^®沃森语音和微软^®Azure的演讲。

的图形化方式与语音到文本功能进行交互信号贴标签机快速标记语音区域的应用程序。

应用程序

信号贴标签机

标记信号属性、区域和感兴趣点，提取特征

功能

`speech2text`	将语音信号转录成文本
`text2speech`	从文本合成语音
`speechClient`	与预训练模型或第三方语音服务接口

主题

在音频信号中标记口语
使用信号贴标签机在音频信号中标明所说的话。

特色的例子

用深度学习训练语音指令识别模型

用深度学习训练语音指令识别模型

训练一个深度学习模型来检测音频中语音命令的存在。

打开生活的脚本

基于MFCC和LSTM网络的噪声关键字发现

基于MFCC和LSTM网络的噪声关键字发现

利用深度学习网络识别嘈杂语音中的关键词。特别地，该示例使用了双向长短期记忆(BiLSTM)网络和mel频率倒谱系数(MFCC)。

打开生活的脚本

基于小波散射和深度学习的语音数字识别

基于小波散射和深度学习的语音数字识别

使用机器和深度学习技术对语音数字进行分类。在本例中，使用小波时间散射和支持向量机(SVM)和长短期记忆(LSTM)网络进行分类。您还应用贝叶斯优化来确定合适的超参数，以提高LSTM网络的准确性。此外，该示例说明了使用深度卷积神经网络(CNN)和mel频率谱图的方法。

打开生活的脚本

训练生成对抗网络(GAN)用于声音合成

训练生成对抗网络(GAN)用于声音合成

训练和使用生成对抗网络(GAN)来生成声音。

打开生活的脚本

语音的LPC分析与合成

语音的LPC分析与合成

使用Levinson-Durbin和时变晶格滤波器块进行使用线性预测编码的语音低带宽传输。

开放模式