主要内容gydF4y2Ba

gtccgydF4y2Ba

提取伽玛酮倒谱系数,对数能量,δ和δ - δgydF4y2Ba

描述gydF4y2Ba

例子gydF4y2Ba

多项式系数gydF4y2Ba= gtcc (gydF4y2BaaudioIngydF4y2Ba,gydF4y2BafsgydF4y2Ba)gydF4y2Ba返回音频输入的伽matone倒谱系数(GTCCs),采样频率为gydF4y2BafsgydF4y2Ba赫兹。gydF4y2Ba

例子gydF4y2Ba

多项式系数gydF4y2Ba= gtcc (gydF4y2Ba___gydF4y2Ba,gydF4y2Ba名称=值gydF4y2Ba)gydF4y2Ba使用一个或多个名称-值参数指定选项。gydF4y2Ba

例子gydF4y2Ba

[gydF4y2Ba多项式系数gydF4y2Ba,gydF4y2BaδgydF4y2Ba,gydF4y2BadeltaDeltagydF4y2Ba,gydF4y2Ba疯狂的gydF4y2Ba) = gtcc (gydF4y2Ba___gydF4y2Ba)gydF4y2Ba还返回与每个数据窗口对应的样本中的delta、delta-delta和位置。您可以指定来自前面任何语法的输入组合。gydF4y2Ba

例子gydF4y2Ba

gtcc (gydF4y2Ba___gydF4y2Ba)gydF4y2Ba在没有输出参数的情况下,绘制出伽matone倒谱系数。在绘图之前,系数归一化为均值0,标准差1。gydF4y2Ba

  • 如果输入是在时域内,系数是根据时间绘制的。gydF4y2Ba

  • 如果输入在频域,系数根据帧数绘制。gydF4y2Ba

  • 如果提取了对数能量,那么它也被绘制出来。gydF4y2Ba

例子gydF4y2Ba

全部折叠gydF4y2Ba

使用默认设置获取音频文件的伽玛酮倒谱系数。gydF4y2Ba

[audioIn, fs] = audioread (gydF4y2Ba“Counting-16-44p1-mono-15secs.wav”gydF4y2Ba);(多项式系数,~,~,loc) = gtcc (audioIn fs);gydF4y2Ba

画出归一化系数。gydF4y2Ba

gtcc (audioIn fs)gydF4y2Ba

图中包含一个axes对象。坐标轴对象包含一个image类型的对象。gydF4y2Ba

读一个音频文件。gydF4y2Ba

[audioIn, fs] = audioread (gydF4y2Ba“Turbine-16-44p1-mono-22secs.wav”gydF4y2Ba);gydF4y2Ba

在ERB尺度上使用等距过滤器计算20个gtccgydF4y2Bahz2erb (62.5)gydF4y2Ba而且gydF4y2Bahz2erb (12000)gydF4y2Ba.使用具有25毫秒重叠的50毫秒周期汉恩窗计算系数。把第0个系数换成log-能量。使用时域滤波。gydF4y2Ba

(多项式系数,~,~,loc) = gtcc (audioIn fs,gydF4y2Ba...gydF4y2BaNumCoeffs = 20,gydF4y2Ba...gydF4y2BaFrequencyRange = (62.5, 12000),gydF4y2Ba...gydF4y2Ba窗口=损害(圆(0.05 * fs),gydF4y2Ba“周期”gydF4y2Ba),gydF4y2Ba...gydF4y2BaOverlapLength = (0.025 * fs),gydF4y2Ba...gydF4y2BaLogEnergy =gydF4y2Ba“替换”gydF4y2Ba,gydF4y2Ba...gydF4y2BaFilterDomain =gydF4y2Ba“时间”gydF4y2Ba);gydF4y2Ba

画出归一化系数。gydF4y2Ba

gtcc (audioIn fs,gydF4y2Ba...gydF4y2BaNumCoeffs = 20,gydF4y2Ba...gydF4y2BaFrequencyRange = (62.5, 12000),gydF4y2Ba...gydF4y2Ba窗口=损害(圆(0.05 * fs),gydF4y2Ba“周期”gydF4y2Ba),gydF4y2Ba...gydF4y2BaOverlapLength = (0.025 * fs),gydF4y2Ba...gydF4y2BaLogEnergy =gydF4y2Ba“替换”gydF4y2Ba,gydF4y2Ba...gydF4y2BaFilterDomain =gydF4y2Ba“时间”gydF4y2Ba)gydF4y2Ba

图中包含一个axes对象。坐标轴对象包含一个image类型的对象。gydF4y2Ba

读入音频文件并将其转换为频率表示。gydF4y2Ba

[audioIn, fs] = audioread (gydF4y2Ba“彩虹- 16 - 8 mono - 114 - secs.wav”gydF4y2Ba);赢得=损害(1024gydF4y2Ba“周期”gydF4y2Ba);S = stft (audioIngydF4y2Ba“窗口”gydF4y2Ba,赢了,gydF4y2Ba“OverlapLength”gydF4y2Ba, 512,gydF4y2Ba“中心”gydF4y2Ba、假);gydF4y2Ba

要提取伽玛酮倒谱系数,调用gydF4y2BagtccgydF4y2Ba用频域音频。忽略log-energy。gydF4y2Ba

多项式系数= gtcc(年代,fs,gydF4y2Ba“LogEnergy”gydF4y2Ba,gydF4y2Ba“忽略”gydF4y2Ba);gydF4y2Ba

在许多应用中,GTCC观测结果被转换为汇总统计信息,以用于分类任务。绘制一个伽玛酮倒谱系数的概率密度函数来观察其分布。gydF4y2Ba

nbins = 60;coefficientToAnalyze =gydF4y2Ba4gydF4y2Ba;直方图(多项式系数(:,coefficientToAnalyze + 1), nbins,gydF4y2Ba“归一化”gydF4y2Ba,gydF4y2Ba“pdf”gydF4y2Ba)标题(sprintf (gydF4y2Ba“系数% d”gydF4y2Ba, coefficientToAnalyze))gydF4y2Ba

图中包含一个axes对象。标题系数为4的axis对象包含一个直方图类型的对象。gydF4y2Ba

输入参数gydF4y2Ba

全部折叠gydF4y2Ba

输入信号,指定为矢量、矩阵或3-D数组。gydF4y2Ba

如果gydF4y2BaFilterDomaingydF4y2Ba被设置为gydF4y2Ba“频率”gydF4y2Ba(默认)gydF4y2BaaudioIngydF4y2Ba可以是真实的,也可以是复杂的。gydF4y2Ba

  • 如果gydF4y2BaaudioIngydF4y2Ba为实数时,它被解释为时域信号,必须是列向量或矩阵。矩阵的列被视为独立的音频通道。gydF4y2Ba

  • 如果gydF4y2BaaudioIngydF4y2Ba是复杂的,它被解释为频域信号。在这种情况下,gydF4y2BaaudioIngydF4y2Ba必须是一个gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba——- - - - - -gydF4y2BaNgydF4y2Ba数组,gydF4y2BalgydF4y2Ba为DFT点数,gydF4y2Ba米gydF4y2Ba是单个光谱的个数,和gydF4y2BaNgydF4y2Ba是单个通道的数量。gydF4y2Ba

如果gydF4y2BaFilterDomaingydF4y2Ba被设置为gydF4y2Ba“时间”gydF4y2Ba,然后gydF4y2BaaudioIngydF4y2Ba必须是实列向量或实矩阵。矩阵的列被视为独立的音频通道。gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba
复数的支持:gydF4y2Ba是的gydF4y2Ba

输入信号的采样率(以Hz为单位),指定为正标量。gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

名称-值参数gydF4y2Ba

指定可选参数对为gydF4y2BaName1 = Value1,…,以=家gydF4y2Ba,在那里gydF4y2Ba的名字gydF4y2Ba参数名称和gydF4y2Ba价值gydF4y2Ba对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。gydF4y2Ba

在R2021a之前,名称和值之间用逗号隔开,并括起来gydF4y2Ba的名字gydF4y2Ba在报价。gydF4y2Ba

例子:gydF4y2Ba多项式系数= gtcc (fs, audioIn LogEnergy =“替换”)gydF4y2Ba返回采样的音频输入信号的gamma倒谱系数gydF4y2BafsgydF4y2Ba赫兹。对于每个分析窗口,第一个系数gydF4y2Ba多项式系数gydF4y2Ba用输入信号能量的对数替换矢量。gydF4y2Ba

窗口应用于时域,指定为实向量。向量中的元素个数必须在范围内gydF4y2Ba1、大小(gydF4y2BaaudioIngydF4y2Ba1)]gydF4y2Ba.向量中的元素数量也必须大于gydF4y2BaOverlapLengthgydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

相邻窗口之间重叠的样本数,指定为范围[0]的整数,gydF4y2Ba元素个数(gydF4y2Ba窗口gydF4y2Ba)gydF4y2Ba).如果未指定的,gydF4y2BaOverlapLengthgydF4y2Ba默认为gydF4y2Ba轮(0.02 *gydF4y2BafsgydF4y2Ba)gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

为每个数据窗口返回的系数数,指定为范围[2,gydF4y2BavgydF4y2Ba]。gydF4y2BavgydF4y2Ba有效通带的数量。如果未指定的,gydF4y2BaNumCoeffsgydF4y2Ba默认为gydF4y2Ba13gydF4y2Ba.gydF4y2Ba

有效通带的数量定义为ERB步数(ERBgydF4y2BaNgydF4y2Ba)在滤波器组的频率范围内。滤波器组的频率范围由gydF4y2BaFrequencyRangegydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

在其中应用过滤的域,指定为gydF4y2Ba“频率”gydF4y2Ba或gydF4y2Ba“时间”gydF4y2Ba.如果未指定的,gydF4y2BaFilterDomaingydF4y2Ba默认为gydF4y2Ba“频率”gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba字符串gydF4y2Ba|gydF4y2Ba字符gydF4y2Ba

伽matone滤波器组的频率范围(以Hz为单位),指定为在[0,gydF4y2BafsgydF4y2Ba/ 2)。如果未指定的,gydF4y2BaFrequencyRangegydF4y2Ba默认为gydF4y2Ba(50,gydF4y2BafsgydF4y2Ba/ 2)gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

用于计算加窗输入样本的离散傅里叶变换(DFT)的箱的数目。的元素个数,FFT长度必须大于或等于gydF4y2Ba窗口gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

应用于离散余弦变换之前的非线性校正类型,指定为gydF4y2Ba“日志”gydF4y2Ba或gydF4y2Ba“立方根”gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba字符gydF4y2Ba|gydF4y2Ba字符串gydF4y2Ba

用于计算delta和delta-delta值的系数数,指定为大于2的奇数。如果未指定的,gydF4y2BaDeltaWindowLengthgydF4y2Ba默认为gydF4y2Ba9gydF4y2Ba.gydF4y2Ba

函数计算增量gydF4y2BaaudioDeltagydF4y2Ba函数。gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

记录能源使用情况,指定为gydF4y2Ba“添加”gydF4y2Ba,gydF4y2Ba“替换”gydF4y2Ba,或gydF4y2Ba“忽略”gydF4y2Ba.如果未指定的,gydF4y2BaLogEnergygydF4y2Ba默认为gydF4y2Ba“添加”gydF4y2Ba.gydF4y2Ba

  • “添加”gydF4y2Ba——函数在系数向量前加上log能量。系数向量的长度是1 +gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

  • “替换”gydF4y2Ba——函数用信号能量的对数代替第一个系数。系数向量的长度是gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

  • “忽略”gydF4y2Ba——函数不计算或返回log能量。gydF4y2Ba

数据类型:gydF4y2Ba字符gydF4y2Ba|gydF4y2Ba字符串gydF4y2Ba

输出参数gydF4y2Ba

全部折叠gydF4y2Ba

gamma matone倒谱系数,返回为gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba矩阵或一个gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba——- - - - - -gydF4y2BaNgydF4y2Ba数组,地点:gydF4y2Ba

  • lgydF4y2Ba——音频信号被划分到的分析窗口的数量。输入的大小,gydF4y2Ba窗口gydF4y2Ba,gydF4y2BaOverlapLengthgydF4y2Ba控制这个尺寸:gydF4y2BalgydF4y2Ba地板=((大小(gydF4y2BaaudioIngydF4y2Ba1)−元素个数(gydF4y2Ba窗口gydF4y2Ba))) / (gydF4y2Ba元素个数(窗口)gydF4y2Ba−gydF4y2BaOverlapLengthgydF4y2Ba) + 1gydF4y2Ba.gydF4y2Ba

  • 米gydF4y2Ba——每帧返回的系数数。该值由gydF4y2BaNumCoeffsgydF4y2Ba而且gydF4y2BaLogEnergygydF4y2Ba.gydF4y2Ba

    当gydF4y2BaLogEnergygydF4y2Ba设置为:gydF4y2Ba

    • “添加”gydF4y2Ba——函数在系数向量前加上log能量值。系数向量的长度是1 +gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

    • “替换”gydF4y2Ba——函数用信号能量的对数代替第一个系数。系数向量的长度是gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

    • “忽略”gydF4y2Ba——函数不计算或返回log能量。系数向量的长度是gydF4y2BaNumCoeffsgydF4y2Ba.gydF4y2Ba

  • NgydF4y2Ba——输入通道(列)数。这个值是gydF4y2Ba大小(gydF4y2BaaudioIngydF4y2Ba, 2)gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

从一个分析窗口到另一个分析窗口的系数变化,返回为gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba矩阵或一个gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba——- - - - - -gydF4y2BaNgydF4y2Ba数组中。的gydF4y2BaδgydF4y2Ba数组的大小和数据类型与gydF4y2Ba多项式系数gydF4y2Ba数组中。看到gydF4y2Ba多项式系数gydF4y2Ba的定义gydF4y2BalgydF4y2Ba,gydF4y2Ba米gydF4y2Ba,gydF4y2BaNgydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

的变化gydF4y2BaδgydF4y2Ba值,作为gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba矩阵或一个gydF4y2BalgydF4y2Ba——- - - - - -gydF4y2Ba米gydF4y2Ba——- - - - - -gydF4y2BaNgydF4y2Ba数组中。的gydF4y2BadeltaDeltagydF4y2Ba数组的大小和数据类型与gydF4y2Ba多项式系数gydF4y2Ba而且gydF4y2BaδgydF4y2Ba数组。看到gydF4y2Ba多项式系数gydF4y2Ba的定义gydF4y2BalgydF4y2Ba,gydF4y2Ba米gydF4y2Ba,gydF4y2BaNgydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

每个分析窗口中最后一个样本的位置,作为具有相同行数的列向量返回gydF4y2Ba多项式系数gydF4y2Ba.gydF4y2Ba

数据类型:gydF4y2Ba单gydF4y2Ba|gydF4y2Ba双gydF4y2Ba

算法gydF4y2Ba

全部折叠gydF4y2Ba

的gydF4y2BagtccgydF4y2Ba函数将整个数据分割为重叠的段。每个分析窗口的长度由gydF4y2Ba窗口gydF4y2Ba.分析窗口之间的重叠长度由gydF4y2BaOverlapLengthgydF4y2Ba.确定伽玛酮倒谱系数的算法依赖于由gydF4y2BaFilterDomaingydF4y2Ba.默认的过滤域是frequency。gydF4y2Ba

频域滤波gydF4y2Ba

伽matone倒谱系数是从语音信号中提取的常用特征,用于识别任务。在语音源滤波模型中,倒谱系数被理解为代表滤波器(声道)。声道的频率响应是相对平稳的,而声源语音可以建模为一个脉冲序列。因此,声道可以通过语音段的谱包络来估计。gydF4y2Ba

基于对耳蜗的理解,伽玛酮倒谱系数的激励思想是将有关声道的信息(平滑谱)压缩到少量的系数中。虽然没有计算系数的硬性标准,但基本步骤由图表所示。gydF4y2Ba

默认的伽玛通滤波器组由在ERB尺度上50到8000 Hz之间线性间隔的伽玛通滤波器组成。该滤波器组由gydF4y2BadesignAuditoryFilterBankgydF4y2Ba.gydF4y2Ba

包含在第0个伽玛酮倒谱系数中的信息通常用对数能量来补充或替换。log能量的计算取决于输入域。gydF4y2Ba

如果输入是时域信号,则用下式计算对数能量:gydF4y2Ba

日志gydF4y2Ba EgydF4y2Ba =gydF4y2Ba 日志gydF4y2Ba (gydF4y2Ba 总和gydF4y2Ba (gydF4y2Ba xgydF4y2Ba 2gydF4y2Ba )gydF4y2Ba )gydF4y2Ba

如果输入是频域信号,则用以下公式计算对数能量:gydF4y2Ba

日志gydF4y2Ba EgydF4y2Ba =gydF4y2Ba 日志gydF4y2Ba (gydF4y2Ba 总和gydF4y2Ba (gydF4y2Ba |gydF4y2Ba xgydF4y2Ba |gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba /gydF4y2Ba FgydF4y2Ba FgydF4y2Ba TgydF4y2Ba lgydF4y2Ba egydF4y2Ba ngydF4y2Ba ggydF4y2Ba tgydF4y2Ba hgydF4y2Ba )gydF4y2Ba

时域滤波gydF4y2Ba

如果gydF4y2BaFilterDomaingydF4y2Ba被指定为gydF4y2Ba“时间”gydF4y2Ba,gydF4y2BagtccgydF4y2Ba函数使用gydF4y2BagammatoneFilterBankgydF4y2Ba应用时域滤波。的基本步骤gydF4y2BagtccgydF4y2Ba算法由图勾画。gydF4y2Ba

的gydF4y2BaFrequencyRangegydF4y2Ba抽样率(gydF4y2BafsgydF4y2Ba参数在过滤器组上设置,使用输入到gydF4y2BagtccgydF4y2Ba函数。伽玛通滤波器组中的滤波器数量定义为gydF4y2Bahz2erbgydF4y2Ba(gydF4y2BaFrequencyRangegydF4y2Ba(2)−)gydF4y2Bahz2erbgydF4y2Ba(gydF4y2BaFrequencyRangegydF4y2Ba(1))gydF4y2Ba这大致相当于在耳蜗内每0.9毫米放置一个伽马酮过滤器。gydF4y2Ba

伽玛通滤波器组的输出是一个多通道信号。的指定,从伽玛通滤波器组的每个通道输出都缓冲到重叠的分析窗口中gydF4y2Ba窗口gydF4y2Ba而且gydF4y2BaOverlapLengthgydF4y2Ba参数。计算每个数据分析窗口的能量。通道的STE是串联的。然后将连接的信号通过对数函数,并使用离散余弦变换(DCT)转换到倒谱域。gydF4y2Ba

对数能量在原始音频信号上计算,使用应用于伽玛通滤波器组输出的相同缓冲方案。gydF4y2Ba

参考文献gydF4y2Ba

[1]邵,杨,金兆章,王德良,Soundararajan Srinivasan。“基于听觉的鲁棒语音识别功能。”gydF4y2BaIEEE声学、语音和信号处理国际会议gydF4y2Ba.2009.gydF4y2Ba

[2]瓦莱罗,X.和F.别名。伽玛酮倒谱系数:非语音音频分类的生物学启发特征。gydF4y2BaIEEE多媒体汇刊gydF4y2Ba.2012年第6期第14卷第1684-1689页。gydF4y2Ba

扩展功能gydF4y2Ba

C / c++代码生成gydF4y2Ba
使用MATLAB®Coder™生成C和c++代码。gydF4y2Ba

版本历史gydF4y2Ba

介绍了R2019agydF4y2Ba

全部展开gydF4y2Ba

Baidu
map