您的当前位置:首页正文

基于MFCC和短时能量混合的异常声音识别算法_吕霄云

2020-07-26 来源:易榕旅网
第30卷第3期

2010年3月

文章编号:1001-9081(2010)03-0796-03

计算机应用

JournalofComputerApplications

Vo.l30No.3Mar.2010

基于MFCC和短时能量混合的异常声音识别算法

吕霄云,王宏霞

(西南交通大学信息科学与技术学院,成都610031)

(79516296@qq.com)

摘 要:针对现行异常声音识别算法复杂度高和特征识别率低的问题,将梅尔频率倒谱系数(MFCC)与短时能量

混合特征应用到异常声音识别系统中。该混合特征使得高斯混合模型(GMM)分类器可获得比使用MFCC特征及其差分MFCC更好的分类性能。给出了系统实现的具体步骤,并通过仿真实验证明了该算法的有效性,分类器的平均识别率可达到90%以上,并且计算复杂度小。

关键词:异常声音识别;梅尔倒谱系数;短时能量;高斯混合模型中图分类号:TP18;TN912 文献标志码:A

AbnormalaudiorecognitionalgorithmbasedonMFCCandshort-termenergy

L󰀁Xiao-yun,WANGHong-xia

(SchoolofInformationScienceandTechnology,SouthwestJiaotongUniversity,ChengduSichuan610031,China)

Abstract:Concerningthehighcomplexityandlowrateinabnormalaudiorecognition,theabnormalaudiorecognitionsystembasedontheMe-lFrequencyCepstrumCoefficients(MFCC)andshort-termenergywasproposed.ThisfeaturevectormadetheGaussianMixtureModel(GMM)classifieroutperformMFCCandDifferentialMFCCfeaturesinclassification.Theclassifiercanachieveanaveragerecognitionrateofmorethan90%,andsmallcomputationalcomplexity.Thestepsofsystemmplementationwereelaborated.Thesiimulationresultsprovetheeffectivenessoftheproposedalgorithm.

Keywords:abnormalaudiorecognition;Me-lFrequencyCepstrumCoefficient(MFCC);short-termenergy;GaussianMixtureModel(GMM)

0 引言

在过去的十几年中,视频监控系统已广泛应用在人们的生活中。但是当被观测目标离开观测范围时,视频监控系统

性能将会大幅度降低,而且直接监控目标会涉及侵犯隐私。与视频监控系统相比,音频监控系统具有复杂度小、成本低、高效性且能够充分保护隐私等诸多优点。因此,近年来音频监控系统开始受到越来越多研究人员的广泛关注[1]。在音频监控系统中,特征参数和分类器的选择直接影响系统的复杂度和识别性能。普遍采用的分类器有支持向量机(SupportVectorMachine,SVM)[2]、隐马尔可夫模型(HiddenMarkovMode,lHMM)[3]和高斯混合模型(GaussianMixtureMode,lGMM)[4]等。文献[4]提出采用12维MFCC系数和GMM分类器来训练识别四种声音,得到的平均识别率为80%以上。文献[5]提出应用在家庭生活中的音频监控系统,该系统提取1s异常声音的MFCC系数作为特征参数,采用AdaBoost算法对异常声音进行检测,取得了较好的检测结果。但是这种算法需要大量的训练样本,同时要求异常声音的长度为等长(1s),限制了这种算法的使用范围。文献[6]提出应用于铁路环境下的音频监控系统,采用MFCC特征训练GMM分类器,对尖叫声和枪声进行识别。但是这种算法只是针对两种异常声音,没有考虑多种异常声音同时存在的情况。因此,本文将音频监控系统推广到日常生活中,选择电梯作为实验背景,搜集在电梯中容易出现的5种异常声音,如报警声、尖叫声、哭泣声、小孩哭泣声和撞击声作为实验素材。

本文采用MFCC系数与短时能量相结合的方式作为异常

声音的特征参数,训练GMM,达到了较好的识别效果。与单独采用MFCC系数作为特征参数相比,识别率有了明显的提高,计算量没有明显的增加;与MFCC系数和一阶差分相结合的作为特征参数的方式相比,本文算法的计算复杂度较低,同时识别率相差不大。

1 特征参数提取

音频特征参数提取是指从音频信号中获得一种能够描述音频信号特征的过程。在特征提取之前,需要对原始样本进行预处理,使得能更好地提取特征。1.1 预处理

假设输入的音频信号为x(n),预处理过程如下。1)归一化处理。归一化处理的目的是消除不同样本声音大小的差异,将样本幅度值限定在[-1,+1]。

2)预加重。预加重一般是用具有6dB/倍频程的一阶数字滤波器来实现,如式(1)所示:

H(z)=1-Lz-1(1)其中L为常数,一般取0.97。

3)对音频信号进行重叠分帧。为了避免信号间断,一般取256点为一帧,帧间重叠为128点。1.2 MFCC

MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率感知的非线性特性,反映了音频短时幅度谱的特征,因此在异常声音识别中得到了广泛应用。MFCC的提取方法[7]是将预处理后的信号xt(S)作频域变换后,将对数能量谱依照Mel标度分布的三角滤波器组作卷积,再对滤

收稿日期:2009-09-01;修回日期:2009-11-09。 基金项目:国家自然科学基金资助项目(60702025)。 作者简介:吕霄云(1985-),女,陕西宝鸡人,硕士研究生,主要研究方向:音频监控、模式识别、数字水印; 王宏霞(1973-),女,河北石家庄人,教授,主要研究方向:多媒体信息安全、跳/扩频通信、智能信息处理。第3期吕霄云等:基于MFCC和短时能量混合的异常声音识别算法 797

波器组的输出向量作离散余弦变换(DiscreteCosine

Transform,DCT),这样得到的前n维向量称为MFCC,如式(2)所示:

Pn(m-0.5)

);0[nMm=1

其中:n为所取MFCC个数;Ct(n)为第t帧的第n个MFCC系数;St(m)为音频信号的对数功率谱;M为三角滤波器个数,本文取24。舍去代表直流成分的Ct(0),得到Ct(1),,,Ct(n),取n为12作为MFCC系数Ct(n)。然后根据式(3)对MFCC系数进行一阶差分,得到一组MFCC差分系数Dt(n):

Ct(n)=

ES(m)cos(

t

M

图1 训练模块

本文所用的样本识别过程如图2所示。

图2 识别模块

Dt(n)=

i=-k

EC

k

i

(n+i)

i=-k

Ek(3)

i2

识别过程是采用从测试样本中提取的特征矢量,结合GMM分类器,通过求取后验概率的最大值得到每类单个测试样本的识别结果,最后将每一类所有测试样本的识别结果相加,求出每类声音的总体识别率。

其中k为常数,一般取2。1.3 短时能量

音频信号的能量随着时间变化比较明显,音频信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。对于音频信号xt(S),短时能量:

L-1

3 实验结果

3.1 实验的软硬件环境

所有实验都运行在PC机的WindowsXP操作平台上,PC机的主频为1.5GHz,内存为1GB,编程主要使用的是Matlab7.0。

实验中的参数如下:声音种类为报警声、尖叫声、哭声、小孩哭声和撞击声,每类声音有30个样本;采样率为16kHz,量化为16b,帧长16ms(256个采样点),帧移(128个采样点);训练样本随机选择总样本数的80%,识别样本为剩余20%样本;每组实验做10次,列出每类声音的平均识别率,最后对相同混合阶数下所有声音的识别率求平均值作为评价标准。3.2 高斯混合阶数的影响

本实验研究GMM混合阶数对识别性能的影响,从而选择适合的混合阶数。实验中所用混合阶数分别为8、12和16。识别模型为GMM,N表示不同的混合阶数。表1、2列出了两种特征在不同混合阶数下的识别性能。

表1 高斯混合阶数的影响)))MFCC_E(12维)样本报警声尖叫声哭声小孩哭声撞击声平均识别率

识别率

N=80.8290.8580.9560.7411.0000.883

N=120.9140.8860.9110.7651.0000.897

N=160.8290.8861.0000.8711.000

0.930

(En)t=

E

S=0

xt(S)

2

(4)

其中:(En)t为第t帧的短时能量;S为一帧内的样本点;L为帧长,本文取256。1.4 混合特征

本文选取MFCC与短时能量构成组合参数的理论依据如下。

1)短时能量是音频信号最基本的短时参数之一,它表征一帧音频信号能量的大小,是音频信号一个重要的时域特征。

2)由一帧音频信号求出的短时能量是一个标量值,与其他参量构成组合参数不会使原特征矢量的维数明显增加。特征矢量的维数越少,则需要的运算复杂度越小。另外,获取短时能量的运算并不复杂。

3)短时能量是时域特征,而MFCC参数是人耳听觉感知特征,两者之间的相关性不大,它们反映的是音频信号的不同特征,应该有较好的效果。

本文将MFCC系数与短时能量混合得到的特征矢量记为MFCC_E。特征矢量的排列顺序是将短时能量(En)t作为MFCC_E特征矢量的第1维,将原始MFCC的12维作为特征矢量MFCC_E的第2维到第13维。

2 GMM

GMM本质上是一种基于参数估计的多维概率统计模型,它认为每一种声音的特征在特征空间中都形成特定的分布,并且可以用多个高斯分布组合对它的特征分布进行拟合。不同参数的高斯分布组合可以用来表征不同的声音,即每种声音的特征参数对应一个GMM。GMM已经广泛应用于说话人识别和语音识别中。本文所用的GMM训练过程如图1所示。

训练过程是按照文献[8]中的方法,采用从训练样本中提取的特征矢量来训练GMM,对于有5种声音的异常声音识别系统,每种声音用一个GMM来代表,得到5种声音的模型参数。最终得到描述每种声音的整个GMM的三元式如式(5):

K={Pi,Li,2i}; i=1,2,,,N(5)其中:Pi为混合分量的权值;Li为均值矢量;2i为协方差矩阵;N为混合阶数。表2 高斯混合阶数的影响)))MFCC+MFCC_D(24维)

样本报警声尖叫声哭声小孩哭声撞击声平均识别率

识别率N=120.8860.9140.7110.7881.0000.873

N=80.8290.8290.6670.8591.0000.870

N=160.8570.9140.8000.8221.0000.911

为了得到较高的识别率,同时要有较低的复杂度,本文对

不同阶数、不同特征矢量进行了复杂度的研究。复杂度的评判准则是指运行程序所需要的时间,单位为s。表3、4分别列出了训练复杂度和识别复杂度。

从表1~2中可以看出,无论是采用特征参数MFCC_E或MFCC+MFCC_D特征矢量,当GMM阶数从8逐渐增加到 798 计算机应用第30卷

16时,识别率逐渐上升;同时可从表3~4中得到,阶数越高,所需训练和识别复杂度也越大。

表3 训练复杂度

阶数N

81216

特征

MFCC269.6250411.3958544.5104

MFCC_E315.4531413.0209666.8594

MFCC+MFCC_D

624.4948702.43231279.4000

s

MFCC+MFCC_D

19.802127.088636.1406

s

综上所述,综合考虑特征的识别率和复杂度,可以看出,

MFCC_E比MFCC和MFCC+MFCC_D的识别率高,而且训练和识别复杂度明显低于MFCC+MFCC_D,略高于MFCC,这就证明MFCC与短时能量的结合识别率高,相对复杂度较低,有效提高了分类器的识别性能。

表7 本文算法与文献[4]、[5]的比较结果算法文献[4]算法文献[5]算法本文算法

特征量MFCCMFCCMFCCMFCC_E

分类器GMMGMMGMMGMM

最高识别率0.9000.9111.0001.000

最低识别率0.7700.8170.7290.765

平均识别率0.8160.8730.8700.930

表4 识别复杂度

阶数N

81216

特征

MFCC17.078124.567729.6823

MFCC_E17.208324.744830.6198

4 结语

本文将MFCC,差分MFCC以及短时能量三种特征用于

GMM的训练与识别中,实验证明使用MFCC与能量混合特征比文献[4-6]单一使用MFCC特征得到的识别率高,对异常声音分类更准确,识别率可达到90%以上,而且特征维数较低,相对复杂度不高;所用的GMM分类器也改善了文献[5]中所用的AdaBoost分类器因样本数较小而导致系统性能降低的问题;本文中分别识别了为五种异常声音,改善了文献[6]中只区分两种声音的不足;但GMM的混合阶数的选择是一个比较困难而且重要的问题。如果混合阶数太少,则训练出的GMM不能有效地刻画声音的特征,从而使系统的性能下降;如果混合数太多,则模型的参数会很多,从训练数据中可能得不到收敛的模型参数,同时训练和识别的复杂度增加。如何自适应选择混合阶数的算法,不仅可以提高识别性能而且复杂度也不会太高,这将是下一阶段研究的重点。参考文献:

[1] ZAJDELW,KRIJNDERSJD,ANDRINGAT,etal.CASSANDRA:

Audio-videosensorfusionforaggressiondetection[C]//Proceed-ingsofthe2007IEEEInternationalConferenceonAdvancedVideoandSignalbasedSurveillanace.London:

2007:200-205.

IEEEComputerSociety,

3.3 特征矢量的影响

本实验研究不同特征矢量对识别性能的影响,从而证明MFCC_E识别率最高且复杂度较低。实验采用特征矢量分别为MFCC(维数为12)、MFCC与一阶差分MFCC_D(维数为24)、MFCC_E(维数为13),识别模型均为GMM,表5~6中混合阶数分别为16和12,识别结果如表5~6所示。

表5 不同特征矢量的影响(N=16)

样本报警声尖叫声哭声小孩哭声撞击声平均识别率

特征

MFCC0.8000.7711.0000.7291.0000.873

MFCC+MFCC_DMFCC_E

0.8570.9140.8000.8821.0000.911

0.8290.8861.0000.8711.0000.930

表6 不同特征矢量的影响(N=12)

样本报警声尖叫声哭声小孩哭声撞击声平均识别率

特征

MFCC0.8290.9140.9000.6241.0000.853

MFCC+MFCC_DMFCC_E

0.8860.9140.7000.7881.0000.873

0.9140.8860.9000.7651.0000.897

[2] RABAOUIA,DAVYM,ROSSIGNOLS,etal.Usingone-class

SVMsandwaveletsforaudiosurveillance[J].IEEETransactionsonInformationForensicsandSecurity,2008,3(4):763-775.[3] RABAOUIA,LACHIRIZ,ELLOUZEN.UsingHMM-basedclas-sifieradaptedtobackgroundnoiseswithmiprovedsoundsfeaturesfor

audiosurveillanceapplication[J].Processing,2008,5(1):46-55.

[4] RADHAKRISHNANR,DIVAKARANA,SMARAGDISA.Audio

analysisforsurveillanceapplications[C]//Proceedingsofthe2005

IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics.Washington,DC:IEEEComputerSociety,2005:158-161.

[5] QINJIAN-ZHAO,CHENGJUN,WUXIN-YU,etal.Alearningbased

approachtoaudiosurveillanceinhouseholdenvironment[J].Interna-tionalJournalofInformationAcquisition,2006,3(3):213-219.[6] RADHAKRISHNANR,DIVAKARANA.Systematicacquisitionof

audioclassesforelevatorsurveillance[C]//SPIEImageandVideoCommunicationsandProcessing.SanJoseCA:SPIE,2005,5685:64-71.[7] WANGJIA-CHING,WANGJHING-FA,WENGYU-SHENG.Chip

designofMFCCextractionforspeechrecognition[J].Integration,2002,32(1/2):111-131.

[8] 胡益平.基于GMM的说话人识别技术研究与实现[D].厦门:厦

门大学,2007.InternationalJournalofSignal

从表5、6中均可以看出,当混合阶数N相同的情况下:

1)特征矢量MFCC_E比MFCC得到的识别率提高6%,这表明MFCC与能量的混合特征识别率高于单独使用MFCC;2)特征矢量MFCC+MFCC_D比MFCC得到的识别率高;3)特征矢量MFCC_E比MFCC+MFCC_D识别率高。

但是从表3~4也可以看出,MFCC+MFCC_D训练复杂度几乎是MFCC_E的2倍,是MFCC的3倍,而它们的识别复杂度相差并不大。

3.4 本文结果与相关文献做比较

将本文算法的识别结果与文献[4]、[5]进行了对比,结果如表7所示。

从表7中可以看出,相对于原始特征MFCC,MFCC_E取得了比原始MFCC更高的识别率。其主要原因是加入短时能量后,一方面增加了特征的维数,另一方面增加了特征所包含的声音的信息量。从实验结果可以验证,短时能量中包含有用的声音信息。

因篇幅问题不能全部显示,请点此查看更多更全内容