Clinical Usefulness of Cepstral Analysis in Dysphonia Evaluation.

Park, Min Chul; Mun, Myung Ki; Lee, Sang Hyuk; Jin, Sung Min

doi:2013.56.9.574

Korean Journal of Otorhinolaryngology-Head and Neck Surgery > Volume 56(9); 2013 > Article

Original Article
Head and Neck

Korean Journal of Otorhinolaryngology-Head and Neck Surgery 2013;56(9): 574-578.
doi: https://doi.org/10.3342/kjorl-hns.2013.56.9.574

Clinical Usefulness of Cepstral Analysis in Dysphonia Evaluation.

Min Chul Park, Myung Ki Mun, Sang Hyuk Lee, Sung Min Jin

Department of Otolaryngology Head and Neck Surgery, Kangbuk Samsung Hospital, Sungkyunkwan University School of Medicine, Seoul, Korea. entlsh@hanmail.net

음성장애 평가에서 켑스트럼 분석의 임상적 유용성

박민철 · 문명기 · 이상혁 · 진성민

성균관대학교 의과대학 강북삼성병원 이비인후과학교실

ABSTRACT

BACKGROUND AND OBJECTIVES:
With the present methods for assessing speech, there are procedures that make effective diagnostics possible for voice disorders. One such procedure is cepstrum. Spectrum is produced by Fourier transformation of sound waves, and if Fourier transformation is performed again about the spectrum, cepstrum is produced. This study compared cepstrum to jitter, shimmer, and noise-to-harmonic ratio (NHR) for assessment of its usefulness. Cepstrum was measured by Cepstral Peak Prominence (CPP) calculated by the Hillenbrand method and Cepstral Mean Values (CMV) calculated using the Computerized Speech Laboratory software.
SUBJECTS AND METHOD:
We included in the study 30 patients with vocal nodule and unilateral vocal cord palsy who were diagnosed in Kangbuk Samsung Hospital between March 2010 and May 2011, and 30 normal controls. Phonation of sustained vowel /a/ sample and running speech was subjected to acoustic analysis using CMV and CPP. Then we compared the correlation of cepstrum with other acoustic methods.
RESULTS:
The measured values of CPP-a were 14.16, 17.25, 20.00 and the age adjusted CPP-s values were 11.21, 12.85, 15.00 for vocal cord palsy, vocal nodule and normal group, respectively. There was significant correlation with perceptions of dysphonia (p<0.001), but in CMV-a, CMV-s, there was no significant correlation. When jitter, shimmer, and NHR were compared with cepstrum, the result showed negative correlation among the three groups but CPP values showed significant difference (p<0.001).
CONCLUSION:
In the assessment of voice disorders, cepstrum may be used as a reliable method for comparing other complementary analysis tools. For the acoustic analysis of voice by cepstrum, however, CPP has more reliable correlations with dysphonia than CMV.

Keywords: DysphoniaㆍHoarsenessㆍVocal cord palsyㆍVoice

Address for correspondence : Sang Hyuk Lee, MD, Department of Otolaryngology Head and Neck Surgery, Kangbuk Samsung Hospital, Sungkyunkwan University School of Medicine, 29 Saemunan-ro, Jongno-gu, Seoul 110-746, Korea
Tel : +82-2-2001-1924, Fax : +82-2-2001-2273, E-mail : entlsh@hanmail.net

서론

음성 변화 또는 음성 질환을 평가하는 데 있어 정상적 음성과 비교하여 변형의 정도를 수치화 또는 정량화하는 것은 쉽지 않다.¹⁾ 현재 가장 흔히 사용되는 음성 분석법으로는 주파수와의 연관성을 나타내는 지터(jitter), 진폭과의 연관성을 나타내는 시머(shimmer), 잡음 대 배음비(noise-to-harmonic ratio) 등과 같은 음향 지표가 널리 이용되고 있다. 하지만 이러한 방법들은 음성이 매우 기식적이거나(breathy) 비주기적(aperiodic)이고 기본주파수를 추적하기 힘든 경우에는 그 신뢰도가 감소하는 단점이 있다.²⁾ 즉, 기본 주파수의 변화에 의해 많은 영향을 받기 때문에 기본 주파수의 작은 변화에도 변수들의 측정치가 크게 변할 수 있다.³⁾ 따라서 음성 변화의 정도가 어느 정도인지에 대한 정량화의 필요성이 증가하게 되고 음성 평가에 대해 기존의 지터, 시머, 잡음 대 배음비 같은 음향 지표보다 객관적이고 신뢰할 수 있으며 발성장애를 더 잘 예측할 수 있는 평가 방법이 요구된다.
단순파의 경우 진폭과 주파수를 쉽게 알 수 있지만, 여러 개의 단순파가 합쳐진 복합파의 경우는 그 구성을 알기가 힘든데 이를 좀더 알기 쉽게 분석하는 방법 중의 하나가 켑스트럼이다.⁴⁾ 켑스트럼이란 스펙트럼을 로그(log)를 취해 푸리에 변환(Fourier transformation)시켜서 얻은 것이다.^5,⁶⁾ 즉, 음성 신호를 디지털 녹음 방식으로 얻은 후 숫자화하여 그래프로 표현하면 x축은 시간(time domain), y축은 진폭인 그래프로 표시되는데, 음성 신호를 푸리에 변형을 한번 시행하면 x축은 주파수(frequency domain), y축은 진폭인 스펙트럼을 얻을 수 있다.⁷⁾ 이 스펙트럼을 다시 푸리에 변환하여 얻어진 것이 켑스트럽이고, 이때 x축은 1/frequency와 같은 개념인 큐프렌시(quefrency domain)로 표시된다(Fig. 1). 켑스트럼(cepstrum)은 스펙트럼(spectrum)을 역으로 써서 표기된 단어이다. 마찬가지로 다른 켑스트럼의 용어도 frequency는 quefrency로, amplitude는 lampitude로, harmonics는 rhamonics로 표현하게 된다.
켑스트럼을 이용한 음성 분석에는 Hillenbrand가 개발한 Cepstral Peak Prominence(CPP) 방법과 Computerized Speech Laboratory(CSL) 프로그램에서 분석하는 Cepstral Mean Value(CMV) 방법이 있다(Fig. 2). CPP를 사용한 계산 방법이 발성장애 정도 평가에 가장 널리 이용되며 모든 발성장애의 신뢰할 수 있는 척도로 사용되는데 CPP는 ceptral peak와 켑스트럼의 소리 에너지의 평균을 나타내는 회귀선(linear regression)과의 사이 거리를 의미한다. 켑스트럼의 다른 분석 방법인 CMV는 CSL 프로그램을 사용하여 계산되는데, 회기선과 cepstral peak의 거리로 계산되는 CPP와는 달리, 컴퓨터 프로그램을 통해 바로 CMV값이 산출된다는 차이점이 있다.
성대결절 및 성대마비 환자들은 기식화된 음성을 산출하게 되므로 여러가지 음향지표를 사용하여 기식화된 음성을 변별 할 수 있게 된다. 그러나 어떤 분석 방법을 선택하느냐에 따라 기식화된 음성 변별에 차이를 보이게 된다. 본 연구에서는 성대결절과 성대마비 환자들, 정상인을 대상으로 음성 분석을 하여 켑스트럼 방법과 지터, 시머, 잡음 대 배음비를 비교하여 유용성을 알아보고자 하였고 켑스트럼 분석의 두 가지 방법에 대하여 차이를 확인해 보고자 하였다.

대상 및 방법

2010년 3월부터 2011년 5월까지 이비인후과에서 성대결절로 진단받은 30명, 일측성 성대마비로 진단받은 30명 및 정상인 30명이 본 연구에 포함되었다. 성대마비와 성대결절의 진단은 후두 내시경과 스트로보스코피 검사를 통하여 이비인후과 전문의가 진단하였다. 전체 환자의 평균 연령은 45.4세(16~81세)로, 남자가 41명, 여자가 49명이었으며 평균적으로 음성 질환 군에서 증상을 호소하였던 기간은 성대마비가 약 8.7개월, 성대결절이 약 10.3개월이었다(Table 1). 이전에 현수후두하 미세수술 및 성대 내 주입술을 시행받은 과거력이 있거나 약물을 복용중인 환자는 대상에서 제외하였다. 본 연구는 강북삼성병원 임상시험심사위원회의 검토와 승인을 받았고 모든 환자의 동의 하에 진행되었다.
음성의 음향학적인 분석을 시행할 때 음성 샘플의 녹음은 아무도 없는 조용한 방에서 약 10 cm의 거리를 둔 마이크로폰을 사용하였고, 평상시의 편안한 크기와 속도로 /a/모음 연장 발성을 약 5초, '가을' 문단 중에서 '우리나라의 가을하늘은 매우 아름답다'의 문장을 약 4초간 사용하여 녹음하였다. 대상자가 일상 생활에서의 발성과 다르다고 생각할 때는 음성 녹음을 재시도 하였고, 2회 반복 녹음하여 그 중 평상시 음성에 가까운 것을 골라 스펙트럼상에서 가장 안정적인 2초의 연속된 구간을 선택하여 분석하였다. 음향 분석은 음성 분석 프로그램인 CSL 중 Multiple Dimensional Voice Program(MDVP)을 이용하여 지터, 시머, 잡음 대 배음비를 측정하였다. 켑스트럼은 Hillenbrand가 개발한 CPP 방법과 CSL 프로그램을 사용한 CMV 방법으로 분석하였다. CPP는 켑스트럼에서 가장 높은 지점으로 정의하였고, 켑스트럼에서 평균값의 높이로 나타나는 회귀선과 그래프의 가장 높은 지점을 평가하여 그 차이를 계산하였다. Hillenbrand방법은 홈페이지(http://homepages.wmich.edu/~hillenbr/) 접속을 통하여 CPP값을 구하였고, CSL 프로그램은 MDVP 옵션 프로그램을 사용하여 계산하였다. 이를 통해 정상집단과 음성장애 집단의 음성을 분석하여 켑스트럼과 다른 음향지표와의 차이를 확인하였고, 켑스트럼을 분석할 때 Hillenbrand 방법과 CSL 프로그램을 통한 방법에 차이가 있는지를 알아보고, 두 가지 분석 방법에서의 차이를 비교하였다.
통계학적 검정은 켑스트럼의 분석 방법에 대해서는 one-way ANOVA와 independent t-test 그리고 chi-square test를 이용하였고, 켑스트럼과 지터, 시머와 같은 다른 음성 지표와의 상관관계에 대한 분석에서는 Pearson 상관분석(Pearson's correlation)을 사용하였다. 통계프로그램은 SPSS version 18.0(IBM Co., New York, NY, USA)을 이용하였다. 이때 p-value값이 0.05 이하인 경우는 통계적으로 유의하다고 판정하였다.

결과

정상집단과 음성장애 집단의 총 90명을 대상으로 켑스트럼 음성 분석을 시행하였고, 각 군의 남녀 비율은 유의한 차이를 보이지 않았으나, 나이는 통계적으로 유의한 차이를 보여(p<0.001) 공분산분석(ANCOVA)을 통해 나이의 영향력을 보정하였다. 성대마비와 성대결절, 정상집단의 age adjusted CPP- a는 각각 14.45, 17.17, 19.55로, age adjusted CPP-s는 각각 11.38, 12.81, 14.74로 나타났고, 이는 통계적으로 유의한 차이를 보였다(p=0.002, p<0.001)(Table 1, 2 and 3).
켑스트럼에 대한 분석은 먼저 CPP 값과 CMV 값을 사용하여 두 가지 방법의 결과와 차이점에 대하여 확인하였다. /a/모음 연장발성을 사용하여 측정한 결과에서 정상집단과 성대마비, 성대결절 군에서 CMV 값은 각각 1.25(±0.09, M=1.26, F=1.24), 1.33(±0.16, M=1.34, F=1.32), 1.33(±0.13, M=1.30, F=1.35)으로, 세 군 간에서 통계적으로 유의한 차이를 보이지 않았다. 반면에 CPP 값은 정상집단과 성대마비, 성대결절에서 각각 20.00(±3.03, M=22.60, F=17.71), 14.16(±4.88, M=12.76, F=16.56), 17.25(±3.24, M=18.71, F=16.40)로, 정상집단에서 음성 질환 군에 비해 통계적으로 유의하게 높은 CPP 값을 나타냈다(p<0.001)(Table 2). 문장검사를 사용한 분석에서도 측정된 CMV 값은 정상집단, 성대마비, 성대결절 각각 1.22(±0.16, M= 1.21, F=1.23), 1.28(±0.15, M=1.33, F=1.21), 1.27(±0.15, M=1.22, F=1.31)을 보였고 이는 통계적으로 유의한 차이를 보이지 않았지만, CPP 값을 측정한 결과 정상집단, 성대마비, 성대결절은 각각 15.00(±1.28, M=15.37, F=14.68), 11.21(±42.10, M=10.56, F=12.34), 12.85(±1.79, M=12.42, F=13.10)의 결과를 보였고 통계적으로 유의한 차이를 보였다(p<0.001)(Table 3).
이상의 결과를 통하여 켑스트럼 음성 분석 방법 중 Hillenbrand 방법을 통한 CPP 값이 음성장애 평가에 있어서 더욱 신뢰할 수 있음을 확인하였다. 다음으로 기존에 많이 사용되는 음성분석 방법과의 연관성을 확인하고자 CPP 값과 지터, 시머, 잡음 대 배음비의 음성 지표와의 연관성을 Pearson 상관분석(Pearson's correlation)을 이용하여 비교하였다. 먼저 /a/모음 연장발성에서 CPP 값과 비교했을 경우는 지터, 시머, 잡음 대 배음비는 각각 r=-0.593, r=-0.626, r=-0.503으로 나타났고, 자발화를 이용하여 지터, 시머, 잡음 대 배음비와 비교한 경우는 각각 r=-0.592, r=-0.649, r=-0.466으로 나타나 모음연장발성과 자발화를 이용한 방법 모두에서 켑스트럼과 다른 음성지표는 중등도의 음의 상관관계를 보였고 이는 통계학적으로 유의한 결과를 보였다(p<0.001)(Table 4).

고찰

기식성 음성을 유발하는 후두 질환들의 음성을 보다 정확하고 객관적으로 분석하는 방법에 대해서 많은 연구가 있어 왔는데, 현재 가장 보편적으로 사용되는 방법은 지터(jitter), 시머(shimmer), 잡음 대 배음비(noise-to-harmonic ratio) 등이다.^2,⁸⁾ 성대의 주파수는 성대가 한 번 열렸다가 닫힌 후 다시 열릴 때까지의 시간이며, 기본 주파수는 가장 편안한 상태에서 평상 발성시 나타나는 주파수로 사람마다 다른데 이러한 주파수의 동요폭을 지터라고 하고, 진폭은 음의 크기를 나타내는 것으로 성대 진폭의 동요폭을 시머라고 한다.^9,^10,¹¹⁾ 음성은 마이크로폰을 통해 컴퓨터에 입력되고 디지털 신호 처리기에 의하여 디지털 신호로 변환된 후 CSL 프로그램에 의해 분석될 수 있는 음성 신호로 나타나게 된다. 이러한 방법들은 후두의 병변정도에 따라 애성의 정도를 객관적으로 판명할 수 있는 음향지표로 사용된다.¹²⁾ 하지만 이러한 방법들은 기본 주파수의 변화에 의해 많은 영향을 받기 때문에 음성이 매우 기식적이거나(breathy) 기본주파수를 추적하기 힘든 경우에는 주파수의 작은 변화에도 변수들의 측정치가 크게 변할 수 있다.³⁾
켑스트럼은 음성을 분석할 때 음성신호의 푸리에 변형 과정을 두 번 시행하여 얻어지며, 얻어진 그래프에서는 컴퓨터 프로그램을 통해 잡음의 기저선(baseline)의 평균값이 측정된다. 켑스트럼은 이 기저선을 중심으로 하는 측정 방법을 사용하기 때문에 음파의 기본 주파수나 진폭을 측정하여 평가하는 지터 또는 시머와는 기본적인 개념과 측정 방법이 다르다.⁶⁾ 켑스트럼 분석을 할때는 Hillenbrand의 CPP 방법이 흔히 쓰이는데 잡음의 기저선을 의미하는 회귀선(linear regression)을 사용하는 것이 특징이다. 하나의 음성 신호과 다른 신호를 비교할 때 이 회귀선을 사용하는 방법은 음성을 녹음하는 과정에서 측정 도구에 의해서 발생하거나, 음성신호가 매우 커서 발생하는 잡음들을 배제하는 데 매우 중요하게 적용된다. 기존의 보고에 따르면 성대마비 또는 성대결절과 같은 음성 질환의 기식화된 음성과 정상인의 음성을 비교 평가했을 때, 음성 질환군의 CPP 값이 정상군에 비해 감소되었다.^1,^13,¹⁴⁾ 본 연구에서도 성대마비와 성대결절 환자의 음성에서 정상인에 비하여 낮은 CPP 값을 보였다. Heman-Ackah 등^2,^15,¹⁶⁾이 보고한 바에 의하면 음성을 평가할 때 잡음의 수준이 높을수록 CPP 값이 감소하는 역 상관관계가 있다고 하였다. 즉, CPP 값이 낮을수록 음성은 비정상적이라고 판단하는데 성대마비 환자군의 음성이 성대결절 환자군의 음성보다 CPP 값이 낮은 결과를 보여 성대마비 환자군의 음성이 더 기식화 되어있고, 불안정 하다는 것을 알 수 있었다.
켑스트럼의 분석 방법에는 기존의 Hillenbrand의 방법으로 CPP를 이용하는 방법과 CSL 프로그램을 사용하여 CMV를 계산하여 이용하는 방법이 있다. CPP는 음성 신호의 조화구조(harmonic structure) 정도를 측정하는 데 적합한 음성 분석값이다. CPP를 구하는 과정은 음성 녹음의 기술, 녹음의 크기, 비주기성에 크게 영향을 받지 않기 때문이다. 이 CPP 값은 Hillenbrand에 의해 만들어진 컴퓨터 프로그램으로 측정되며 본 연구에서 CPP의 측정은 홈페이지에 접속하는 방법으로 음성 분석을 하였다. 켑스트럼의 다른 분석 방법으로 CMV 방법이 있다. 음성 신호로부터 직접 켑스트럼을 얻는 방법으로 Hillenbrand 방법과는 달리 회귀선을 사용하지 않는 차이점이 있다. CSL 프로그램은 다양한 방법으로 입력 및 저장이 가능하며, 다양한 스펙트럼과 스펙트로그램을 통한 음향학적 분석이 가능하다. 또한 MDVP, voice range profile, Visipitch, Sona match, Nasometer 등의 옵션소프트웨어 프로그램을 포함하고 있기 때문에 연구, 진단, 치료에 널리 이용된다. 이 두 가지 방법은 임상적으로 켑스트럼 분석을 하는 데 자주 사용되는 방법이지만, CMV 값이 CPP 값과 비교했을 때 통계적인 의미를 보이지 않았다는 보고가 있는데 본 연구에서도 CMV 값을 비교했을 때 CPP 값보다 신뢰도가 감소하는 것으로 나타났다.²⁾ 또한 일측성 후두 마비 환자와 후두 결절 환자에서 켑스트럼이 다른 음성 지표보다 음성분석에 유용하였다는 보고가 있다.^1,¹³⁾ 결과적으로 음성을 분석하는 데 여러 가지 음성 지표가 사용될 수 있지만 그 중 켑스트럼 분석의 CPP 값은 음성장애 환자들의 기식화된 음성의 변별에 좀더 유용하게 사용될 수 있는 중요한 검사 방법이라 할 수 있겠다.
본 연구결과에 의하면 성대결절과 성대마비 환자군의 CPP 값이 정상군의 CPP 값에 비해 유의하게 감소되어 있는 것으로 나타났다. 따라서 CPP를 사용한 음성 분석 방법이 실제 임상적인 음성분석에서 유용하고, 음성장애 환자평가에서 객관적이고 신뢰할 수 있는 분석방법으로 생각된다. 어떤 켑스트럼 분석 방법을 선택하느냐에 따라 음성장애의 변별력에 차이가 발생할 수 있는데, Hillenbrand 방법과 CSL 프로그램으로 산출한 결과를 비교하여 본 결과 Hillenbrand 방법이 좀더 유의하다는 결과를 얻었다. 따라서 켑스트럼을 사용한 음성 분석을 할 때는 Hillenbrand 방법을 통한 CPP 값을 사용하는 것이 좀더 신뢰할 수 있을 것으로 사료된다.

REFERENCES

Radish Kumar B, Bhat JS, Prasad N. Cepstral analysis of voice in persons with vocal nodules. J Voice 2010;24(6):651-3.
Heman-Ackah YD, Heuer RJ, Michael DD, Ostrowski R, Horman M, Baroody MM, et al. Cepstral peak prominence: a more reliable measure of dysphonia. Ann Otol Rhinol Laryngol 2003;112(4):324-33.
Hillenbrand J. A methodological study of perturbation and additive noise in synthetically generated voice signals. J Speech Hear Res 1987;30(4):448-61.
Titze IR. Principles of voice production. 2nd ed. New Jersey: National Center for Voice and Speech;2000.
Hillenbrand J, Houde RA. Acoustic correlates of breathy vocal quality: dysphonic voices and continuous speech. J Speech Hear Res 1996;39(2):311-21.
Hillenbrand J, Cleveland RA, Erickson RL. Acoustic correlates of breathy vocal quality. J Speech Hear Res 1994;37(4):769-78.
Kerst LG. Amplitude cross-scetion representation with the sound spectrograph. J Acoust Soc Am 1948;20:796-801.
Hong KH, Yang YS, Kim HK. Acoustic and laryngeal characteristics of Korean traditional singers. Korean J Otolaryngol 1996;39(10):1622-32.
Hong KH, Chung KY, Kim MC, Kim NK, Kim BK. A study for acoustic parameters in unilateral vocal cord palsy. Korean J Otolaryngol 1992;35(2):334-45.
Lieberman P. Pertubations in vocal pitch. J Acoust Soc Am 1963;33:334-42.
Horii Y. Vocal shimmer in sustained phonation. J Speech Hear Res 1980;23(1):202-9.
Kim KM, Kim GR, Choi HS, SuK KS, Bag JC, Hong SK. Significance of acoustic parameters obtained from sound spectrogram in determining the phonatory function of the patients with vocal nodule. Korean J Otolaryngol 1989;32(5):860-6.
Balasubramanium RK, Bhat JS, Fahim S 3rd, Raju R 3rd. Cepstral analysis of voice in unilateral adductor vocal fold palsy. J Voice 2011;25(3):326-9.
Zieger K, Schneider C, Gerull G, Mrowinski D. [Cepstrum analysis in voice disorders]. Folia Phoniatr Logop 1995;47(4):210-7.
Heman-Ackah YD, Michael DD, Goding GS Jr. The relationship between cepstral peak prominence and selected parameters of dysphonia. J Voice 2002;16(1):20-7.
Heman-Ackah YD. Reliability of calculating the cepstral peak without linear regression analysis. J Voice 2004;18(2):203-8.