IEICE Trans. on Information and Communication Engineers, Vol. J84-D-II, No. 7, pp. 1261-1269, 2001 (in Japanese)
Robust automatic speech recognition emphasizing important modulation spectrum
N. Kanedera, T. Arai and T. Funada
Abstract: CMS法や動的特徴量を用いることにより,音声認識性能が向上することが知られている.これらの手法では特徴パラメータの時間軌跡を操作している.この時間軌跡を周波数次元で表したものは変調スペクトルと呼ばれる.よってCMS法や動的特徴量は,変調スペクトルを操作しているものとみなせる.また音声認識情報のほとんどが1~16Hzの変調周波数バンドに存在することが明らかになってきた.そこで本研究では,音声認識情報を担う変調スペクトル成分のみを特徴量として用い,数字音声認識実験を行った.広く用いられているRASTAではIIRフィルタを用いて約1~12Hzの変調周波数バンドを抽出しているのに対し,本論文では位相ひずみの少ないFIRフィルタを用いることにより認識性能が向上することを確認した.また,この特徴量と一般によく用いられている動的特徴量を含めたMFCCを種々の雑音環境(SNR10dB)において比較した結果,認識誤り率が平均3%改善されることを確認した.更に重要な変調周波数バンドを複数のバンドに分割すると,認識誤り率が平均8%改善された.
Keywords: 変調スペクトル, 変調周波数, 頑強な音声認識, 特徴抽出