音源フィルタ理論 (Source-filter Theory)

私たち人間は、喉頭における発声(音源)と声道における調音(フィルタ)とを多かれ少なかれ独立して制御することができます。音源が声道フィルタというシステムに入力されると、声道において共鳴特性が反映されます。その結果、システムから出力される応答が音声であると考えることができます。このような線形システムによるモデル化は、音声生成における音源フィルタ理論(source-filter theory)と呼ばれています。特に母音の場合は、声帯振動による喉頭原音が音源となり、この喉頭原音によって声の高さや声の質が変わります。一方、声道形状が変わると声道の共鳴特性が変わり、出力される母音の質が変わります。

母音・子音を問わず一般に音声信号を考えるとき、音源は次の4種類が存在すると言えます:喉頭原音(glottal sound)あるいは発声音源(phonation source)、帯気音源(aspiration source)、摩擦音源(frication source)、過渡音源(transient source)。これらが単独、あるいは組み合わさって母音や子音の音源となります。つまり、これらの音源が声道フィルタに入力された結果が、母音や子音であると見ることができます。このように、音源フィルタ理論は母音のみならず、子音を含む音声全般に拡張して考えることができます。

もし声道形状が一定であれば、声道フィルタは線形時不変なシステム(linear time-invariantシステム、略してLTIシステム)となり、入力信号を$x(t)$、システムのインパルス応答を$h(t)$、出力信号を$y(t)$としたとき、
$$y(t) = h(t) \ast x(t),$$と表現されます。ここで、$\ast$はたたみ込み演算を表しています。

上の式は時間領域における関係を表していますが、これを周波数領域において表現すると、
$$Y(\omega) = H(\omega) X(\omega)$$
となり、スペクトルの関係が導かれます。すなわち、音源のスペクトル$X(\omega)$が、声道フィルタのスペクトル$H(\omega)$に乗算された結果として、音声のスペクトル$Y(\omega)$がモデル化されていることがわかります。

ところでより厳密に述べると、声道フィルタのスペクトル$H(\omega)$は、声道の伝達関数$T(\omega)$と口唇からの放射特性R(ω)に分けて考えることができるので、
$$Y(\omega) = [T(\omega) R(\omega)] X(\omega)$$
と表せます。ここで喉頭原音のスペクトルは、-12 dB / oct(周波数が2倍になると12 dB減少)の傾斜を持っていると見なせます。一方、調音によって声道形状が変化すると、結果として$T(\omega)$が変わるわけですが、この$T(\omega)$のスペクトルの傾斜は、多かれ少なかれ平坦であると見なせます。一方、放射特性$R(\omega)$は6 dB / octの傾斜を持ちます。結果的に、母音のスペクトルは-6 dB / octのスペクトルの傾斜を持っているということになります。

ここでは、音源として単純にインパルスを並べただけのインパルス列を使って(すなわち、音源スペクトルの傾斜は平坦)、音源フィルタ理論のデモンストレーションを行ってみることを考えます。音源は、基本周波数が2倍違うものが2種類あります。一方、声道フィルタも、母音/a/を想定したものと、母音/i/を想定したものの2種類があります。これらの組み合わせを比較すると、音源が同じであれば母音が違っても声の高さの変化が同じであることがわかります。また、声道フィルタが同じであれば、音源が異なることによって声の高さがは変わりますが、母音の質が保たれる様子がわかります。

Filter /a/
Filter /i/
Source 1
Source 2

音源フィルタ理論はあくまでも近似であり、実際の音声生成過程は非線形であり、時変でもあります。音源とフィルタの間に相互作用があることも事実です。厳密な議論をする場合には無視できない場合もあるので注意が必要ですが、音源フィルタ理論の考え方は妥当な近似を与えてくれるため、音声工学の分野でもその考え方に基づいて広く応用されています。

ちなみに、音源フィルタ理論の基本的な考え方は、Chiba and Kajiyama(1941)の中にすでに述べられています。彼らは、発声と調音という観点から音声生成機構を科学的に、そして系統的に解き明かしました (Kasuya, 2001)。一方、Fant博士は1944~1945年にかけて、フィルタ理論が専門の彼の恩師から、電気回路理論について教えを受けていました。その直後、MIT(Massachusetts Institute of Technology)を訪問したときに “Chiba and Kajiyama” に出会ったのではないかと話しています(Fant, 2004; Arai, 2004)。Chiba and Kajiyamaによる発声と調音という考え方が、Fantのフィルタ理論と融合した結果、現代における音声生成に関する音響理論でも重要な「母音生成の音源フィルタ理論(source-filter theory of vowel production)」(Fant, 1960)へと発展しました。このことは、科学の歴史の中でもChiba and Kajiyama (1941)が古典と評される1つの所以であると考えられています(Maekawa and Honda, 2001)。

  1. Arai, T., “History of Chiba and Kajiyama and their influence in modern speech science,” Proc. of From Sound to Sense: 50+ Years of Discoveries in Speech Communication, 115-120, 2004.
  2. Chiba, T. and Kajiyama, M., The Vowel: Its Nature and Structure, Tokyo-Kaiseikan Pub. Co., Ltd., Tokyo, 1941.
  3. Fant, G., Acoustic Theory of Speech Production, (Mouton, The Hague, Netherlands), pp. 15-90, 1960.
  4. Fant, G., personal communication, 2004.
  5. Kasuya, H. et al., “Overview in each research field: Speech,” J. Acoust. Soc. Jpn., 57(1), 11-20, 2001.
  6. Kent, R. D. and Read, C., Acoustic Analysis of Speech, Singular Publishing, San Diego, CA, 2001.
  7. Maekawa, K. and Honda, K., “On the Vowel, Its Nature and Structure and related works by Chiba and Kajiyama,” J. Phonetic Soc. Jpn., 5(2), 15-30, 2001.
  8. Stevens, K. N., “The acoustic/articulatory interface,” Acoustical Science and Technology, 26(5), 410-417, 2005.