聞きやすいアナウンス音声をめざして【Part 4】

同じ話者が異なる発話スタイルで話したとき、音声にはどのような特徴が現れるか比較してみました。協力していただいたのは、他大学に通う岸本理沙さん。荒井研究室の芝本英さんの卒業研究と合わせて、録音させていただきました(録音は2021年11月でした)。

いくつかの録音の中で、「ただいま、荒井研究室を訪問しています。」という文に注目し、普通に発話した場合とアナウンサー音声として発話した場合の2パターンを比較してみました。まずは2つを聞いてみてください:

(a) 1_normal.wav
(b) 1_ana.wav

とても音声は聞きやすく、普通の発話(a)も明瞭ですね。違いを見るため、さらに詳しく調べてみることにしましょう。そこで、音声の時間波形とサウンドスペクトログラムを見てみました(Fig. 1)。これらの図では、上段が音声波形(横軸が時間、縦軸が振幅)、下段がスペクトログラム(横軸が時間、縦軸が周波数、濃淡が成分の強弱)です。

Fig. 1(a):普通の発話
Fig. 1(b):アナウンサー音声でという指示による発話

Fig. 1の(a)と(b)を比べてみると、アナウンサー音声のほうが間をゆっくりとっていたり、発話全体が少し長く聞きやすさを重視している特徴が見えてきます。同じ条件で録音と描画をしているので、上段の音声波形どうしを比べると、(b)のアナウンサー音声のほうが少し大きな声で発声している様子も垣間見ることができます。

そして一番特徴的だったのが、子音がはっきりしていることでした。「研究室」というフレーズには、2つの/k/の他、/sh/や/ts/といった複数の子音が登場します。まず/k/ですが、音声学では無声軟口蓋破裂音と呼ばれ、破裂子音の一種です。この/k/については、2つの発話スタイルともに「破裂(バースト)」がとても大きく、上段の音声波形においてはインパルス状の鋭く「長い針」のようなものが観測されます。これは、普通の発話スタイル(a)でも岸本さんが丁寧に発音されている一つの証拠になっています。

そして、/sh/や/ts/は音声学ではそれぞれ無声摩擦音、無声破擦音と呼ばれますが、それらはともに高い周波数帯域に強いエネルギー成分を示します。その証拠に、Fig. 1で/sh/や/ts/の矢印のところに注目しながら下段(スペクトログラム)の濃淡の模様を見ると、(周波数が高い)上方が黒くなっていることがわかります。その濃さですが、(b)のアナウンサー音声のほうが一段と濃くなっていることがわかります。これは、文末の/s/についても同様のことが言えます(さらにこの文末の/s/は、アナウンサー音声のほうが長くなっています)。

これらは、岸本さんの声が聞きやすいという裏付けになっています。そして、その岸本さんの発音について、1つの仮説を。岸本さんの英語を拝聴するチャンスがありました。そうしたら、英語がとても丁寧に発音されていて、大変聞きやすいことに感銘を受けました。そして、英語でも特に摩擦子音が綺麗に響いていたのです!そのことが、日本語にも良い影響を及ぼしているのかもしれない、と思いました。

ご協力いただきました岸本理沙さん、どうもありがとうございました。

録音当日の様子(2021年11月17日)
荒井研究室内防音室にて