聞きやすいアナウンス音声をめざして【Part 5】

同じフレーズでも、何気ない日常会話で繰り広げられる発話とは対照的に、はっきりとした意識を持って伝えようとする発話では、その音声も異なるもの。2つの発話スタイルで同じフレーズを比較するため、他大学に通う勝野健さんにご協力を得て、荒井研究室の芝本英さんの卒業研究に合わせて録音させていただきました(録音は2021年11月)。

いくつかの録音の中で、「おはようございます。」という挨拶のフレーズに注目し、普通に発話した場合とアナウンサー音声として発話した場合の2パターンを比較してみました。まずは2つを聞いてみてください:

(a) oha2_normal.wav
(b) oha2_ana.wav

普通の発話(a)も、アナウンサー音声としての発話(b)も、どちらも素敵な声で「おはようございます」と言っています。2つの違いを見るため、さらに詳しく調べてみることにしましょう。そこで、音声の時間波形とサウンドスペクトログラムを見てみました(Fig. 1)。これらの図では、上段が音声波形(横軸が時間、縦軸が振幅)、下段がスペクトログラム(横軸が時間、縦軸が周波数、濃淡が成分の強弱)です。

Fig. 1(a):普通の発話
Fig. 1(b):アナウンサー音声でという指示による発話

Fig. 1の(a)と(b)を比べてみると、アナウンサー音声のほうが時間波形の振幅も大きく、スペクトログラムの色も濃くなっていることが見受けられます。同じ条件で録音と描画をしているので、これは(b)のアナウンサー音声のほうが少し声が大きくなっていることを意味しています。

そして最も注目したいのが、出だしの「お」の母音です。Fig. 1の赤い矢印がその場所を示しています。そこで、(a)と(b)を比べてみましょう。そうすると、(a)の中における「お」の相対的な大きさに比べ、(b)の中における「お」の大きさのほうが上回っていることがわかります。さらに、スペクトログラムにおける赤い矢印の位置の一番低い周波数成分(250 Hz以下)に注目すると、(b)では黒い縦じまの成分が存在するのに対して、(a)では白く音の成分が存在していません。これは、声帯が振動しているか否かを示す証拠にあたる部分です。本来は母音「お」なので、声帯は振動しているはずです。しかし、普通の発話(a)では何気ない日常会話の挨拶同様、出だしが弱くなり、さらに声帯振動もしていない「無声化」した母音になっていました。しかし、アナウンサー音声の(b)の場合は、はっきりとした挨拶を意識したため、出だしも弱くならずに、また声帯も発話の最初から振動していたことが分かりました。

ご協力いただきました勝野健さん、どうもありがとうございました。

録音当日の様子(2021年11月17日)
荒井研究室内防音室にて