このシリーズではE資格対策として、シラバスの内容を項目別にまとめています。

E資格まとめ

試験概要 ディープラーニングの理論を理解し、適切な手法を選択して実装する能力や知識を有しているかを認定する。 1.応用数学 (1)確率・統計 (2)情報理論 2.機…

音声認識

サンプリング(標本化)

音声認識の基本的なプロセスを理解するためには、いくつかの重要な概念を把握する必要があります。以下、音声認識におけるサンプリングについての解説をします。

まず、音声とは空気の振動、すなわち波で表されます。振幅と周波数が波の特性を決定し、振幅は音の大きさに相当し、周波数は音の高さに相当します。このような音声波はアナログ信号として表され、連続的な情報を持っています。

音素とは、言語情報を伝達するのに必要となる最小限の音の種類で、例えば日本語では「a」、「i」、「u」など約20種類程度が存在します。

音声データをコンピュータで扱うためには、アナログの音声データをデジタルデータに変換する必要があります。この変換処理をA-D変換(Analog to Digital Conversion)といいます。

この変換に使用される手法の一つがパルス符号変調(PCM)です。PCMは連続的な音波を一定時間ごとに観測し(標本化またはサンプリング)、観測された波の強さを予め決められた値に近似し(量子化)、その量子化された値をビット列で表現する(符号化)というプロセスから成り立っています。

サンプリング周波数とは、標本化を行う際の測定周期の逆数で、1秒間に何回波形のサンプルを取るかを表します。例えば16000Hzなどが一般的です。標本化定理によれば、記録したい信号の2倍のサンプリング周波数でサンプリングを行えば、測定したデジタル信号から元の波形を復元できます。しかし、サンプリング周波数の半分より高い周波数の信号は記録・復元できないため注意が必要です。

量子化ビット数は、量子化、符号化を行う際のビットの数で、大きいほど振幅を細やかに表現可能です。通常、16ビットや32ビットなどが使用されます。

短時間フーリエ変換(Short-Time Fourier Transform、STFT)

高速フーリエ変換(FFT)
高速フーリエ変換は、離散フーリエ変換を効率的に行う計算手法で、音声信号に対して使用されると周波数スペクトルが得られます。周波数スペクトルを分析することで、入力された音声信号にどのような周波数がどれほどの強さで含まれているかを測ることができます。

短時間フーリエ変換
短時間フーリエ変換は、入力信号に対して一定長の区間を切り出し、その区間でFFTを実行します。通常は、切り出した区間の信号に窓関数を掛けることで、フレーム長を2のべき乗にすると処理を高速化できます。窓関数の効果は、スペクトログラムにノイズが多く表れるのを防ぎ、区間の両端の値が滑らかになり、周波数特徴を綺麗に取り出せるために用います。

スペクトログラム
スペクトログラムは、周波数スペクトルを時間方向に並べたもので、時間、周波数、振幅の3次元データを表します。これにより、音声信号の時間的な変化を視覚的に捉えることが可能となります。

スペクトル包絡とフォルマント
スペクトル包絡は、周波数スペクトルの緩やかな変動を表し、声の特徴が現れる部分です。スペクトル包絡における周波数のピークをフォルマントといい、フォルマント周波数は音素の特徴が表れます。

MFCCとΔMFCC
スペクトル包絡には母音の特徴が出やすく、そのためMFCC(Mel Frequency Cepstral Coefficients)が音声認識の特徴量として利用されます。さらに、MFCCの時間方向の変化を取ったΔMFCCや、ΔΔMFCCも音声認識の特徴量として利用されることがあります。

ケプストラム
ケプストラムは、FFTによって得られたパワースペクトルを対数化し、それを逆フーリエ変換したものです。ケプストラムの低次成分を取り出し、再びフーリエ変換することでスペクトル包絡を表現することが可能です。

メル尺度

人間の聴覚特性とメル尺度
人間の耳は、すべての周波数を同じ感度で聞くわけではありません。特に高周波数領域になると、同じ周波数の増加に対して感じる音の高さの変化が小さくなります。このような人間の聴覚特性を反映したのがメル尺度です。

メル尺度の差と人間が知覚する音高の差が同じになるように設計されています。音の高さ(ピッチ)とは、音が高いか低いかを表す属性で、周波数に比例しない人間の知覚を反映しています。

メル帯域化
メル尺度は、音声信号の分析において「メル帯域化」に使用されます。メル帯域化は、フーリエ変換によって得られた周波数スペクトルをメル尺度に基づいて再配置するプロセスで、人間の耳の感度を模倣するために使用されます。高周波数領域においては分解能が低くなるように設計されているため、人間の聴覚特性をより正確に反映できます。

メルスペクトログラム
メルスペクトログラムは、短時間フーリエ変換の結果をメル尺度で表現したものです。時間、メル尺度上の周波数、振幅の3次元データとして表され、音声の時間的な変化を視覚的に捉えることができます。メルスペクトログラムは、音声認識や音楽解析などの分野でよく使用されます。

まとめ

最後までご覧いただきありがとうございました。