騒音環境における音声認識技術の開発

[製品科学部] 〇漢野救泰 中野幸一 米沢裕司

1.目的
 音声認識技術の向上にもかかわらず,騒音環境下での音声入力方式の導入は進んでいない。原因の1つとして,騒音環境では音声区間の検出誤りが生じ易く,これに起因する認識率の低下が知られている。このため,騒音環境における音声区間検出は現状の課題であり,正確な音声区間検出手法とこの区間に基づく音声認識手法の開発が不可欠である。
 本研究では,周波数領域での有声音特有のスペクトル微細構造を対象としたLPC(線形予測)分析を行い,その適合度を表す特徴パラメータの時系列から有声音区間を検出する。有声音区間に限定したのは,高騒音環境下では無声音は雑音に埋もれており,無声音を含めた区間検出方法では誤検出が避けられず,有声音区間を確実に検出する方法が実用的なためである。提案する手法は,雑音のパワーや周波数スペクトルの変動の影響を受け難く,従来法と比較して,非定常高騒音下においても高い精度で有声音区間の検出が可能である。そして,音声認識もこの有声音区間に着目してマッチングを行うことで、雑音の影響を極力抑える手法を用いる。

2.内容
2.1 工場騒音環境と発声音
 対象となる工場は,プレス加工が主な機械加工工場で,工作機械,クレーン等が設置してあり,常にプレス加工衝撃音,工作機械加工音,金属の落下・接触音,クレーン動作音などの非定常雑音が存在する。このため,騒音はほとんどが非定常雑音であり,パワーレベルでは,パワーの変動が比較的ゆるやかな区間(ほぼ定常な雑音区間)と音声入力のように急激に変動する区間(非定常高雑音区間)に大別できる。騒音計A特性で,ほぼ定常な雑音区間は75〜85dB,非定常高雑音は85dB以上,最大で100dBに達する。非定常高雑音の持続時間は0.1〜0.3秒程度である。
 音声資料は,3名の成人男性各々が120単 語をこの機械加工工場で2回発声して得ら れた合計720サンプルを使用する。単語は 機械用語,コンピュータ入力制御用語,数字などである。話者の発声音の15秒間平均 スペクトルを,機械加工工場騒音スペクト ルとともに図1に示す。この図から,1kHz以下の低域においては,3名の話者に共通して音声のパワーの方が雑音のそれを上回っている。しかし,それより高い周波数帯域 では,音声の方が雑音に対して優位となる 区間は話者によって異なり,共通して優位なる区間は存在しない。

2.2 特徴パラメータ
 まず、雑音環境下の音声信号を効率的に抽出できるようにモデル化を行う。モデルとして,雑音環境では音声スペクトルの谷(パワーの弱い周波数帯域)が雑音で埋まるのに対してピーク(パワーの強い周波数帯域)は残存する点を考慮し,ピークで構成されるスペクトル分析モデルとして,低域LPC分析手法を考案した。この手法では,声帯振動によるピッチ周波数とその高調波に対応するスペクトルピークを,全極型モデルの極とみなして分析を行い,その適合の度合いから有声音を検出する。
 図2に特徴パラメータであるLPC適合度の算出ブロック図を示す。通常の広帯域(概ね5kHz以下)におけるLPC分析に使われる入力信号のパワーをPW,LPC残差パワーをRWで表し,低域(概ね600Hz以下)分析のためにダウンサンプリングされた入力信号のパワーをPL,そのLPC残差パワーをRLで記述する。
従って,低域におけるLPC適合度は,この記述に従って,
 QL/L=-10log(RLPL
と表す。
  なお母音/a/は,他の母音や雑音と比較して低域におけるパワーが弱いので,PL/PWによる補正を施した低域LPC補正適合度
 QL/W=-10log(RLPW
も定義する。
 比較のため,通常の広帯域におけるLPC分析に基づく適合度を
 QW/W=-10log(RWPW
と記述する。

2.3 音声・雑音分離性能評価実験
 実験に用いた広帯域,低域の各LPC分析条件,パワー計算条件を表1に示す。また,比較のため低域を対象とした従来の有声音検出手法であるSIFT法に基づき,自己相関係数ピーク値APを計算した。
 更に,QL/WQL/Lに対する補正と同様にAPに対してパワー比の補正を施した自己係数ピーク補正値ACも求めた。

表1 分析条件
  広帯域   低域
サンプリング 16ビット
10.24kHz 1.28kHz
LPCフレーム長及び周期 29.7ms
304ポイント 38ポイント
LPC分析次数 12次 6次
パワー算出フレーム長 29.7ms
304ポイント 38ポイント
パワー算出フレーム周期 3.1ms
32ポイント 4ポイント

 表2に,各特徴パラメータによる有声音フレームを検出した時の検出率を,3名の平均で示す。この表より,低域LPCは広帯域LPCより有声音,雑音の分離に適している。特に,QL/Wではパワー比の補正を行うことで分離性能が高くなる。これは,QL/Lでは雑音との分離性が低かった母音/a/などに対して,QL/Wでは大きな改善効果があったためと考えられる。一方,ACAPに対してパワー比による改善が得られなかった。これは,パワー比の大きい有声音フレームのほんどが,APでは既に雑音と分離されており,APの低い有声音フレームのパワー比は雑音フレームのそれ以下であったため,補正効果がなかったと考えられる。そして,QL/WAPAC以上の検出率を示しており,有声音フレーム検出の特徴パラメータとして有効であることが明らかになった。

表2 有声音フレームの検出結果
特徴パラメータ
検出率(%)
広帯域LPC適合度 QW/W
低域LPC適合度 QL/L
低域LPC補正適合度 QL/W
自己相関係数ピーク値 AP
自己相関係数ピーク補正値 AC
23.7
65.3
82.8
74.7
73.3

2.4 単語区間検出実験
 QL/Wを用いて,非定常高騒音環境下での単語区間検出実験を行い,その性能を評価した。但し,高騒音下では無声音始端は検出困難なため,単語の最初の有声音区間の始端から最後の有声音区間の終端までを単語の区間として検出するのが実用的と考え,以下単語区間をこのように定義する。比較のため,一般的な広帯域信号パワーPW,SIFT法による自己相関係数ピーク値APを用いた単語区間検出実験も行った。
 正しい始終端は,視察により求めた。目視で確認した位置を基準に始端で±25ms(8フレーム),終端で±50ms(16フレーム)以内に検出された場合を正解とした。始端,終端ともに正解の場合を正解区間とし,単語区間検出率を算出した。
 図3は,3名の話者の単語区間検出率を示している。APは最も検出率の高かった条件での結果を示している。PWでは音声始終端近傍に非定常雑音が存在する場合は,ほとんどが誤検出となる。QL/Wでは分析次数6次以上で単語区間検出性能が向上することがわかる。3名のQL/Wでの検出率の平均は,分析次数6次では79.0%,8次では78.0%である。これに対して,3名のAPでの検出率の平均は,65.7%である。いずれの話者もQL/WAPを上回っている。
 また,比較的ピッチ周波数の高かっ た話者Aは,話者B,Cよりも,低次 数(4次,6次)分析で効果が高かった。このことは,本ピッチ対応型低域LPC モデルが正しく機能しており,想定される極数から得られる次数以上であれば,有声音に適合し雑音中からの単語区間検出が可能であることを示している。

2.5 単語音声認識実験
 騒音環境で発声された単語音声の認識実験を行った。実験に用いた音声資料は,男性話者3名が各々2回発声した120単語で,1回目の発声を標準パターン,2回目の発声を入力パターンとした。入力パターンは単語区間検出により正解区間として得られた単語区間を用い,標準パターンは視察により切り出した単語区間を用いた。認識処理はDP(動的計画法)マッチングによる特定話者認識である。
 DPマッチングは,入力パターンと標準パターンの同じ音素どうしが対応するように時間軸を非線形に伸縮する時間正規化を行うものである。2つのパターン間の差異を評価する尺度として特定の距離尺度を用い,最小距離を求める。1つの入力パターンに対して,標準パターンを替えて同じ計算を順次行い,各標準パターンに対応する最小距離を求め,それらの中で最小値を与える標準パターンの単語を認識結果とする。距離尺度としては,一般的な距離尺度であるケプストラム距離尺度(CEP),スペクトル周波数微分に基づくスペクトル傾斜距離尺度(RPS)及びスペクトルピークに重み付けした距離尺度(WGD)を用いた。
 騒音環境での単語音声認識結果を表3に示す。各認識率は3名の話者の平均値である。始終端点固定は単語区間検出で得られた始終端点を,始終端点フリーは始端で±25ms,終端で±50msの範囲でマッチングにおける距離が最小となるように最適始終端点を求めた。始終端点を固定とした場合とフリーとした場合では有意な差はなく,単語区間検出で得られた始終端点が有効であることがわかる。
 距離尺度に関しては,騒音環境では,一般的な距離尺度(CEP)よりも,音声スペクトル中の雑音に埋もれにくい周波数成分を強調した距離尺度(RPS,WGD)が適している。特に,WGDでは,標準パターンとして音声の一部が消失するような衝撃音を含まない発声単語を使用すれば,特定話者認識率で95%程度が期待できる。

表3 単語音声認識実験結果
距離尺度 始終端点 認識率(%)
標準パターンに衝撃音がある場合
標準パターンに衝撃音がない場合
CEP 固定
フリー
78.3
78.1
87.7
88.0
RPS 固定
フリー
85.8
86.1
93.3
93.7
WGD 固定
フリー
88.3
89.4
95.1
96.5

3. 結果
 本研究では,ピッチ対応型低減LPC手法とその適合度から,非定常高騒音環境での有声音区間を検出する手法を開発した。本手法は,有声音特有のピッチ高周波構造にLPCモデルを適合させ,有声音とさまざまな雑音の分離を行うもので,高騒音下において雑音に埋もれた無声音の誤検出を避けて有声音区間を有効に検出する。この手法では,低周波数サンプリングと低分析次数化で,LPC計算量の削減が可能である。
 機械加工工場の非定常高騒音環境下で,3名の男性話者による発生音と雑音の分離性能評価実験を行い,一般的な広帯域LPCと比べて,低域LPC手法は分離性能に優れていることが示された。低域LPC補正適合度QL/Wは,1パラメータで高周波構造のLPC適合,パワー値が考慮されており,さまざまな非定常雑音に対して低く安定しているため,SIFT法に基づく自己相関係数ピーク値APよりも特徴パラメータとして有効であることがわかった。更に,同じく工場騒音下での3名による発生単語に対して,QL/Wを用いて単語区間検出実験を行った結果,本手法の有効性が確認できた。そして,この単語区間に基づく特定話者単語音声認識実験を行った結果,スペクトルピークを強調した認識手法で良好に機能することが確認できた。


* トップページ
* '98要旨集