 |
理想的な音響環境における音声認識に関しては、言語モデルや音響モデルを調整することにより、必要とする認識率が概ね達成できるようになっています。しかし、一般の音響環境では、種々の要因の影響を受けて音声認識率を悪化させてしまうことが頻発します。例えば、ちょっとした雑音や発話者の言い淀みや不連続発話に起因して意図しない認識結果が形成されたり、発話者が大声や小声で発話することに伴い、音声認識率が大幅に低下したりする現象が現れます。また、音量の調整が不十分であると、不必要な雑音を拾ってしまい、音声認識率の低下を招くという問題が発生します。したがって、音声認識では、音響環境の悪影響をできるだけ回避して、ロバスト性のある音声認識を実現することが重要課題となります。このことは、VOICECAIWA(音声会話)における音声認識でも同様であり、利用者の発話に対して、できるだけロバスト性のある音声認識を実施し、認識結果をCAIWA(会話)に入力することが必要となります。特に会話ロボットの利用環境には欠かす事ができません。
VOICECAIWA(音声会話)では、このような「ロバスト性のある音声認識」を実現するために、韻律解析装置(Prosody Analyzer)を開発しています。韻律解析装置では、波形処理の技術を導入して、フィルタ処理、音声制御、および音量制御の機能を実現しています。韻律解析装置のフィルタ処理では、音声認識の対象としたい音声データと、そうではない音データ(突発雑音やフィラーなど)とを区別するという処理を行っています。また、音声制御では、音声認識の対象となる音声データの音量に着目し、大きな音声のときには大声警報を発令し、小さな音声の場合には小声警報を発令するような処理を実現しています。さらに、環境雑音に柔軟に対応するため音量制御機能を開発しており、定常雑音の音量レベルに応じて音量制御を実施する処理を実現しています。
韻律解析装置に実装されたこれらの機能により、適切な音声データのみを音声認識の対象とすることが可能となり、ロバスト性のある音声認識が実現できることになります。このようなロバスト性のある音声認識を実現したことが、言語モデル自動生成機能と同様に、ピートゥピーエー(PtoPA)における音声認識技術(音声認識ソフト技術)の特長になっていると言えるでしょう。こうした音声認識技術(音声認識ソフト技術)で私達は音声による充実したコミュニケーションを実現しています。
特に現在、ピートゥピーエ(PtoPA)が開発中のヒューマノイドロボットでの「ロボットの音声認識」機能のキーテクノロジーとして使われています。 |
|
 |