ピートゥピーエーが開発しているVoiceCAIWA(音声会話)における音声認識(音声認識ソフト)に関しては、1) 言語モデル自動生成、2) 韻律解析装置(Prosody Analyzer)に大きな特長が存在しております。
以下に、会話によるコミュニケーションに欠かせないこれらの2つの音声認識関連(音声認識ソフト関連)の技術について説明します。
言語モデル自動生成
音声認識技術(音声認識ソフトの技術)において「言語モデル生成」は熟練技術者の手に委ねられており、音声認識システム(音声認識ソフト)の普及に対する大きな障壁となっています。このような状況に対して、VoiceCAIWAでは、新たに言語モデル自動生成の機能を付加し、一般の利用者でも言語モデルを生成することのできる環境、会話によるコミュニケーションがすぐにスタートできる環境を提供しています。
通常の音声認識言語モデル(音声認識ソフトの言語モデル)は、音声認識の対象となるドメインのコーパスに基づいて作成されていますが、VoiceCAIWAの言語モデルは、CAIWAのナレッジベース(知識ベース)に基づいて自動生成されます。一般利用者が、CAIWAのナレッジベースを作成することにより、「ナレッジベースに関連する発話」をカバーするような言語モデルが自動生成され、その発話の音声認識が可能となります。音声認識に失敗する発話に関しては、利用者が、その発話をCAIWAのナレッジベースに登録して音声認識の対象となるように調整することができます。すなわち、VoiceCAIWAは、利用者がカスタマイズできる音声認識(音声認識ソフト)の機能を内蔵したシステムであることになります。
このように「利用者がカスタマイズできる言語モデル自動生成機能」は、ピートゥピーエーにおける音声認識技術の最大の特長であり、会話ロボットにも大きく役立つ技術と言えます。
韻律解析装置(Prosody Analyzer)
理想的な音響環境における音声認識に関しては、言語モデルや音響モデルを調整することにより、必要とする認識率が概ね達成できるようになっています。しかし、一般の音響環境では、種々の要因の影響を受けて音声認識率を悪化させてしまうことが頻発します。例えば、ちょっとした雑音や発話者の言い淀みや不連続発話に起因して意図しない認識結果が形成されたり、発話者が大声や小声で発話することに伴い、音声認識率が大幅に低下したりする現象が現れます。また、音量の調整が不十分であると、不必要な雑音を拾ってしまい、音声認識率の低下を招くという問題が発生します。したがって、音声認識では、音響環境の悪影響をできるだけ回避して、ロバスト性のある音声認識を実現することが重要課題となります。このことは、VoiceCAIWAにおける音声認識でも同様であり、利用者の発話に対して、できるだけロバスト性のある音声認識を実施し、認識結果をCAIWAに入力することが必要となります。特に会話ロボットの利用環境には欠かす事ができません。
VoiceCAIWAでは、このような「ロバスト性のある音声認識」を実現するために、韻律解析装置(Prosody Analyzer)を開発しています。韻律解析装置では、波形処理の技術を導入して、フィルタ処理、音声制御、および音量制御の機能を実現しています。韻律解析装置のフィルタ処理では、音声認識の対象としたい音声データと、そうではない音データ(突発雑音やフィラーなど)とを区別するという処理を行っています。また、音声制御では、音声認識の対象となる音声データの音量に着目し、大きな音声のときには大声警報を発令し、小さな音声の場合には小声警報を発令するような処理を実現しています。さらに、環境雑音に柔軟に対応するため音量制御機能を開発しており、定常雑音の音量レベルに応じて音量制御を実施する処理を実現しています。
韻律解析装置に実装されたこれらの機能により、適切な音声データのみを音声認識の対象とすることが可能となり、ロバスト性のある音声認識が実現できることになります。このようなロバスト性のある音声認識を実現したことが、言語モデル自動生成機能と同様に、ピートゥピーエーにおける音声認識技術の特長になっていると言えるでしょう。こうした音声認識技術で私達は音声による充実したコミュニケーションを実現しています。
特に現在、ピートゥピーエが開発中のヒューマノイドロボットでの「ロボットの音声認識」機能のキーテクノロジーとして使われています。


