スピーチの概要

previous page next page

音声認識の概要

音声認識 (SR) は、話した言葉をテキストへ変換するオペレーティングシステムの機能です。SR エンジンによって呼び出された内部ドライバが言葉を認識してテキストに変換します。SR エンジンはオペレーティングシステムのインストールと共に、あるいはその後でその他のソフトウェアと共にインストールされます。インストールの進行中、ワードプロセッサや Web ブラウザといったスピーチ機能が使用可能なパッケージは、それぞれのエンジンをインストールするか、既存のものを使います。追加のエンジンもサードパーティメーカーを通じて提供されます。これらのエンジンでは、一定の慣用句または用語、たとえば法律や医学に特化された用語を使用することがあります。また、異なる音声を使ってイギリス英語などの地域特有のアクセントやドイツ語、フランス語、ロシア語といった異なる言語をすべて話すこともあります。

音声を入力するためにマイクか、その他の音声入力デバイスが必要になります。一般にマイクはノイズフィルタを内蔵し、高い品質を持つデバイスです。入力の品質は、音声の認識率に直接影響を与えます。性能の劣るマイクでは認識率が非常に下がったり、機能しない場合があります。インストールウィザードを使うと、最も良い結果が得られるマイクの位置をテストする手順を示し、最適なマイクの設置場所を割り出します。

システムをインストールして使っている際に重要なのは、ユーザーの環境や話し方に合わせてトレーニングを行うことです。トレーニングのウィザードを使い、ファンの暗騒音やエアコンのハム音、その他オフィスの環境ノイズを認識させることができます。これによって、ユーザーの話し方、アクセント、発音、慣用句に適応させることができます。

音声認識のヒント

音声認識は、完全なハンズフリー操作に対応したものではありません。声とマウスやキーボードを組み合わせて使うことで最も良い結果が得られます。また、一定した話し方をするようにすると良い結果が得られます。他者と話をするとき、通常私たちは文脈や環境から、声の大小、話し方の早い遅いがあっても理解することができます。しかし、音声認識の場合は機械が予測が可能な話し方をしたときに最も良く単語の認識が行われます。

一定の調子で話をしてください。大きすぎる声や、柔らかすぎる話し方は話した内容の認識を困難にします。

速くしたり、遅くしたりすることなく、一定の速度で話してください。

単語の間で止まらずに話してください。コンピュータにとっては、語句の方が 1 つの単語よりも解釈するのが簡単です。たとえば、次のような読み方をするとコンピュータは語句を理解するのが難しくなります。"これは (休止) 違った (休止) 文章の (休止) 例です。"

コンピュータが周囲の雑音に紛れずにユーザーの声を拾えるように、周囲が静かなときに話し始めてください。また性能の良いマイクを使ってください。マイクは同じ位置に保ってください。一度調整を行った後は動かさないようにしてください。

Microsoft 音声認識トレーニングウィザードで用意されたトレーニング用のテキストを大きな声で読み上げ、ユーザーの声を認識するトレーニングを行ってください。トレーニングを追加すると、音声認識の精度が向上します。

発声した単語がすぐに画面に表示されなくても心配する必要はありません。発声を続けて、最後に休止を入れてください。コンピュータが音声の処理が終えた後に、認識されたテキストが画面に表示されます。

単語ははっきりと発音してください。しかし、単語内の各音節で区切らないでください。たとえば、sounding out each syllable in "はつ-おん-する" と各音節に区切って発声すると、コンピュータにはユーザーが何を言ったのか認識するのが難しくなります。

previous page start next page