音声認識の概要
音声認識 (SR) は、話した言葉をテキストへ変換するオペレーティング システムの機能です。SR エンジンによって呼び出された内部ドライバが言葉を認識してテキストに変換します。SR エンジンはオペレーティング システムのインストールと共に、あるいはその後でその他のソフトウェアと共にインストールされます。インストールの進行中、ワード プロセッサや Web ブラウザといったスピーチ機能が使用可能なパッケージは、それぞれのエンジンをインストールするか、既存のものを使います。追加のエンジンもサード パーティ メーカーを通じて提供されます。これらのエンジンでは、一定の慣用句または用語、たとえば法律や医学に特化された用語を使用することがあります。また、異なる音声を使ってイギリス英語などの地域特有のアクセントやドイツ語、フランス語、ロシア語といった異なる言語をすべて話すこともあります。
音声を入力するためにマイクか、その他の音声入力デバイスが必要になります。一般にマイクはノイズ フィルタを内蔵し、高い品質を持つデバイスです。入力の品質は、音声の認識率に直接影響を与えます。性能の劣るマイクでは認識率が非常に下がったり、機能しない場合があります。インストール ウィザードを使うと、最も良い結果が得られるマイクの位置をテストする手順を示し、最適なマイクの設置場所を割り出します。
システムをインストールして使っている際に重要なのは、ユーザーの環境や話し方に合わせてトレーニングを行うことです。トレーニングのウィザードを使い、ファンの暗騒音やエアコンのハム音、その他オフィスの環境ノイズを認識させることができます。これによって、ユーザーの話し方、アクセント、発音、慣用句に適応させることができます。
音声認識のヒント
音声認識は、完全なハンズフリー操作に対応したものではありません。声とマウスやキーボードを組み合わせて使うことで最も良い結果が得られます。また、一定した話し方をするようにすると良い結果が得られます。他者と話をするとき、通常私たちは文脈や環境から、声の大小、話し方の早い遅いがあっても理解することができます。しかし、音声認識の場合は機械が予測が可能な話し方をしたときに最も良く単語の認識が行われます。