语音概述

Speech 5.0 control panel

语音识别概述

语音识别 (SR) 是操作系统将口头语言转换为书面文字的能力。内部驱动程序(称为 SR 引擎)识别这些语言并能够将它们转换为文字。SR 引擎可以和 OS 安装在一起,或者稍后与其他软件一起安装。在安装过程中,语音启用包(例如字处理程序和 Web 浏览器)将安装自己的引擎,也可以使用已有的引擎。或者使用第三方供应商的其他引擎。这些引擎经常使用一些固定的术语或词汇。例如,医学或法律的专门术语。它们还可以使用带地区重音的不同语音,例如英国英语;或者同时使用不同的语言,例如德语、法语或俄语。

需要扩音器或其他声音输入设备来接收声音。通常,扩音器应该是带有集成噪音过滤器的高质量设备。语音识别率直接与输入质量相关。劣质扩音器的识别率非常低,有的甚至无法接收。安装向导会指导您完成所需步骤,并且推荐放置扩音器的最佳位置(由您进行测试,得到最佳效果)。

系统安装完成并工作正常后,应该训练它适应环境和讲话风格。使用同一训练向导,可以训练系统识别背景噪音,例如风扇、空调的嗡翁声或办公室的其他声音。它会适应您的讲话风格,包括重音、发音甚至习惯用语。

语音识别技巧

语音识别不是完全不用人工干预的操作。如果将声音、鼠标或键盘相结合地使用会取得最佳的效果。而且,平稳一致的语音质量会带来最佳效果。和其他人谈话时,我们一般通过内容和环境,甚至窃窃私语、喊叫或语言的疾徐来了解对方的意图。但是,语音识别在以更能预见的方式播讲时,才能获得对词语的最佳理解。

  • 以一致而平稳的语调讲话。讲话声音过低或过于柔和,都会使计算机难于识别您所讲的内容。
  • 使用一致的速率,不加速或减速。
  • 在字和字之间不要停顿。计算机更容易识别词语而非单个的字。例如,计算机在理解这样的多个词时会有困难,例如“This(停顿)is(停顿)another(停顿)example(停顿)sentence。”
  • 在安静的环境下开始讲话,这样计算机会听到您的声音而非其他背景声音,同时还应该使用优质扩音器。请在同一位置存放扩音器,尽量不要在调试时移动它。
  • 通过大声阅读在 Microsoft 语音识别训练向导中准备好的训练文本,来训练计算机识别您的声音。其他的训练将会增强语音识别的精确度。
  • 在口述时,不要考虑为什么没有立即在屏幕上看到字词。连续讲话直到全部表达完。计算机将在完成声音处理后在屏幕上显示识别出的文本。
  • 发音要清晰,但是不要以每个单词的音节为分隔单位。例如,发出每个音节的声音“e-nun-ci-ate”,这样会使计算机难以理解您所说的内容。