语音概述

previous page next page

语音识别概述

语音识别 (SR) 是操作系统将口头语言转换为书面文字的能力。内部驱动程序（称为 SR 引擎）识别这些语言并能够将它们转换为文字。SR 引擎可以和 OS 安装在一起，或者稍后与其他软件一起安装。在安装过程中，语音启用包（例如字处理程序和 Web 浏览器）将安装自己的引擎，也可以使用已有的引擎。或者使用第三方供应商的其他引擎。这些引擎经常使用一些固定的术语或词汇。例如，医学或法律的专门术语。它们还可以使用带地区重音的不同语音，例如英国英语；或者同时使用不同的语言，例如德语、法语或俄语。

需要扩音器或其他声音输入设备来接收声音。通常，扩音器应该是带有集成噪音过滤器的高质量设备。语音识别率直接与输入质量相关。劣质扩音器的识别率非常低，有的甚至无法接收。安装向导会指导您完成所需步骤，并且推荐放置扩音器的最佳位置（由您进行测试，得到最佳效果）。

系统安装完成并工作正常后，应该训练它适应环境和讲话风格。使用同一训练向导，可以训练系统识别背景噪音，例如风扇、空调的嗡翁声或办公室的其他声音。它会适应您的讲话风格，包括重音、发音甚至习惯用语。

语音识别技巧

语音识别不是完全不用人工干预的操作。如果将声音、鼠标或键盘相结合地使用会取得最佳的效果。而且，平稳一致的语音质量会带来最佳效果。和其他人谈话时，我们一般通过内容和环境，甚至窃窃私语、喊叫或语言的疾徐来了解对方的意图。但是，语音识别在以更能预见的方式播讲时，才能获得对词语的最佳理解。

以一致而平稳的语调讲话。讲话声音过低或过于柔和，都会使计算机难于识别您所讲的内容。

使用一致的速率，不加速或减速。

在字和字之间不要停顿。计算机更容易识别词语而非单个的字。例如，计算机在理解这样的多个词时会有困难，例如“This（停顿）is（停顿）another（停顿）example（停顿）sentence。”

在安静的环境下开始讲话，这样计算机会听到您的声音而非其他背景声音，同时还应该使用优质扩音器。请在同一位置存放扩音器，尽量不要在调试时移动它。

通过大声阅读在 Microsoft 语音识别训练向导中准备好的训练文本，来训练计算机识别您的声音。其他的训练将会增强语音识别的精确度。

在口述时，不要考虑为什么没有立即在屏幕上看到字词。连续讲话直到全部表达完。计算机将在完成声音处理后在屏幕上显示识别出的文本。

发音要清晰，但是不要以每个单词的音节为分隔单位。例如，发出每个音节的声音“e-nun-ci-ate”，这样会使计算机难以理解您所说的内容。

previous page start next page