2006年3月28日

Speech 语音识别系统

很久以前就听说过这个领域,当然主要可能是接触了KaifuLee的一些文字说明和所谓的传记。其实那个时候只是盲目的崇拜而已,自己倒是没有多少理解和自己的见地和想法的。 ^_^ 汗 其实现在也还是个门外汉而已,只是今天突然看到了控制面板中有一个平常没有见到的东西Speech 运行一看才知道是这个。所以前前后后就开始想着说点什么了。
一 源于KaifuLee的故事 就是上面所说的了

二 曾经需要把一些录音转换成书面的文字,非常的烦琐,一边听录音 一边输入汉字,捣鼓了几天效果不是很好,所以曾经在Google里面搜索了一些相关的资料,这些年过去了还是那些文字放在那里,几乎没有什么大的变化和进展。不得已还是用最原始的方法边听边写,累死人了那几天!

三 就是今天看到了这些,而且亲自体验了一番,感觉还是那么回事。所以萌生了写下一些, 择录一些文字的想法。 不知道什么时候我们的科技可以发展到真真的所谓的语音识别就好了,说什么计算机马上就可以知道你想做什么,马上就可以执行命令,这是很多科幻故事里面的情节。估计哪个时代离我们还很远?^_^

语音识别概述 -----来之系统自带帮助文档
语音识别 (SR) 是操作系统将口头语言转换为书面文字的能力。内部驱动程序(称为 SR 引擎)识别这些语言并能够将它们转换为文字。SR 引擎可以和 OS 安装在一起,或者稍后与其他软件一起安装。在安装过程中,语音启用包(例如字处理程序和 Web 浏览器)将安装自己的引擎,也可以使用已有的引擎。或者使用第三方供应商的其他引擎。这些引擎经常使用一些固定的术语或词汇。例如,医学或法律的专门术语。它们还可以使用带地区重音的不同语音,例如英国英语;或者同时使用不同的语言,例如德语、法语或俄语。

需要扩音器或其他声音输入设备来接收声音。通常,扩音器应该是带有集成噪音过滤器的高质量设备。语音识别率直接与输入质量相关。劣质扩音器的识别率非常低,有的甚至无法接收。安装向导会指导您完成所需步骤,并且推荐放置扩音器的最佳位置(由您进行测试,得到最佳效果)。

系统安装完成并工作正常后,应该训练它适应环境和讲话风格。使用同一训练向导,可以训练系统识别背景噪音,例如风扇、空调的嗡翁声或办公室的其他声音。它会适应您的讲话风格,包括重音、发音甚至习惯用语。

语音识别技巧
语音识别不是完全不用人工干预的操作。如果将声音、鼠标或键盘相结合地使用会取得最佳的效果。而且,平稳一致的语音质量会带来最佳效果。和其他人谈话时,我们一般通过内容和环境,甚至窃窃私语、喊叫或语言的疾徐来了解对方的意图。但是,语音识别在以更能预见的方式播讲时,才能获得对词语的最佳理解。

以一致而平稳的语调讲话。讲话声音过低或过于柔和,都会使计算机难于识别您所讲的内容。
使用一致的速率,不加速或减速。
在字和字之间不要停顿。计算机更容易识别词语而非单个的字。例如,计算机在理解这样的多个词时会有困难,例如“This(停顿)is(停顿)another(停顿)example(停顿)sentence。”
在安静的环境下开始讲话,这样计算机会听到您的声音而非其他背景声音,同时还应该使用优质扩音器。请在同一位置存放扩音器,尽量不要在调试时移动它。
通过大声阅读在 Microsoft 语音识别训练向导中准备好的训练文本,来训练计算机识别您的声音。其他的训练将会增强语音识别的精确度。
在口述时,不要考虑为什么没有立即在屏幕上看到字词。连续讲话直到全部表达完。计算机将在完成声音处理后在屏幕上显示识别出的文本。
发音要清晰,但是不要以每个单词的音节为分隔单位。例如,发出每个音节的声音“e-nun-ci-ate”,这样会使计算机难以理解您所说的内容。
这个是目前的阶段来之微软的科技成果:Office2003安装好后Win2000系统的控制面板中才会出现Speech这个选项。所以其他的系统我还不知道是什么情况。难免会偏颇...

没有评论:

发表评论

2025年的第一篇

世事变化无常,谁能想到! 各行各业公司在 “裁员滚滚”,晋升渠道关闭[苦涩]合约期真的很重要,可以说时运太重要了  祸福相依,每个人都有每个人的命运 天下无不散之宴席! 可能就差那么几天 境遇天差地别!不同企业的待遇也是差别非常大 导致不同的人境况不一样 不可一言而足! 借用人家...