ASR和TTS

最新推荐文章于 2025-05-05 12:56:19 发布

Tcrazyalways

最新推荐文章于 2025-05-05 12:56:19 发布

阅读量7.2k

点赞数 1

分类专栏： TTS＆ASR探讨文章标签： tts 网络嵌入式操作系统语言 application palm

本文链接：https://blog.csdn.net/Tcrazyalways/article/details/240922

版权

TTS＆ASR探讨专栏收录该内容

13 篇文章

订阅专栏

计算机技术总是在朝着功能更强大、使用更方便的方向发展，用户的需求永远都是技术前进的动力。ASR和TTS的出现，让人和计算机的距离更加靠近，人机接口更加自然。由于技术（识别率不够高）和人们习惯上的原因，ASR离真正的普及还有一段距离。但是，在通信领域，由于CTI的广泛应用，计算机技术不断融入通信平台，这项技术正在如火似涂的发展、普及。VoiceXML就是一个很好的例子，它的应用就是以ASR和TTS作为基础的。

　　ASR，英文的全称是Automated Speech Recognition，即自动语音识别技术，它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素：1. 识别词汇表的大小和语音的复杂性；2. 语音信号的质量；3. 单个说话人还是多说话人；4. 硬件。

　　TTS，英文全称是Text To Speech，即文语转换，又称为计算机语音合成，它的过程和ASR刚好相反，是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为，语音合成系统包括三个主要的组成部分：文本分析模块、韵律生成模块和声学模块。目前，TTS的技术已经可以达到商业化的地步。
目前，市场上有很多比较成熟的语音ASR和TTS产品，而且他们大多数都支持二次开发，如微软的Speech Application SDK（SASDK）、IBM的Dutty++等。他们能识别（生成）英语、日语和中文等不同国家的语言，Dutty++甚至能够识别某些地区的方言，如广东的方言－粤语。

TTS的基本结构

　　（1）语言学处理

　　在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。

　　（2）韵律处理

　　为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。

　　（3）声学处理

　　根据前两部分处理结果的要求输出语音，即合成语音。

　　TTS进一步发展方向

　　TTS将在下面几个方向发展。

　　进一步提高语音合成的质量，达到更加流利和自然的程度。

　　进一步研究音色的转换功能，使得TTS技术可以实现各种音色（包括不同性别、不同年龄等）的语音输出。

　　为各行业提供TTS核心技术和解决方案，特别是CTI和嵌入式系统。

TTS的处理流程

　　将TTS技术移植到其它操作系统如Linux、Unix，或者移植到其它嵌入式操作系统，如Palm OS、HOPEN等，考虑TTS技术的硬件实现。

　　将TTS技术和其它各种新技术相结合，并在更为广泛的范围内推广和应用TTS技术。

以下是一则新闻摘录（时间2003年）：
　　美国东部时间7月11日(北京时间7月12日)消息，最近，澳大利亚科学家开发出一款智能语音识别系统软件，可以智能识别用户语音，经鉴别的合法用户语音可以自动登录网络。这款软件的开发者是来自澳大利亚莫纳什大学的阿卡迪·扎斯拉夫斯凯(Arkady Zaslavsky)教授。他设计这款软件的初衷是让网络用户更便捷地登录网络，并希望网络用户识别更加智能化。

　　该软件可以识别用户的语音甚至是笑声，并将合法用户所发出的这些声音进行智能记忆存储。这对于那些习惯于自动登录网络的用户将是一个技术性的革新。用户的语音是由每台计算机配置的麦克风进行传输的。同时，软件另一项技术是通过运行在网络中每台电脑的编码程序实现智能代理识别功能，可以通过用户的语音识别确定用户在网络中的位置，实现智能识别跟踪用户。扎斯拉夫斯凯教授表示：“智能代理识别技术能在网络电脑中识别出用户最清晰的语音，直至精确到用户距离最近的一台网络电脑。如果用户在办公室来回走动，该软件也能由电脑麦克风辨别脚步声确定用户。一旦软件智能代理技术辨别出用户的脚步声，便能根据用户的脚步声进行识别其所在方向。”

　　目前，此款智能语音识别系统软件存在着一些缺陷，在技术上不能正确区分不同的计算机用户。扎斯拉夫斯凯称，“此款智能语音识别软件已经设计完成，下一步将要考虑开发更先进的智能代理识别技术，使智能语音识别技术日益完善。”