语音技术背景介绍

  • 智能语音技术是让机器“能听会说”的技术,主要包括语音合成技术、语音识别技术、语音评测技术、人机对话等。
  • 语音合成技术主要是使机器发声的技术,目前技术成熟度已经达到实用水平。
  • 语言识别主要是指自动语音识别(Automatic Speech Recognition,ASR),是将人类语音中的词汇内容转换为计算机可处理的输入。美国国家标准与技术研究院(National Institute of Standards and Technology, NIST) 从二十世纪九十年代中期开始组织智能语音系统的性能评测工作,剑桥大学机器智能实验室研发的语音识别技术连续11年获得评测的第一名。
  • 语音评测技术是指通过机器自动对语音进行发音水平评价、检错,并给出纠正指导的技术,语音评测中涉及人工智能领域的部分,一直是业界的难点。不限说话内容、说话人、及说话环境的高性能语音识别技术需要巨大的计算量,目前只有通过大量服务器并行处理才能完成。
  • 人机语音对话系统是目前语音技术领域最前沿科技,不但包含语音识别技术,还需要语言理解技术,及对话智能控制技术。