语音识别技术跨大步微软系统出错率低至5.1%,语音识别,生物识别,微软-智能制造网

语音识别技术跨大步微软系统出错率低至5.1%

导读：8月20日，微软在其技术博客上表示，其对话式语音识别系统的出错率达到5.1%，达到了专业速录员的同等水平。

　　【中国智能制造网技术前沿】在过去几年中，人们在人工智能和深度学习领域的突破，让语音识别的探索跨了一大步。8月20日，微软在其技术博客上表示，其对话式语音识别系统的出错率达到5.1%，达到了专业速录员的同等水平。

　　今年3月，谷歌在Next云计算大会上发布了面向的新机器学习平台，并开放语音识别的API，即谷歌语音搜索和语音输入的支持技术。据悉，Google Cloud SPeechAPI一开始将免费提供，以后再进行收费。这一应用包括了80多种语言，适用于各种实时语音识别与翻译应用。

　　除了谷歌的这款平台之外，比如Echo、Alexa和Siri等都证明了人们愿意与科技产品展开语音对话，而不仅仅是在冷冰冰的屏幕和键盘上点来点去。这使得语音助手在科技平台大战中获得了新的重要地位。

　　而在这些智能语音产品的背后，也揭示了互联网公司希望借此推动智能语音模型的进一步演进和智能语音技术的快速普及。

　　在过去几年中，人们在人工智能和深度学习领域的突破，让语音识别的探索跨了一大步。近来，随着识别技术的持续升级，人工智能语音助手发展迅猛，大有席卷智能家居和语音服务市场的趋势。

　　基于语音生物识别系统多因素身份验证需求的增加，特别是手机银行应用程序和人工智能在语音和语音识别准确性上的发展，语音识别市场增长迅猛。

　　根据MarketsandMarkets的新研究，今年的语音和语音识别市场预计将达到61.9亿美元，到2023年将增长至183亿美元，复合年增长率为19.8%。报告还指出，预计北美地区将在预测期间占据语音识别市场的大份额。这在很大程度上是由于生物识别系统的部署所造成的，以确保高水平的安全性。

　　尽管语音识别发展趋势向好，但问题也依然存在。比如对噪音的敏感性问题。一个语音识别系统在非常接近麦克风而且不嘈杂的环境中运行得很好——然而，如果说话的声音比较远或者环境很嘈杂能迅速降低系统的效能。

　　除此之外，语音识别还必须解决语言扩展的问题。要知道，世界上大约有7000种语言，绝大多数语音识别系统能够支持的语言数量大约是八十种。由此可以看出，扩展系统将带来了巨大的挑战。

　　可以说，“语音识别”的梦想，是真正能够理解人类语言甚至是方言环境的系统。经过几十年的发展，如今的语音识别迎来了里程碑式的进步。8月20日，微软在其技术博客上表示，其对话式语音识别系统的出错率达到 5.1%，达到了专业速录员的同等水平。

　　这项新的研究是由微软人工智能和研究小组的研究人员完成的，他们的目标是达到与人类转录员相同的准确度水平。总的来说，新研究的研究人员通过改进微软语音识别系统的神经网络声学和语言模型，将错误率降低了大约12%。

　　值得注意的是，他们还使它的语音识别器能够使用整个对话，让它根据上下文来调整它的转录，并预测接下来可能出现的单词或短语以及与人类交谈时的方式。可以说，微软语音识别系统达成了新的里程碑。