10月 29日,云从科技宣布在语音识别技术上取得重大突破,在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,错词率(Worderrorrate,WER)降到了2.97%,将Librispeech的WER指标提升了25%,超过阿里、百度、约翰霍普金斯大学等企业及高校,大幅刷新原先记录。

此次突破标志着云从科技在今年4月刷新跨镜追踪技术(ReID)三项世界纪录后在新领域再次取得重大成果,正全力夯实核心技术闭环。

云从科技此次推出的语音识别模型Pyramidal-FSMN融合图像识别与语音识别的优势,将残差卷积网络和金字塔记忆模块的序列记忆网络相结合, 能够同时有效的提取空间和时间上不同粒度的信息,对比目前业界使用最为广泛的LSTM模型,训练速度更快、识别准确率更高。

Librispeech是当前衡量语音识别技术的最权威主流的开源数据集,错词率(Worderrorrate,WER)是衡量语音识别技术水平的核心指标。

声明:本文来自亿欧,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。