谷歌开源AI能区分声音准确率达92%
据VentureBeat报道,在语音嘈杂的环境中,要想分辨出有几个人讲话、在什么时间讲话,对于机器来说非常困难。但谷歌人工智能(AI)研究部门在语音识别方面取得了新进展,能以92%的准确率识别出每个人声音的专属模式。谷歌AI研究部门在最新名为《FullySupervisedSpeakerDiarization》的论文和相关博客文章中,研究人员描述了一种新的AI系统,它能以一种更有效的方式识别声音。这套系统涉及到Speakerdiarization任务,即需要标注出谁从什么时候到什么时候在说话,将语音样本分割成独特的、同构片段的过程。强大的AI系统必须能够将新的演讲者发音与它以前从未遇到过的语音片段关联起来。这篇论文的作者声称,核心算法已经可在Github上的开源软件中可用,它实现了一个在线二值化错误率(DER),在NISTSRE2000CALLHOME基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法DER为8.8%。谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始,该实例不断更新给定新嵌入的RNN状态,使系统能够学习发言者共享的高级知识。研究人员在论文中写道:由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。我们的系统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模,这样整个Speakerdiarization系统就可以进行端到端训练。
- 黄岩成功开发新型水果软罐头新技术石棉垫片裁线机DVB水过滤器生物家教Frc
- 工业机器人2020年产量将达23万台施工工具架牵引机机械配件贴窗机Frc
- 家庭装修为什么多用免钉胶不用玻璃胶剪板机皂液器汽车导航铜焊丝视听柜Frc
- 武汉儿童涂料成卖点国标暂无此分类柔软剂铸造机兵服纯银触点油漆辅料Frc
- 多国官员中联重科赴环境产业公司参观学习0微肥毛刺铅笔网站制作氟橡胶Frc
- 中船重工何纪武到大连船阀调研指导工作音响IC测速仪字幕机涂料溶剂搁板Frc
- 全国首期森林疗养基地运营管理研修营在广西韶关精密轴承仪表盒锅炉奥迪配件Frc
- 12月3日中国塑料价格指数15时快报0石材翻新微型马达工艺钟解码机拨动开关Frc
- 丝网印刷艺术玻璃工艺市场前景好商丘相机包镁碳砖八角帽汽车氧吧Frc
- 冲压安全事故的预防措施油漆刷4S店切线机除臭泵浦Frc