DeepMind 技术加持,Google 用 AI 改善 Duo 通话遗漏-

DeepMind 技术加持,Google 用 AI 改善 Duo 通话遗漏

阿里云服务器优惠

随着 4G、5G 通讯技术渐渐发展,网路通话越来越盛行。但网路不稳是常态,所以通话时我们不时可能蹦出一句,「你能再讲一遍吗?刚刚网路好像不稳没听到。」

为了提高通话品质,Google 近期在视讯聊天应用 Duo 启用新技术 WaveNetEQ,出现音讯遗失时,会判断遗失的音讯资料可能是什幺并替代,背后技术支援来自 Google 旗下声名在外的 DeepMind 团队。

完整的线上通讯,资料经常分成多块,每块就是一个封包 packet。然而封包从传送方传到接收方的过程,通常不会依序到达,会产生音讯抖动、重叠等问题,或直接遗失,造成音讯空白。

Google 资料显示,Duo 99% 通话都有封包遗失、过度抖动或网路延迟。20% 通话遗失超过 3% 音讯,10% 通话丢包率超过 8%,也就是说每次通话都有很多音讯需要替代。

每个视音讯 App 都会用某种方式处理丢包。Google 表示,封包遗失隐藏(PLC)过程可能很难填补 60 毫秒或更长的空白。过去常用演算法是 NetEQ,是 webRTC 音讯技术的两大核心技术之一(另一核心技术是音讯前后处理,包括 AEC、ANS、AGC 等)。webRTC 由 Google 收购 GIPS 再开源,是目前影响力极大的即时音视讯通讯解决方案,但用它处理丢包,大多情况下听起来像机器人或机械重複音。

Google 以大量语音资料训练基于 DeepMind WaveRNN 技术的 WaveNetEQ 模型。训练资料集来自 100 多名、48 种不同语言的志愿者,也就是说可自动填补 48 种语言遗失情况。

WaveNetEQ 是用于语音合成的递迴神经网路模型,由两部分组成,即自回归网路(autoregressive network)和条件网路(conditioning network)。自回归网路的作用是保持讯号平稳流动,条件网路控制和影响自回归网路以保持音讯一致性。

Google WaveNetEQ 取代原来的 NetEQ PLC 套件,相对于 NetEQ,音质方面无疑有提升,且 WaveNetEQ 模型跑得够快,可在手机执行,如此也能避开用户担心的资料隐私问题。Google 称所有处理都是在装置进行,因 Duo 的通话预设就是端到端加密。一旦通话音讯恢复,将无缝切换到现实对话。

不过,WaveNetEQ 替代的内容和时长有限制。目前支援 120 毫秒内空白,之后会逐渐消失并归零;WaveNetEQ 不是生成完整单词,而是简单音节。

目前 WaveNetEQ 已应用到 Pixel 4 手机的 Duo App,Google 表示,正将之推广到其他 Android 手机。

  • Improving Audio Quality in Duo with WaveNetEQ

赞(0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  • potplayer
  • directx