本周,在详细介绍了Microsoft Teams的噪音抑制功能之后的几个月,我深入研究了Google Meet的噪音消除功能。两者都使用监督学习。两者都试图过滤打字,吸尘器和沙沙作响的袋子,同时保持讲话,唱歌和笑声。当然,在Microsoft Teams保留乐器的同时,Google Meet会取消其乐器,但除此之外它们几乎是相同的。至少看起来像它们,直到您在引擎盖下看。

时机也不是巧合-协作和视频会议工具从未像当前局势时代那样重要,因为在当前局势时代,成千上万的人必须在家中学习和工作。谷歌和微软正在对他们的机器学习排行榜进行测试,希望能够一次实现Zoom并粉碎Slack。Google Meet和Microsoft团队使用AI实时消除背景噪音,因此您只能在电话会议上听到语音。然而,在我采访了他们各自的产品线索后,令我震惊的是,这些公司在处理同一问题上有多么不同。

这是简单的版本:Google将其机器学习模型放在云中,而Microsoft将其机器学习模型放在边缘。除此之外,还有更多–让我直接引述产品线索。

这是G Suite产品管理总监Serge Lachapelle:

我们的工作一直是尽可能快地通过云。但是现在有了这些TensorFlow处理器,以及基本上是我们基础架构的构建方式,我们发现我们可以实时进行媒体操作,有时仅增加大约20毫秒的延迟。这就是我们走的路。

这是Microsoft Teams组程序经理Robert Aichner:

许多机器学习都发生在云中。因此,例如对于语音识别,您对着麦克风讲话,然后发送到云中。云具有巨大的计算能力,然后您可以运行这些大型模型来识别语音。对于我们来说,由于它是实时通信,因此我需要处理每个帧。假设是10或20毫秒帧。现在,我需要在这段时间内进行处理,以便立即将其发送给您。我无法将其发送到云端,等待一些噪声抑制,然后再发送回去。

延迟问题也导致了有关成本的问题。每增加一个网络跃点都会增加延迟,并且为每个呼叫执行大量服务器处理会增加成本。

Google的Lachapelle,费用:

有一个相关的成本。绝对。但是在建模过程中,我们认为这会使针移动得太多,所以这是我们需要做的。这是我们将首先为付费的G Suite客户带来的功能。当我们看到它的使用量并继续改进它时,希望我们能够将它带给越来越多的用户。

微软的Aichner,在成本上:

您要确保将尽可能多的计算推送到用户的端点,因为这实际上并没有涉及任何成本。您已经拥有笔记本电脑,PC或手机,所以现在让我们进行一些其他处理。只要您不使CPU过载,就可以了。

但是,还有其他折衷考虑。

Google的Lachapelle,速度:

在不降低速度的情况下做到这一点非常重要,因为这基本上就是我们团队的大部分工作-始终尝试优化所有内容以提高速度。我们无法引入会使速度变慢的功能。因此,我想说,仅仅对代码进行优化以使其变得尽可能快可能是完成工作的一半以上。不仅仅是创建模型,还不仅仅是整个机器学习部分。就像优化,优化,优化一样。这是最困难的障碍。

微软的Aichner,关于电池寿命:

是的,电池续航力,我们显然也在关注这一点。我们不希望您现在的电池寿命大大降低,只是因为我们增加了一些噪音抑制功能。这绝对是我们发货时的另一个要求。我们需要确保我们没有在那里退步。

乍一看,这些不同的方法很有意义。就在公司各自的DNA中。Google诞生于互联网时代,而Microsoft开创了软件时代。传统上,微软是在本地安装软件,而谷歌则是关于在云中托管的应用程序。简而言之,这是Microsoft Office与G Suite的对比。

尽管如此,它从未如此简单。当然,Office使G Suite相形见,,但是Microsoft Azure比Google Cloud更成功。同时,谷歌浏览器赢得了如此巨大的胜利,以至于Edge现在基于Chromium。

但是我离题了。Google和Microsoft在为各自的视频通话解决方案建立噪声过滤时,采取了截然不同的方法。Google随云而来,将相同的体验带给了所有人,但该死的了。微软竭力将最佳体验带给每个人,但该死的复杂性却令人遗憾。

Lachapelle和Aichner都向我承认,他们可能必须根据每个功能的部署方式来改变其方法。现在说哪种解决方案更好,或者是否会有赢家还为时过早。但是,如果这些公司之一受到支持,就会有明显的失败者:云还是边缘。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。