Facebook AI的Demucs教AI以更人性化的方式聆听
来源:
Demucs是Facebook AI的一项新研究项目。它旨在将音轨分为不同的乐器或人声,类似于人类如何检测特定乐器并解决现有方法的问题。从长远来看,Demucs也可以应用于其他AI任务。
对于机器而言,音乐源分离可能是一项艰巨的任务,而对于人类而言,区分人声,低音或鼓音则更为容易。为了帮助完成此任务,Facebook AI研究科学家Alexandre Defossez开发了Demucs(音乐源的深层提取器)。
如著名的“鸡尾酒会效果”所述,人类可以在嘈杂的环境中进行特定的对话。分离声源的任务给机器带来了困难。让我们看看AI工具如何管理此任务以及Demucs与众不同的地方。
频谱图与波形
正如Defossez所指出的,最常见的是,AI通过分析频谱图来分离音乐源。尽管此方法非常适合在单个频率上谐振的仪器,但基于频谱图的方法也有其缺点。例如,萨克斯风和吉他频率可以相互抵消。
这就是Demucs发挥作用的地方-一种基于AI的波形模型,其设计原理类似于计算机视觉如何检测图像中的图案。“它会检测波形中的模式,然后添加更高比例的结构,” Defossez解释说。换句话说:“ Demucs可以重新创建它认为存在但混入其中的音频。”
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。