Facebook声称wav2vec 2.0拥有10分钟的标记数据
在预印服务器Arxiv.org上发表的一篇论文中,Facebook的研究人员描述了wav2vec 2.0,这是一种用于自我监督语音识别的改进框架。他们声称,这首次证明了从语音中学习表示形式,然后对转录的语音进行微调,可以超越最佳的半监督方法,同时在概念上更简单,仅用10分钟即可获得最新的结果。标记数据,并在53,000小时的未标记数据上进行预培训。
AI模型得益于大量标记数据-这就是它们学习如何推断模式并做出预测的方式。但是,正如论文的共同作者一样,带标签的数据通常比未带标签的数据更难获得。当前的语音识别系统需要数千小时的转录语音才能达到可接受的性能,而全球将近7,000种语言中的大多数语言都无法使用。Facebook最初的wav2vec和其他系统试图通过自我监督来避免这种情况,自我监督会根据数据自动生成标签。但是与半监督方法相比,它们在性能方面有所欠缺。半监督方法在训练过程中将少量标记数据与大量未标记数据结合在一起。
Wav2vec 2.0从表面上弥合了编码器模块的差距,该编码器模块获取原始音频并输出语音表示形式,然后将这些语音表示形式提供给Transformer,以确保这些表示形式捕获整个音频序列信息。Transformer网络架构由Google研究人员于2017年创建,最初旨在作为一种改进机器翻译的方法。为此,它使用注意力函数而不是递归神经网络来预测序列中的下一步。此特性使wav2vec 2.0可以在连续语音表示之上构建上下文表示,并端到端记录音频序列的统计依赖性。.
为了预训练wav2vec 2.0,研究人员掩盖了部分语音表示(大约49%的所有时间步长,平均跨度为299毫秒),并要求系统正确预测它们。然后,为了对其进行微调以进行语音识别,他们在wav2vec 2.0之上添加了一个投影,该投影以用于字符和单词边界(例如,英语书面单词的单词空间)的标记的形式表示词汇,然后在训练期间执行附加遮罩。
合著者在128个Nvidia V100图形卡上一次在多个未标记和标记的数据源上对wav2vec 2.0进行了长达5.2天的培训,以评估系统的性能。在8到24个图形卡之间进行了微调。
根据该团队,最大的受过训练的wav2vec 2.0模型(仅对10分钟的标记数据进行了微调(48条记录,平均长度为12.5秒))在开源Librispeech语料库上实现了5.7的单词错误率。(在这里,“单词错误率”是指错误数除以总单词数。)在Librispeech的100小时子集中,同一模型的单词错误率比以前的水平低2.3 — 45%。经过训练的标签数据减少了100倍-在更多数据上进行微调时则为1.9,与依赖更复杂架构的顶级半监督方法相比,该结果具有竞争力。
研究人员写道:“ [这表明,通过对未标记数据进行自我监督学习,可以实现超低资源语音识别。”“我们已经证明,可以使用非常少量的带注释的数据以非常好的准确性构建语音识别模型。我们希望我们的工作将使语音识别技术更广泛地应用于更多的语言和方言。”
Facebook使用原始的wav2vec来提供更好的音频数据表示形式,以进行关键字发现和声音事件检测,并改善其系统,以主动识别违反社区准则的帖子。wav2vec 2.0可能会应用于相同的任务;除此以外,该公司还表示计划提供模型和代码,以扩展其fairseq建模工具包。