Hugging Face本周发布了1000多种模型,迈出了迈向机器翻译的第一步。研究人员使用无监督学习和开放并行语料库(OPUS)训练了模型。OPUS是由赫尔辛基大学和全球合作伙伴共同承担的一个项目,目的是收集和开源各种语言数据集,尤其是针对资源匮乏的语言。低资源语言是指那些训练数据少于常用语言(如英语)的语言。

从2010年开始,OPUS项目整合了流行的数据集,例如JW300。耶和华见证人的文字可用380种语言提供支持,这些资源被许多开源项目用于Masahane等资源匮乏的语言,以创建从英语到2,000种非洲语言的机器翻译。翻译可以使说不同语言的人们之间进行人际交流,并使世界各地的人们能够参与在线和面对面的商业活动,这对于可预见的未来尤为重要。

周四的发布意味着使用OPUS数据训练的模型现在构成了Hugging Face和最大的贡献组织赫尔辛基大学语言技术和研究小组提供的大多数模型。在本周之前,Hugging Face最出名的是能够轻松访问最新的语言模型和语言生成模型,例如Google的BERT,它可以预测文本中将出现的下一个字符,单词或句子。

用于Python的Hugging Face Transformers库安装了超过500,000个Pip,其中包括高级和最新NLP模型的预训练版本,例如Google AI的BERT和XLNet,Facebook AI的RoBERTa和OpenAI的GPT-2。

Hugging Face首席执行官ClémentDelangue在接受VentureBeat采访时表示,机器翻译业务是一项社区驱动的计划,该公司在2019年末完成了1500万美元的融资后,致力于围绕前沿的NLP建立更多的社区。

“由于我们是开源的,所以有很多人正在使用我们的库,所以我们开始看到越来越多的不同语言的人们聚集在一起,以不同的语言(尤其是低资源语言)对我们的某些模型进行预训练。就像NLP社区中的很多人都忘记了一样,”他说。“这使我们意识到,在实现NLP民主化的目标中,要实现这一目标的很大一部分不仅是像我们一直在以英语获得最佳效果,而且越来越多的人可以使用该模型中的其他语言,还提供翻译。”

Delangue还说,这一决定是由于机器翻译和序列到序列(Seq2Seq)模型的最新进展。Delangue说,在过去的几个月中,Hugging Face首先开始使用Seq2Seq模型。最近著名的机器翻译模型包括来自Google的T5和Facebook AI Research的BART,BART是用于训练Seq2Seq模型的自动编码器。

“即使在一年前,我们可能还不能仅仅因为纯机器翻译的结果就不够好。现在,它已经达到一种有意义并开始起作用的水平。”他说。Delangue补充说,Hugging Face将继续探索数据增强技术以进行翻译。

该消息是在本周早些时候与Weights和Biases集成在一起以增强可视化功能来跟踪,记录和比较训练实验后发布的。Hugging Face于去年秋天将其Transformers库带到TensorFlow。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。