一个由人工智能的一些最伟大的头脑组成的研究联盟正在发布一个衡量自然语言处理能力的基准。
该联盟包括谷歌深度思维、脸书人工智能、纽约大学和华盛顿大学。联盟的每个成员都认为NLP需要一个比当前解决方案更全面的基准。
其结果是一个名为SuperGLUE的基准平台,它用一个“更难的基准和全面的人工基准”取代了一个名为GLUE的旧平台。
SuperGLUE有助于测试NLP功能,而之前的基准测试对于最新的系统来说太简单了。
“在发布后的一年内,一些NLP模型在GLUE基准上的性能已经超过了人类基准。目前,该模型已经提出了一种令人惊讶的有效方法,该方法将大型文本数据集的语言模型预训练与简单的多任务和迁移学习技术相结合。
2018年,谷歌发布了Bert(《变形金刚》的双向编码器),脸书称之为NLP最大的突破之一。脸书接受了谷歌的开源工作,并确定了提高其有效性的改变,这导致了RoBERTa(严格优化的BERT预训练方法)。
正如孩子们所说,罗伯塔基本上按照常用的基准“砸了它”:
“在发布后的一年内,几个NLP模型(包括RoBERTa)已经在GLUE基准上超过了人类基准性能。当前的模型已经提出了一种令人惊讶的有效方法,该方法将针对大型文本数据集的语言模型预训练与简单的多任务和迁移学习技术相结合。
对于SuperGLUE基准测试,联盟决定满足四个条件的任务:
有很多格式。
使用更微妙的问题。
使用最先进的方法还有待解决。
很容易被人解决。
新的基准测试由八个不同且具有挑战性的任务组成,包括“选择合理选择(COPA)”因果推理任务。前述任务为系统提供了句子的前提,它必须从两种可能的选择中确定前提的原因或结果。人类在COPA上已经成功实现了100%的准确率,而BERT只有74%。