全球观焦点：大道至简：只靠单一任务训练的语言模型，效果好到惊呆网友

2023-02-12 01:53:11来源：量子位

羿阁发自凹非寺

(资料图)
量子位 | 公众号 QbitAI

训练任务越多，真的意味着泛化能力越强吗？

一项最新的研究告诉我们：No！大漏特漏！

令大部分人意外的是，其实，专攻一个训练任务的专家语言模型在这方面的表现更佳！

数据为证，在11个不同的、未经训练的数据集上，其平均准确率甚至比提示微调模型高出3.20%。

不仅如此，单个专家模型合并后还能表现出超强的组合能力，既不需要访问原始数据，还节省了计算开销。

有网友看完就表示：非常有趣！果然模型并不一定越大越好！

还有网友则感慨：这就是所谓的“简单胜过复杂”吧。

效率、准确性都更高

首先，研究者先为每个训练任务培训了一个专家模型。

从下图可以看出，在总结、问答、情绪分析等“本职任务”上，每个专家模型的表现都很优秀。

例如，当被问到“我们在星期六晚上来到这里，幸运地发现没有我想象中那么拥挤，如果从1到5打分，我会给它打几分？”

该模型精准地拿捏了这段话中“惊喜”的情绪，并回答“4分”。

那么问题就来了，只靠单一任务训练的专家语言模型，泛化能力究竟如何？

为了展示其效果，研究者找来了一个经过提示微调的多任务语言模型T0-3B进行对比。

结果显示，在11个不同的、未经训练的数据集上，专家语言模型的平均准确率比T0-3B要高 3.20% 。

在13个BIG-bench基准数据集上，专家语言模型的平均准确率也要高出1.29%。

不仅如此，研究者还进一步分析了专家语言模型的优点，得出三点结论：

第一，专注于单项任务的专家语言模型能有效避免指令调整过程中经常发生的负迁移问题，也就是更少受另一种学习的干扰。

第二，专家语言模型能够不断学习新的任务，而不必重新训练以前的任务，以避免灾难性遗忘。

过去，当遇到学习新任务的要求时，往往需要不断地在原始任务和额外任务的样本上进行指令调整训练，这种方法既需要访问原始数据，还会导致额外的计算开销。

而现在，仅需要为每个额外的任务培训单独的专家语言模型，并将他们简单地添加到专家库中，就可轻松做到这一点。

实验证明，新方法可以有效地保持可见任务的性能，不过会轻微降低不可见任务的性能（- 0.15%）。

第三，个别专家语言模型在合并后能显示出优越的组合能力。

举个例子，当语言模型被要求回答“总结下列英文文本的摘要，并将句子翻译成韩语”时，这其实包含了“概括”和“翻译”两个任务。

研究者分别训练了一个总结模型和5个不同语种的翻译模型，再将它们用分布式训练的方法进行合并，并对它们的组合能力进行了测试。

结果显示，该方法的性能同样优于经过提示微调的多任务语言模型，平均得分高出2.72%。

不过值得一提的是，在论文最后，研究者也特别提到，这一结论与模型大小有直接关系，目前的研究没有包括参数大于11B的模型情况。

研究团队

该研究的团队来自KAIST （韩国科学技术院）、LG AI Research和伊利诺伊大学芝加哥分校。

第一作者Joel Jang，目前是KAIST语言与知识实验室的二年级硕士生，本科毕业于高丽大学计算机科学专业。

该论文是他在LG AI Research实习期间完成。

论文链接如下，感兴趣的小伙伴们可以自取～

论文链接： https://arxiv.org/pdf/2302.03202.pdf

参考链接： [1]https://twitter.com/jang_yoel/status/1623169024489328640/retweets/with_comments [2]https://joeljang.github.io/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

标签：语言模型原始数据大道至简

精彩推荐

资讯News

聚焦Policy

图集Picture

效率、准确性都更高

研究团队

520送女友钢丝球花束寓意情比钢坚网友评论过完节还可以刷碗

全球提供最快免费Wi-Fi十大机场美国旧金山国际机场位居榜

山东高院通报消费者权益保护工作情况：新类型案件明显增多

南京查处涉疫案件41件坚持处罚与教育相结合

深入推进科技特派员制度北京市将开展全民科学素质提升行动

近期多部门相继释放积极信号房地产市场不对称复苏格局显现

加强国际传播人才培养专家学者探讨新疆经济社会发展与人权保障

保障职业技能等级制度体系规范运行 “山寨职业证书”专项治理来了

对电商“霸王条款”说不新司法解释宣告“签收即认可”无效

当好农民工的“护薪人”

“通讯录里所有人都知道我欠钱了”——网贷乱象调查

大连宝马车撞人案肇事司机被判死刑

医院财务迷上网络赌博输光5000万元公款

辊环车削雕琢毫厘

北京交警严查超标电动自行车挪用“白牌”

寒潮来袭北方气温普降10℃以上

北京多种蔬菜价格降幅达五成

北京周日最低气温或达-4℃

北京朝阳两涉疫校区及16所学校停课

事业单位招聘可适当降低学历要求

当好农民工的“护薪人”

“通讯录里所有人都知道我欠钱了”——网贷乱象调查

大连宝马车撞人案肇事司机被判死刑

医院财务迷上网络赌博输光5000万元公款

辊环车削雕琢毫厘

北京交警严查超标电动自行车挪用“白牌”

寒潮来袭北方气温普降10℃以上

北京多种蔬菜价格降幅达五成

北京周日最低气温或达-4℃

北京朝阳两涉疫校区及16所学校停课

效率、准确性都更高

研究团队

520送女友钢丝球花束寓意情比钢坚 网友评论过完节还可以刷碗

全球提供最快免费Wi-Fi十大机场 美国旧金山国际机场位居榜

山东高院通报消费者权益保护工作情况：新类型案件明显增多

南京查处涉疫案件41件 坚持处罚与教育相结合

深入推进科技特派员制度 北京市将开展全民科学素质提升行动

近期多部门相继释放积极信号 房地产市场不对称复苏格局显现

加强国际传播人才培养 专家学者探讨新疆经济社会发展与人权保障

保障职业技能等级制度体系规范运行 “山寨职业证书”专项治理来了

对电商“霸王条款”说不 新司法解释宣告“签收即认可”无效

当好农民工的“护薪人”

“通讯录里所有人都知道我欠钱了”——网贷乱象调查

大连宝马车撞人案肇事司机被判死刑

医院财务迷上网络赌博输光5000万元公款

辊环车削 雕琢毫厘

北京交警严查超标电动自行车挪用“白牌”

寒潮来袭 北方气温普降10℃以上

北京多种蔬菜价格降幅达五成

北京周日最低气温或达-4℃

北京朝阳两涉疫校区及16所学校停课

事业单位招聘可适当降低学历要求

当好农民工的“护薪人”

“通讯录里所有人都知道我欠钱了”——网贷乱象调查

大连宝马车撞人案肇事司机被判死刑

医院财务迷上网络赌博输光5000万元公款

辊环车削 雕琢毫厘

北京交警严查超标电动自行车挪用“白牌”

寒潮来袭 北方气温普降10℃以上

北京多种蔬菜价格降幅达五成

北京周日最低气温或达-4℃

北京朝阳两涉疫校区及16所学校停课

520送女友钢丝球花束寓意情比钢坚网友评论过完节还可以刷碗

全球提供最快免费Wi-Fi十大机场美国旧金山国际机场位居榜

南京查处涉疫案件41件坚持处罚与教育相结合

深入推进科技特派员制度北京市将开展全民科学素质提升行动

近期多部门相继释放积极信号房地产市场不对称复苏格局显现

加强国际传播人才培养专家学者探讨新疆经济社会发展与人权保障

对电商“霸王条款”说不新司法解释宣告“签收即认可”无效

辊环车削雕琢毫厘

寒潮来袭北方气温普降10℃以上

辊环车削雕琢毫厘

寒潮来袭北方气温普降10℃以上