首页>资讯>正文
全球百事通!大模型没有壁垒吗?开源模型和chatgpt已经没有差距了吗?
2023-06-23 14:31:54    来源:哔哩哔哩

近期有很多工作比如Alpaca、Vicuna、Koala等论文宣称通过收集到的大量chatgpt output,在基于开源大模型如LLaMA上进行微调后的模型就接近甚至超过chatgpt效果。有些看热闹不嫌事大的媒体渲染诸如“复制chatgpt,仅需100美元“,”开源大模型超过chatgpt“啦。但事实真的如此吗?来自UC Berkeley的研究团队在The False Promise of Imitating Proprietary LLMs这篇论文中分析的这些模型的效果,并给出结论”还差的远呢“。相信这些经验能指导我们怎么做大模型,以及大模型的核心到底是什么。让我们一睹为快把。

这里有两个概念后面会被反复使用到,因此提前定义下:


(资料图片仅供参考)

proprietary model: 标题中的proprietary LLMs指的就是chatgpt这种闭源的专有模型,参数不进行开放,我们只能获取到模型的输出信息,而无法模型参数、生成过程中词语的概率等信息。

imitation model: 指的是通过模仿proprietary model的输出而进行训练的开源模型。

先说结论

大模型的壁垒在于训练的foundation model的好坏,这要求我们我们训练更强,更大的基础模型。而在style、persona方面的差异性则不是壁垒,因为别的模型可以通过很少的样例就能学习到这些信息。这点也说明了为啥现在所有的大公司都在自己训练基础大模型,因为这才是真正的关键。

众包的人工评测是不靠谱的(未来应该怎么评测大模型好坏依然是questionable的,或者需要极强的专家知识,比如需要MIT的博士用专业领域知识评估),很多imitation model 很容易就模仿到chatgpt输出答案的风格,即style,而没有达到chatgpt输出答案的正确认识、即factuality。因为很多情况下众包人员缺乏领域知识,而无法判断两个模型输出是否有事实错误,因此倾向于认为两个模型是打平,甚至是好于chatgpt的。

开源模型和chatgpt仍然具有很大的差距,尤其在涉及factuality的问题上,比如需要领域知识,以及coding,reasoning,math problem solving等问题上。

imitation model 自身的能力仍需加强

方法

作者定义了两种imitation,一种是task-specific的imitation,这种是在特征任务上收集足够多的chatgpt的输出,然后训练小模型,这种imitaion目的是想要在特定任务,特定领域上达到chatgpt的效果。一种是broad-coverage imitation,就是利用人们在网上公开的自己的问题以及chatgpt的回复,这些数据集一般包含千罗万象,什么问题都有,这种imitation是想要在整体效果上达到chatgpt效果。现在公开的大多模型属于后一种。

broad-coverage imitation常见数据集有:

ShareGPT,大约90K用户和ChatGPT的对话信息。

HC3,大约27K用户的提问以及ChatGPT的回答信息。

Discord ChatGPT Bots, 大约10K来自社区(reddit等)提供的用户和ChatGPT的交流信息。

对于task-specific imitation,作者构造了6K的QA pair,其中问题是来自Natural Questions这个数据集,里面大多是一些关于维基百科的事实性问题,而回答都来自ChatGPT,这个数据集称为NQ-Synthetic。

对于broad-coverage imitation,作者将上面提到的三个数据集进行清洗、去重后构建了一个新的称之为ShareGPT-Mix的数据集。

作者在这两个数据集上对从1B到13B大小的模型进行finetune,来探究imitation model的效果究竟如何。

实验结果

task-specific imitation效果分析

在NQ-Synthetic数据finetune后效果有持续变好,并且在模型参数量上去后,效果有持续的逼近chatgpt,说明如果是想在某个领域上达到chatgpt的效果,那么imitation这种方法是可行的。

在ShareGPT-Mix上finetune后在问答效果反而下降了,这可能是模型学习chatgpt的输出风格而折损了部分性能。

broad-coverage imitation效果分析

提升imitation model 训练的数据量不会提升效果,可以看到一开始的时候模型就饱和了,右上图的结果也说明了在broad-coverage imitation训的太多反而会降低在natural question 数据集上的效果。

提升imitation model 的参数量可以显著的提升模型的效果,说明基础模型的效果才是关键。

用GPT-4作为裁判判断两个模型的好坏

趋势和上面的评测是一致的,说明在一定程度上用gpt-4作为裁判来判定chatgpt和imitation model的效果好坏是可行的。

d

例子

一个关于强化学习的问题,chatgpt回答的很好,而imitation model回答有很多的事实错误。其中红色部分是事实错误部分,可以看到imitation model回答的像模像样,但是错误百出。如果不是对强化学习有足够的了解的评估人员,可能就被骗了。

Discussion

这篇论文最有含金量的部分就在讨论部分,我们以结论为主,感兴趣的同学可以看原文的分析。

现有的开源模型和chatgpt的差距还很大,主要是在需要factuality的任务上,比如reasoning, math problem solving,一些专业问题上。

现有open-source LLM最大的limitation就是基础模型的能力太弱了,只有13B参数量想要达到chatgpt的效果是远远不够的。因此开源社区应该努力训练更大更好的开源模型,而不是finetuning更多chatgpt的output。

在broad-coverage数据集上finetune并不会提升模型对于事实性问题回答的准确性,甚至可能降低效果。侧面也印证了大模型的能力主要是来自于预训练阶段,和Meta的LIMA: Less Is More for Alignment这篇论文的假设一致。

在task-specific数据集上finetune可以提升相应领域上的效果。

imitation model学习到的是style而不是content。

大模型如何评估将变得很困难,因为已经验证目前的众包人工评测已经是不可行的,而不能总让gpt-4评测吧,比如我就要超过gpt-4,怎么能让gpt-4既当运动员又当裁判呢?

imitation model继承了teacher model的safety以及toxicity style,因此如果已经训练好的一个强大的foundation model,而没有钱像openAI 那么豪雇几百个专家做safety & alignment,那么可以尝试用imitation的方式对齐。

pre-training阶段是LLM能力的主要来源,finetuning只是一个轻量级的方法来引诱出这些知识,此处再次cue到LIMA。

如果是采用imitation这种方法,那么很可能会加剧幻觉hallucination问题,因为imitation model要强行学习proprietary model的输出,而这些输出可能原本就再它能力之外。

如果偏偏就想用imitaion的方式获得chatgpt的性能,作者说那就不是简简单单用几十上百K的数据微调这么简单,应该覆盖方方面面的知识,这个量级可能和需要的预训练数据量级相当。(: 有这个量级的数据我还finetune啥

大模型的壁垒在于foundation model训练的好坏,因此使劲堆积起来模型参数量,模型训练token数量让你的基础模型更强大吧。

如果两个公司用同样的fondation model, A公司在输出style和persona等方面作了优化,那么B公司很快可以通过模仿A公司的输出来白嫖到A公司的优化,因此这方面的积累是技术壁垒。

人工评测有很大问题,但目前还不知道怎么解决。

关键词:

全球百事通!大模型没有壁垒吗?开源模型和chatgpt已经没有差距了吗?

近期有很多工作比如Alpaca、Vicuna、Koala等论文宣称通过收集到的大量c2023-06-23

当前快报:济宁高新区洸河街道东闸社区开展 “浓情端午进社区 艾草传送暖民心”活动

大众网见习记者孔锐谨通讯员房尊彩王坤惠佳露济宁报道6月21日上午,济2023-06-23

自制儿童万圣节服装 世界热闻

导读准备材料:纸盘、搓纸、黑色纸、剪刀、胶水。制作步骤:第二组咱们2023-06-23

环球通讯!细胞培育鸡肉美国获批上市 每千克44美元

美国两家企业21日获准销售用动物细胞培育出的鸡肉,为全美首例。不过,2023-06-23

当前热点-日本民众集会反对核污染水排海

6月20日,人们在日本福岛市参加反对核污染水排海的抗议活动。6月20日,2023-06-23

又到毕业季,海南这所职校连续十三年就业率达98%有何秘诀?

人民网海口6月21日电(记者樊欢迪)“职业教育是‘二流教育’”“中职2023-06-23

直击东部战区练兵备战现场

近日,第71集团军某旅在野外驻训期间开展实弹射击综合演练,全面检验防2023-06-23

「医院力荐」哈尔滨包皮手术那家医院好 全球视点

「医院力荐」哈尔滨包皮手术那家医院好?哈尔滨协佳医院表示包皮手术是2023-06-23

天天观察:「一线调研·驻村故事」纳雍县玉龙坝镇果几盖社区第一书记李政飞:用情拆掉“隔心墙” 架起党群“连心桥”

“李书记,快来我家吃杀猪饭。”“李书记我家着火了!”“李书记,我家2023-06-23

Epic 喜加二:《猎人:野性的呼唤》 |今日热议

IT之家6月22日消息,EPIC本周送出的免费游戏是《猎人:野性的呼唤》和2023-06-23

二十四番花信风的意思是什么_二十四番花信风的意思

欢迎观看本篇文章,小升来为大家解答以上问题。二十四番花信风的意思是2023-06-23

即时焦点:1050ti显卡参数gpuz_1050ti显卡参数

1、Nvidia公布的两款全新显卡,GTX1050Ti是GTX1050的加强版GTX1050显存2023-06-23

热门车讯新款汉兰达将于3月6日亮相 搭载TSS智行安全套装

在我们的日常生活中,汽车的普及率是相当的高了。它已成为生活中必备的2023-06-22

2019年保时捷911嘲笑未来的混合动力车_环球今头条

保时捷承诺,下一代911将成为我们所熟知和喜爱的跑车,而且只会更好。2023-06-22

森林居民委 天天观热点

1、森林居民委是以森林命名的地名。本文关于森林居民委的简介就讲解完2023-06-22

广西钟山县钟山镇第七小学:开展“七彩种植园”劳动成果义卖活动

中国教育报-中国教育新闻网讯(记者欧金昌通讯员吴长奎朱妮邓丽蓉)“2023-06-22

中国最大淡水湖鄱阳湖水位重返12米线

6月22日电,受持续降雨影响,中国最大淡水湖鄱阳湖水位持续快速上涨,2023-06-22

女子连生6女还被要求“追儿子”,想离婚遭驳回,法院对其送出“家庭教育令” 世界速递

近日,湖南省辰溪县人民法院审理了一起离婚纠纷。原告熊某连生6女仍被2023-06-22

团代表故事丨00后姚少华:小小年纪返乡种菜,成青年致富带头人

中国青年网北京6月21日电(记者王增强邵志凯马志强)2002年出生的姚少2023-06-22

曼陀罗蛇(关于曼陀罗蛇介绍)

来为大家解答以上的问题。曼陀罗蛇,陀罗蛇介绍这个很多人还不知道,现2023-06-22

有效的教学方法_对于有效的教学方法简单介绍-每日播报

1、《有效的教学方法》是2008年11月1日浙江教育出版社出版的图书,作者2023-06-22

全球关注:盐城国投新材料有限公司_盐城国投

1、盐城国投集团不是和保险公司一样,到处找客户的那种,而是一家大型2023-06-22

全球通讯!司机分神开车冲入羊群:撞死20只羊

6月22日消息,在内蒙古赤峰,因下雨路滑,一辆车失控冲进路边羊群,撞2023-06-22

西游记名著导读练习题及答案(西游记名著导读练习题)-环球报道

1、答案一、写出你阅读所采用的阅读方法?答:想一想人物性格的塑造,故2023-06-22

创耀科技:6月21日融资净买入84.78万元,连续3日累计净买入840.07万元|当前热点

6月21日,创耀科技(688259)融资买入828 91万元,融资偿还744 13万元2023-06-22

滚动
资讯