开源竞速:AI大模型的“Linux时刻”降临
发布于2023年6月1日
ChatGPT发布后不久,Meta就开源了类GPT大语言模型LLaMA,此后,Alpaca、Vicuna、Koala等多个大模型诞生,它们以远低于ChatGPT的模型规模和成本,实现了令人瞩目的性能,引发业内人士担忧“谷歌和OpenAI都没有护城河,大模型门槛正被开源踏破,不合作就会被取代”。
本报告试图分析这波开源大语言模型风潮的共同点,回顾开源标杆Linux的发展史,回答这些问题。
摘要
共同点一:始于开源
开源≠免费,开源的商业模式至少包括:
1、靠服务变现。曾上市、后被IBM收购的Linux企业服务公司红帽即是一例。企业为了更稳定和及时的技术支持,愿意付费。
3、许可证、标准和能力评价体系的发展,是开源大模型商用程度深化的催化剂。这波开源大模型采用的许可证协议主要是Apache2.0和MIT,它们不禁止商用,并且不禁止用户修改模型后闭源,这有助于公司应用此类大模型。
共同点二:参数少、小型化
相较于GPT3+千亿参数超大模型,这波开源大模型的参数量普遍在十亿至百亿级别。目前尚没有一套系统的大模型性能评价体系,其中仅部分任务有公信力较强的评分标准。开源大模型中,Vicuna的能力也较强,在部分任务能达到92%GPT4的效果。
总体来说,OpenAIGPT系仍一骑绝尘,但训练成本高,难复现。而开源大模型借助更大标识符训练数据集、DeepSpeed、RLHF等方式,实现低训练成本和高性能,超大模型以下大模型的壁垒正在消失。
共同点三:数据集重视人类指令,并走向商用
ChatGPT相较于GPT3效果大幅提升的重要因素是使用了RLHF(基于人类反馈的强化学习),即在训练中,使用人类生成的答案和对AI生成内容的排序,来让AI“对齐”人类偏好。
LLaMA没有使用指令微调,但LLaMA之后的大量大模型使用并开源了指令数据集,并且逐步探索自建指令数据集,而非使用有商用限制的OpenAI的,进一步降低了复现GPT的门槛,扩展了商用可用性。
接下来怎么看开源大模型?
站在开源大模型浪潮中,我们注意到两个趋势:
1)与多模态融合,清华大学的VisualGLM-6B即是著名开源语言模型ChatGLM的多模态升级版,我们认为,其可基于消费级显卡在本地部署的特性是大势所趋。
2)开源模型+边缘计算推动AI商用落地,哈尔滨大学的中文医疗问诊模型“华驼”以及在跨境电商的使用就是案例。
投资建议:
我们认为,对大模型的看法应该分时、分层看待。
2、中长期来看,如果部分开源大模型能力被进一步验证,则应用将快速铺开,大模型对算力将形成正循环;
1)光模块服务商:中际旭创、新易盛、天孚通信、源杰科技;
2)智能模组服务商:美格智能、广和通;
3)边缘IDC服务商:龙宇股份、网宿科技;
4)AIoT通信芯片及设备厂商:中兴通讯、紫光股份、锐捷网络、菲菱科思、工业富联、翱捷科技、初灵信息;
5)应用端标的:恺英网络、神州泰岳、佳讯飞鸿、中科金财等。
风险提示:伦理风险、市场竞争风险、政策法律监管风险。
引言
01
谷歌和OpenAI都没有护城河
大模型门槛正被开源踏破”
“除非谷歌和OpenAI改变态度,选择和开源社区合作,否则将被后者替代”,据彭博和SemiAnalysis报道,4月初,谷歌工程师LukeSernau发文称,在人工智能大语言模型(LargeLanguageModels,LLM,以下简称“大模型”)赛道,谷歌和ChatGPT的推出方OpenAI都没有护城河,开源社区正在赢得竞赛。
本报告试图剖析这波开源大模型风潮的共同点,回顾开源标杆Linux的发展史,回答以上问题,展望大模型的未来。
02
开源大模型集中出现,堪称风潮
2月24日,Meta发布LLaMA开源大模型,此后,市场集中涌现出一批大模型,大致可以分为三类。
“LLaMA系”:表现好,但商用化程度低
LLaMA包括四个不同的参数版本(70亿/130亿/330亿/650亿),不支持商用,指令数据集基于OpenAI,模型表现可与GPT-3持平或优于GPT-3。其中,70亿和130亿参数版拥有包含1万亿个标识符(Token)的预训练数据集;330亿和650亿参数版拥有包含1.4万亿个标识符的预训练数据集。
在与GPT-3的对比中,LLaMA-70亿参数版在常识推理任务、零样本任务、自然问题和阅读理解中的表现与GPT-3水平相当,而130亿参数及更高参数的版本模型在以上领域的表现均优于GPT-3。
LLaMA模型本身没有使用指令数据集,但考虑到效果优于GPT-3的ChatGPT使用了人类指令数据集,一批开源大模型在LLaMA模型基础上,使用了OpenAI指令数据集来优化模型的表现,包括Alpaca、GPT4All、Vicuna、Koala、OpenAssistant和HuggingChat。由于OpenAI指令数据集不可商用,因此这批基于LLaMA的开源大模型也都不可商用。
Dolly2.0、RedPajama、StableLM等:商用化程度高
这些大模型没有使用OpenAI指令数据集,因此可以商用,但大多数还在持续开发中。
中文双子星:ChatGLM-6B和MOSS
这批模型还具有一些共同点,报告将在下文详述。
这波风潮中,不管是模型本身,还是模型所使用的数据集,它们首要的共同点是“开源”。
为什么要开源?
市场对开源大模型的重要问题是,为什么要开源,这是否会损伤大模型行业的商业模式。我们梳理了部分大模型对开源原因的自述,总结如下。
模型视角:防止大公司垄断,破除商业禁用限制
为了使人工智能研究民主化,弥合开放模型和封闭模型之间的质量差距,破除商业化禁用限制,开源大模型的蓬勃发展有望促进以上目标。
数据视角:保护企业机密,使定制化数据训练成为可能
保障数据隐私,允许企业定制化开发。对于许多行业而言,数据是企业的命脉,大模型的开源使得企业可以将自己的数据集在大模型上进行训练,同时做到对数据的控制,保护企业数据隐私。同时,开源大模型允许企业的开发人员在模型的基础上进行定制化开发,定向训练数据,也可以针对某些主题进行过滤,减少模型体量和数据的训练成本。
算力视角:降低算力成本,使大模型的使用“普惠化”
开源大模型节省了训练阶段的算力消耗,为企业降低算力成本,推动大模型使用“普惠化”。算力总需求=场景数*单场景算力需求。在大模型的训练和使用中,算力消耗分为两部分场景,即训练成本消耗及推理成本消耗。
开源,需要什么土壤?
开源大模型的蓬勃发展并非没有先例,全球规模最大的开源软件项目——Linux有类似的故事。研究Linux的发展史,对展望开源大模型的未来,有借鉴意义。
从开源标杆Linux说开去
许多全球规模最大的行业和企业都仰赖于Linux。时至今日,从维基百科等知识共享网站,到纽约证券交易所,再到运行安卓(一个包含免费软件的Linux内核专用发行版)的移动设备,Linux无处不在。当前,Linux不仅是公共互联网服务器上最常用的操作系统,还是速度排名前500的超级电脑上使用的唯一一款操作系统。
服务器市场,Linux市占率已经远超操作系统“鼻祖”Unix,“Linux时刻”发生。以中国市场为例,根据赛迪顾问数据,按照装机量统计,在服务器架构上,Linux是市场主流,占据绝对领先地位,市场占有率达到79.1%。Windows市场占有率降至20.1%,Unix市场占有率仅剩0.8%。
Linux并非一己之作,借力于社区身后的开源历史
1.Unix开源过,为Linux提供了火种。
2.Unix回归闭源之后太贵,促成了Linux的开发
Linux由LinuxTorvalds于1991年设计推出,当时他还在读大学,认为当时流行的商业操作系统Unix太贵了,于是基于类Unix操作系统Minix开发出了Linux,并将其开放给像自己这样负担不起的团队。
3.仅用于教学的Minix,启发了Linux的开发
4.开源社区、许可证与标准助力
从开始就开源。1991年8月,Linux创始人LinusTorvalds将Linux发到MinixUsenet新闻组。随后他将Linux发布到FTP网站上,因为他想让更多人一起来开发这个内核。
GPL许可证要求GPL程序的派生作品也要在遵循GPL许可证模式。相反,BSD式等许可证并不禁止派生作品变成专有软件。GPL是自由软件和开源软件的最流行许可证。遵循GPL许可证使得Linux生态能生生不息,不至于走进无法继续发展的“死胡同”。
标准对内使生态“形散而神不散”,对内拥抱“巨鲸”。
03
开源了,还怎么赚钱?
市场对“开源”的核心疑问是商业模式。“开源”本身免费,但“开源”作为土壤,“开源社区”孕育出了各种商业模式,从Linux的生态中可以学习到这一点。
红帽公司(RedHat):服务至上
关于Linux和红帽的商业模式,就像好奇心日报打的比方,某种意义上,开源的Linux内核像免费、公开的菜谱,红帽们像餐厅,人们仍然愿意去餐厅品尝加工好的菜肴和享受贴心的服务。
红帽面向企业提供Linux操作系统及订阅式服务,主要服务内容包括:
1、24*7技术支持;
2、与上游社区和硬件厂商合作,支持广泛的硬件架构,如x86、ARM、IBMPower等;
3、持续的漏洞警报、定向指导和自动修复服务;
4、跨多个云的部署;
5、实时内核修补、安全标准认证等安全防护功能;
6、检测性能异常、构建系统性能综合视图,并通过预设调优配置文件应用等。
开源大模型主流许可证支持商用
开源社区已经有GPL、BSD、Apache等知名许可证。大模型方面,我们注意到,2023年2月发布的、引领了大模型开源浪潮的LLaMA禁止商用,仅可用于研究,MetaAI将根据具体情况,授予公务员、社会团体成员、学术人员和行业研究实验室,访问该模型的权限。其中,LLaMA的推理代码基于GPL3.0许可证,这意味着:1)他人修改LLaMA的推理代码后,不能闭源;2)新增代码也必须采用GPL许可证。不过,我们注意到,部分开发人员在LLaMA基础之上开发的变体模型,有不同类型的许可证。例如,基于nanoGPT的LLaMA实现Lit-LLaMA新增了部分模型权重,这部分模型采用的许可证是Apache2.0。
开源大模型采用的协议主要是Apache2.0和MIT许可证。Alpaca、Vicuna、Dolly、OpenAssistant和MOSS均采用Apache2.0许可证,Koala和GPT4all采用MIT许可证。这两个许可证均允许商用。但令人惋惜的是,Alpaca、Vicuna、Koala和GPT4all因OpenAI或LLaMA限制无法商用。同时,值得注意的是,Apache2.0和MIT许可证均允许再修改源码后闭源,公司可以在开源大模型基础上开发自己的模型,或对公司更有吸引力。
共同点二:开源大模型参数少、小型化
超大模型和大模型分别多大?
预训练赋予模型基本能力。在自然语言处理(NLP)中,预训练是指在特定任务微调之前,将语言模型在大量文本语料库上训练,为模型赋予基本的语言理解能力。在预训练过程中,模型被训练以根据前面的上下文预测句子中的下一个单词。这可以通过掩盖一些输入中的单词并要求模型预测它们的方式进行,也可以采用自回归的方法(例如GPT),即根据句子中的前面单词预测下一个单词。
预训练模型通常包括大量的参数和对应的预训练数据(通常用标识符即Token的数量衡量)。2017年谷歌大脑团队Transformer(变换器)模型的出现,彻底改变了NLP的面貌,使得模型可以更好地理解和处理语言,提高NLP任务的效果和准确性。
超大模型和大模型分别多大?语言模型的大小是根据其参数量来衡量的,参数量主要描述了神经元之间连接强度的可调值。目前一般大语言模型参数量在几十到几百亿之间,超过千亿参数的我们称为“超大模型”,例如GPT-3(1750亿参数)。
GPT系超大模型能力最强,但难复现
大模型的性能评价标准并没有统一。一个重要原因是大模型生成内容的任务种类多,不同的应用场景和任务可能需要不同的指标和方法去评估模型的表现。其中部分任务可能有公信力较强的评分标准,如机器翻译中的BLEU,但大部分任务缺乏类似标准。
模糊共识是超大模型性能好。大语言模型目前的发展趋势是越来越大(详见下图),原因是大模型在预训练后就具有较好通用性和稳定性。例如,谷歌团队的超大模型PaLM(5400亿参数),在零样本和少量样本测试中均有良好的成绩(详见下图),并且随着其训练标识符数量的上升,性能仍能提升。这也不难理解,简单来说,模型见得多了,自然会的也多了。
“同行评议”,GPT系大模型“风华绝代”。当前,OpenAIGPT系的超大模型拥有着强大的能力和广泛的应用,在处理自然语言任务时具有高准确性和强大的表达能力,其在文本生成、问答系统、机器翻译等多个领域都取得了出色效果,成为了当前自然语言处理领域的标杆之一,被各类大模型当作比较基准。复现ChatGPT的门槛并没有降低,开源大模型大部分仅在某些方面有较好的表现,整体质量与ChatGPT仍不可比,尚需观望。
1.海外
2.海内
Vicuna:利用GPT-4评估
目前大部分开源大模型性能未进行系统评价,更多处在起步试验阶段。在对性能进行评价的开源大模型中,Vicuna的报告中利用GPT-4进行的评估相对较为系统,结果也最令人瞩目。
ZenoBuild测评:较新,较全面
ZenoBuild对GPT-2、LLaMA、Alpaca、Vicuna、MPT-Chat、CohereCommand、ChatGPT(gpt-3.5-turbo)七个模型测评,结果与GPT-4评价结果相近。ChatGPT有明显优势,Vicuna在开源模型中表现最佳。
C-Eval:全面的中文基础模型评估套件
C-Eval评估结果显示,即便是在中文能力上,GPT-4也是一骑绝尘,但GPT-4也仅能达到67%的正确率,目前大模型的中文处理能力尚有很大提升空间。
GPT系超大模型训练成本高,短期内难复现
开源大模型性价比高
超大模型以下大模型的壁垒正在消失
开源大模型小型化趋势明显,参数约为百亿级别,成本降低乃题中之义。开源大模型通常具有较少的参数,在设计、训练和部署上,需要的资源和成本都相对较低。这波开源大模型的参数普遍较小,均在十亿~百亿级别左右。
更多标识符训练数据和新技术,让超大模型以下的大模型壁垒趋于消失。LLaMA被“开源”,让大家都有了一个可上手的大模型,并且随着DeepSpeed、RLHF等技术的发展,几百亿的模型可以部署在消费级GPU上。
共同点三:
开源大模型数据集重视人类指令,并自立门户
学习ChatGPT方法论
引入人类指令数据集
微调是提升特定性能的捷径。微调是指在已经预训练的模型上,使用具有标注数据的特定任务数据集,进一步小规模训练。微调可以以较小的算力代价,使模型更加适应特定任务的数据和场景,从而提高模型的性能和准确性。目前微调多为指令微调,指令数据集逐渐成为开源大模型的标配。
RLHF(ReinforcementLearningfromHumanFeedback,基于人类反馈的强化学习),是一种新兴的微调方法,它使用强化学习技术来训练语言模型,并依据人类反馈来调整模型的输出结果。RLHF(基于人类反馈的强化学习)是ChatGPT早期版本GPT3所不具备的功能,它使得只有13亿参数的InstructGPT表现出了比1750亿参数GPT-3更好的真实性、无害性和人类指令遵循度,更被标注员认可,同时不会折损GPT-3在学术评估维度上的效果。
RLHF(基于人类反馈的强化学习)分为三个步骤:
1)监督微调(SFT):让标注员回答人类提问,用这一标注数据训练GPT;
2)奖励模型(RM)训练:让标注员对机器的回答排序,相较于第一步由标注员直接撰写回答的生成式标注,排序作为判别式标注的成本更低,用这一标注训练模型,让它模拟人类排序;
3)无人类标注,用近端策略优化算法(PPO)微调模型。
这三个步骤对应的数据集的大小分别为1.3万个、3.3万个、3.1万个。
数据集走向商用
数据集是语言模型发展的重要基础和支撑,通常是由公司或组织自主收集、整理或直接购买获得。相比之下,开源数据集大多由社区或学术界共同维护的,其数据量和种类更加丰富,但可能存在一定的数据质量问题和适用性差异。
预训练数据集少量可商用
预训练数据集开源对模型商用至关重要。在后LLaMA时代,开源大模型犹如雨后春笋般涌现,但很快大家便发现由于LLaMA和OpenAI的限制,基于其开发的模型无法商用(Alpaca、Koala、GPT4All、Vicuna),为了打破这一局面,Dolly2.0率先出手,“为了解决这个难题,我们开始寻找方法来创建一个新的,未被“污染”的数据集以用于商业用途。”随后RedPajama和MOSS接踵而至。
指令数据集部分可商用
打造开源生态,各取所需。在早期开源项目中,因其指令数据及多来自ChatGPT生成或对话内容,受OpenAI限制无法商用。除去研究用途微调外,目前越来越多模型选择自己构建指令数据集来绕开这一限制。
指令数据集多样化,部分模型的指令数据集可商用化。按照上文对此批集中出现的大模型的分类,除去LLaMA、基于LLaMA开发出的模型以及StableLM使用OpenAI的指令数据集外,其余大模型的指令数据集均不基于OpenAI,也因此这些大模型的指令数据集可商用化,这会加快推动使用且重视RLHF(基于人类反馈的强化学习)训练范式的此类大模型的更迭与发展。
展望
我们注意到开源大模型走向相似的路口。
多模态化:助力通用人工智能(AGI)发展
多模态开源大模型开始出现,将大模型推向新高潮,助力人类走向通用人工智能。多模态即图像、声音、文字等多种模态的融合。多模态模型基于机器学习技术,能够处理和分析多种输入类型,可以让大模型更具有通用性。基于多领域知识,构建统一、跨场景、多任务的模型,推动人类走向通用人工智能(ArtificialGeneralIntelligence,AGI)时代。
ImageBind闪亮登场,用图像打通6种模态
从技术上讲,ImageBind利用网络数据(如图像、文本),并将其与自然存在的配对数据(如音频、深度信息等)相结合,以学习单个联合嵌入空间,使得ImageBind隐式地将文本嵌入与其他模态对齐,从而在没有显式语义或文本配对的情况下,能在这些模态上实现零样本识别功能。
目前ImageBind的典型用例包括:向模型输入狗叫声,模型输出狗的图片,反之亦可;向模型输入鸟的图片和海浪声,模型输出鸟在海边的图片,反之亦可。
开源大模型的多模态探索集中于图片,但进展飞快
当前开源大模型在多模态的探索仍处于初级阶段,除ImageBind打通了六种模态外,多数仍在探索文本与图像的融合,但速度相当快,我们梳理了其中部分。
1.VisualGLM-6B:可在消费级显卡上本地部署
2.UniDiffuser:为多模态设计的概率建模框架UniDiffuser
3.LLaVA:部分指令表现可比肩GPT-4
4.MiniGPT-4:脱胎于LLaMA的多模态开源大模型,个人用户的GPT-4“平替”
5.mPLUG-Owl:模块化多模态大模型
专业化:下游生态发力,针对特定任务微调模型
大模型开源化为下游生态的蓬勃生长提供了绝佳机会,在细分产业的开发下,大模型开始在特定任务上深化开发,改变人类生活。自开源大模型LLaMA推出后,基于LLaMA预训练模型微调的下游专业化模型开始浮现,例如医疗问诊领域中的华驼。
华驼或将是未来开源大模型下游的特定任务模型发展的范式,即采用低参数体量的小型开源大模型作为基础模型,加之以特定专业领域的数据进行训练,得到表现更好的细分领域模型。
投资建议
微软:与OpenAI深度合作
我们认为,短期内,ChatGPT系仍是能力最强的大模型,与其深度合作的微软将受益。
英伟达:开源大模型带动应用风起,算力需求狂飙
算力服务是开源大模型浪潮中受益确定性较强的方向,在软硬件一体化方面具有明显的领先优势,是当前AI算力的领头羊。
超大模型对算力的需求将保持高增长
超大模型质量优势突出,市场将持续追捧,其对算力的需求会一直增长。超大型模型具有强大的表达能力和高准确性,在质量上具有优势,市场将持续追捧这种模型。超大模型规模、数据集和日活持续扩大,所需算力将持续增多。
开源大模型的快速追赶也将利好算力
中长期看,开源大模型有望进一步提高性能,从而在市场上占据更大的份额。相较于超大模型,开源大模型具有更低的算力需求和更易于部署的特点,还可以通过快速微调等方式,针对某些专业领域优化,具备一定吸引力和实用性。在中长期内,如果有开源大模型能够接近或超越ChatGPT在质量上的表现,那么市场对这类模型的需求可能会迅速上升。相应地,这类算力需求会很快起量。
催化剂:开源大模型许可证、标准和能力评价体系的发展
Meta:开源“急先锋”,受益于开源生态
回顾安卓的发展史,我们看好“谷歌-安卓”体系中的类谷歌角色,在该体系中,谷歌作为开源操作系统安卓的开发商,将开源作为激励生态上下游发展的工具,增强自身专有服务在终端客户的曝光度。
映射到大模型,我们认为,开源了LLaMA的Meta,可能通过LLaMA,加深与下游大模型开发厂商的合作,将自身体系中的专有产品,绑定销售给客户。
04
其他
边缘算力+开源模型:AI应用的落地加速器
边缘算力可以将推理计算放置用户的设备上,不仅能够提高数据处理的速度和效率,从而降低推理的成本,还能够保护用户的隐私和安全。
大数据公司:看好“开源大模型+自有海量数据”组合
开源大模型服务商:服务至上
回顾红帽的发展史,我们认为,即使大模型进入开源时代,面向客户的24*7的服务仍然必不可少,尤其是面向企业的。我们看好开源大模型服务商。
苹果:获得ChatGPTApp收入分成
ChatGPT在AppStore上架,按照AppStore的惯例,苹果将获得收入分成。
下载品玩App,比99.9%的人更先知道关于「AI大模型」的新故事