Databricks在释出大型语言模型Dolly的两周後,又释出了Dolly 2.0,而第二个版本的重点在於开源且商业可用。Databricks集结5,000名员工,共同编写databricks-dolly-15k指令遵循资料集来训练Dolly 2.0,现在Databricks对外开源整个Dolly 2.0,包括训练程式码、资料集和模型权重,供商业和学术使用。
Databricks以30美元超低成本,训练出Dolly 1.0模型,Dolly 1.0使用史丹佛大学的Alpaca模型开发团队,以OpenAI API所产生的指令遵循资料集训练而成。Databricks在发布Dolly 1.0之後,收到许多人询问Dolly 1.0是否可以用於商业用途,官方答案是,可能不行。
因为Alpaca模型开发团队所生成的指令遵循资料集,内容包含使用OpenAI的text-davinci-003模型生成的资料,而该OpenAI的使用条款,明确禁止用户将其用於开发和OpenAI竞争的模型。目前所有知名的指令遵循模型,几乎都受到相同限制而无法用於商业目的,因此Databricks要产生一个允许商业用途的指令遵循模型,势必需要创建一个全新的资料集。
要取得人工智慧的丰硕成果,背後需要许多工人智慧的累积,OpenAI的论文说明InstructGPT模型,是使用一个包含13,000个指令遵循资料集训练而成,Databricks表示,创建13,000条问题和答案比想像的还困难,因为每个答案都必须是原创,不能来自ChatGPT或是从网路上其他来源复制,否则会污染资料集。
Databricks招来自家5,000名员工,共同编写指令遵循资料集,目标是创建比OpenAI品质更高的资料集,毕竟OpenAI的资料集仅由40个人产生。Databricks举办了一场比赛,前20名将可获得公司提供的大奖,资料集具体的内容包括开放问答、封闭式问答、可由维基百科段落回答的问答、维基百科总结资讯、脑力激荡、分类和创意写作。
最後Databricks编写出一个具有15,000条问答的资料集databricks-dolly-15k,官方提到,虽然这个资料集比Dolly 1.0所使用的Alpaca资料集小得多,但是EleutherAI的pythia-12b经过databricks-dolly-15k资料集训练之後,却能表现出高品质指令遵循行为,官方提到,由模型生成的资料集反而存在幻觉和错误事实,而databricks-dolly-15k由专业人士生成,包含高品质和更长答案,产生的结果也会更好。
Dolly 2.0专案完全开源,无论是商业还是学术用途,皆可用来创建高品质模型,且不需要冒着向第三方泄漏机密的风险,官方也认为,人工智慧的安全、偏见和问责议题,需要由不同利益相关者共同解决,而开源资料集和模型,将可促进这类的研究和创新。
使用者要下载Dolly 2.0模型的训练权重,可以从Hugging Face页面,并且存取databricks-labs中的Dolly储存库,下载databricks-dolly-15k资料集即可取得。
使用第三方的人工智慧服务就有泄漏敏感资料的可能,三星因为开放员工使用ChatGPT,而泄露包括半导体设备量测资料库、生产/瑕疵设备相关软体,以及公司会议语音转录文字纪录等机密资料,这样的情形也不只发生在三星,资安公司Cyberhaven监控160万名员工,发现有3.1%员工上传敏感资料到ChatGPT上,因此对企业来说,自建指令遵循人工智慧模型,可能是一个更安全也更有吸引力的选择。