Meta AI
重点新闻(0519~0525)
Meta LIMA LLaMA
Meta发表LLaMA小而美版本LIMA
Meta AI联手南加大、卡内基美隆大学和以色列特拉维夫大学共同打造一款650亿参数的模型LIMA,只用了1,000个精心设计的提示和回应微调LLaMA而成,没使用任何人工回馈的优化方法和强化学习,可说是小而美版的LLaMA,且表现相当好。
进一步来说,大型语言模型可分为两阶段来训练,一是利用原始文本进行无监督式预训练,来学习通用表徵(Representation),二是大规模进行指令调整和强化学习,来确保模型最终任务的表现和使用者偏好是一致的(也就是对齐两者)。而团队思考,能否不用进行第二阶段,也能让LLM有良好的表现,於是他们开发出LIMA,只在1,000个提示和回应使用标准监督损失函数,来微调LLaMA,并未使用任何强化学习和人工回馈资料。
经测试,团队表示,LIMA性能非常强大,可从训练资料中的少数范例,学习遵从特定的回应格式,比如复杂的旅行计画。此外,LIMA也具有良好的泛化能力,也就是能处理训练资料集中未见过的任务。在一项人工评测研究中,LIMA产出的回应,在43%的案例里,不是相当於GPT-4就是比它还好。与Bard相比,这个数字来到58%,与经过人工回馈训练的Davinci003相比,这个数字则是65%。团队认为,LLM所学的所有知识几乎源於预训练期间,而且只需有限的指令微调资料,就能教模型产出高品质答案。(详全文)
LLM 微软 Copilot
微软开发者大会揭露更多Copliot助理,AI外挂生态系成形
微软在年度Build开发人员大会上,一口气宣布多项LLM驱动的新功能,包括扩大Copilot助理至更多产品,如PowerBI Copilot、Windows Copilot,甚至是新产品分析整合平台的Fabric Copilot。此外,微软还要将自家的Bing Chat、Copilot与OpenAI的ChatGPT互通,形成AI扩充套件生态系。
微软先在2年前和OpenAI联手推出GitHub Copilot,今年又接连将Copilot整合至多项产品,像是Microsoft 365、Dynamic 365、Viva、Sharepoint和安全工具。这次则进一步扩大,将分别推出内建在PowerBI、Power Pages和分析平台Fabric的Copilot助理预览版。微软也预计在6月推出Windows Copilot for Windows 11预览版,并让使用者透过Windows Copilot和Bing外挂与ChatGPT互动。
此外,微软还推出AI开发框架和外挂,让开发者用来打造Copilot助理,也能用来与第三方服务互动,开发者可透过该平台,建立扩充套件来衔接客户与业务端应用。同时,微软也开放自家各产品的Copilot助理与ChatGPT互通,包括Bing、Dynamics 365、M365与Windows Copilot。另外,微软的Bing也将成为ChatGPT的预设搜寻工具。(详全文)
暗网 BERT 资安
有望揪出暗网勒索软体交易!韩国研究员开发解读暗网专用语言模型DarkBERT
一群韩国研究员用暗网资料,训练出一款预训练语言模型DarkBERT,可用来理解暗网用语,相当於暗网的导航工具,未来可用於资安领域,来侦测暗网的勒索软体交易和暗网论坛非法讯息交换。
进一步来说,团队采用Meta在2019年释出的预训练语言模型RoBERTa,并自建训练资料集来训练模型,包括从Tor网路上爬梳大量资料,并进行数据过滤等一系列资料清理工作来打造暗网语料库。他们也用去年自行开发的暗网语料库CoDA来训练DarkBERT,来理解暗网的特殊用语与结构。後来,团队进行测试,并用RoBERTa和其他模型来对比DarkBERT的表现,他们发现,DarkBERT表现优於其他主流模型,更能理解暗网用语,可作为深入的暗网研究资产与资安侦测工具。(详全文)
BLOOMChat BLOOM 商用
可商用的大型语言模型BLOOMChat来了
AI晶片设计公司SambaNova联手AI技术新创Together,以BLOOM为基础,共同打造一款可商用的大型语言模型BLOOMChat,支援多语言任务,如翻译、问答、摘要等。自ChatGPT问世以来,许多功能强大的大型语言模型(LLM)也随之出现,如GPT-4、LLaMA和PaLM 2,但这些模型并未开放商用,因此许多开发者转向有商用授权的BLOOM,以它来打造所需的模型。
於是,SambaNova和Together想打造一款可商用的LLM,他们以1,760亿参数的BLOOM为基础,用SambaNova的AI运算晶片RDU来执行微调任务。BLOOMChat的微调训练资料来自2大类,一是大量自动合成的对话资料集OpenChatKit,另一是较少量的人工编写对话资料集Dolly 2.0和OASST1。
团队也进行人工评分测试,来衡量BLOOMChat的英、法、中、西班牙、阿拉伯和印度语的回答能力。他们发现,BLOOMChat的胜率为45.25%,略逊於GPT-4的54.75%。不过,与OpenAssistant、BLOOMz等其他主流LLM相比,BLOOMChat达到近66%的胜率,是最高分的。(详全文)
微软 资料分析 Fabric
微软推出单一整合资料分析平台Fabric
微软在开发者大会上揭露一款全端统一分析平台Fabric,整合了各种资料和分析工具,将Azure Data Factory和Power BI技术都汇集到同一个平台,并以多云资料湖OneLake来统一储存分析服务会使用的所有资料。简单来说,Fabric是一个完整的分析平台,包含7大核心工作负载,如预览版的拖拉式资料处理工具Data Factory、预览版Spark资料工程工具Synapse Data Engineering、预览版资料仓储服务Synapse Data Warehousing、预览版资料分析工具Synapse Real-Time Analytics、预览版AI模型开发工作流程工具Synapse Data Science和Power BI,以及即将推出的无程式码即时资料侦测工具Data Activator。这些核心工作负载需要用到的资料,皆来自多云资料湖OneLake,不会因不同使用者配置产生资料孤岛,使用者也能更简单探索和共享资料。
Fabric也整合Azure OpenAI的Copilot,用户可透过自然语言来建立资料流和资料工作流程,甚至生成程式码和建置机器模型等工作。Fabric还整合Microsoft 365应用程式,能针对不同角色提供分析功能,比如,Excel使用者可直接在OneLake中分析数据,并一键产出PowerBI报表。(详全文)
Google 医疗影像 检索
Google开源云端医疗影像检索函式库
Google开源可快速从DICOM储存检索全玻片影像的函式库EZ WSI DICOMWeb,要来加速数位病理发展。WSI是一种将传统病理学切片数位化的技术,病理切片是将组织样本切成非常薄的薄片,进行染色後在显微镜下观察,供医疗人员观察癌症和各种病理状态。将病理切片数位化,就能储存在数位装置并在电脑上查看,还能用於AI判读。
但WSI也有着资料管理的挑战,因为高解析度图像容量非常大,要从DICOM储存中,以DICOMweb检索特定WSI区块(Patch)并不容易。因此,Google开发EZ WSI DICOMWeb Python函式库来简化操作,要高效、简单地存取WSI区块图像。该函式库直接透过DICOMweb API,检索需要的WSI区块图像,更直觉地使用图像资料,开发者不必深入了解DICOM的资料结构和API,更能专注於应用开发上。(详全文)
广告 生成式AI Google
店家可自动生成产品照片!Google用生成式AI优化广告服务
Google最近宣布把生成式AI整合至广告服务中,并发表新的Product Studio工具,使用者能用生成式AI来建立产品照片。在Google Ads广告服务中,Google用生成式AI来强化自动建立资产(ACA)功能,可根据使用者的查询,来建立、调整搜寻广告。例如当使用者查询「如何保护乾性敏感肌肤」,Google AI会根据广告登陆页面上的内容,以及既有的广告,重新建立一个更符合该查询的广告标题,如「舒缓你的乾性敏感肌肤」。
Google也以生成式AI来强化Performance Max服务,广告主只要提供网址,Google AI就能自动学习该品牌的内涵,并自动以文字或其它资产来填补广告内容,包括自动替活动生成图片。Google也将生成式AI应用在Merchant Center商家服务上,提供全新的Product Studio工具,以AI来协助商家建立新的产品图片,如可根据季节来变换产品图片的背景,或完全移除产品背景等。(详全文)
IBM 生成式AI 卓越中心
IBM投入千名顾问成立生成式AI卓越中心,锁定企业转型
IBM旗下顾问部门(原IBM全球企业谘询服务部门)近日成立生成式AI卓越中心,目前有1,000名顾问在该中心服务,要用生成式AI来改善企业运作模式。这个中心会与IBM顾问部门的全球AI暨自动化单位并行,後者在全球拥有2万1千名熟悉数据和AI的顾问,至今已完成4万多个企业案例。
IBM指出,生成式AI卓越中心的目标有3个,包括增强客户体验、转变核心业务流程和促进创新业务模式,会利用IBM企业级AI解决方案(如新发布的AI数据平台IBM Watsonx)和企业夥伴的解决方案,来推动客户业务转型。进一步来说,该中心会使用完整的生成式AI技术堆叠,包括基础模型和50多个特定领域的经典ML加速器,此外也会使用AI顾问工具包,来优化内部营运和客户服务内容。IBM表示,该中心正快速启动,光是今年,IBM顾问部门就完成数十项生成式AI与典型ML的应用,像是替The Masters提供AI生成的体育评论播报、用IBM Watson和生成式AI替三井化学验证新应用等。(详全文)
图片来源/SambaNova、微软、Youngjin Jin、Meta、Google
AI近期新闻
1. Meta运用圣经译本与录音改进语音模型,现可支援超过千种语言
2. Adobe将把AI图片产生器加入Photoshop
资料来源:iThome整理,2023年5月