(报告出品方:国信证券)
一、盘古大模型简介
传统封闭作坊式AI开发面临AI算法“碎片化困境”
随着工业生产智能化需求不断上升,大量传统行业开始积累领域数据,并寻求人工智能算法以解决生产和研发过程中遇到的重复而冗杂的问题。人工智能算法在落地的过程中,将会面对大量不同场景、不同需求的用户,对算法的通用性提出很高要求。近年来,随着国内云计算市场增速明显,企业上云明显提速,客户的需求逐步从“资源型需求”转向“智能型需求”及“业务型需求”。庞大的业务数量和场景种类多样性使得各行业各场景的云解决方案难度加大,单一的解决方案套路对于用户定制化需求已不具备优势。
预训练大模型解决AI模型通用与泛化的问题
预训练大模型:收集大量图像、文本等数据,利用无监督或者自监督学习方法将数据中蕴含的知识提取出来,存储在具有大量参数的神经网络模型中。遇到特定任务时,只需调用一个通用的流程,就能够将知识释放出来,并且与行业经验结合,解决实际问题。预训练大模型能够解决在没有基础模型支撑的情况下,开发者们必须从头开始完成收集数据、训练模型、调试模型、优化部署等一系列操作的问题;同时降低人工智能算法的开发成本,真正惠及细分行业,尤其是中小型企业。
上游(模型预训练)和下游(模型微调)两个阶段:上游阶段主要收集大量数据,并且训练超大规模的神经网络,从而高效地存储和理解这些数据。下游阶段则在不同场景中,利用相对较少的数据量和计算量,对模型进行微调,以达成特定的目的。
盘古大模型:中国首个全栈自主的AI大模型
华为云团队于2020年立项AI大模型,并于2021年4月首次以“盘古预训练大模型”(简称“盘古大模型”)的名称对外发布。盘古大模型集成了华为云团队在AI领域数十项研究成果,并且受益于华为的全栈式AI解决方案,与昇腾(Ascend)芯片、昇思(MindSpore)语言、ModelArts平台深度结合。
2023年7月7日,在2023华为开发者大会上,面向行业的盘古大模型3.0发布,是中国首个全栈自主的AI大模型,包括“5+N+X”三层架构,分别对应L0层的5个基础大模型、L1层的N个行业通用大模型、以及L2层可以让用户自主训练的更多细化场景模型。其采用完全的分层解耦设计,企业用户可以基于自己的业务需要选择适合的大模型开发、升级或精调,从而适配千行百业多变的需求。
二、L0基础大模型
盘古基础大模型:提供满足行业场景需要的上百种能力
盘古大模型3.0的L0层由5个基础大模型组成,包括盘古NLP(Natural Language Processing,自然语言处理)大模型、盘古CV(Computer Vision,计算机视觉)大模型、盘古多模态大模型、盘古预测大模型、盘古科学计算大模型等。盘古大模型L0层赋予上百种能力,涵盖问答、生成、理解、代码、视觉、预测、科学计算、高阶等方面,覆盖广泛应用领域。盘古大模型3.0为客户提供100亿、380亿、710亿和1000亿参数的系列化基础大模型,能够匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。
盘古NLP大模型:业界首个超千亿参数的中文预训练大模型
盘古NLP大模型是业界首个超千亿参数的中文预训练大模型,利用大数据预训练、对多源丰富知识相结合,并通过持续学习吸收海量文本数据,不断提升模型的效果。在实现行业知识检索回答、文案生成、阅读理解等基础功能的同时,具备代码生成、插件调用、模型调用等高阶特性,在智能客服、创意营销、会议助手、代码助手、企业信息搜索等多个典型场景,提供AI技术支撑。
盘古NLP大模型:语义模型在中文理解类榜单上获得第一名
数据收集:文本部分从互联网公开爬取40TB原始网页数据,并且进行解析和清洗,最终得到约647GB文本数据(百科知识约270GB、新闻博客约200GB、文学作品约106GB、社交媒体约71GB)。语音部分从互联网公开爬取超过7万小时普通话音频数据,并将其转换为音频文件,共计约11TB;视频来源包括新闻播报、影视剧、综艺节目、动画等。
预训练方法:语义部分使用基于Transformer结构的编码-解码器模型神经网络,编码器负责文本理解,解码器负责文本生成。语音部分用卷积与Transformer结合的网络结构,底层用卷积神经网络提取局部信息,上层用 Transformer网络提取全局信息。
模型效果:语义模型作为业界首个千亿中文大模型,发布时(2021年5月)在中文理解类榜单CLUE上获得第一名;生成类任务在NLPCC2018文本摘要任务上取得了业界最佳成绩,超越第二名60%。语音模型是当前最大的中文语音模型之一,拥有超过4亿参数,在自有数据上相比于基线模型字符错误率相对降低10%。
补充:“鹏程·盘古”大规模自回归中文预训练语言模型
鹏程·盘古模型是以鹏城实验室为首的联合团队在基于昇腾910芯片的E级智能算力平台(鹏城云脑II)上训练的全球首个全开源2000亿参数的自回归中文预训练语言大模型。鹏程·盘古模型基于1.1TB高质量中文训练数据,采用全场景人工智能计算框架MindSpore自动并行技术实现了五维并行训练策略,从而可将训练任务高效扩展到4096个处理器上。
对比实验表明,在少样本或零样本情况下,鹏程·盘古模型在多个中文自然语言理解或生成任务上都具有较优的性能,例如鹏程·盘古2.6B模型在生成任务方面比CPM 2.6B模型平均高出6个百分点。同时,实验表明更大规模的预训练模型的性能通常能在小样本学习任务上取得提升,例如鹏程·盘古13B模型在16个下游任务中的表现比鹏程·盘古2.6B模型高出近3个百分点。在此基础上,鹏程·盘古模型在大模型压缩、提示微调学习、多任务学习以及持续学习等方面也取得了很好的应用效果。
盘古CV大模型:助力图像视频分类检测等视觉场景
盘古CV大模型基于海量图像、视频数据和盘古独特技术构筑的视觉基础模型,赋能行业客户利用少量场景数据对模型微调即可实现特定场景任务。在物体检测、图像分类、语义分割、万物检测、万物分割等多个典型场景,提供AI技术支撑。
盘古CV大模型:性能表现优异,具备良好的泛化能力
数据收集:通过多种渠道收集图像数据,包括但不限于公共数据集合下载、自有数据集合扩充、各搜索引擎关键字爬取、以图搜图、视频图像抽帧等,并通过原始数据筛选,最终保留超过10亿张高质量图像数据,占据约40TB空间。
预训练方法:计算机视觉领域最常见的卷积网络和Transformer架构。利用自动机器学习算法,能够支持并调用不同大小的神经网络,其中最大的计算模型具有接近30亿参数,最小的模型只有数十万参数,其大小相差超过1000倍,为适配不同的视觉任务提供了可能性。
模型效果:盘古CV大模型在ImageNet数据集的线性分类评估上,首次达到了与全监督相比拟的结果。在小样本学习上表现优异:使用ImageNet上1%和10%的标签训练,模型达到了66.7%和75.1%的分类精度,均显著超越对比方法。以此方法为基础设计了具有10亿参数量的基础模型,并在超过10亿张无标注图像组成的数据集上进行预训练,所得到的模型在ImageNet上达到了88.7%的分类精度,而1%标签的半监督学习精度也达到83.0%。
盘古多模态大模型:提供跨模态图文理解与生成能力
盘古多模态大模型融合语言和视觉跨模态信息,实现图像生成、图像理解、3D生成和视频生成等应用,面向产业智能化转型提供跨模态能力底座。在以文生图、以图生图、图像理解、图像编辑、以文生3D、以图生3D等多个典型场景,提供AI技术支撑。
盘古多模态大模型:各项下游任务取得业界领先水平
数据收集:从互联网中爬取大量数据并进行过滤处理,最终得到约3.5亿高质量的图文配对数据,占据约60TB存储空间。
预训练方法:主流的多模态大模型架构主要分为单塔架构和双塔架构,模型采用双塔结构,利用不同的神经网络完成不同模态的信息抽取,仅在最后一层做信息交互和融合,属于信息后融合方案。
模型效果:模型在多模态的各项下游任务,如跨模态检索、图像描述自动生成、视觉定位等任务上均取得了业界领先水平。采用LOUPE算法预训练所得的模型,在跨模态检索数据集Flicker30k以及MS-COCO上取得了当前业界最佳的图文检索精度,其中在MS-COCO的以文搜图任务上超过业界标杆算法CLIP达12.3%。
盘古预测大模型:统一大模型在通用数据域上的构造方案
盘古预测大模型是面向结构化类数据,基于10类2000个基模型空间,通过模型推荐、融合两步优化策略,构建图网络架构AI模型。在回归预测、分类、异常检测、时序预测、融合神经网络模型等多个典型场景,提供AI技术支撑。
盘古科学计算大模型:以嵌入科学方程的深度神经网络解决科学问题
盘古科学计算大模型是面向气象、医药、水务、机械、航天航空等领域,采用AI数据建模和AI方程求解的方法;从海量的数据中提取出数理规律,使用神经网络编码微分方程;使用AI模型更快更准的解决科学计算问题。在气象预测、药物分子等多个典型场景,提供AI技术支撑。
盘古科学计算大模型:海浪预测任务预测平均误差小于5cm
数据收集:分为观测数据和仿真数据两类。观测数据由观测工具(如游标卡尺、雷达、传感器等)产生,仿真数据由仿真算法(对应人类知识)产生,这两类数据及其融合数据和机理知识均可以作为AI模型的学习对象。
模型构建:以海浪预测任务为例,其目标为预测全球范围内海平面的实时浪高,输入和输出数据均为带有时间戳的二维球面数据,因此适合使用二维网络模型。以进行全球范围内的气象预测为例,输入和输出均为带有时间戳的三维数据(包括高度),因此适合使用三维网络模型。二维网络和三维网络均可使用卷积神经网络或者视觉Transformer作为骨干架构,配合大数据进行预训练。
模型效果:以海浪预测任务为例,通过爬取全球近10年的实时海浪高度数据进行训练,模型在验证集上预测的平均误差小于5cm,与传统预测方法相当,可以满足实际应用需求。同时,AI算法的预测时间较传统方法大幅减少,在单张华为昇腾芯片上,1s之内即可得到全球海浪高度预测,1分钟内能够完成超过100次海浪预测任务,推理效率较传统方法提升了4-5个数量级。
三、L1行业大模型与L2场景大模型
盘古行业大模型与场景大模型:提供专属行业与场景的大模型
盘古大模型3.0的L1层由N个行业大模型组成,包括政务、金融、制造、药物分子、矿山、铁路、气象等大模型。除提供以上使用行业公开数据训练的行业通用大模型外,还可以基于客户自有数据,在L0和L1层上训练专有大模型。L2层是为客户提供的更多细化场景的场景大模型,如政务热线、网点助手、供应链物流、先导药物筛选、台风路径预测等,为客户提供“开箱即用”的模型服务。盘古大模型采用完全的分层解耦设计,可以快速适配、快速满足行业的多变需求。根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。
盘古气象大模型:Nature发文,精度与速度超越传统数值预报
2023年7月6日,国际顶级学术期刊《自然》(Nature)杂志正刊发表了华为云盘古大模型研发团队研究成果——《三维神经网络用于精准中期全球天气预报》(Accurate medium-range global weather forecasting with 3D neural networks),是近年来中国科技公司首篇作为唯一署名单位发表的《自然》正刊论文。论文提出了适应地球坐标系统的三维神经网络(3D Earth-Specific Transformer)来处理复杂的不均匀3D气象数据,并且使用层次化时域聚合策略来减少预报迭代次数,从而减少迭代误差。华为云盘古气象大模型是首个精度超过传统数值预报方法的AI模型,速度相比传统数值预报提速10000倍以上。通过在43年的全球天气数据上训练深度神经网络,盘古气象大模型在精度和速度方面均超越传统数值预测方法。
盘古药物分子大模型:开启AI药物研发新模式
2021年9月23日,华为在全联接大会2021上发布了华为云盘古药物分子大模型。该模型由华为云深度联合中国科学院上海药物研究所共同训练,是专门面向药物研发领域推出的预训练大模型,旨在帮助医药公司开启AI辅助药物研发的新模式。盘古药物分子大模型首次采用“图-序列不对称条件变分自编码器”架构,能够自动找出化合物关键的分子特征指纹,极大地提升了下游任务的准确性。模型学习了市面上真实存在的17亿个已知的药物分子的化学结构进行预训练, 在化学无监督学习模式下,实现结构重构率、合法性、唯一性等指标全面优于现有方法。
盘古药物分子大模型提出了针对化合物表征学习的全新深度学习网络架构,支持蛋白质与化合物相互作用预测、86种分子属性预测、分子生成、分子优化等功能,生成了1亿全新的小分子化合物数据库,结构新颖性达到了99.68%,并且可以有效地生成理化性质相似的新化合物,为发现新药创造可能性。
盘古政务大模型:赋能政务和城市数字化向智能化升级
2023年9月20日,华为在全联接大会2023上发起“华为盘古政务大模型联合创新行动”,以“赋能政务和城市数字化向智能化升级”为共同目标,重点推进大模型在政务服务、政务办公、城市治理等场景的联合创新方案开发,并推进各级地方政府的“十四五”规划和数字政府、数字经济、数字社会建设规划等实践与落地。盘古政务大模型致力于打造城市AI算力基础设施,赋能城市智能化升级,带动数字经济快速增长,实现高效政务办公,便捷政务服务,精准城市治理。
华为联合深圳市福田区政务局上线了基于盘古政务大模型的福田政务智慧助手小福。依托大模型建设辅助办文、智能校对、自动生成摘要、辅助批示、智慧督办等应用,助力政务数字化转型;在城市数字化领域,利用视觉(CV)大模型提供城市事件智能发现能力,全面覆盖城市治理自动化事件上报场景,精准识别事件并智能上报、自动工单分派。
四、AI开发框架与开发平台
AI开发框架MindSpore:支持科学计算,赋能科研创新与产业应用
MindSpore(昇思)是华为开源自研AI框架。2020年,昇思MindSpore社区实现了业界首个全场景AI框架MindSpore 1.0版本;2021年,推出了MindSpore 1.5版本,开始原生支持大模型的开发;2023年,MindSpore 2.0版本实现全新技术升级,成为支持科学计算的AI融合框架,在基础能力上完成AI与HPC的融合,科学计算能力大幅提升。
昇思MindSpore 2.0版本支持多维混合自动并行能力,提供一站式训练、推理一 体化能力,提升训推性能及可跑模型规模,降低训练成本,打造大模型最佳训推平台。在提升易用性方面,提供了大量开箱即用的模型套件,且支持灵活高效的动静统一,同时打造AI+科学计算领域套件,突破前沿特性,助力行业技术创新等。
AI开发平台ModelArts:面向开发者的一站式AI开发平台
ModelArts是面向开发者的一站式AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流,助力千行百业智能升级。ModelArts构筑全栈全生命周期的模型开发工具链,通过全面的AI工具和服务,为业务智能快速创新赋能。
来源:未来智库
0