华为发布盘古大模型3.0，“没时间作诗”

当前位置：主页 > 科技 > 正文

来源：金融界作者：洞察网2023-07-09 09:28:44

7月7日，第六届世界人工智能大会（WAIC）正在上海如火如荼地进行，大模型是绝对的关键词，而正当各大厂商的大模型“争奇斗艳”时，华为却推出了一个“不作诗”的大模型。

“盘古大模型不作诗，也没有时间作诗，因为它要深入到各行各业中去，让AI赋予各行各业价值。”7月7日下午，在华为开发者大会2023（Cloud）上，华为云CEO张平安说道。

(相关资料图)

张平安在会上宣布，盘古大模型3.0正式发布，该模型是一个完全面向行业的大模型系列。

据他介绍，盘古大模型3.0包括“5+N+X”三层架构：

L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型，提供满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型，匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集，包括NLP大模型的知识问答、文案生成、代码生成，以及多模态大模型的图像生成、图像理解等能力，都可以供客户和伙伴企业直接调用。

L1层是N个行业大模型，华为云既可以提供使用行业公开数据训练的行业通用大模型，包括政务，金融，制造，矿山，气象等大模型；也可以基于行业客户的自有数据，在盘古大模型的L0和L1层上，为客户训练自己的专有大模型。L2层为客户提供了更多细化场景的模型，更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景，为客户提供“开箱即用”的模型服务。

据披露，盘古大模型采用完全分层解耦设计，可以快速适配、快速满足行业的多变需求。客户既可以为自己的大模型加载独立的数据集，也可以单独升级基础模型，也可以单独升级能力集。在L0和L1大模型的基础上，华为云还为客户提供了大模型行业开发套件，通过对客户自有数据的二次训练，客户就可以拥有自己的专属行业大模型。同时，根据客户不同的数据安全与合规诉求，盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

“盘古为行业而生，就要为行业着想”，张平安表示，如今盘古大模型已在金融、金融、制造、医药研发、煤矿、铁路等诸多行业发挥着巨大价值。

“大家知道其他人都可以使用行业里最成熟的GPU，最成熟的软件，但是华为不可以，所以华为只能依赖我们自己打造的AI的根技术。”他说道。

张平安透露，华为在最底层构建了以鲲鹏和昇腾为基础的AI算力云平台，以及异构计算架构CANN、全场景AI框架昇思MindSpore，AI开发生产线ModelArts等，为大模型开发和运行提供分布式并行加速，算子和编译优化、集群级通信优化等关键能力。

“基于华为的AI根技术，大模型训练效能可以调优到业界主流GPU的1.1倍。”他表示。

算力是训练大模型的基础。

在本次大会上，张平安宣布单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。昇腾AI云服务除了支持华为全场景AI框架昇思MindSpore外，还支持Pytorch、Tensorflow等主流AI框架。同时，这些框架中90%的算子，都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。例如，美图仅用30天就将70个模型迁移到了昇腾，同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速，AI性能较原有方案提升了30%。

此外，在大模型训练过程中经常会遇到GPU故障，研发人员不得不经常重启训练，时间长，代价大。昇腾AI云服务可以提供更长稳的AI算力服务，千卡训练30天长稳率达到90%，断点恢复时长不超过10分钟。

[责任编辑：linlin]

标签：