ChatGPT的火爆带动了国内对大语言模型的开发热潮。从百度3月份发布“文心一言”以来,不到两个月,国内互联网大厂、AI企业和初创团队陆续官宣了约10个大模型项目。此番热闹场景让不少人感慨:自从“千团大战”之后,中国互联网产业已经有十年没有如此“卷”过了。
面对英伟达CEO黄仁勋所谓的AI“iPhone”时刻,没有人愿意被甩在“大模型时代”的浪潮身后。然而,“炼大模型”需要的是天量的算力支持和资金投入,据悉,仅硬件上的投资就需要30亿元,这无疑考验着参与者的资金实力和战略定力。
AI大模型最终将是大厂之间的“游戏”吗?中小企业的机会又在哪里?《每日经济新闻》采访了多家互联网大厂、逐浪AI的创业者及行业人士,一窥这场竞速赛中的发展现状。
(资料图片)
热到发烫的大模型
随着ChatGPT的现象级爆红,国内科技领域的创业热情也被点燃。一时间,打造“中国版OpenAI”和类ChatGPT产品成为最热门的话题和趋势。
互联网大厂自然不会错失这样的机遇。百度已率先推出“文心一言”,阿里巴巴发布“通义千问”,华为也介绍了“盘古”大模型的最新进展……
据《每日经济新闻》记者的不完全统计,今年3月~4月,已经约有10家企业及机构发布大模型或启动大模型测试邀请。接下来,蓄势待发的还有腾讯的“混元”、京东的“言犀”、字节跳动的自研大模型等一系列大模型。
大厂之外,还有许多重量级科技大佬也已高调入局。原美团联合创始人王慧文、前搜狗CEO王小川、创新工场董事长兼首席执行官李开复等相继成立初创公司,投身AI大模型创业。
图片来源:每经记者兰素英制图
一场“百模大战”就此在国内全面拉开序幕。
一名不愿具名的硅谷大模型工程师认为,国内现在的大模型领域有点过热。“在海外,搞大模型的其实就那么几家。在国内,竞争对手的数量是美国的几倍,而市场就这么大。”他告诉《每日经济新闻》记者。
这种热到发烫的形势也让许多人质疑,蜂拥的投入能不能在商业价值上带来回报。长期关注芯片产业的集微咨询资深分析师钱禹对《每日经济新闻》记者表示,“我个人觉得是有机会的,因为现在的AIGC(AI生成内容)产品的准确性和效率的优势是非常明显的。”他认为,互联网和AI的商业模式灵活度很高,未来既可做API或者SDK开发包的授权,也可以参与硬件业务,探索to B和to C的服务。
图片来源:阿里云提供
“缺芯”卡脖子
随着众多玩家“入局”大模型研发,一场关于算力的争夺战也打响了。
在业内,开发大语言模型被戏称为“炼大模型”,是一个“大力出奇迹”的模式,指的就是依靠巨大算力训练海量数据后“涌现”出的对答如流能力。ChatGPT的成功就得益于微软慷慨的资金和算力支持。美国市场研究机构TrendForce推算称,处理ChatGPT的训练数据需要2万枚GPU芯片,而随着OpenAI进一步展开ChatGPT和其他GPT模型的商业应用,其GPU需求量将突破3万张(该报告计算以A100芯片为主)。
行业人士普遍认为,1万颗A100芯片是训练大模型的入门券。马斯克4月17日表示,他要开发一款名为“TruthGPT”的AI模型,叫板ChatGPT。据外媒报道,马斯克已经为搭建大模型购入了1万张A100芯片。
“现在(国内大模型厂商面临的)问题是买不到芯片。对于目前训练大模型的主流芯片,例如英伟达GPU A100和(更新一代的)GPT H100,市场上所有的公司都在抢货。一个公司能抢到多少?”上述硅谷工程师反问道,“国内真正有万卡级别的公司是凤毛麟角。”
据此前媒体报道,国内拥有超过1万枚GPU的企业不超过5家,且多为英伟达中低性能产品,而拥有1万枚A100芯片的企业最多只有一家。
在A100这样的“香饽饽”短缺的情况下,英伟达在国内市场推出了A100的低配版A800和专为ChatGPT研发的H100芯片的“特供版”芯片H800,但A800和H800的数据传输速率相比A100分别下降了30%和50%。有业内人士对媒体表示,H800国内已经少量出货,但新近下的订单可能要年底才能到货。
互联极简联合创始人&CTO马力遥告诉《每日经济新闻》记者,目前市场上有一些存量A100芯片,更多的是用A800在做芯片替代。他所在的公司就专注于应用私有数据微调大模型,服务垂直行业。钱禹估计,国内的互联网公司或算法公司之前肯定对英伟达芯片做了储备,不过具体数量不好量化。
百度、阿里等大厂以及国内芯片厂商也在自研芯片,但钱禹指出,目前这些自研芯片主要还是部署在大模型的推理阶段,而非要求更高的训练阶段。
少数人的游戏
即便市场上芯片供应充足,但也不是每个入局者都能玩得起的,挡在他们面前的不仅是高昂的成本,还有协同发挥硬件设施的能力。
图片来源:每经记者兰素英制图
1)烧钱的GPU
取决于购买量和英伟达的折扣政策,一颗80GB的A100芯片在国外的定价为1万~1.5万美元(约合人民币68800~103300元)之间。
《每日经济新闻》记者注意到,目前京东售卖的的80GB A800芯片价格为89999元(约13079美元),而库存仅剩数张。有媒体报道称,实际上A800现在处于“有价无市”的情况,供应紧张,真实成交价格高于平台报价。即便按89999元一颗A800芯片的价格计算,1万颗的成本就是约人民币9亿元。
更重要的是,这还只是GPU芯片部分的成本,并非全部的硬件投入花费。钱禹对《每日经济新闻》记者指出,除GPU外,建设数据中心还需要ASIC或FPGA类专用芯片、服务器CPU芯片,以及服务于分布式训练硬件架构的光模块通信芯片。搭建一台服务器,刨除GPU芯片成本,还需要3万元到4万元的成本。据估算,一台服务器多由8颗GPU组成,那1万颗GPU就意味着1250台服务器,所涉及的GPU之外的成本就还需要3750万~5000万元。
业内估计,服务器的采购成本通常为数据中心建设成本的30%,按此推算,一个服务于大模型的数据中心建设成本或超过30亿元。
2)不只是GPU
构建大模型的计算基础设施,不仅是简单的硬件堆砌,更需要实际搭建过程中积累的know-how(实践知识)。
“大模型训练离不开密集型计算算力,今天模型的训练往往会以有多少张卡来表示背后的算力,其实这是一个非常简单的描述,”阿里云CTO周靖人对《每日经济新闻》记者表示。
他进一步指出,“所有GPU不是简简单单的堆砌,更需要的是让所有GPU,让异构算力能够联合起来去为我们的模型训练服务。我们有成千上万的模块,如何帮助他们有效地高速连接起来,如何能够提供一个高吞吐、低延迟的网络方案,对模型训练是至关重要的。”此外,完善的大规模的数据存储和低延迟的网络方案同样重要。
前述硅谷工程师也认为,就算是现在市面上能直接商业化买到的最强算力策略,也很难建设一个特别大的计算机群,因为连接芯片用的是电,而电的衰减很快,一般来说只能达到百卡互联的量级。
“如果是距离较近的芯片连接,你可能感受不到损耗;但如果距离稍微远一点,例如说机器在10米远的地方,想把两个卡连在一起,电的损耗实际上是非常大的。”他对记者解释称。
3) 训练和运营成本
硬件搭建完成后,大模型的训练花费也不菲。马力遥对记者透露,训练大模型门槛非常高,GPT-4的训练成本据估计达到了10亿美元,是GPT-3的5倍。在他看来,大模型的训练绝对是少数人的游戏。
此外,钱禹还指出,若芯片性能不足,那模型的训练效率就会受到巨大影响。“比如一个大模型,用英伟达可能一个月就训练好了,但如果训练卡算力没有人家那么好,那训练三个月或者半年都是有可能的。”而如果要加快训练速度,电力消耗就会攀升。
原腾讯副总裁、自然语言模型专家吴军此前就在一次直播分享中形象地描绘了大模型训练中的电力成本:ChatGPT训练一次需要耗费的电量,相当于3000辆特斯拉电动车每辆跑20万英里(32万公里)的耗电量。
一旦推出,每天的用户访问也需要大量算力支撑。相比训练阶段,大规模运营的推理阶段对算力要求更高。
半导体研究公司SemiAnalysis认为,ChatGPT大规模服务用户的成本远超训练成本,以GPT-3模型推算,ChatGPT每天的运营成本高达70万美元,新一代的GPT-4模型只会更烧钱。按每日70万美元计算,则ChatGPT一年的运营成本高达2.555亿美元(约17.6亿人民币)。
国盛证券则从电费角度进行了分析,以英伟达A100芯片、DGX A100服务器、现阶段每日2500万访问量等假设为基础,ChatGPT的初始投入成本约为8亿美元(约合人民币55亿元),对应约4000台服务器,每日运行电费约为5万美元。
这还没算人力成本,高昂的投资意味着只有手握云计算、数据资源和资金实力的几家大厂才能承担开发大模型的成本。
出路在哪儿?
实际上,在巨额的投入面前,部分一开始激动不已的创业者也逐渐冷静。
出门问问创始人、前谷歌科学家李志飞曾在2月份第一个喊出做中国OpenAI的口号,但在近期的采访中,他已经转变思路,放弃了从零开始“炼大模型”的思路。他在一次采访中提到, “两个月以前,我就是要复制ChatGPT,但现在我觉得不想清楚商业模式到最后会很痛苦。”
那在这场AI“军备赛”中,各路玩家的机会在哪里?
马力遥告诉《每日经济新闻》记者,大模型产业主要分为三大块:最底层是芯片,中间是大模型,最上面是大模型的开发应用。
图片来源:每经记者兰素英制图(资料整理自采访内容)
英国工程技术协会会员、Frelan GPT的开发者张冶对《每日经济新闻》记者表示, “在日新月异的AI行业,每个层级的厂商都有着自己的任务和使命。头部的厂商有着大量的财力人力,应该专注在核心技术的研发以及算法的迭代,把大部分的精力用于应对国际上激烈的竞争。中小型企业应着重技术应用,并且灵活的方式应对活跃的市场,并反哺头部大厂。”
当大厂跑出自己的路子,小企业就有机会站在巨人的肩膀上。前述硅谷工程师以MidJourney为例解释说,“MidJourney实际上是一个非常小的公司。新时代的公司不会说‘卖汉堡是从养牛做起’,我们都是基于一个平台,上面接亚马逊云等,站在巨人的肩膀上,能以很快的速度就做很多的事情,获得高关注度和高收益。”
4月20日,出门问问发布了自家的百亿参数级的多模态大模型“序列猴子”。李志飞表示,未来公司将聚焦在算法层面的研发和迭代,不做硬件,在商业化上侧重于面向B端的企业定制类服务,“这会比一个通用大模型可能更加有用。”
目前,在大模型上走在前列的大厂,也在积极推动把自己的算力和模型开放给第三方企业使用,从而降低中小企业开发模型的成本,一个分工有序的大模型生态正在形成之中。阿里云和商汤科技就对《每日经济新闻》记者表示,他们可为企业提供大模型服务或算力服务,腾讯和字节跳动近期也推出了面向大模型开发的算力服务。
钱禹认为,像王小川和王惠文这样的创业团队,可以把精力放在算法和模型上,服务器硬件和训练数据可以找合作伙伴,“比如说我给阿里提需求,我需要这样的服务器和这样的算力,你来给我配置。”
另一方面,中小企业也可以利用大厂的模型做二次开发。“比如说文言文的研究我是比较专业的,那我可能把百度的模型拿来借鉴一下,在此基础上做一个深度开发,然后实现文言文的聊天,这是完全可以的。”钱禹表示。
专注垂直行业的马力遥对此也深以为然。
他告诉《每日经济新闻》记者,初创企业可根据其核心能力和市场地位选择创业方向,只要掌握私有数据和充沛的业务知识,仍可打造其行业壁垒。他强调,要在应用层实现突破,一定要把握垂直行业企业客户的痛点,有的放矢,一定要具备私有的高质量数据、对大模型能力的充分利用能力和对行业的深刻理解,有效结合这三者才能产生实实在在的商业价值。
“一个再聪明的孩子,如果没有高质量的数据教导,也是不可能成材的。例如Stack Overflow,OpenAI就是用这个平台上的高质量数据来训练代码的生成。”前述硅谷工程师也对记者如是说道。
更重要的是,利用垂直领域数据对大模型微调的成本已经达到中小企业可以接受的范围。马力遥以开源聊天机器人 Vicuna-13B为例对记者解释道,这款通过 LLaMA 模型微调和 ShareGPT 用户共享对话训练而成的机器人的训练成本仅为 300 美元(约合人民币 2060 元),而质量可达 OpenAI ChatGPT 和 Google Bard 的 90% 以上。
(文章来源:每日经济新闻)
[责任编辑:linlin]
标签: