大模型倒逼云存储升级 腾讯云提速加量不加价
经济观察网 记者 陈月芹 大模型与云计算,正在成为AI(人工智能)时代的淘金者和卖铲人。而作为数据的载体,数据存储则是AI大模型的关键基础设施。
4月8日,腾讯云带来了面向AIGC(生成式人工智能)场景全面升级的云存储解决方案,主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成。
这一系列云存储产品瞄准时下最火的大模型全链路数据处理难题。一般而言,AI大模型的研发生产流程,分成数据采集、数据清洗、模型训练、推理应用四大环节,各环节都涉及海量的数据处理。
不同的环节,对存储的要求不尽相同。腾讯云存储总经理马文霜介绍,数据采集阶段需要一个大容量、低成本、高可靠度的数据存储底座,方便数据快速接入;在数据清洗阶段,需要存储提供一个更多协议的支持;在模型训练阶段,通常需要每2小时至4小时保存一次训练成果,以便能在GPU(图形处理器)故障时能回滚,因此快速地读写checkpoint(检查点)文件也成了能否高效利用算力资源、提高训练效率的关键,保障连续训练和提升CPU(中央处理器)的有效使用时长;在推理应用阶段,更需要存储提供丰富的数据审核能力,来满足鉴黄、鉴暴、安全合规的诉求,保证大模型生成的内容是合法、合规的。
此次发布会上,相比其他产品,CFS Turbo被着墨介绍的篇幅更多。
CFS Turbo是面向AIGC训练场景进行专门优化的腾讯云自研产品,据介绍,其每秒总读写吞吐能达到TiB/s(太字节每秒)级别,每秒元数据性能高达百万OPS(算力单位)。3TB(太字节)checkpoint 写入时间从10分钟,缩短至10秒内,能使大模型训练效率大幅提升。
腾讯云文件存储总监陆志刚说,AIGC业务场景对数据存储提出了更高的挑战,尤其是在模型训练和推理方面,需要超高的写吞吐和对小文件超高的OPS性能。
陆志刚把GPU的大模型训练比作是一个炼丹炉,它需要用户喂入数据从而产生想要的结果,而此时文件存储就是用来给大模型提供输入和输出的载体,一方面,输入海量的小样本文件,比如互联网上抓取的网页和PDF(便携式文档格式文件)书籍文档,另一方面,输出形式则是一个模型文件。大模型需要通过一个大的TB级模型文件来提供推理,因此对小文件的OPS和大文件的吞吐有比较高的要求。
展开全文
面对这个挑战,文件存储需要一个并行的客户端、强一致缓存、后端服务端集群能提供分布式服务等技术要素。而CFS Turbo就是具备这三种要素的分布式并行文件存储。
除了腾讯混元大模型,谁是更新换代后的腾讯云存储产品的目标客户?
腾讯云存储总经理陈峥解释,腾讯的整个自研业务里,包括混元大模型,都是基于整个AIGC云存储的底座来构建的,其中包括checkpoint是基于CFS Turbo高性能写入的新架构,以及数据清洗基于对象存储COS和存储引擎YottaStore进行构建的。
陈峥没有透露云存储升级后的效率数据:“从自研业务上看,我们的训练时间提升了2倍以上。外部客户来看,AIGC清洗领域的一些创业公司应用了我们整个AIGC云存储的解决方案后,清洗、训练的效率也得到了提升,包括应对读写大带宽、高吞吐时,跑出实际业务的值已经超出我们当时的想象,确实提升有数倍之多。”
马文霜还补充,两年前腾讯发布CFS Turbo第一个版本时,读写吞吐量是100GB(千兆字节),当时团队觉得这个读写吞吐量已经足够大,很多业务用不到,但2023年大模型出来后,用第一代CFS Turbo去写checkpoint时会发现100GB还远远不够,“现在我们把吞吐量升级到1 TB,也是希望让大模型用户能更快地加速训练,提升效率”。
据马文霜介绍,目前已经有80%的头部大模型企业选择腾讯云AIGC云存储解决方案,包括百川智能、智谱AI、元象科技等明星大模型企业。
不过,大模型企业不是腾讯云存储解决方案的单一客户,陈峥透露,除了AIGC领域,自动驾驶领域的应用案例不少。相比大模型,自动驾驶更侧重训练,在推理方面的要求偏少。当AIGC训练出模型后,目前一些C端(个人用户端)软件基于智能模型再去做推理实际应用输出,比如月之暗面公司的大语言模型Kimi是To C(面向个人用户)的,自动驾驶更侧重在B端(企业用户端),通过路采数据做清洗、分割,再输送到整个自动驾驶训练场景,能够产生一些模型的数据,辅助车辆规避路障,最后实现自动驾驶。
因此,除了大模型企业,CFS Turbo也被广泛应用于自动驾驶与工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深势等仿真场景,墨镜天合、追光等影视特效场景。
虽然同处在腾讯体系内,云存储和混元大模型如何协同,是外界十分关心的问题。比如,当混元大模型提出更高需求时,云存储作为其底座,是否需要“花费比较大的力气才能达成”?
陈峥对此进行了否认,直言“还好,没有花很大的力气”。
他解释,当客户提出100GB量级需求的时候,腾讯云已经在预估怎么去满足200GB甚至500GB等需求。如果客户给你提100GB要求时,我只能提供100GB的能力,产品的局限性已经存在了。
这时,马文霜还补充了一点他观察到的变化:“今年第一季度,大模型企业在云存储的消耗同比增加了,可能是大模型企业拿到的投资更多了吧。”
“云存储解决方案升级后,价格会涨吗?”马文霜明确表示,“价格没有变化”。
评论