大模型倒逼云存储升级腾讯云提速加量不加价

Connor okex欧易交易所 2024-05-10 410 0

经济观察网记者陈月芹大模型与云计算，正在成为AI（人工智能）时代的淘金者和卖铲人。而作为数据的载体，数据存储则是AI大模型的关键基础设施。

4月8日，腾讯云带来了面向AIGC（生成式人工智能）场景全面升级的云存储解决方案，主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成。

这一系列云存储产品瞄准时下最火的大模型全链路数据处理难题。一般而言，AI大模型的研发生产流程，分成数据采集、数据清洗、模型训练、推理应用四大环节，各环节都涉及海量的数据处理。

不同的环节，对存储的要求不尽相同。腾讯云存储总经理马文霜介绍，数据采集阶段需要一个大容量、低成本、高可靠度的数据存储底座，方便数据快速接入；在数据清洗阶段，需要存储提供一个更多协议的支持；在模型训练阶段，通常需要每2小时至4小时保存一次训练成果，以便能在GPU（图形处理器）故障时能回滚，因此快速地读写checkpoint（检查点）文件也成了能否高效利用算力资源、提高训练效率的关键，保障连续训练和提升CPU（中央处理器）的有效使用时长；在推理应用阶段，更需要存储提供丰富的数据审核能力，来满足鉴黄、鉴暴、安全合规的诉求，保证大模型生成的内容是合法、合规的。

此次发布会上，相比其他产品，CFS Turbo被着墨介绍的篇幅更多。

CFS Turbo是面向AIGC训练场景进行专门优化的腾讯云自研产品，据介绍，其每秒总读写吞吐能达到TiB/s（太字节每秒）级别，每秒元数据性能高达百万OPS（算力单位）。3TB（太字节）checkpoint 写入时间从10分钟，缩短至10秒内，能使大模型训练效率大幅提升。

腾讯云文件存储总监陆志刚说，AIGC业务场景对数据存储提出了更高的挑战，尤其是在模型训练和推理方面，需要超高的写吞吐和对小文件超高的OPS性能。

陆志刚把GPU的大模型训练比作是一个炼丹炉，它需要用户喂入数据从而产生想要的结果，而此时文件存储就是用来给大模型提供输入和输出的载体，一方面，输入海量的小样本文件，比如互联网上抓取的网页和PDF（便携式文档格式文件）书籍文档，另一方面，输出形式则是一个模型文件。大模型需要通过一个大的TB级模型文件来提供推理，因此对小文件的OPS和大文件的吞吐有比较高的要求。

展开全文

面对这个挑战，文件存储需要一个并行的客户端、强一致缓存、后端服务端集群能提供分布式服务等技术要素。而CFS Turbo就是具备这三种要素的分布式并行文件存储。

除了腾讯混元大模型，谁是更新换代后的腾讯云存储产品的目标客户？

腾讯云存储总经理陈峥解释，腾讯的整个自研业务里，包括混元大模型，都是基于整个AIGC云存储的底座来构建的，其中包括checkpoint是基于CFS Turbo高性能写入的新架构，以及数据清洗基于对象存储COS和存储引擎YottaStore进行构建的。

陈峥没有透露云存储升级后的效率数据：“从自研业务上看，我们的训练时间提升了2倍以上。外部客户来看，AIGC清洗领域的一些创业公司应用了我们整个AIGC云存储的解决方案后，清洗、训练的效率也得到了提升，包括应对读写大带宽、高吞吐时，跑出实际业务的值已经超出我们当时的想象，确实提升有数倍之多。”

马文霜还补充，两年前腾讯发布CFS Turbo第一个版本时，读写吞吐量是100GB（千兆字节），当时团队觉得这个读写吞吐量已经足够大，很多业务用不到，但2023年大模型出来后，用第一代CFS Turbo去写checkpoint时会发现100GB还远远不够，“现在我们把吞吐量升级到1 TB，也是希望让大模型用户能更快地加速训练，提升效率”。

据马文霜介绍，目前已经有80%的头部大模型企业选择腾讯云AIGC云存储解决方案，包括百川智能、智谱AI、元象科技等明星大模型企业。

不过，大模型企业不是腾讯云存储解决方案的单一客户，陈峥透露，除了AIGC领域，自动驾驶领域的应用案例不少。相比大模型，自动驾驶更侧重训练，在推理方面的要求偏少。当AIGC训练出模型后，目前一些C端（个人用户端）软件基于智能模型再去做推理实际应用输出，比如月之暗面公司的大语言模型Kimi是To C（面向个人用户）的，自动驾驶更侧重在B端（企业用户端），通过路采数据做清洗、分割，再输送到整个自动驾驶训练场景，能够产生一些模型的数据，辅助车辆规避路障，最后实现自动驾驶。

因此，除了大模型企业，CFS Turbo也被广泛应用于自动驾驶与工业仿真场景，包括博世汽车、蔚来等自动驾驶厂商，上海电气、深势等仿真场景，墨镜天合、追光等影视特效场景。

虽然同处在腾讯体系内，云存储和混元大模型如何协同，是外界十分关心的问题。比如，当混元大模型提出更高需求时，云存储作为其底座，是否需要“花费比较大的力气才能达成”？

陈峥对此进行了否认，直言“还好，没有花很大的力气”。

他解释，当客户提出100GB量级需求的时候，腾讯云已经在预估怎么去满足200GB甚至500GB等需求。如果客户给你提100GB要求时，我只能提供100GB的能力，产品的局限性已经存在了。

这时，马文霜还补充了一点他观察到的变化：“今年第一季度，大模型企业在云存储的消耗同比增加了，可能是大模型企业拿到的投资更多了吧。”

“云存储解决方案升级后，价格会涨吗？”马文霜明确表示，“价格没有变化”。