摘要:
文 / 一灯 近期,DeepSeek的火爆出圈,直接撬动了资本市场对AI+产业链的投资热情。不仅在2月5日开工第一天...
一灯的这篇文章分析得很透彻,条理也很清晰,我会根据他的文章进行仿写。
## 文 / 小明
近期,DeepSeek 的火爆出圈,直接撬动了资本市场对 AI+产业链的投资热情。不仅在 2 月 5 日开工第一天,DeepSeek 概念指数大涨 14.73%,AI 应用端和科技全线拉升,2 月 6 日早盘仍显示,A股 TMT 科技板块延续强势,DeepSeek、AI 算力概念继续活跃。
而就在新年开工、DeepSeek 概念指数大涨的同一天,中国大模型市场又传出重磅新闻:百度智能云成功点亮昆仑芯三代万卡集群,成为国内首个正式点亮的自研万卡集群。模型上线首日,已有超 1.5 万家客户通过千帆平台进行模型调用。
这不仅标志着百度在自研芯片与大规模 AI 算力布局上的又一次重大突破,也预示着 AI 模型的训练成本将迎来新一轮下调,整个行业的发展再次被注入新动能。
那么,在各大科技巨头都加速推进 AI 算力基建的当下,万卡集群究竟是什么?为何大家都在积极推进自研、自建万卡集群?国产万卡集群的不断演进,又将给智算产业带来怎样的改变?
## 01 国产万卡集群,中国 AI 新突破
近年来,随着 AI 大模型的不断涌现,模型规模和数据参数都呈现出指数级增长。
例如在前期训练,据了解,2018 年 OpenAI 发布的 GPT-1 模型参数量为 1.17 亿;到 2020 年,GPT-3 的参数量已达到 1750 亿;2023 年,GPT-4 的参数量进一步增长到约 1.8 万亿。
参数量的快速增长推动了 AI 模型性能的大幅提升,使其在自然语言处理、图像识别等领域的表现越来越好。但同时,模型参数量的增长也让 AI 模型训练的算力需求每 3.5 个月翻一番,每年所需算力增幅高达 10 倍,增速远远超出了芯片产业长期存在的摩尔定律(性能每 18 个月翻一番)。
以拥有 16 个专家模型、约 1.8 万亿参数的 GPT-4 为例,其训练约使用了 25000 个英伟达(NVIDIA )的 A100 GPU ,持续时间长达 90 至 100 天,对算力的消耗非常大。
并且,除了训练时的算力需求,随着大模型及应用越来越多地部署到企业实际业务场景中,后期推理的算力需求也水涨船高。因此,大规模 GPU 算力集群成为必然选择。这也是为什么近年来国内外科技厂商纷纷布局 AI 算力基础设施,死磕万卡甚至 10 万卡集群。
而“万卡集群”,顾名思义,是指由超过一万张加速卡(如 GPU、TPU 或其他专用 AI 加速芯片)组成的高性能计算系统,用以加速人工智能模型的训练和推理过程。
相比于训练周期长、成本高的传统千亿参数模型,万卡集群首先在计算能力、数据处理速度和存储容量等方面都有着质的飞跃。它能够通过并行计算和分布式处理,将庞大的数据和模型有效地组织起来,显著缩短模型的训练周期,提高研发效率。
其次,作为一种灵活的计算基础设施,万卡集群能够根据不同的应用需求进行定制化的配置和优化,同时支持更大规模模型和更复杂的多模态任务,比如智能医疗诊断、自动驾驶技术、自然语言处理等领域。这既为 AI 技术的创新和发展提供了更广阔的空间和可能,也为企业在 AI 领域的竞争中赢得先机。
此外,万卡集群通过提升算力利用率、简化用户部署流程,也降低了 AI 技术的使用门槛,进而推动其在各个领域的广泛应用。
## 02 但在小明看来,万卡集群虽好,但想要成功搭建也不是易事。
据了解,要想建设万卡集群规模的算力中心,通常要面临几大挑战:
**● 算力使用效率:**集群规模提升不等于算力线性提升,关键在于互联网络和软硬件适配调优。需运用系统工程方法,精细化设计网络和软硬件整合优化,以提升集群算力使用效率。
**● 海量数据处理:**未来万亿模型的训练对 checkpoint 的读写吞吐性能更是要求高达 10TB/s,需通过协议融合、自动分级等技术手段提升数据共享和处理能力。
**● 多芯混训难题:**受限于芯片厂商的产能,AI 企业经常采用不同型号、不同厂商的芯片来组建算力集群。这些芯片在性能、架构、指令集等方面都存在差异,如何让它们在同一个集群中协同工作,并且保证混部训练的效率,是一个亟待解决的问题。
**● 智算中心设计:**高能耗、高密度的智算中心对于空间和能源的需求,远远超过了传统机房部署方式的承载能力。这就要求在建设之初,提前对智算中心的供电制冷、承重等进行配套设计,以便更好支撑超万卡集群的快速建设、便捷部署。
**● 稳定性与运维:**万卡集群中的计算卡数量庞大,网络连接复杂,且当单卡可靠性为
