年前,有消息称,小米正着手搭建自己的GPU万卡集群,以对AI大模型大力投入。
据悉,小米大模型团队成立时,已有6500张GPU资源。
万卡集群是指,由一万张及以上的加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以训练 AI 基础大模型。
AI领域,小米算是发力较早的厂商之一。早在2016年,公司就已成立AI实验室。
2020年的小米十周年演讲中,雷军曾宣布,未来十年核心战略为“智能手机×AIoT”双引擎,将AI作为小米的核心驱动力之一。
2023年4月,小米AI实验室大模型团队正式成立,任命栾剑担任大模型团队负责人。
2024年5月,小米宣布大语言模型MiLM正式通过大模型备案,将逐步应用于小米汽车、手机、智能家居等产品中。
雷军也曾表示,小米在AI领域已经耕耘多年,有AI实验室、小爱同学、自动驾驶等团队。
“对于大模型,我们当然会全力以赴,坚决拥抱。我们正在研发一些有趣的技术和产品,等我们打磨好了,再给大家展示。”他说。
他还提到,小米做大模型思路和很多公司不太一样,选择主力突破的是轻量化和本地部署。
值得一体的是,此前,有媒体报道,DeepSeek 开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米,或供职于小米 AI 实验室,领导小米大模型团队。
由此可见,小米对AI技术的重视和投入。
除小米外,国际上,微软、OpenAI、Meta等科技巨头都在争相部署万卡集群;国内,许多科技大厂、运营商等也先后入局,一些巨头甚至已开始迈向“十万卡集群”。
例如:
国外
微软:早在2020年,微软便构建了一个覆盖1万块GPU的超级计算机,加速其在云计算和AI服务领域的发展。
亚马逊:2023年7月,Amazon EC2Ultra集群,采用了2万个H100 Tens or CoreGPU。
谷歌:2023年5月,谷歌推出AI超级计算机A3,搭载了约26000块H100 GPU。
Facebook:2024年初,Facebook 母公司 Meta建成了两个各含24576块GPU的集群,并设定目标——到2024年底,构建一个包含35万块H100 GPU的庞大基础设施。
xAI:埃隆·马斯克曾透露,他的人工智能公司xAI计划采用10万颗GPU打造下一代对话式人工智能Grok。
这个超级计算机的规模将是现有人工智能集群的4倍,预计在2025年秋季前投入使用。
国内
中国移动:在2024中国移动算力网络大会上,中国移动副总经理高同庆宣布,将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡,充分满足大模型集中训练需求。
中国电信:中国电信计划在上海规划建设一个达到15000卡、总算力超过4500P的万卡算力池。去年3月,其宣布,天翼云上海临港国产万卡算力池已正式启用。
中国联通:中国联通宣布建成上海临港智算中心,该智算中心是中国联通第一个全液冷国产超万卡智算集群。
阿里巴巴:2018年,阿里巴巴就已开始研发AI集群,2019年建成0.5 EFlops的单GPU集群,2021年已经升级到“万卡”规模,峰值算力达到了1.5 EFlops。
华为:2023年7月,华为昇腾AI集群全面升级,规模从4000卡集群扩展至16000卡,是业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期。
字节跳动:2023年9月,字节跳动已经建立了超过一万张的英伟达Ampere架构GPU集群,目前正在建设Hopper架构的集群。
科大讯飞:同年,科大讯飞也建成首个支持大模型训练的超万卡集群算力平台飞星一号。
蚂蚁集团:蚂蚁集团也在同年年底透漏出已建设超过万卡异构算力集群。
百度:值得一提的是,百度文心大模型4.0就是在万卡AI集群上训练出来的,也是国内首次使用万卡规模集群进行训练的语言大模型。
百度集团执行副总裁、百度智能云事业群总裁沈抖在去年9月曾介绍,GPU集群有三个特征:极致规模、极致“高密”和极致互联。建一个万卡集群,单是GPU的采购成本就高达几十亿元。
而建设GPU万卡集群需要面临的风险之一便是故障率,沈抖介绍:“Meta训练Llama3的时候,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障。”
尽管造价高昂,但“万卡集群”使得训练复杂的大模型成为可能,被业界视作这一轮大模型竞赛的“入场券”。
.END.
图片来源|网络
您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。