记者 李晔
“2018年提出SenseCore大装置时,我将其类比为人工智能的粒子对撞机,以期撞出AI基础科学定律。”4月23日说这话时,商汤科技董事长兼CEO徐立身处大装置所在的商汤临港智算中心。1小时后,他向台下济济一堂的生态伙伴与客户介绍行业首个“云、端、边”全栈大模型产品矩阵及日日新大模型SenseNova5.0版,后者综合能力据称已达到或超越GPT-4 turbo。
翌日,商汤科技开盘价上涨逾30%,当周股价涨幅近100%。
六年前,被徐立称为“机器的猜想”的大装置,让人看不懂;六年来,商汤每年数十亿元往里砸钱,外界不看好。直到近期,商汤披露2023年财报,加上4月23日商汤技术交流日上一系列成果发布,人们恍然大悟:“机器的猜想”不仅撞出了“三月一更”的日日新大模型,撞出了“百模争流”的算力柴火,还把商汤从行业标杆推向生态引领与建设者“大哥”角色。
“不响”的商汤,在AI大模型演进潮中,激起业内大声响。
落地
去年4月,商汤的日日新SenseNova大模型体系首次亮相,短短一年内,已迭代至5.0版,能力再进阶。
论写作,一篇有关《红楼梦》的高考作文,GPT-4遵循老套路,日日新5.0版却能从《诗经》谈起,引用革故鼎新的典故,再融合互联网热词,行文发散,思路打开。
论“文生图”,“一张具SenseNova标志的未来派建筑图”,无论标志所嵌位置的恰当性,还是建筑底部呈现的倒影波浪,均实现了较完整的“指令跟随”。
被问及“13位小朋友玩老鹰抓小鸡,已抓5只,还剩几只?”时,日日新5.0版回答“还剩7只”,证明它准确理解了游戏规则。
徐立介绍,5.0版性能突破,一靠模型架构,二靠数据构造。在混合专家架构(MoE)下,大模型数千亿参数仅“稀疏”激活便能实现高效推理。此次商汤着重在推理层构造了数千亿个旨在理顺逻辑的合成数据。如金融领域,诸多文件间存在规则冲突,商汤构建了外规强于内规、新规覆盖旧规的强思维链,这成为大模型能力提升的关键。
“百模大战”仍酣,落地才是王道。徐立坚信,中心化的算力需求必会向端侧及行业边缘侧拓展,为此商汤早有布局,此番亮出“云、端、边”全栈大模型产品线,从办公和代码助手到虚拟形象再到手机汽车智能终端,均在商汤“射程”内。小米、华为、金山办公、海通证券、阅文集团等一众灯塔客户更是亲自前来站台。
小米集团小爱总经理王刚透露,近期推出的小米汽车SU7,由小爱同学为车主提供智能交互体验,其中也应用了商汤的大模型技术。上“打”GPT-4,下接百千行,商汤此次亮相颇为惊艳,徐立却多次强调“性价比”。如针对金融、医疗、政务等领域,商汤推出企业级大模型一体机,不仅解决敏感行业“数据不出域”,而且价格亲民。“像代码大模型一体机,我们按照算力模型仔细核算成本,实现本地部署,单台支持100人研发团队使用,人均每天仅4.5元。”徐立笑言,这大概要拜过去“踩坑无数”所赐。
柴火
大模型训练如炼丹,以GPU为核心的算力如柴火。为训练GPT-3.5,OpenAI使用了1万张英伟达GPU。可见谁柴火储备多,谁就占据主动。
商汤六年前即布局SenseCore大装置,2019年就已具备千卡并联能力,现总算力规模增至12000P,运营GPU高达4.5万张。去年,商汤基于“大模型+大装置”的生成式AI业务录得12亿元收入,占总收入的35%。这也是商汤成立以来从无到有最快超十亿元收入体量的新业务。
2022年底,ChatGPT横空出世,引发全球范围AI算力需求激增。商汤何以提前四年便有前瞻认知,投入累计达数百亿元?徐立自谦,“当时旨在降成本”。AI落地之初,监控窨井盖缺失等场景,需单独部署算法、数据和一群人。换一个场景,又是相同配置。徐立便考虑,干脆以一个通用模型来覆盖多场景。但模型越通用,训练数据和模型参数就越多,对算力要求也越高。当年,商汤在市场上遍寻不着可以大规模互联的AI算力集群,甚至被云厂商嫌弃这需求过于小众,要求商汤自行承担全部一次性工程费用。
那还不如自建呢!当时徐立对下一阶段算力需求爆发的判断在AI驱动的科研上,提出地球科学、材料、生物、制药、能源五大方向。这些行业尚未形成定律,AI在其中定大有空间。2018年起,商汤投建大装置,2020年夏在临港建设智算中心,从此开弓再无回头箭。
很快,曾经的“小众”需求,便演变为行业主流。商汤自用算力逐渐向外输出,大装置现已实现对万亿参数大模型的生产支持,具有超30天稳定训练不间断能力,出现间断时的诊断恢复时长也被优化至半小时内。
国内正“炼丹”的大模型深知,这些硬核数字对它们意味着什么。
生态
但算力输出能力不单以拥有多少张卡为标准。
从千卡并联跃上万卡台阶,对集群稳定性和高效计算构成巨大挑战,而且这种工程化的能力无作业可抄,唯有无数个日夜的沉浸式攻关。当下,直面国产算力替代问题,商汤所需攻克的难点更多,“将不同芯片组织起来的算力集群要解决连接、异构、能耗、稳定性极限等”。徐立称,商汤总算力中,国产算力已达2000P,未来占比还会更多。
商汤还与上海人工智能实验室一同研发了DeepLink并行计算体系。该体系可确保国产芯适配主流的大模型训练框架和算法库,现已能覆盖99.5%的CUDA所支持的大模型计算需求。
目前,包括华为、寒武纪、壁仞、沐曦等在内,商汤大装置已可深度适配20余款国产芯片,已落地多个千卡级别的国产算力集群。
关于担任国产算力生态构建者这一全新角色,徐立认为,用合适的应用来倒推国产算力架构能力提升,或是可行之路。“我们现在面临挑战,但正因此,算力平台的兼容性、异构调度的兼容性等在承压之下定会奋力崛起。”他自信地说。