4 月8日,智譜(HK2513)正式開源新一代大模型GLM5.1。作為智譜(HK2513)GLM系列的最新力作,GLM-5.1的整體能力得到了全面提升。尤其在代碼能力上:在最接近真實軟件開發(fā)(881272)的SWE-bench Pro基準測試中,GLM-5.1超過GPT-5.4、Claude Opus4.6,刷新全球最佳成績。此外,GLM-5.1還在長程任務(wù)(Long Horizon Task)處理能力上實現(xiàn)了顯著突破,有別于當前以分鐘級交互為主的模型,GLM-5.1可在單次任務(wù)中持續(xù)、自主地工作長達8小時,憑借自主規(guī)劃、執(zhí)行與迭代進化,最終交付完整的工程級成果。
百度(BIDU)百舸基于昆侖芯硬件平臺第一時間完成了GLM-5.1的模型適配與集群部署,助力最新開源(300109)大模型快速投入生產(chǎn)環(huán)境的大規(guī)模應(yīng)用。
百度(BIDU)百舸基于Prefill-Decode分離架構(gòu),使用CP(Context Parallelism)上下文并行策略有效降低128K以上序列的計算負載和顯存壓力,從而使得GLM-5.1能夠更好的支撐AI Agent、Coding場景的長上下文與高并發(fā)需求。
目前,百度(BIDU)百舸與昆侖芯已具備“極速模型適配-全鏈路性能提升-高效規(guī)?;渴?超大規(guī)模集群落地”的完備能力。
極速模型適配
為實現(xiàn)高性能模型的快速開發(fā)與適配,百度(BIDU)百舸聯(lián)合昆侖芯開發(fā)了vLLM-Kunlun Plugin,將vLLM社區(qū)版與昆侖芯XPU后端完全解耦。用戶通過vLLM-Kunlun Plugin,快速適配主流開源模型。
依托CUDA-like特性,vLLM-Kunlun Plugin在軟件層面“抹平”了硬件差異,使開發(fā)者能夠像使用通用GPU一樣便捷地使用昆侖芯。同時,vLLM-Playground已全面支持昆侖芯,即便是初學(xué)者也能通過直觀的Web UI一鍵完成模型配置與推理。
在適配效率上,基于昆侖芯成熟的高性能算子庫,針對無新增算子的新模型(如從GLM-5.0版本迭代至GLM-5.1)可實現(xiàn)Day0極速適配,針對有新增算子的新模型,也可在極短時間內(nèi)完成新算子的開發(fā)與模型適配。再配合torch_xray精度對齊工具與PyTorch Profiler性能分析工具,百度(BIDU)百舸為模型跑對與性能表現(xiàn)提供了全方位保障。
全鏈路性能提升
為了使國產(chǎn)模型充分發(fā)揮昆侖芯硬件算力,百度(BIDU)百舸從算子、Kernel Launch、框架及系統(tǒng)等不同維度開展全鏈路優(yōu)化——依據(jù)昆侖芯硬件單元特性為各類算子制定專屬優(yōu)化策略,借助CUDA Graph消除CPU調(diào)度開銷顯著降低Kernel Launch耗時,針對框架原生的性能瓶頸開發(fā)了昆侖芯定制算子,并在系統(tǒng)層面上大幅提升并行計算能力。
同時,在量化層面,百度(BIDU)百舸推出了“模型層-框架層-硬件層”的端到端的量化體系——通過昆侖芯自研量化工(850102)具鏈實現(xiàn)高精度、高效率的模型量化,對不同來源的INT8/INT4量化模型實現(xiàn)最佳模型部署與量化推理,并基于昆侖芯XPU的計算特性,定制化開發(fā)高性能量化專用算子庫。在實際部署時,采用INT4混合精度量化,僅用單機昆侖芯P800,即可實現(xiàn)754B超大參數(shù)模型的64K長序列支持,并將推理性能提升20%。
高效規(guī)?;渴?/strong>
在完成模型適配并實現(xiàn)性能提升的基礎(chǔ)上,百度(BIDU)百舸依托PD分離架構(gòu)進一步優(yōu)化集群推理效能,并提供針對標準8卡與超節(jié)點硬件平臺的標準化部署方案。
在傳統(tǒng)8卡服務(wù)器場景中,通過TP/EP擴展,僅需6臺昆侖芯P800便可實現(xiàn)GLM-5.0模型200K的超長序列推理;在超節(jié)點場景中,相較同卡數(shù)的單機8卡場景,Prefill階段性能提升超16%,Decode階段提升超17%。
同時,百度(BIDU)百舸構(gòu)建了精細化的KV Cache調(diào)度與加速引擎,實現(xiàn)高達80%~90%的緩存命中率,將64K序列的TTFT縮短6.2倍,為AI Agent及復(fù)雜Coding等高并發(fā)、極長文本業(yè)務(wù)提供了穩(wěn)健的響應(yīng)保障。
此外,針對業(yè)務(wù)流量波動,百度(BIDU)百舸對昆侖芯集群的彈性擴縮容能力進行了系統(tǒng)性優(yōu)化,將實例拉起時間從分鐘級壓縮至秒級。
萬卡集群與天池超節(jié)點百度智能云打造國產(chǎn)算力基礎(chǔ)設(shè)施
目前,百度(BIDU)智能云已自建完成多個大規(guī)模國產(chǎn)算力基礎(chǔ)設(shè)施。
2025年2月,百度(BIDU)智能云成功點亮昆侖芯P800萬卡集群,這是國內(nèi)首個正式點亮的自研萬卡AI集群。同年4月,該集群規(guī)模進一步擴展至3.2萬卡,并已支撐百度(BIDU)千帆、百度(BIDU)蒸汽機等多個千卡級大模型訓(xùn)練任務(wù)。
2025年4月,百度(BIDU)發(fā)布基于昆侖芯的天池超節(jié)點方案,采用32卡一層點對點全互聯(lián)架構(gòu),通信延遲低至1.5μs;方案兼容現(xiàn)有機房環(huán)境,支持單人運維,并依托昆侖芯與百度(BIDU)百舸的持續(xù)軟硬協(xié)同優(yōu)化,實現(xiàn)極致的每Token成本。
截至目前,百度(BIDU)百舸基于昆侖芯完成了GLM、Qwen、DeepSeek、MiniMax、Kimi、MiMo等最新大模型的部署和應(yīng)用,讓頂尖AI能力轉(zhuǎn)化為產(chǎn)業(yè)發(fā)展動能。
