中國報告大廳網訊,在人工智慧技術快速疊代的當下,大模型的應用正面臨算力成本高、部署門檻高的雙重挑戰。為破解這一行業難題,近日在鯤鵬昇騰開發者大會2025上發布的"鯤鵬+xPU解決方案"引發廣泛關注。該方案通過創新性融合異構計算技術與軟硬體平台優化,首次實現從數據中心到邊緣端的大模型推理全流程降本增效,標誌著智能算力基礎設施進入普惠新階段。
中國報告大廳發布的《2025-2030年全球及中國模型行業市場現狀調研及發展前景分析報告》指出,此次發布的解決方案深度融合了領先企業自主研發的異構協同推理技術與鯤鵬基礎軟硬體體系。通過NUMA親和優化技術,系統對關鍵算子進行節點內資源調度重構,將跨節點訪問延遲降低30%以上。同時結合鯤鵬數學庫(KML)加速,核心算子性能實現翻倍提升;藉助畢昇編譯器的深度優化,整體運行效率再增50%,顯著提升了大模型推理場景下的實時響應能力。
在並行計算層面,方案通過MTP多tokens預測機制和"Expert延遲計算"兩項創新技術實現性能躍升。前者使系統吞吐量提升40%,後者則通過智能任務調度徹底消除CPU與NPU的運算空窗期,最高可將整體性能翻倍。實測數據顯示,在單機部署環境下,該方案運行DeepSeek 671B模型時,預填充(prefill)和解碼(decode)速度達到開源框架llama.cpp的4-6倍。
目前解決方案已形成推理工作站與伺服器兩大產品線,在昇騰等主流AI晶片支持下實現端到端優化。其中基於鯤鵬CPU的純算力方案(K+K),在零專用加速卡配置下仍保持70%的MoE算子帶寬利用率,充分驗證了通用計算資源的價值挖掘潛力。通過與開源社區協作開發的異構推理框架,開發者可快速適配Qwen等主流大模型,顯著降低技術落地門檻。
該方案依託"鯤鵬昇騰種子計劃"持續深化產業合作,未來將拓展至端側設備,讓企業能夠以更低算力成本構建智能基礎設施。開源社區數據顯示,其核心框架已吸引全球超萬名開發者參與優化疊代,形成了從技術研發到場景落地的完整生態閉環。
總結來看,此次發布的鯤鵬+xPU解決方案通過架構創新、技術融合與生態共建三大維度突破,為大模型應用提供了高性價比的技術路徑。隨著邊緣計算場景的持續拓展和產品形態的多樣化演進,該方案將加速AI技術向千行百業的滲透,在降低算力使用門檻的同時,推動智能時代基礎設施建設駛入快車道。
更多模型行業研究分析,詳見中國報告大廳《模型行業報告匯總》。這裡匯聚海量專業資料,深度剖析各行業發展態勢與趨勢,為您的決策提供堅實依據。
更多詳細的行業數據盡在【資料庫】,涵蓋了宏觀數據、產量數據、進出口數據、價格數據及上市公司財務數據等各類型數據內容。