中信建投研報表示,Deepseek發布深度推理能力模型。R1-Zero採用純粹的強化學習訓練,證明了大語言模型僅通過強化學習也可以有強大的推理能力,DeepSeek-R1經歷微調和強化學習取得了與OpenAI-o1-1217相媲美甚至超越的成績。DeepSeekR1訓練和推理算力需求較低,主要原因是DeepSeekR1實現算法、框架和硬體的優化協同。過去的預訓練側的scalinglaw正逐步邁向更廣闊的空間,在深度推理的階段,模型的未來算力需求依然會呈現爆發式上漲,充足的算力需求對於人工智慧模型的性能進步依然至關重要。