中國報告大廳網訊,近日,上海AI企業MiniMax推出新一代語音大模型Speech02,在語音合成領域實現重大突破。該模型不僅以顯著優勢登頂全球權威評測榜單Artificial Analysis和Hugging Face TTS Arena的榜首,更憑藉技術創新與商業價值的雙重驅動,成為推動多語言智能語音產業發展的關鍵力量。
中國報告大廳發布的《2025-2030年全球及中國模型行業市場現狀調研及發展前景分析報告》指出,Speech02在語音合成的核心指標上實現了突破性進展。其字錯率(WER)和相似度(SIM)兩項核心數據均達到SOTA水平:與ElevenLabs的multilingual_v2模型相比,在覆蓋全球24種語言的測試中,Speech02生成的語音更接近真人發音;在零樣本語音克隆場景下,其中文、英文文本的WER值也低於SeedTTS和CosyVoice 2等競品。這意味著該模型不僅能精準還原目標音色,還能以更低錯誤率保證輸出穩定性。
Speech02通過技術泛化能力構建了更豐富的語音交互場景:支持32種語言的無縫切換,包括粵語、葡萄牙語等小眾語種,並可在同一段音頻中實現跨語種自然過渡。其「文生音」功能可依據文本描述生成特定風格的聲音,「聲音參考」模塊則允許用戶靈活調整情感、語速、音高等參數,滿足廣告配音、短片製作等多樣化需求。目前該技術已落地文旅導覽、智能客服、AI教育等領域,並為硬體設備如汽車座艙、語音助手提供成熟解決方案。
與國際頭部廠商相比,Speech02的商用定價僅為ElevenLabs同類模型的四分之一。這一策略顯著降低了企業接入門檻,推動智能語音技術在中小企業及新興市場的規模化應用。據公開數據顯示,該模型已在全球20餘個國家和地區實現商業化合作,覆蓋北美、歐洲、亞太等主流市場,並與聲網、高途教育、香港電視台等國內外機構達成深度合作。尤其在零工經濟領域,海外用戶可通過低門檻工具快速生成符合需求的語音內容,助力創作者拓展全球聲音服務市場。
結語
MiniMax Speech02的成功標誌著中國AI語音技術在全球競爭中邁入新階段。通過技術創新與商業策略的雙輪驅動,該模型不僅在核心指標上超越國際標杆,更以多語言支持、場景適配性和成本優勢重構行業格局。隨著其在教育、娛樂、服務等領域的持續滲透,未來或將加速全球各語種文化的數位化傳播,讓技術普惠更多語言群體與產業場景。
更多模型行業研究分析,詳見中國報告大廳《模型行業報告匯總》。這裡匯聚海量專業資料,深度剖析各行業發展態勢與趨勢,為您的決策提供堅實依據。
更多詳細的行業數據盡在【資料庫】,涵蓋了宏觀數據、產量數據、進出口數據、價格數據及上市公司財務數據等各類型數據內容。