在當今數位化與智能化飛速發展的時代,智能語音技術作為人工智慧領域的關鍵分支,正以迅猛之勢滲透到各個行業。2025年,智能語音行業呈現出更為強勁的發展勢頭,其在新聞傳播領域的應用與創新尤為引人注目。智能語音技術從最初的基礎功能逐步進化,如今已具備更為複雜和強大的能力,深刻改變著新聞的生產、傳播以及用戶的接收體驗,為新聞傳媒行業帶來了全新的機遇與變革。
智能語音技術旨在運用計算機算法和模型來模擬人類的語言及聲音行為,終極目標是讓機器能夠如同人類一般實現自然、高效的交流互動。其核心技術涵蓋語音合成、語音識別以及自然語言處理這三大關鍵板塊。
《2025-2030年中國智能語音市場專題研究及市場前景預測評估報告》指出,語音合成技術是將文字轉化為語音輸出的關鍵環節。藉助韻律建模和聲學建模等技術手段,文本信息得以轉變為具有人類語音特徵的音頻信號。從早期的傳統文本轉語音技術,發展到當下由人工智慧驅動的語音合成引擎,如今合成的語音愈發逼真自然。例如,在一些新聞播報場景中,通過語音合成技術生成的播報聲音,能夠精準地模擬真人主播的音色與語調,極大地提升了新聞傳播的聽覺效果。
語音識別技術堪稱智能語音技術的基石,它能夠把人類的語音精準地轉換為文本信息。隨著技術的持續革新,語音識別的準確率和速度都在不斷攀升,文本分類與情感分析也日益成熟。在新聞采編過程中,記者可以利用語音識別技術快速將採訪錄音轉化為文字稿件,大大提高了采編效率。而且,該技術能夠依據語境更好地理解用戶的自然語言指令,朝著更為智能化的方向穩步邁進。
自然語言處理技術則是實現人機互動的核心所在。它能夠根據人類語言的語法、語義以及上下文信息,將文字信息轉化為機器能夠理解的指令。隨著算力技術的不斷突破,中文大型語言模型的規模進一步擴大,建模能力持續提升。這使得自然語言處理技術能夠更出色地捕捉語言的複雜性和語義關係,達成更為精準、自然的人機互動。在智能語音新聞的交互場景中,用戶能夠通過自然語言與智能語音助手進行流暢對話,獲取自己所需的新聞資訊。
2024年5月,OpenAI 公司發布的新一代多模態大模型 GPT - 4.0,支持實時語音對話,顯著降低了交互延時,讓人機對話變得更加智能。在國內,字節跳動、騰訊、深度求索(DeepSeek)等企業也相繼推出智能應用助手,不斷深化對中文語料庫的研究與應用,有效提升了模型對中文語境的理解和處理能力,使人機語音交互在中文領域更加流暢、自然且真實。在人工智慧技術飛速發展,特別是深度學習算法取得突破性進展的推動下,智能語音技術正朝著更為成熟化、智能化的方向大步邁進,並與其他新興技術深度融合,持續優化用戶的交互體驗。
在國內新聞傳媒領域,智能語音技術的應用主要分為兩類。
一類是針對特定項目打造的短期應用。就像在 2022 年卡達世界盃期間,中央廣播電視總台推出的智能語音助手 「央小頻」。它為用戶提供了全方位的服務,涵蓋球隊信息查詢、賽程安排以及賽事推薦等內容,充分滿足了球迷對於賽事多元化信息的需求。藉助智能語音技術,球迷們能夠通過語音指令便捷地獲取各類世界盃相關信息,極大地提升了信息獲取的效率和體驗。
另一類則是長期且穩定的服務。主要通過客戶端、微信公眾號以及智能音箱、智能穿戴設備等智能終端持續為用戶提供功能服務。人民日報、新華社、央視新聞等媒體的客戶端都集成了智能語音播報功能。央視在其微信公眾號《早啊!新聞來了》中,專門定製了康輝等主播的語音庫,利用智能語音播報功能定時向用戶推送每日國內外的重要新聞。北京廣播電視台開發的真人數字人 「時間小妮」,積極參與了《我的北京 時間 ——AI 數字人對話二十大代表》和《新身份解鎖!「時間小妮」 助力 12345》等一系列新聞報導活動。2023 年,南方報業傳媒集團基於雲計算、大數據、人工智慧、區塊鏈等技術構建了全媒體傳播體系技術底盤 —— 南方智媒雲,成為智能語音技術賦能媒體融合的典型案例。南方智媒雲面向新聞采編發全流程、多場景推出了 「智能創作助手」「智媒雲盾」 審校系統、「小南粵聽」 語音服務、「智媒主播」 數智人等應用,藉助智能語音技術顯著提升了采編發效率,豐富了融媒體內容供給,改善了用戶體驗。
智能語音識別技術廣泛應用於新聞生產的全流程,並且在業務數據的反哺下不斷優化升級,使得識別結果更加契合新聞生產場景,極大地提高了新聞采編效率。南方智媒雲推出的 「智能創作小助手」 以對話回答為核心,接入了文心一言、訊飛星火、騰訊混元等通用大模型,提供語音轉寫、問答式搜索服務。通過智能錄音轉寫功能,媒體從業者整理採訪素材的時間大幅縮短,同時有效規避了新聞採訪中可能出現的語音模糊不清和方言難懂等問題。媒體從業者還可以通過語音對話的方式搜索新聞素材,無需離開工作檯就能高效便捷地獲取所需信息。在稿件審校環節,南方智媒雲推出的 「智媒雲盾」 智能審校應用,充分發揮了南方報業沉澱多年的中文新聞語料庫優勢,基於大語言模型,提供圖文、音視頻等多模態審校服務。「智媒雲盾」 能夠快速識別並糾正文本、音頻中的語法錯誤、知識性錯誤和導向性錯誤,大幅提升了審校效率,有力地推動了新聞生產質效的雙提升。
智能語音合成技術的不斷進步,使得新聞的呈現方式愈發豐富且富有 「溫度」。如今的語音播報新聞已從過去機械的文字轉語音,發展到能夠高度模擬真人,生動地讀出新聞的感染力。方言播報的加入更是為新聞增添了親切感和人情味。基於南方智媒雲語音庫開發的 「小南粵聽」 智能語音服務配備了情感發聲功能,依託情感語音合成技術,能夠模擬人類情感的語音特徵。它會根據新聞內容的屬性,如文本中的情感色彩、語境以及重要性等傾向,靈活調整語音的音調、節奏和強度,生成更具情感色彩的語音。在播報悲傷、嚴肅新聞時,自動降低音調、減慢語速,以準確表達沉重情感;而在播報喜訊、利好新聞時,則加快語速,採用愉悅、歡快的語調,為聽眾帶來更加豐富且貼近真人的聽覺體驗。聽眾獲取的不僅僅是新聞信息,更是新聞內容背後所蘊含的情感價值。此外,「小南粵聽」 還推出了定製化和地域適配化方言功能,立足廣東本土特色,支持切換粵語語音播報,為不熟悉普通話的聽眾提供了更貼心的選擇,有助於增強聽眾的信任和共鳴。
多模態融合已然成為智能語音技術的重要發展方向。未來的智能語音技術必將與計算機視覺、觸覺反饋等多種感官交互技術深度融合,形成功能更為強大的多模態交互系統。虛擬主播作為多模態融合應用的典型代表,不僅能夠合成語音,還擁有類人的視覺形象,為用戶提供了更為豐富、直觀的使用體驗。南方智媒雲基於語音合成、動作捕捉、實時渲染、深度學習等融合技術打造了 「智媒主播」 數智人應用,能夠快速構建虛擬真人和卡通人物形象。虛擬主播南都 N 視頻 「小 N」、3D 動畫主播 「嶺梅香」 可以全天候應用於直播、新聞播報等場景,有效降低了視頻製作成本,大幅提升了內容生產力。南方智媒雲還在語音識別和合成方面進行了優化,支持多音字識別正確讀音,支持異步任務排隊、分段試聽等方法來實現長文本的試聽合成,使得虛擬主播的播報更加準確和流暢。
交互能力是衡量智能語音服務水平的關鍵指標。當前,作為應用廣泛的智能語音新聞產品,智能新聞播報和虛擬主播大多只是模擬真實主播的聲音和形象進行新聞播報,與用戶之間真正的自然語言理解和流暢對話交互較少。智能語音助手在與用戶交互時,聽懂率處於中低水平,對方言、噪聲、遠距離識別以及斷句的處理能力不足,容易出現誤聽、漏聽的情況,且大多無法識別上下文並開展流暢的多輪對話,導致絕大部分智能語音新聞產品的交互性質不夠突出。
這種弱交互性很大程度上源於智能語音技術的不成熟。但隨著智能語音技術在語音識別準確性、自然語言理解深度、端到端建模效率、實時處理能力、個人化和情境感知以及方言和語言多樣性處理等多方面的疊代升級,智能語音新聞將從弱交互向強交互轉變。在功能上,將從單純的播新聞、讀新聞向輕鬆人性化的聊新聞、搜新聞轉變。早在 2016 年,國內就有應用推出了以文字對話形式呈現新聞資訊的新聞聊天機器人。智能語音新聞也應在這一方向深入發展,讓用戶通過語音命令就能高效獲取新聞,還能與智能語音助手基於聲音開展多輪新聞對話,在詢問和回答過程中深入探索感興趣的新聞事實,提升新聞閱讀的趣味性。這種雙向互動的模式,將使對話本身成為新聞的一部分,充分激發人機價值共創的活力。
擬人化特徵能夠有效激發用戶對智能語音產品的社會性感知。具有高社會存在感的智能語音產品,更容易獲得用戶的信任和接受,有助於建立良好的情感關係。目前,智能語音新聞在情感深度和複雜性方面與真實人聲相比仍存在差距,導致語音合成新聞的表現力和感染力不足,影響用戶的收聽體驗。智能語音助手在處理複雜情感和語境時也存在局限,難以根據現場情況靈活調整語氣和內容,無法與用戶建立深層次的情感聯繫。
不過,智能語音技術的升級將改變這一現狀,為智能語音新聞注入更多擬人化特徵。在表達時,能夠更加精準地還原真人說話時的各種細節,如語調、停頓、重音、說話時的笑聲等。在對話過程中,能更靈活地遵循禮貌、傾聽、幽默等人際交往規則,展開更多社交型對話,表達出適當的共情、對話題的關注等,進一步強化情感色彩,增進人機關係。在技術升級的基礎上,開發者還應注重打造智能語音新聞產品的內在人設,強化其類人屬性,為產品賦予 「靈魂」。比如,可以結合地域文化、專業形象和個性化特徵,打造創新性虛擬主播人設,為用戶帶來更加豐富和生動的交互體驗,深化人機之間的情感關係。
目前,我國智能語音新聞推薦系統在個性化服務方面已取得一定進展。用戶可以通過簡單的語音指令,如 「天貓精靈,播放人民網的新聞」 或 「小度小度,播放體育新聞」,來選擇感興趣的新聞來源或類型。然而,面對更具體的人群需求、更細緻的新聞內容以及更專業的知識領域,智能語音助手的表現仍有待提升。智能語音助手可選的新聞來源有限,新聞類型大多局限於政治、經濟、民生、文化和軍事等宏觀分類,用戶難以通過簡單追問深入了解新聞事件的細節。同時,對於視力受限的老年人和尚未掌握手寫能力的兒童等特殊群體,現有的語音交互產品缺乏針對性服務。
隨著大型語言模型技術的發展,智能語音新聞的分發模式有望迎來革新。傳統的新聞推送模式完全依賴算法根據用戶興趣推送內容,而在強互動場景下,用戶將有更多機會參與算法決策過程。用戶可以通過語音對話表達自己的內容偏好,定製新聞來源,深入追問新聞細節,拓展相關資訊,使新聞內容更貼合個性化需求。例如,亞馬遜的 Alexa 智能音箱不僅能主動詢問用戶的偏好,根據用戶反饋調整新聞推薦,還能在對話結束後,通過 「繼續播報」 或是 「想要了解相關問題,只需詢問……」 等引導性語句,從橫向或縱向擴展對話,鼓勵用戶進行更廣泛的 「泛聊」 或更深入的 「深聊」。這種交互方式不僅提升了用戶獲取信息的自主性,還為用戶提供了一種沉浸式的深度閱讀體驗。相較於單一的新聞流供給,這種方式更能增強用戶的參與感和滿足感,實現更加精準的個性化服務。
媒體應採取更加積極的開放戰略,與現有廠商廣泛合作,共同打造更智能、更高效的智媒系統。由於技術開發並非媒體的先天優勢,媒體可以與現有的開發者緊密協作,升級智能軟體系統。例如,人民日報與百度聯合成立的 「人工智慧媒體實驗室」,藉助百度的語音、圖像、自然語言處理、知識圖譜等技術,打造 「智能化編輯團隊」,輔助媒體的新聞生產,提升效率。
除了運營好現有平台,媒體還可作為內容提供方,開拓智能硬體流量入口。瀋陽晚報、南方都市報、都市快報、華西都市報等媒體與天貓精靈合作推出了 「語音頭條」 內容,通過智能音箱為用戶提供本地化的新聞資訊服務。此外,智能車載是近場傳播的重要入口。在駕車行駛過程中,狹小的車廂為智能語音信息傳遞提供了場地,駕駛者或乘員是信息傳遞過程中的 「靶向」 用戶。媒體可以與汽車廠商合作開拓車載語音場景,為用戶提供更加精準化的新聞服務,擴大並增強新聞內容的覆蓋面和影響力。
在2025年,智能語音技術在新聞傳播領域展現出了巨大的發展潛力與變革力量。從其核心技術的不斷演進,到在新聞傳媒領域豐富多樣的應用實踐,再到未來充滿希望的應用展望,智能語音技術正逐步重塑新聞傳播的格局。它不僅提升了新聞生產的效率與質量,豐富了新聞的呈現形式和用戶體驗,還為新聞傳媒行業帶來了全新的發展思路和商業模式。然而,智能語音技術在新聞傳播領域的應用仍面臨一些挑戰,如交互性有待增強、情感表達不夠豐富、個性化推薦不夠精準以及應用場景有待進一步拓展等。但隨著技術的持續創新與優化,以及媒體與技術廠商之間的深度合作,這些問題將逐步得到解決。未來,智能語音技術有望成為連接新聞與用戶的關鍵橋樑,持續賦能媒體行業的創新與轉型,推動新聞傳播領域朝著更加智能、高效、個性化的方向蓬勃發展。
更多智能語音行業研究分析,詳見中國報告大廳《智能語音行業報告匯總》。這裡匯聚海量專業資料,深度剖析各行業發展態勢與趨勢,為您的決策提供堅實依據。
更多詳細的行業數據盡在【資料庫】,涵蓋了宏觀數據、產量數據、進出口數據、價格數據及上市公司財務數據等各類型數據內容。