隨著高速發展之後,智慧型手機和它所帶動的相關產業都陷入了發展瓶頸,機器學習和人工智慧被認為是下一個科技熱潮,而語音識別也會趁著這個風口飛起來,語音識別技術所涉及的領域包括:信號處理、模式識別、機率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。
近兩年,受益於大數據和深度學習技術的不斷發展,語音識別技術突飛猛進,速度及準確性都有了長足進步。美國麻省理工官網近日消息,麻省理工計算機科學和人工智慧實驗室研發了新的聲音識別系統,比起上一代聲音識別系統正確率提高了15%。
近年來人工智慧系統在語音和圖像識別領域已有較成熟的算法,但在嘈雜環境下的聲音辨識能力相對較弱。此次研究人員利用視覺和聲音的自然同步,在原有資料庫中導入大量視頻信息,結合新算法對聲音識別系統進行測試。在10個不同聲音測試中,該系統獲得了92%的正確率,在50個聲音測試中準確率為74%,而人類在相同樣本測試中的正確率分別為96%和81%。未來該系統將改善用戶在戶外使用語音識別的體驗。
研究人員表示,該系統應用潛力巨大,比如無人駕駛汽車系統搭載該聲音識別技術後,當聽到救護車聲音,無人駕駛汽車能更早選擇新的路線規劃。另外手機安裝該系統後,用戶到電影院後該系統通過周圍聲音環境判斷電影是否開始放映,並自動切換成靜音模式。該聲音識別系統將在本周召開的國際神經信息處理系統大會(NIPS)上進行展示。
作為人工智慧最重要的技術之一,國外語音識別技術的準確率已基本達到人類的水平。微軟旗下最新語音識別系統的識別錯誤率僅為5.9%,這和專業速記員將對話轉錄成文字的最低錯誤率一致。而微軟也在一年前將語音識別系統的深度學習算法進行開源,使其他人工智慧產品通過該算法擁有語音識別技術。海外市場調研機構預計,未來幾年全球語音識別市場規模有望突破百億美元。
國內的語音識別技術也在快速發展。11月底搜狗和百度分別召開發布會表示,旗下語音識別系統正確率已達到97%左右,同時有不少智能語音產品支持不同地區的方言識別。《2016年網際網路趨勢報告》顯示,近幾年用戶通過語音搜索的使用量大幅提升,使用語音的本質是解放雙手,而目前全球語音識別系統依然存在場景辨識率低等問題。隨著場景聲音辨識技術的加速完善,語音識別技術有望迎來拐點,未來發展空間將進一步擴大。
據中國報告大廳發布的《2016年中國語音識別產業研究報告》預測分析認為,語音識別技術有很大潛力,未來語音技術在很多應用場景有很好的機會,將為人機互動帶來巨大的改變。
在全球智能語音企業市場份額占比中,Nuance以占比31.6%的份額,穩居第一;谷歌和蘋果則分別以占比28.4%和15.4%,排在第二、第三名。那麼語音識別發展趨勢會是怎麼樣的呢?
通過對語音識別發展趨勢的詳細分析得知語音識別技術則發展的不溫不火。究其原因,應用場景尷尬是其中之一。畢竟,比手指接觸設備、紅外線掃描人臉或虹膜的方式相比,語音識別需要通過發聲的方式進行,這樣在有人或者無人的場景下,這種進行身份認定的方式都讓人覺得怪怪的。
進一步提升在遠場識別尤其是有人聲干擾情況下的識別率
目前一般遠場識別的錯誤率是近場識別錯誤率的兩倍左右,所以在很多情況下語音識別系統還不盡如人意。遠場識別至少目前還不能單靠後端的模型加強來解決。現在大家的研究集中在結合多通道信號處理(例如麥克風陣列)和後端處理從拾音源頭到識別系統全程優化來增強整個系統的表現。
更好的識別算法
這個「更好」有幾個方面:一個方面是能不能更簡單。現在的模型訓練過程還是比較複雜的,需要經過很多步驟。如果沒有 HTK 和 Kaldi 這樣的開源軟體和 recipe 的話,很多團隊都要用很長時間才能搭建一個還 OK 的系統,即使 DNN 的使用已經大幅降低了門檻。現在因為有了開源軟體和 recipe,包括像 CNTK 這樣的深度學習工具包,事情已經容易多了,但還有繼續簡化的空間。這方面有很多的工作正在做,包括如何才能不需要 alignment 、或者不需要 dictionary。現在的研究主要還是基於 end-to-end 的方法,就是把中間的一些以前需要人工做的步驟或者需要預處理的部分去掉。雖然目前效果還不能超越傳統的 hybrid system,但是已經接近 hybrid system 的 performance 了。
尋找特殊網絡結構
最近的幾年裡大家已經從一開始使用簡單的 DNN 發展到了後來相對複雜的 LSTM 和 Deep CNN 這樣的模型。但在很多情況下這些模型表現得還不夠好。所以一個研究方向是尋找一些特殊的網絡結構能夠把我們想要 model 的那些東西都放在裡面。我們之前做過一些嘗試,比如說人在跟另外一個人對話的過程中,他會一直做 prediction,這個 prediction 包括很多東西,不單是包括你下一句想要說什麼話,還包括根據你的口音來判斷你下面說的話會是怎樣等等。我們曾嘗試把這些現象建在模型里以期提升識別性能。很多的研究人員也在往這個方向走。
快速自適應的方法
快速自適應的方法就是快速的不需要人工干預的自適應方法(unsupervised adaptation)。現在雖然已經有一些自適應的算法了,但是它們相對來說自適應的速度比較慢,或者需要較多的數據。有沒有辦法做到更快的自適應?就好像第一次跟一個口音很重的人說話的時候,你可能開始聽不懂,但兩三句話後你就可以聽懂了。大家也在尋找像這種非常快還能夠保證良好性能的自適應方法。快速自適應從實用的角度來講還是蠻重要的。因為自適應確實在很多情況下能夠提升識別率。
通過對語音識別發展趨勢的詳細分析得知隨著語音識別技術不斷提升,這些問題在未來可以不斷得到改善,語音識別市場潛力還將繼續上升。研究機構指出,2015年全球語音識別市場規模為61.9億美元,預計到2020年可以接近200億美元。以上便是筆者對語音識別發展趨勢的詳細分析了。