在全球智能語音企業市場份額占比中,Nuance以占比31.6%的份額,穩居第一;谷歌和蘋果則分別以占比28.4%和15.4%,排在第二、第三名。那麼語音識別發展趨勢會是怎麼樣的呢?
通過對語音識別發展趨勢的詳細分析得知語音識別技術則發展的不溫不火。究其原因,應用場景尷尬是其中之一。畢竟,比手指接觸設備、紅外線掃描人臉或虹膜的方式相比,語音識別需要通過發聲的方式進行,這樣在有人或者無人的場景下,這種進行身份認定的方式都讓人覺得怪怪的。
進一步提升在遠場識別尤其是有人聲干擾情況下的識別率
目前一般遠場識別的錯誤率是近場識別錯誤率的兩倍左右,所以在很多情況下語音識別系統還不盡如人意。遠場識別至少目前還不能單靠後端的模型加強來解決。現在大家的研究集中在結合多通道信號處理(例如麥克風陣列)和後端處理從拾音源頭到識別系統全程優化來增強整個系統的表現。
更好的識別算法
這個「更好」有幾個方面:一個方面是能不能更簡單。現在的模型訓練過程還是比較複雜的,需要經過很多步驟。如果沒有 HTK 和 Kaldi 這樣的開源軟體和 recipe 的話,很多團隊都要用很長時間才能搭建一個還 OK 的系統,即使 DNN 的使用已經大幅降低了門檻。現在因為有了開源軟體和 recipe,包括像 CNTK 這樣的深度學習工具包,事情已經容易多了,但還有繼續簡化的空間。這方面有很多的工作正在做,包括如何才能不需要 alignment 、或者不需要 dictionary。現在的研究主要還是基於 end-to-end 的方法,就是把中間的一些以前需要人工做的步驟或者需要預處理的部分去掉。雖然目前效果還不能超越傳統的 hybrid system,但是已經接近 hybrid system 的 performance 了。
尋找特殊網絡結構
最近的幾年裡大家已經從一開始使用簡單的 DNN 發展到了後來相對複雜的 LSTM 和 Deep CNN 這樣的模型。但在很多情況下這些模型表現得還不夠好。所以一個研究方向是尋找一些特殊的網絡結構能夠把我們想要 model 的那些東西都放在裡面。我們之前做過一些嘗試,比如說人在跟另外一個人對話的過程中,他會一直做 prediction,這個 prediction 包括很多東西,不單是包括你下一句想要說什麼話,還包括根據你的口音來判斷你下面說的話會是怎樣等等。我們曾嘗試把這些現象建在模型里以期提升識別性能。很多的研究人員也在往這個方向走。
快速自適應的方法
快速自適應的方法就是快速的不需要人工干預的自適應方法(unsupervised adaptation)。現在雖然已經有一些自適應的算法了,但是它們相對來說自適應的速度比較慢,或者需要較多的數據。有沒有辦法做到更快的自適應?就好像第一次跟一個口音很重的人說話的時候,你可能開始聽不懂,但兩三句話後你就可以聽懂了。大家也在尋找像這種非常快還能夠保證良好性能的自適應方法。快速自適應從實用的角度來講還是蠻重要的。因為自適應確實在很多情況下能夠提升識別率。
通過對語音識別發展趨勢的詳細分析得知隨著語音識別技術不斷提升,這些問題在未來可以不斷得到改善,語音識別市場潛力還將繼續上升。研究機構指出,2015年全球語音識別市場規模為61.9億美元,預計到2020年可以接近200億美元。以上便是筆者對語音識別發展趨勢的詳細分析了。
更多語音識別行業研究分析,詳見中國報告大廳《語音識別行業報告匯總》。這裡匯聚海量專業資料,深度剖析各行業發展態勢與趨勢,為您的決策提供堅實依據。
更多詳細的行業數據盡在【資料庫】,涵蓋了宏觀數據、產量數據、進出口數據、價格數據及上市公司財務數據等各類型數據內容。