計算機視覺(CV)是AI領域一大吸金賽道,也由此產生了商湯、云從、依圖、曠視這樣的“圖像四小龍”。而這四小龍之一的「依圖科技」卻率先拓寬邊界,踏入語音和自然語言處理(NLP)行業。

12月11日,依圖發布了依圖短語音聽寫API、和微軟Azure推出依圖語音開放平臺。

其實早在2016年,當計算機視覺公司剛開始吸引投資人注意時,語音識別就開始規模化場景落地。現如今,百度、騰訊、京東、小米紛紛發布智能音箱,各種手機搭載語音交互,智能翻譯工具、智能客服等語音類產品層出不窮。

那么,相比同類產品,依圖語音技術的比較優勢和市場空間會在哪里?在未來產品化落地上,依圖會有怎樣的規劃?圍繞這些問題,36氪獨家專訪了依圖科技首席創新官,前Google Research Scientist呂昊博士。

36氪首發 | 將中文語音識別率提升至96.29%, 依圖科技跨領域推出語音開放平臺

依圖科技首席創新官呂昊博士

確實,這個時間點進入語音行業挑戰重重,一則先發優勢不再,二則市場擁擠,科大訊飛、BAT大廠紛紛入局,從技術上升到平臺生態,市場空間看似余地不多。

對此,呂昊表示:依圖團隊對國內現有的語音識別技術都做了調研,發現在不少場景下,語音識別效果并不理想,例如通話過程中的聲音轉寫準確率低、遠距離的聲音采集識別效果差、語料數據積累不足等。因此,依圖會從這些可優化空間入手,對模型算法進行打磨,提升識別率,降低字錯率。

在語音識別領域,15%的字錯率是一條紅線,超過則基本不具備可讀性,而低于3%則是可以被認為具備類人的語音識別能力。然而,在實際說話過程中,人的語速、語氣、口音、語態等都會影響識別準確度。此外,不同于英文,中文復雜的語言元素,以及同音不同意等問題為語音識別帶來了更大的挑戰。那么依圖如何應對呢?

呂昊告訴36氪:當前業內缺乏系統性的標準測試和測試集,對于語音識別缺乏體驗和比較的工具,為提升識別準確率,依圖團隊搜集了大量真實對話數據,以及專業類、生活類的細分語料庫,基于此,依圖提出了自己多維度、多場景的測試數據集,由此來對模型算法進行訓練和測試。

據悉,在基于全球最大中文開源數據庫的AISHELL-2的測試中,依圖短語音聽寫的字錯率為3.71%,官方稱領先原業內領先者科大訊飛約20%。在若干近場、混響、噪聲等公開測試集上,依圖平均字錯率 6.39%,領先訊飛 11%。加入電話、口音、語音節目、遠場演講等依圖內部暫無法公開的測試集后(全部測試集共 50小時、60萬漢字),依圖平均字錯率 8.27%,訊飛是9.30%,依圖仍然領先訊飛 11% 左右。

36氪首發 | 將中文語音識別率提升至96.29%, 依圖科技跨領域推出語音開放平臺

基于不同數據測試集上,依圖語音識別技術的準確率表現

其實,如果想實現真正意義上的語音交互,語音只是一部分,更重要的則是對語義的理解。如果我們把語音技術比作人的嘴巴和耳朵,用于表達和獲取;那么語義理解則是人的大腦,能夠幫助信息處理和解析。在語義理解方面,依圖同樣在進行技術積累。

呂昊表示:雖然此次是從語音切入,但是團隊一直是語音、語義兩線并行。2017年時,依圖就曾將自然語言處理(NLP)技術用于AI+醫療解決方案,結合自建的臨床中文知識圖譜,對醫學文本等多模態數據進行解析和信息提取。今年,依圖的論文更入選NLP頂會EMNLP 2018,針對計算機語言學核心問題之一的指代理解提出全新數據集PreCo并對外開放。

此前,在視覺領域,依圖已經在智慧城市、醫療、金融、零售等領域有了產品化、商業化積累。對于是否會將語音技術遷移于這些領域,呂昊回應:這一階段仍舊以技術積累為主,依圖在開放平臺上提供了自有的API和模型算法,一方面可以經由市場驗證算法質量,另一方面可以由此接近不同行業和場景。

據官方信息,依圖與微軟聯合發布的語音開放平臺基于Azure Cloud,將依圖的語音識別技術能力開放給廣泛第三方應用開發者使用。

在未來,依圖計劃陸續開放長語音轉寫API、實時語音轉寫API等。正如呂昊所說:希望為第三方應用開發者在語音領域提供多一個語音技術選擇。

筆者認為:結合自有的CV技術積累,依圖或許可在多模態情感識別和計算領域發力,融合視覺、語音等多重數據,全方位提升機器的感知能力。在商業化層面,雖然當下的依圖語音技術開放平臺仍舊以技術積累為重心,但依托CV積累的的B端用戶,為企業級客戶提供語音解決方案只是時間早晚問題。

————

 

您可以復制這個鏈接分享給其他人:http://www.jisvip.com/node/414