12月11日,依圖發(fā)布了依圖短語音聽寫API、和微軟Azure推出依圖語音開放平臺。
其實早在2016年,當計算機視覺公司剛開始吸引投資人注意時,語音識別就開始規(guī)?;瘓鼍奥涞亍,F(xiàn)如今,百度、騰訊、京東、小米紛紛發(fā)布智能音箱,各種手機搭載語音交互,智能翻譯工具、智能客服等語音類產(chǎn)品層出不窮。
那么,相比同類產(chǎn)品,依圖語音技術的比較優(yōu)勢和市場空間會在哪里?在未來產(chǎn)品化落地上,依圖會有怎樣的規(guī)劃?圍繞這些問題,36氪獨家專訪了依圖科技首席創(chuàng)新官,前Google Research Scientist呂昊博士。
依圖科技首席創(chuàng)新官呂昊博士
確實,這個時間點進入語音行業(yè)挑戰(zhàn)重重,一則先發(fā)優(yōu)勢不再,二則市場擁擠,科大訊飛、BAT大廠紛紛入局,從技術上升到平臺生態(tài),市場空間看似余地不多。
對此,呂昊表示:依圖團隊對國內現(xiàn)有的語音識別技術都做了調研,發(fā)現(xiàn)在不少場景下,語音識別效果并不理想,例如通話過程中的聲音轉寫準確率低、遠距離的聲音采集識別效果差、語料數(shù)據(jù)積累不足等。因此,依圖會從這些可優(yōu)化空間入手,對模型算法進行打磨,提升識別率,降低字錯率。
在語音識別領域,15%的字錯率是一條紅線,超過則基本不具備可讀性,而低于3%則是可以被認為具備類人的語音識別能力。然而,在實際說話過程中,人的語速、語氣、口音、語態(tài)等都會影響識別準確度。此外,不同于英文,中文復雜的語言元素,以及同音不同意等問題為語音識別帶來了更大的挑戰(zhàn)。那么依圖如何應對呢?
呂昊告訴36氪:當前業(yè)內缺乏系統(tǒng)性的標準測試和測試集,對于語音識別缺乏體驗和比較的工具,為提升識別準確率,依圖團隊搜集了大量真實對話數(shù)據(jù),以及專業(yè)類、生活類的細分語料庫,基于此,依圖提出了自己多維度、多場景的測試數(shù)據(jù)集,由此來對模型算法進行訓練和測試。
據(jù)悉,在基于全球最大中文開源數(shù)據(jù)庫的AISHELL-2的測試中,依圖短語音聽寫的字錯率為3.71%,官方稱領先原業(yè)內領先者科大訊飛約20%。在若干近場、混響、噪聲等公開測試集上,依圖平均字錯率 6.39%,領先訊飛 11%。加入電話、口音、語音節(jié)目、遠場演講等依圖內部暫無法公開的測試集后(全部測試集共 50小時、60萬漢字),依圖平均字錯率 8.27%,訊飛是9.30%,依圖仍然領先訊飛 11% 左右。
基于不同數(shù)據(jù)測試集上,依圖語音識別技術的準確率表現(xiàn)
其實,如果想實現(xiàn)真正意義上的語音交互,語音只是一部分,更重要的則是對語義的理解。如果我們把語音技術比作人的嘴巴和耳朵,用于表達和獲??;那么語義理解則是人的大腦,能夠幫助信息處理和解析。在語義理解方面,依圖同樣在進行技術積累。
呂昊表示:雖然此次是從語音切入,但是團隊一直是語音、語義兩線并行。2017年時,依圖就曾將自然語言處理(NLP)技術用于AI+醫(yī)療解決方案,結合自建的臨床中文知識圖譜,對醫(yī)學文本等多模態(tài)數(shù)據(jù)進行解析和信息提取。今年,依圖的論文更入選NLP頂會EMNLP 2018,針對計算機語言學核心問題之一的指代理解提出全新數(shù)據(jù)集PreCo并對外開放。
此前,在視覺領域,依圖已經(jīng)在智慧城市、醫(yī)療、金融、零售等領域有了產(chǎn)品化、商業(yè)化積累。對于是否會將語音技術遷移于這些領域,呂昊回應:這一階段仍舊以技術積累為主,依圖在開放平臺上提供了自有的API和模型算法,一方面可以經(jīng)由市場驗證算法質量,另一方面可以由此接近不同行業(yè)和場景。
據(jù)官方信息,依圖與微軟聯(lián)合發(fā)布的語音開放平臺基于Azure Cloud,將依圖的語音識別技術能力開放給廣泛第三方應用開發(fā)者使用。
在未來,依圖計劃陸續(xù)開放長語音轉寫API、實時語音轉寫API等。正如呂昊所說:希望為第三方應用開發(fā)者在語音領域提供多一個語音技術選擇。
筆者認為:結合自有的CV技術積累,依圖或許可在多模態(tài)情感識別和計算領域發(fā)力,融合視覺、語音等多重數(shù)據(jù),全方位提升機器的感知能力。在商業(yè)化層面,雖然當下的依圖語音技術開放平臺仍舊以技術積累為重心,但依托CV積累的的B端用戶,為企業(yè)級客戶提供語音解決方案只是時間早晚問題。
————
您可以復制這個鏈接分享給其他人:http://www.jisvip.com/node/414