機(jī)器能跟人類交流嗎?能像人類一樣理解文本嗎?這是人類對(duì)人工智能最初的幻想。除了大家比較熟悉的感知智能(如圖像識(shí)別、語音識(shí)別)、行動(dòng)智能(如機(jī)器人)外,語言智能(如自然語言處理)也是人工智能的核心領(lǐng)域之一。
(“圖靈測(cè)試”被公認(rèn)為測(cè)試計(jì)算機(jī)是否具有智能的實(shí)驗(yàn),在這個(gè)實(shí)驗(yàn)中,人和計(jì)算機(jī)的問答都是通過自然語言進(jìn)行)
“理解自然語言”到目前為止還只是人類獨(dú)有的特權(quán),因此如果語言智能實(shí)現(xiàn)突破,將會(huì)推動(dòng)整個(gè)人工智能體系的進(jìn)步。
其中,指代理解(Coreference Resolution)又是語言智能的核心問題之一。
指代理解是機(jī)器理解自然語言的關(guān)鍵
一篇文章在進(jìn)行過程中需要描述不同實(shí)體間的關(guān)系,實(shí)體串聯(lián)起了文章各個(gè)句子的核心線索,因此做好指代理解是理解多句話和一篇文章的重點(diǎn),也是更好地構(gòu)造智能對(duì)話系統(tǒng)的基礎(chǔ)——機(jī)器才能理解《詩經(jīng)》中的“君子”從一見鐘情到蠢蠢欲動(dòng)到日思夜想的感情線索,你的Siri也才有可能不止于跟你一問一答地單句聊天,而是更好地懂你。
比如,想要理解《詩經(jīng)·關(guān)雎》的這些語言描述了什么場(chǎng)景、傳遞了什么情感,首先要理解各個(gè)“之”指的是什么。在上圖中,同種顏色標(biāo)注的詞語指向同一個(gè)實(shí)體,指代理解就是要讓機(jī)器明白紅色的“之”不是指“雎鳩”“君子”“參差荇菜”“左右”等其它對(duì)象或文本,而就是“窈窕淑女”;藍(lán)色的“之”不是指“在河之洲”“君子”“窈窕淑女”等,而就是“參差荇菜”。
要是指代理解不給力,機(jī)器認(rèn)為君子日思夜想的是關(guān)關(guān)和鳴的雎鳩,那故事的延續(xù)豈不就成了風(fēng)流君子奏起琴瑟、敲起鐘鼓來取悅那對(duì)雎鳩?指代理解問題的探索突破則可以使得機(jī)器對(duì)不同事物間的指代關(guān)系有更加明確的理解。
依圖提出全新數(shù)據(jù)集探索指代理解問題
自然語言處理領(lǐng)域頂級(jí)會(huì)議 EMNLP 2018 不久前(10月31日-11月4日)在比利時(shí)布魯塞爾落下帷幕,依圖論文 PreCo: A Large-scale Dataset in Preschool Vocabulary for Coreference Resolution 被錄用為Oral文章。在論文中,依圖提出了一個(gè)全新數(shù)據(jù)集 PreCo,用于探索計(jì)算機(jī)語言學(xué)的核心問題之一——指代理解,并宣布對(duì)外開放該數(shù)據(jù)集。
相較于現(xiàn)有數(shù)據(jù)集,PreCo 更能體現(xiàn)實(shí)體表示等指代理解涉及的核心困難。其數(shù)據(jù)規(guī)模約為目前常用指代理解數(shù)據(jù)集 OntoNotes 的 10 倍,并標(biāo)注出了所有無指代關(guān)聯(lián)的名詞短語。
(依圖在 EMNLP 2018)
其實(shí)在 PreCo 之前,依圖已經(jīng)耕耘自然語言處理領(lǐng)域多年,并將技術(shù)應(yīng)用于智能醫(yī)療輔助診斷等方面。如今開放全新數(shù)據(jù)集 PreCo 則是希望能夠幫助更多研究者可以接觸和使用開源的數(shù)據(jù)集進(jìn)行開發(fā),切實(shí)提升算法優(yōu)化的驗(yàn)證效率,共同探索 AI 領(lǐng)域最有價(jià)值的技術(shù)問題。
探索的動(dòng)機(jī)源于對(duì)智慧無限的好奇,對(duì)依圖來說,PreCo 正是這種好奇推動(dòng)下在自然語言處理領(lǐng)域的成果。愿與你分享這一份好奇。
您可以復(fù)制這個(gè)鏈接分享給其他人:http://www.jisvip.com/node/685