一段包含中文、英語(yǔ)、韓語(yǔ)、日語(yǔ)、阿拉伯語(yǔ)、越南語(yǔ)等40種語(yǔ)言的文字如何理解?大多數(shù)人做不到的事情,經(jīng)過(guò)訓(xùn)練的人工智能機(jī)器卻能做到。
在近日舉辦的世界權(quán)威多語(yǔ)言理解評(píng)測(cè)XTREME(Cross-Lingual Transfer evaluation of Multilingual Encoders)中,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)團(tuán)隊(duì)以總平均分84.1位列榜首,刷新世界記錄。
XTREME評(píng)測(cè)旨在全面考察模型的多語(yǔ)言理解與跨語(yǔ)言遷移能力。與以往單語(yǔ)言自然語(yǔ)言理解評(píng)測(cè)任務(wù)不同的是,XTREME中的每一個(gè)任務(wù)都覆蓋了多種語(yǔ)言,并且包含句對(duì)分類、序列標(biāo)注、閱讀理解、句子檢索賽道,共四大類九個(gè)任務(wù)。
那么,機(jī)器是如何做到多語(yǔ)言理解的?比賽負(fù)責(zé)人、哈工大訊飛聯(lián)合實(shí)驗(yàn)室核心技術(shù)研究員楊子清介紹,他們通過(guò)自主研發(fā)的跨語(yǔ)言對(duì)比學(xué)習(xí)技術(shù),利用知識(shí)蒸餾技術(shù)進(jìn)行自監(jiān)督學(xué)習(xí)和知識(shí)遷移,鼓勵(lì)模型學(xué)習(xí)不同語(yǔ)言中的語(yǔ)義相似性,與此同時(shí),還創(chuàng)新性地融入了細(xì)粒度的語(yǔ)言學(xué)特征,幫助模型克服訓(xùn)練不足的困難,解決低資源語(yǔ)言學(xué)習(xí)不充分的問(wèn)題,同時(shí)使之適應(yīng)不同語(yǔ)言的形態(tài)學(xué)特點(diǎn)。
“這就意味著,通過(guò)本土語(yǔ)言學(xué)習(xí),機(jī)器可以在少量其他語(yǔ)言語(yǔ)料的情況下,通過(guò)類比學(xué)會(huì)這門語(yǔ)言,減少了收集語(yǔ)料、語(yǔ)音標(biāo)注等大量工作?!睏钭忧逖a(bǔ)充解釋。
除了多語(yǔ)言,科大訊飛還在少數(shù)民族語(yǔ)言處理方面推出了預(yù)訓(xùn)練模型CINO(Chinese mINOrity pre-trained language model)。
楊子清介紹,“少數(shù)民族語(yǔ)言處理是中文信息處理中不可缺少的一環(huán),也是中文信息處理多樣性的一種體現(xiàn)。這項(xiàng)技術(shù)的進(jìn)步將極大改善我國(guó)少數(shù)民族語(yǔ)言學(xué)習(xí)問(wèn)題。”
國(guó)內(nèi)少數(shù)民族語(yǔ)言語(yǔ)料稀缺、獲取難度大等原因,相關(guān)技術(shù)研究相對(duì)匱乏,而主流的多語(yǔ)言模型也無(wú)法很好地處理國(guó)內(nèi)少數(shù)民族語(yǔ)言文字?!跋M磥?lái)能夠進(jìn)一步促進(jìn)業(yè)內(nèi)少數(shù)民族語(yǔ)言相關(guān)的技術(shù)研究,推動(dòng)少數(shù)民族語(yǔ)言相關(guān)技術(shù)的應(yīng)用落地。未來(lái)支持各少數(shù)民族語(yǔ)言的多語(yǔ)言搜索引擎等文字應(yīng)用工具或?qū)⒊蔀榭赡??!睏钭忧逭f(shuō)。(思牧)
免責(zé)聲明:本網(wǎng)轉(zhuǎn)載自其它媒體的文章,目的在于弘揚(yáng)科技創(chuàng)新精神,傳遞更多科技創(chuàng)新信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),在此我們謹(jǐn)向原作者和原媒體致以敬意。如果您認(rèn)為本站文章侵犯了您的版權(quán),請(qǐng)與我們聯(lián)系,我們將第一時(shí)間刪除。