深蘭DeepBlueAI團(tuán)隊(duì)少量數(shù)據(jù)關(guān)系抽取論文被錄用
近日,EMNLP 2021在官網(wǎng)提前公布了今年的論文審稿結(jié)果,深蘭DeepBlueAI團(tuán)隊(duì)論文《MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction》被錄用。該論文提出了在低資源關(guān)系提取任務(wù)中融合同類別樣本間句子相關(guān)性信息和關(guān)系標(biāo)簽語義兩個(gè)方面的信息的方法,并在多個(gè)關(guān)系提取類任務(wù)的公開數(shù)據(jù)集的實(shí)驗(yàn)中得到了SOTA結(jié)果。
2021
Nov
EMNLP(全稱Conference on Empirical Methods in Natural Language Processing)是國(guó)際自然語言處理頂級(jí)會(huì)議,由ACL SIGDAT主辦,每年舉辦一次,在Google Scholar計(jì)算語言學(xué)刊物指標(biāo)中排名第二,主要關(guān)注統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在自然語言處理領(lǐng)域的應(yīng)用。近幾年隨著大規(guī)模數(shù)據(jù)的機(jī)器學(xué)習(xí)方法的發(fā)展,該會(huì)議人數(shù)逐年增加,受到越來越廣泛地關(guān)注。
EMNLP論文入選標(biāo)準(zhǔn)極為嚴(yán)格,EMNLP 2021共收到有效投稿3114篇,錄用754篇,錄用率僅為24.82%。按照慣例,EMNLP 2021評(píng)選了最佳長(zhǎng)論文、最佳短論文、杰出論文和最佳Demo論文四大獎(jiǎng)項(xiàng),共7篇論文入選。
今年EMNLP 2021 將于11月7日 - 11日在多米尼加共和國(guó)蓬塔卡納和線上聯(lián)合舉辦,會(huì)議為期五天,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院教授黃萱菁將擔(dān)任本次會(huì)議的程序主席。在即將召開的EMNLP學(xué)術(shù)會(huì)議上將展示自然語言處理領(lǐng)域的前沿研究成果,這些成果也將代表著相關(guān)領(lǐng)域和技術(shù)細(xì)分中的研究水平以及未來發(fā)展方向。
深蘭DeepBlueAI團(tuán)隊(duì)的論文提出了在低資源關(guān)系提取任務(wù)中融合同類別樣本間句子相關(guān)性信息和關(guān)系標(biāo)簽語義兩個(gè)方面信息的方法,并在多個(gè)關(guān)系提取類任務(wù)的公開數(shù)據(jù)集的實(shí)驗(yàn)中得到了SOTA結(jié)果。
關(guān)系提取旨在發(fā)現(xiàn)給定句子中兩個(gè)實(shí)體之間的正確關(guān)系,是NLP中的一項(xiàng)基本任務(wù)。該問題通常被視為有監(jiān)督的分類問題,由大規(guī)模標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練。近年來,關(guān)系提取模型得到了明顯的發(fā)展。然而,訓(xùn)練樣本過少時(shí),模型性能會(huì)急劇下降。
在最近工作中,深蘭DeepBlueAI團(tuán)隊(duì)利用小樣本學(xué)習(xí)的進(jìn)步來解決低資源問題。少樣本學(xué)習(xí)的關(guān)鍵思想是學(xué)習(xí)一個(gè)用來比較query和support set samples中樣本相似度的模型,這樣,關(guān)系抽取的目標(biāo)從學(xué)習(xí)一個(gè)通用的、準(zhǔn)確的關(guān)系分類器變?yōu)閷W(xué)習(xí)一個(gè)將具有相同關(guān)系的實(shí)例映射到相近區(qū)域的映射模型。在少樣本學(xué)習(xí)的設(shè)定下,標(biāo)簽信息,即包含關(guān)系本身語義知識(shí)的關(guān)系標(biāo)簽,在訓(xùn)練和預(yù)測(cè)時(shí)并沒有被模型用到。深蘭DeepBlueAI團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果表明,在預(yù)訓(xùn)練和微調(diào)中結(jié)合上述標(biāo)簽信息和各關(guān)系類別的樣本兩類映射可以顯著提高模型在少樣本關(guān)系提取任務(wù)上的表現(xiàn)。
01
語義映射預(yù)訓(xùn)練
預(yù)訓(xùn)練部分的目標(biāo)函數(shù)由三個(gè)部分組成:
CCR: 樣本表示間損失
CRR:樣本與標(biāo)簽間損失
MLM:語言模型損失,同BERT
深蘭DeepBlueAI團(tuán)隊(duì)采取類似CP (Peng et al., 2020)的方法中對(duì)模型進(jìn)行預(yù)訓(xùn)練。不同之處在于團(tuán)隊(duì)還考慮了標(biāo)簽信息,使用Wikidata作為預(yù)訓(xùn)練語料庫,去除了Wikidata和DeepBlueAI團(tuán)隊(duì)用于后續(xù)實(shí)驗(yàn)的數(shù)據(jù)集之間的重復(fù)部分。
本部分中,深蘭DeepBlueAI團(tuán)隊(duì)使用BERT base作為基礎(chǔ)模型,采用AdamW優(yōu)化器,最大輸入長(zhǎng)度設(shè)置為60。深蘭DeepBlueAI團(tuán)隊(duì)共訓(xùn)練了11,000步,其中前500步為warmup,batch size設(shè)為2040,學(xué)習(xí)比率為3e-5。
02
監(jiān)督性關(guān)系抽取
本部分深蘭DeepBlueAI團(tuán)隊(duì)一共試驗(yàn)了MapRE預(yù)訓(xùn)練模型的兩種使用方式,即MapRE-L(直接使用全連接層對(duì)文本編碼輸出預(yù)測(cè)關(guān)系)和MapRE-R(采用關(guān)系編碼器編碼關(guān)系標(biāo)簽,再做相似度匹配),模型結(jié)構(gòu)如圖:
在監(jiān)督性關(guān)系抽取任務(wù)中深蘭科技評(píng)估兩個(gè)基準(zhǔn)數(shù)據(jù)集:ChemProt和Wiki80。前者包括56,000個(gè)實(shí)例和80種關(guān)系,后者包括10,065個(gè)實(shí)例和13種關(guān)系。
實(shí)驗(yàn)結(jié)果如下:
這里深蘭DeepBlueAI團(tuán)隊(duì)重點(diǎn)關(guān)注低資源關(guān)系抽取,選取以下三個(gè)有代表性的模型進(jìn)行比較。
1)BERT:該模型在文本的頭實(shí)體和尾實(shí)體部分分別增加特殊的標(biāo)記token,在BERT輸出后接幾個(gè)全連接層用于關(guān)系分類。
2)MTB (Soares et al., 2019):MTB模型假設(shè)無監(jiān)督數(shù)據(jù)中頭實(shí)體和尾實(shí)體相同的句子均為正樣本對(duì),即具有相同的關(guān)系。在測(cè)試階段,對(duì)query和support set的相似度得分進(jìn)行排名,將得分最高的關(guān)系作為預(yù)測(cè)結(jié)果。
3)CP (Peng et al., 2020):同MTB類似,我們的方法同CP模型的不同點(diǎn)在于,我們?cè)陬A(yù)訓(xùn)練和微調(diào)時(shí)均考慮了標(biāo)簽信息。
我們可以觀察到:
1)在BERT上進(jìn)行預(yù)訓(xùn)練(即MTB, CP和MapRE)可以提高模型性能
2)比較MapRE-L與CP和MTB,在預(yù)訓(xùn)練期間添加標(biāo)簽信息可以顯著提高模型性能,尤其是在資源極少的情況下,例如僅1%的訓(xùn)練集用于微調(diào)
3) 比較 MapRE-R 和 MapRE-L,其中前者在微調(diào)中也考慮了標(biāo)簽信息,表現(xiàn)出更好更穩(wěn)定的實(shí)驗(yàn)結(jié)果
結(jié)果表明在預(yù)訓(xùn)練和微調(diào)中使用標(biāo)簽信息均可顯著提高低資源監(jiān)督性關(guān)系抽取任務(wù)上的模型性能。
03
少樣本與零樣本關(guān)系抽取
在少樣本學(xué)習(xí)的情況下,模型需要在只有給定一定關(guān)系類別,每個(gè)類別少數(shù)樣本的情況下進(jìn)行預(yù)測(cè)。對(duì)于N way K shot問題,Support set S包含N個(gè)關(guān)系,每個(gè)關(guān)系有K個(gè)樣本,查詢集包含Q個(gè)樣本,每個(gè)樣本屬于 N 個(gè)關(guān)系之一。
該模型結(jié)構(gòu)如下:
模型預(yù)測(cè)結(jié)果由下式得出:
深蘭DeepBlueAI團(tuán)隊(duì)在兩個(gè)數(shù)據(jù)集上評(píng)估提出的方法:FewRel和NYT-25。FewRel 數(shù)據(jù)集包含70,000個(gè)句子和100個(gè)關(guān)系(每個(gè)關(guān)系有700個(gè)句子),數(shù)據(jù)來源為維基百科。其中64個(gè)關(guān)系用于訓(xùn)練,16個(gè)用于驗(yàn)證,以及20個(gè)用于測(cè)試。測(cè)試數(shù)據(jù)集包含 10,000 個(gè)句子,必須在線評(píng)估。NYT-25數(shù)據(jù)集是由Gao et al., 2019。DeepBlueAI團(tuán)隊(duì)隨機(jī)抽取 10 個(gè)關(guān)系用于訓(xùn)練,5 個(gè)用于驗(yàn)證,10 個(gè)用于測(cè)試。
實(shí)驗(yàn)結(jié)果如下:
如上表所示,在所有的實(shí)驗(yàn)設(shè)置下,深蘭DeepBlueAI團(tuán)隊(duì)提出的MapRE,由于在預(yù)訓(xùn)練和微調(diào)中均考慮了support set樣本句子和關(guān)系標(biāo)簽信息,提供了穩(wěn)定的性能表現(xiàn),并大幅優(yōu)于一系列baseline方法。結(jié)果證明了團(tuán)隊(duì)提出的框架的有效性,并表明了關(guān)系抽取中關(guān)系標(biāo)簽語義映射信息的重要性。
深蘭DeepBlueAI團(tuán)隊(duì)進(jìn)一步考慮了低資源關(guān)系抽取的極端條件,即零樣本的情況。在該設(shè)定下,模型輸入不包含任何support set樣本。在零樣本條件下,以上大部分少樣本關(guān)系抽取框架不適用,因?yàn)槠渌擃惸P偷拿總(gè)關(guān)系類別中至少需要有一個(gè)樣本。
結(jié)果表明,與其它最近零樣本學(xué)習(xí)工作相比,深蘭DeepBlueAI團(tuán)隊(duì)提出的MapRE在所有設(shè)定下都獲得了出色的表現(xiàn),證明了MapRE的有效性。
總結(jié)
在這項(xiàng)工作中,深蘭DeepBlueAI團(tuán)隊(duì)提出了一種同時(shí)考慮標(biāo)簽信息和樣本信息的關(guān)系抽取模型,MapRE。大量實(shí)驗(yàn)結(jié)果表明,MapRE模型對(duì)監(jiān)督性關(guān)系抽取、少樣本關(guān)系抽取和零樣本關(guān)系抽取任務(wù)中展示了出色的表現(xiàn)。結(jié)果表明樣本和標(biāo)簽信息兩者在預(yù)訓(xùn)練和微調(diào)中都起到了重要作用。在這項(xiàng)工作中,深蘭DeepBlueAI團(tuán)隊(duì)沒有研究領(lǐng)域遷移造成的潛在影響,我們將相關(guān)分析作為下一步的工作。
綜上,深蘭DeepBlueAI團(tuán)隊(duì)提出的MapRE模型結(jié)合了零樣本和少樣本學(xué)習(xí)的特點(diǎn),結(jié)合了同關(guān)系樣本和關(guān)系語義兩個(gè)方面的信息,目前已在深蘭科技智能數(shù)據(jù)標(biāo)注平臺(tái)文本關(guān)系抽取功能中得以應(yīng)用,大幅提升了模型在少量訓(xùn)練樣本下的表現(xiàn),在數(shù)據(jù)的智能標(biāo)注等領(lǐng)域可大幅節(jié)省人力,提升標(biāo)注效率及標(biāo)注質(zhì)量。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 一文看懂視覺語言動(dòng)作模型(VLA)及其應(yīng)用
- 5 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 6 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡(jiǎn)單