五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

華為云語音語義創(chuàng)新Lab 4篇論文被自然語言處理領(lǐng)域國際頂級會議ACL 2021接收

近期,自然語言處理頂會ACL-IJCNLP 2021放榜。本次大會共收到3350篇論文投稿,最終有21.3%的論文錄用到主會,并額外接收了14.9%的論文到Findings子刊,綜合錄用率為36.2%。在本次大會中,華為云語音語義創(chuàng)新Lab共有4項研究成果(含F(xiàn)indings)被錄取。研究方向主要包括:詞法句法分析、關(guān)系抽取、醫(yī)療文本分析和文本生成等領(lǐng)域。本文將會概要介紹各項成果。


詞法句法分析:An In-depth Study on Internal Structure of Chinese Words.

與英文中的字母不同,漢字有豐富而具體的含義。通常,一個詞的意義在某種程度上可以由組成它的漢字派生出來。一些先前的句法分析工作提出對淺層詞內(nèi)部結(jié)構(gòu)進(jìn)行標(biāo)注從而更好地利用字級別的信息。本文提出將漢語詞的深層內(nèi)部結(jié)構(gòu)建模為包含11個標(biāo)簽的依存樹,用于區(qū)分詞內(nèi)部結(jié)構(gòu)中不同的依存關(guān)系。首先,根據(jù)我們最新編寫的標(biāo)注規(guī)范,我們手工標(biāo)注了一個來源于中文賓州樹庫的包含超過3萬個詞的詞內(nèi)部結(jié)構(gòu) (WIST) 樹庫。為了保證標(biāo)注質(zhì)量,每個詞都由兩個標(biāo)注人員獨立進(jìn)行標(biāo)注,由第三個標(biāo)注者處理標(biāo)注不一致情況。第二,我們對WIST進(jìn)行了詳細(xì)又有趣的分析,揭示了對漢語構(gòu)詞的一些見解。第三,我們提出了一個詞內(nèi)部結(jié)構(gòu)分析的新任務(wù),并基于一個先進(jìn)的句法分析器進(jìn)行了基準(zhǔn)實驗。最后,我們提出了兩種簡單的編碼詞內(nèi)部結(jié)構(gòu)的方法,在句法分析任務(wù)中驗證了漢語詞內(nèi)部結(jié)構(gòu)的作用。

 

關(guān)系抽?。?/span>HacRED: A Large--Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications.

關(guān)系抽取是自然語言處理中的一個重要主題。當(dāng)前的關(guān)系抽取方法在通用數(shù)據(jù)集上通常都取得了非常好的效果,但是這些方法在應(yīng)用到實際場景中時,往往會出現(xiàn)較大程度的性能下降。在本文中,我們分析了上述的情況,并發(fā)現(xiàn)出現(xiàn)這種性能下降的原因是實際場景中通常存在更多的困難樣例(hard cases)。為了使得關(guān)系抽取的模型在實際場景中也有魯棒的表現(xiàn),我們提出了一個樣例導(dǎo)向的構(gòu)建框架,并依托這個框架構(gòu)造了一個困難樣本關(guān)系抽取數(shù)據(jù)集(HacRED)。這個提出的數(shù)據(jù)集HacRED包含標(biāo)注自9231篇文檔中的65525個關(guān)系實例。這些關(guān)系實例的類型十分豐富。HacRED是目前最大的中文文檔級關(guān)系抽取數(shù)據(jù)集之一,并且具有非常高的數(shù)據(jù)質(zhì)量,其F1值為96%。最后,我們將目前最佳的關(guān)系抽取模型應(yīng)用在了HacRED數(shù)據(jù)集上,并進(jìn)行了深入的分析。結(jié)果表明,這些模型的效果相比人類的表現(xiàn)仍然有非常大的差距,這也表明,目前現(xiàn)有的關(guān)系抽取模型在解決實際場景中的困難樣例時仍需要更多的努力。

 

醫(yī)療文本分析:Analyzing Code Embeddings for Coding Clinical Narratives.

在醫(yī)療活動中,醫(yī)療專業(yè)人員審查臨床報告,以分配用于計費和護(hù)理管理的醫(yī)療代號。這個手工審查的過程效率十分低下并且容易出錯,因為其中包含著微妙的一對多的映射。最近出現(xiàn)了一些關(guān)于自動學(xué)習(xí)ICD(國際疾病分類)代號的工作,它們學(xué)習(xí)報告的低維特征和編碼之間的映射關(guān)系。盡管這些方法提出了新穎的神經(jīng)網(wǎng)絡(luò)模型用以編碼不同類型的代號信息,但是醫(yī)療代號中的哪些信息有助于效果的提升,并且為什么能提升效果仍然是未知的。在本文中,我們利用一個單層的深度學(xué)習(xí)基線模型,對比了不同的方式去表征或嵌入這些醫(yī)療代號基于他們的文本、結(jié)構(gòu)、和統(tǒng)計特性。我們是在MIMIC-III重癥監(jiān)護(hù)病房數(shù)據(jù)庫的出院報告上進(jìn)行了定量實驗。我們也定量分析了對代號嵌入貢獻(xiàn)最大的案例,并展示了代號嵌入對于預(yù)測模糊和傾斜的代碼十分重要。

 

文本生成:Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models

本文研究了如何自動生成描述知識圖譜中事實關(guān)系的自然語言文本。在few-shot的設(shè)定下,我們充分利用預(yù)訓(xùn)練模型的強(qiáng)大的語言理解和生成能力。我們介紹了三項主要的貢獻(xiàn),即表征對齊來解決知識圖譜編碼和預(yù)訓(xùn)練模型間的語義差距、關(guān)系偏移的知識圖譜線性化以獲得更好的輸入表征、多任務(wù)學(xué)習(xí)架構(gòu)以學(xué)習(xí)知識圖譜和文本之間的對應(yīng)關(guān)系。在三個數(shù)據(jù)集上的豐富實驗展示了我們的模型在知識圖譜到文本生成上的有效性。值得稱道的是,我們的模型能夠在僅有幾百條有標(biāo)注數(shù)據(jù)的情況下,達(dá)到一個非常不錯的性能。

 

完整論文列表:

  • An In-depth Study on Internal Structure of Chinese Words. In ACL 2021.

  • HacRED: A Large--Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications. In Findings of ACL 2021.

  • Analyzing Code Embeddings for Coding Clinical Narratives. In Findings of ACL 2021.

  • Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models. In Findings of ACL 2021.

 



隨時獲取華為云AI最新動態(tài),歡迎關(guān)注華為云AI公眾號:

B8483785-C43D-4374-9026-618F8EBE3597.png