登頂!思必馳-上海交大聯(lián)合實(shí)驗(yàn)室刷新Text-to-SQL語義解析任務(wù)多個(gè)榜單紀(jì)錄
來源:思必馳 編輯:VI菲 2022-04-21 15:18:13 加入收藏
人們?nèi)粘I詈凸I(yè)生產(chǎn)中產(chǎn)生的海量數(shù)據(jù)被廣泛存儲(chǔ)于結(jié)構(gòu)化數(shù)據(jù)庫中,如何高效利用這些結(jié)構(gòu)化數(shù)據(jù)成為近年學(xué)術(shù)研究和產(chǎn)業(yè)應(yīng)用都十分關(guān)注的熱點(diǎn)。
盡管直接編寫SQL語句和數(shù)據(jù)庫進(jìn)行交互是目前最直接的方法,但是非計(jì)算機(jī)專業(yè)的從業(yè)人員需要耗費(fèi)大量時(shí)間學(xué)習(xí)其語法,即便是SQL專家,反復(fù)編寫也是單調(diào)低效的工作。
近年來基于自然語言發(fā)展起來的數(shù)據(jù)庫查詢接口(NLIDB)為用戶與數(shù)據(jù)庫進(jìn)行交互提供了一種簡(jiǎn)潔高效的方法。NLIDB背后的核心技術(shù)是Text-to-SQL語義解析,其作用是在給定相應(yīng)的數(shù)據(jù)庫模式結(jié)構(gòu)下,將用戶的自然語言問句轉(zhuǎn)換成SQL查詢語句。
Text-to-SQL任務(wù)是自然語言處理任務(wù)中最具挑戰(zhàn)性的任務(wù)之一,該任務(wù)的輸入既要考慮用戶的自然語言問題也要考慮數(shù)據(jù)庫的模式結(jié)構(gòu),此外,該任務(wù)的輸出是結(jié)構(gòu)化的SQL語句。
登頂中文千言榜單
思必馳-上海交大人機(jī)交互聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)在繼去年6月份取得Text-to-SQL任務(wù)英文基準(zhǔn)榜單Spider第一名后,近期又取得Text-to-SQL任務(wù)中文千言榜單第一名。
千言榜單囊括了Text-to-SQL任務(wù)三個(gè)最經(jīng)典的中文數(shù)據(jù)集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團(tuán)隊(duì)在之前提出的線圖增強(qiáng)的Text-to-SQL模型LGESQL的基礎(chǔ)上,進(jìn)一步提出了結(jié)構(gòu)化的動(dòng)態(tài)解碼方案GTL,使得模型既能很好地編碼結(jié)構(gòu)化的異構(gòu)輸入,同時(shí)也能夠?qū)崿F(xiàn)高效準(zhǔn)確的結(jié)構(gòu)化解碼。
頂級(jí)會(huì)議,發(fā)表多篇論著
聯(lián)合實(shí)驗(yàn)室在相關(guān)方向的頂級(jí)國(guó)際會(huì)議上已發(fā)表多篇論文:
1) 針對(duì)Text-to-SQL任務(wù)中用戶問句和數(shù)據(jù)庫模式的聯(lián)合異構(gòu)圖編碼挑戰(zhàn),提出了基于線圖增強(qiáng)的LGESQL模型,相關(guān)成果發(fā)表于ACL 2021主會(huì),論文:http://img.dav01.com/eRemote/2022/4/21/dav01_230791_1650525550414_1444874903.pdf
2) 針對(duì)單輪問答式Text-to-SQL任務(wù)不同領(lǐng)域之間,由詞表差異引發(fā)的領(lǐng)域遷移和泛化問題,提出了ShadowGNN模型,將結(jié)構(gòu)和語義信息解耦,相關(guān)成果已發(fā)表于NAACL 2021主會(huì),論文:http://img.dav01.com/eRemote/2022/4/21/dav01_230791_1650525511433_2133323121.pdf
3) 針對(duì)多輪對(duì)話式Text-to-SQL任務(wù)的上下文建模問題,提出DELTA框架,對(duì)多輪對(duì)話進(jìn)行語義補(bǔ)全和句子改寫,轉(zhuǎn)化為單輪的場(chǎng)景,相關(guān)成果已發(fā)表于ACL 2021 Findings,論文:http://img.dav01.com/eRemote/2022/4/21/dav01_230791_1650525521196_1457988333.pdf
評(píng)論comment