登頂!思必馳-上海交大聯合實驗室刷新Text-to-SQL語義解析任務多個榜單紀錄
來源:思必馳 編輯:VI菲 2022-04-21 15:18:13 加入收藏
人們日常生活和工業生產中產生的海量數據被廣泛存儲于結構化數據庫中,如何高效利用這些結構化數據成為近年學術研究和產業應用都十分關注的熱點。
盡管直接編寫SQL語句和數據庫進行交互是目前最直接的方法,但是非計算機專業的從業人員需要耗費大量時間學習其語法,即便是SQL專家,反復編寫也是單調低效的工作。
近年來基于自然語言發展起來的數據庫查詢接口(NLIDB)為用戶與數據庫進行交互提供了一種簡潔高效的方法。NLIDB背后的核心技術是Text-to-SQL語義解析,其作用是在給定相應的數據庫模式結構下,將用戶的自然語言問句轉換成SQL查詢語句。
Text-to-SQL任務是自然語言處理任務中最具挑戰性的任務之一,該任務的輸入既要考慮用戶的自然語言問題也要考慮數據庫的模式結構,此外,該任務的輸出是結構化的SQL語句。
登頂中文千言榜單
思必馳-上海交大人機交互聯合實驗室團隊在繼去年6月份取得Text-to-SQL任務英文基準榜單Spider第一名后,近期又取得Text-to-SQL任務中文千言榜單第一名。
千言榜單囊括了Text-to-SQL任務三個最經典的中文數據集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團隊在之前提出的線圖增強的Text-to-SQL模型LGESQL的基礎上,進一步提出了結構化的動態解碼方案GTL,使得模型既能很好地編碼結構化的異構輸入,同時也能夠實現高效準確的結構化解碼。
頂級會議,發表多篇論著
聯合實驗室在相關方向的頂級國際會議上已發表多篇論文:
1) 針對Text-to-SQL任務中用戶問句和數據庫模式的聯合異構圖編碼挑戰,提出了基于線圖增強的LGESQL模型,相關成果發表于ACL 2021主會,論文:http://img.dav01.com/eRemote/2022/4/21/dav01_230791_1650525550414_1444874903.pdf
2) 針對單輪問答式Text-to-SQL任務不同領域之間,由詞表差異引發的領域遷移和泛化問題,提出了ShadowGNN模型,將結構和語義信息解耦,相關成果已發表于NAACL 2021主會,論文:http://img.dav01.com/eRemote/2022/4/21/dav01_230791_1650525511433_2133323121.pdf
3) 針對多輪對話式Text-to-SQL任務的上下文建模問題,提出DELTA框架,對多輪對話進行語義補全和句子改寫,轉化為單輪的場景,相關成果已發表于ACL 2021 Findings,論文:http://img.dav01.com/eRemote/2022/4/21/dav01_230791_1650525521196_1457988333.pdf
評論comment