av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 神經(jīng)符號查詢編譯器:讓搜索意圖識別更精準更高效

神經(jīng)符號查詢編譯器:讓搜索意圖識別更精準更高效

2025-05-22 08:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 08:20 ? 科技行者

在如今的人工智能領(lǐng)域,一項來自中國人民大學(xué)和華為泊松實驗室的突破性研究正在改變我們與搜索引擎和對話系統(tǒng)交互的方式。這項由張宇遙、竇志成、李曉溪、金佳杰(人民大學(xué))以及吳永康、李中華、葉琦和文繼榮(華為泊松實驗室)共同完成的研究,發(fā)表于2025年5月的arXiv預(yù)印本平臺(arXiv:2505.11932v1),題為《神經(jīng)符號查詢編譯器》(Neuro-Symbolic Query Compiler)。這項研究旨在解決檢索增強生成系統(tǒng)中一個核心挑戰(zhàn):如何精確理解用戶的復(fù)雜搜索意圖。

想象一下,你向搜索引擎提問:"我想找到J.K.羅琳最受歡迎的書的介紹和評論,并檢查當(dāng)?shù)貓D書館是否有這本書。"這個看似簡單的問題實際上包含了多個相互依賴的子問題:首先需要確定哪本是J.K.羅琳最受歡迎的書,然后才能查找它的介紹、評論以及館藏情況。現(xiàn)有的系統(tǒng)往往難以理解這種復(fù)雜查詢背后的邏輯結(jié)構(gòu),導(dǎo)致檢索結(jié)果不準確,最終回答質(zhì)量下降。

這正是QCompiler(查詢編譯器)要解決的問題。它像一位精通多種語言的翻譯官,能夠?qū)⑽覀內(nèi)粘UZ言中的復(fù)雜問題"編譯"成計算機更容易處理的結(jié)構(gòu)化表達,從而大幅提升搜索準確性和響應(yīng)質(zhì)量。

一、人類思維的雙重奏:神經(jīng)計算與符號推理的完美結(jié)合

在認知科學(xué)領(lǐng)域,研究人員發(fā)現(xiàn)人類大腦具有兩種相輔相成的思維系統(tǒng):一種是基于神經(jīng)網(wǎng)絡(luò)的計算,可以快速處理來自復(fù)雜感官輸入的信息;另一種是基于符號系統(tǒng)的邏輯推理,能夠分析語言、數(shù)學(xué)和因果關(guān)系等抽象規(guī)則。這兩種系統(tǒng)相互配合,讓人類能夠靈活應(yīng)對從感知到推理的各種復(fù)雜任務(wù),展現(xiàn)出單一機制無法達到的強大泛化能力。

而在人工智能領(lǐng)域,當(dāng)前主流的人工神經(jīng)網(wǎng)絡(luò)雖然具有強大的擬合能力,但在需要推理和泛化到不斷更新的知識領(lǐng)域時常常力不從心。檢索增強生成(RAG)技術(shù)通過引入外部知識庫的檢索過程,一定程度上解決了這個問題,讓神經(jīng)網(wǎng)絡(luò)能夠訪問訓(xùn)練數(shù)據(jù)之外的信息。但這種改進存在上限:當(dāng)用戶查詢變得復(fù)雜或需要推理時,一次性檢索到所有相關(guān)文檔的幾率大大降低,導(dǎo)致RAG系統(tǒng)性能不佳。

更具挑戰(zhàn)性的是,復(fù)雜查詢通常包含隱含意圖、嵌套邏輯結(jié)構(gòu)和復(fù)雜依賴關(guān)系,這讓神經(jīng)網(wǎng)絡(luò)難以在單步操作中得出答案。雖然可以利用神經(jīng)網(wǎng)絡(luò)強大的能力來提取關(guān)鍵信息,但如果沒有符號規(guī)則的支持來進行任務(wù)分解和推理,系統(tǒng)就無法有效處理這類查詢。

二、QCompiler:一個巧妙的查詢理解框架

為了解決這些挑戰(zhàn),研究團隊提出了QCompiler,這是一個受語言語法規(guī)則和編譯器設(shè)計啟發(fā)的神經(jīng)符號框架。想象一下,QCompiler就像一位精通多國語言的翻譯官,能夠?qū)⒛憧谡Z化的問題逐步翻譯成計算機能夠精確理解的結(jié)構(gòu)化語言。

這個框架首先在理論上設(shè)計了一個最小但足夠完備的巴科斯-諾爾范式(BNF)語法G[q],用于規(guī)范化復(fù)雜查詢。這個語法維持了完整性的同時最小化了冗余,就像是創(chuàng)造了一種專門用于表達搜索意圖的"精簡語言"。基于這個語法,QCompiler包含三個核心組件:查詢表達式翻譯器、詞法語法分析器和遞歸下降處理器,它們共同工作,將查詢編譯成抽象語法樹(AST)以便執(zhí)行。

查詢表達式翻譯器就像一位口譯員,負責(zé)將自然語言查詢翻譯成基于BNF的表達式。詞法語法分析器則像是一位語法專家,根據(jù)BNF語法規(guī)則將這些表達式構(gòu)建成抽象語法樹。遞歸下降處理器則是執(zhí)行官,負責(zé)遞歸地解析這棵樹,解決各個子查詢之間的依賴關(guān)系,并進行占位符替換。

這個設(shè)計的巧妙之處在于,抽象語法樹葉節(jié)點中的子查詢具有原子性,確保了更精確的文檔檢索和響應(yīng)生成,大大提升了RAG系統(tǒng)處理復(fù)雜查詢的能力。就像拆解一個復(fù)雜的拼圖,將其分解為更小、更容易處理的部分,然后再按照正確的順序重新組裝起來。

三、查詢類型的數(shù)學(xué)定義:從簡單到復(fù)雜的精確分類

為了有效處理各種查詢,研究團隊將查詢分為四種基本類型:原子查詢、依賴查詢、列表查詢和復(fù)雜查詢。這就像是將所有可能的問題分門別類,以便系統(tǒng)能夠有針對性地處理。

原子查詢是最基本的單一問題,不能被進一步分解,例如"《泰坦尼克號》的導(dǎo)演是誰?"。想象這是一塊不能再分的積木,是構(gòu)建更復(fù)雜問題的基礎(chǔ)單元。

依賴查詢則包含兩個部分,后一部分依賴于前一部分的結(jié)果,兩者之間存在先后關(guān)系,無法并行執(zhí)行。例如"《泰坦尼克號》的導(dǎo)演出生于何時?"這個問題包含兩個依賴的子查詢:"誰是《泰坦尼克號》的導(dǎo)演?"和"詹姆斯·卡梅隆出生于何時?"。這就像是一個兩步烹飪過程,必須先完成第一步才能開始第二步。

列表查詢由多個相互獨立的子查詢組成,它們之間沒有依賴關(guān)系,可以并行執(zhí)行以加速整個系統(tǒng)的推理。例如"詹姆斯·卡梅隆和史蒂芬·斯皮爾伯格,誰更年長?"包含兩個獨立的查詢:"詹姆斯·卡梅隆出生于何時?"和"史蒂芬·斯皮爾伯格出生于何時?"。這就像是同時進行兩項獨立的任務(wù),可以交給不同的廚師并行完成。

復(fù)雜查詢則結(jié)合了以上三種類型,包含嵌套的邏輯結(jié)構(gòu)和復(fù)雜的依賴關(guān)系。例如"《泰坦尼克號》的導(dǎo)演和史蒂芬·斯皮爾伯格,誰更年長?"這個問題既包含依賴查詢(找出《泰坦尼克號》的導(dǎo)演并查詢其出生日期),又包含無依賴的原子查詢(查詢斯皮爾伯格的出生日期)。這就像是一個包含多個步驟和分支的復(fù)雜任務(wù),需要精心規(guī)劃執(zhí)行順序。

四、巴科斯-諾爾范式語法:一套精簡而強大的規(guī)則系統(tǒng)

研究團隊設(shè)計了一套基于巴科斯-諾爾范式(BNF)的專門語法來描述復(fù)雜查詢。BNF是一種在編程語言、協(xié)議和領(lǐng)域特定語言中廣泛使用的上下文無關(guān)語法,用于精確描述語法規(guī)則。

這套語法包含四類非終結(jié)符號:(原子查詢)、(列表查詢)、(依賴查詢)和(復(fù)雜查詢)。終結(jié)符號分為兩類:原子查詢集Qatomic和操作符集O。操作符'+'用于連接兩個獨立查詢,允許它們并行回答;操作符'×'則連接兩個存在依賴關(guān)系的查詢,表明后一個查詢依賴于前一個查詢的結(jié)果。

在語法規(guī)則中,操作符'×'被賦予比操作符'+'更高的優(yōu)先級,以確保解析過程是確定性和無歧義的。此外,研究團隊還使用括號進行分組和優(yōu)先級控制,括號內(nèi)的表達式也可被視為原子查詢的產(chǎn)生式規(guī)則。這種遞歸定義類似于許多編程語言和通用語法中的定義,允許自然地形式化嵌套查詢,而無需使語法復(fù)雜化或引入額外的非終結(jié)變量。

五、QCompiler的核心組件:從自然語言到結(jié)構(gòu)化表示的轉(zhuǎn)換

QCompiler框架包含三個關(guān)鍵組件,它們協(xié)同工作,實現(xiàn)復(fù)雜查詢的精確理解和處理:

首先是查詢表達式翻譯器。這個組件使用語言模型將自然語言查詢翻譯成基于BNF的表達式。想象你在一個外國機場,這個翻譯器就像是能將你的問題翻譯成當(dāng)?shù)卣Z言的口譯員,確保你的搜索意圖被精確捕捉和表達。

其次是詞法語法分析器。它對查詢表達式進行符號化推理,使用詞法分析中的標記構(gòu)建基于BNF語法的抽象語法樹(AST)。這就像是一位語言學(xué)家,能夠分析句子的結(jié)構(gòu),識別主語、謂語和賓語,理解它們之間的邏輯關(guān)系。

最后是遞歸下降處理器。它遞歸地解釋AST,通過解決依賴關(guān)系和執(zhí)行占位符替換來執(zhí)行子查詢。它管理不同查詢節(jié)點之間的數(shù)據(jù)流,處理AST中子查詢的執(zhí)行。這就像是一位任務(wù)協(xié)調(diào)員,安排不同步驟的執(zhí)行順序,確保每個步驟都有所需的信息。

這三個組件無縫協(xié)作,將復(fù)雜查詢從日常語言轉(zhuǎn)換為結(jié)構(gòu)化表示,再分解為可執(zhí)行的子查詢,最終得到準確的回答。

六、QCompiler的訓(xùn)練與驗證:確保質(zhì)量與準確性

為了使語言模型理解語法并以期望的格式響應(yīng),研究團隊使用了目標函數(shù)進行優(yōu)化,該函數(shù)最大化給定查詢和語法指令條件下生成正確表達式的概率。訓(xùn)練數(shù)據(jù)包含查詢-表達式對,其中每個表達式都遵循G[q]語法規(guī)則。

然而,即使經(jīng)過訓(xùn)練,查詢表達式翻譯器仍可能生成無效表達式,導(dǎo)致構(gòu)建無效的抽象語法樹。這些問題主要分為兩類:錯誤的依賴關(guān)系(沒有相應(yīng)依賴關(guān)系的占位符內(nèi)容)和缺失的依賴關(guān)系(有依賴關(guān)系但缺少必要占位符)。

為了解決這些問題,研究團隊設(shè)計了一個基于深度優(yōu)先搜索(DFS)的遞歸驗證算法,用于檢查AST的合法性。在推理過程中,系統(tǒng)會在各種溫度設(shè)置下采樣輸出,然后選擇一個有效的AST進行后續(xù)處理。這就像是一位細心的校對者,確保翻譯過程中沒有錯誤或遺漏。

七、實驗結(jié)果:QCompiler的顯著優(yōu)勢

研究團隊在四個多跳基準測試上評估了QCompiler的性能,包括2WikiMultihopQA、HotpotQA、Musique和Bamboogle。結(jié)果表明,QCompiler大大提升了響應(yīng)模型的能力,在四個基準測試中都取得了最佳性能,尤其在具有挑戰(zhàn)性的2WikiMultihopQA和Musique基準測試中改進更為顯著。

更令人印象深刻的是,QCompiler表現(xiàn)出的規(guī)模定律特性:不同大小的基礎(chǔ)模型訓(xùn)練出的查詢編譯器性能幾乎相同。這表明基于語法的生成任務(wù)相對容易學(xué)習(xí),較小的模型(如Llama3.2-3B-Instruct)的性能可與較大的模型(如Llama3.1-8B-Instruct和Qwen-2.5-7B-Instruct)相媲美。這一發(fā)現(xiàn)暗示當(dāng)前多跳查詢基準可能缺乏足夠的復(fù)雜性和多樣性,使得較小的蒸餾模型能夠在現(xiàn)有基準上表現(xiàn)同樣出色。

研究團隊還分析了葉節(jié)點的原子性,發(fā)現(xiàn)QCompiler在每個查詢節(jié)點只檢索少量文檔(甚至只有一個文檔)就能在不同基準測試中取得強大性能。這證明了QCompiler成功將復(fù)雜查詢分解為精確的原子子查詢,大大提高了檢索效率和準確性。

此外,研究團隊還使用QCompiler將查詢編譯為各自的表達式類型,并記錄了每種類型的正確響應(yīng)百分比。結(jié)果表明,QCompiler對單跳問題提供了適度的改進,因為它在遞歸下降方式中只應(yīng)用了一個優(yōu)化周期;對于結(jié)構(gòu)為A+B的列表查詢,QCompiler也提供了適度的改進,表明這些查詢并不困難,迭代RAG系統(tǒng)也能處理;然而,QCompiler在形式為A×B的依賴查詢方面表現(xiàn)出色,這凸顯了當(dāng)前迭代RAG系統(tǒng)的局限性:在多跳問題中,關(guān)鍵挑戰(zhàn)在于準確找出初始查詢及其答案,這是限制系統(tǒng)有效性的關(guān)鍵因素。

八、QCompiler如何改進現(xiàn)有RAG系統(tǒng)?

QCompiler能夠從多個方面改進RAG系統(tǒng):

首先,與現(xiàn)有的端到端方法不同,QCompiler是一個輕量級框架,專注于為復(fù)雜查詢生成結(jié)構(gòu)化中間表示,通過將它們編譯成抽象語法樹來捕獲隱含意圖、嵌套結(jié)構(gòu)和復(fù)雜依賴關(guān)系。這一過程自然地處理了復(fù)雜查詢的重寫、消歧、分解和擴展。

其次,葉節(jié)點中子查詢的原子性確保了精確的文檔檢索和答案生成,顯著提升了RAG系統(tǒng)處理復(fù)雜查詢的能力。就像是將一個模糊的大問題拆分成多個清晰的小問題,每個小問題都能得到更精確的答案。

最后,在實際部署場景中,開發(fā)人員甚至可以設(shè)計廣泛的后處理邏輯來改進QCompiler編譯的抽象語法樹。這些特性使QCompiler高度適應(yīng)與現(xiàn)有RAG系統(tǒng)的集成。

九、QCompiler的局限性與未來展望

盡管QCompiler展現(xiàn)出顯著優(yōu)勢,但研究團隊也坦誠承認其局限性。由于現(xiàn)有多跳數(shù)據(jù)集的限制,他們?nèi)狈Ω鼜?fù)雜的場景來訓(xùn)練和驗證基于語法的QCompiler的性能。例如,一個關(guān)鍵問題是缺乏使用括號控制執(zhí)行順序的復(fù)雜查詢基準,這可能限制了訓(xùn)練模型的泛化能力。

此外,這項研究僅專注于監(jiān)督微調(diào)來訓(xùn)練QCompiler。未來的改進策略包括但不限于構(gòu)建更多樣化和復(fù)雜的基準進行訓(xùn)練和評估,以及使用帶有步級獎勵模型的強化學(xué)習(xí)來生成更優(yōu)的表達式。

總的來說,QCompiler代表了一種新的查詢理解范式,它將神經(jīng)網(wǎng)絡(luò)的計算能力與符號系統(tǒng)的精確推理相結(jié)合,為復(fù)雜查詢的處理提供了一種更有效、更準確的方法。它不僅提高了檢索增強生成系統(tǒng)的性能,還為如何將神經(jīng)符號方法應(yīng)用于自然語言處理任務(wù)提供了寶貴的見解。隨著這項技術(shù)的發(fā)展,我們可以期待在未來看到更智能、更靈活的搜索和問答系統(tǒng),能夠真正理解并滿足我們復(fù)雜的信息需求。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-