搜索引擎是我們?nèi)粘+@取信息的重要工具,但你是否曾經(jīng)遇到過(guò)這樣的情況:輸入一個(gè)問題后,搜索結(jié)果的第一頁(yè)充滿了看似相關(guān)但實(shí)際上并不能解答你問題的內(nèi)容?這就是搜索結(jié)果排序的痛點(diǎn)所在。來(lái)自蒙特利爾米拉-魁北克人工智能研究所、蒙特利爾大學(xué)、復(fù)旦大學(xué)和麥吉爾大學(xué)的研究團(tuán)隊(duì)聯(lián)合開發(fā)了一種名為REARANK的創(chuàng)新方案,這篇發(fā)表于2024年5月的研究論文介紹了他們?nèi)绾瓮ㄟ^(guò)強(qiáng)化學(xué)習(xí)技術(shù),讓大語(yǔ)言模型在搜索結(jié)果排序前先進(jìn)行推理思考,從而顯著提升排序質(zhì)量和可解釋性。有興趣深入了解的讀者可以通過(guò)GitHub鏈接https://github.com/lezhang7/Rearank訪問完整代碼。
一、為什么我們需要更智能的搜索結(jié)果排序?
想象一下,你正在準(zhǔn)備一場(chǎng)重要演講,急需查找一些專業(yè)資料。你在搜索引擎中輸入關(guān)鍵詞后,系統(tǒng)返回了上百條相關(guān)結(jié)果。但問題來(lái)了:這些結(jié)果如何排序才能讓最相關(guān)、最有價(jià)值的信息排在前面呢?
現(xiàn)代信息檢索系統(tǒng)通常采用"兩階段"策略:第一階段是初步檢索,系統(tǒng)會(huì)使用快速的詞匯匹配方法(如BM25算法)找出可能相關(guān)的候選文章;第二階段是重排序,系統(tǒng)會(huì)對(duì)這些候選進(jìn)行更精細(xì)的排序,將最相關(guān)的內(nèi)容推至前列。這個(gè)過(guò)程就像是先用大網(wǎng)撈魚,然后再仔細(xì)挑選最好的幾條一樣。
特別是在基于檢索的生成系統(tǒng)(RAG)中,檢索結(jié)果的質(zhì)量和排序直接影響最終輸出的好壞。就像廚師做菜,原材料的質(zhì)量決定了菜肴的美味程度。如果檢索和排序做得不好,即使后續(xù)處理再精細(xì),輸出的內(nèi)容質(zhì)量也難以保證。
近年來(lái),大語(yǔ)言模型(LLMs)在這個(gè)重排序階段展現(xiàn)出了強(qiáng)大的潛力。但目前的LLM重排序方法存在幾個(gè)關(guān)鍵挑戰(zhàn):首先,大語(yǔ)言模型并非專門為排序目標(biāo)而優(yōu)化;其次,訓(xùn)練一個(gè)有競(jìng)爭(zhēng)力的排序模型往往需要大量高質(zhì)量的標(biāo)注數(shù)據(jù),而這些數(shù)據(jù)獲取成本極高;第三,現(xiàn)有模型的決策過(guò)程往往缺乏透明度和可解釋性;最后,當(dāng)前最先進(jìn)的重排序系統(tǒng)通常依賴龐大的專有模型(如GPT-4),使用成本高昂且推理延遲嚴(yán)重(例如,使用DeepSeek-R1通過(guò)API重排序20個(gè)段落需要約90-120秒)。
二、REARANK:思考在先,排序在后
針對(duì)以上挑戰(zhàn),研究團(tuán)隊(duì)提出了REARANK,這是首個(gè)基于推理的列表式重排序助手。不同于以往的方法,REARANK會(huì)在排序前先進(jìn)行明確的推理思考,就像一個(gè)認(rèn)真的閱讀者會(huì)先理解每篇文章的內(nèi)容,分析它與查詢的相關(guān)性,然后才給出排序結(jié)果。
REARANK的核心理念是"推理在先,排序在后"。具體來(lái)說(shuō),它會(huì)先對(duì)每個(gè)候選段落進(jìn)行分析:"這個(gè)段落提供了什么信息?它與查詢問題的相關(guān)度如何?有哪些關(guān)鍵詞表明它與查詢相關(guān)?"然后,基于這些思考,系統(tǒng)給出最終的排序結(jié)果。
例如,當(dāng)用戶輸入查詢"為什么昆蟲被光吸引?"時(shí),REARANK會(huì)對(duì)每個(gè)候選文章進(jìn)行思考:
"段落1提到了動(dòng)物的顏色感知,但沒有討論昆蟲對(duì)光的吸引或熱輻射。相關(guān)關(guān)鍵詞:顏色感知、紅色、公牛。"
"段落2與段落1相同。相關(guān)關(guān)鍵詞:顏色感知、紅色、公牛。"
"段落3討論了昆蟲眼中的單眼功能,但沒有涉及光吸引或熱輻射。相關(guān)關(guān)鍵詞:?jiǎn)窝?、昆蟲、飛行、圖像對(duì)焦。"
通過(guò)這種詳細(xì)的推理過(guò)程,REARANK能夠更準(zhǔn)確地判斷哪些內(nèi)容與用戶查詢最相關(guān),從而提供更精準(zhǔn)的排序結(jié)果。這不僅提高了排序質(zhì)量,還增強(qiáng)了系統(tǒng)決策的可解釋性——用戶可以看到系統(tǒng)為什么認(rèn)為某篇文章更相關(guān)。
三、強(qiáng)化學(xué)習(xí):教會(huì)模型如何思考和排序
如何訓(xùn)練一個(gè)能夠進(jìn)行高質(zhì)量推理和排序的模型呢?研究團(tuán)隊(duì)選擇了強(qiáng)化學(xué)習(xí)(RL)作為核心訓(xùn)練方法。
想象一下教一個(gè)孩子學(xué)習(xí)整理書架。你不會(huì)給他一堆嚴(yán)格的規(guī)則,而是會(huì)告訴他:"把相似的書放在一起,常用的書放在伸手可及的位置",然后在他嘗試排列時(shí)給予反饋:"這本書放得好,但那本書可能應(yīng)該放在另一個(gè)位置。"強(qiáng)化學(xué)習(xí)就是這樣一個(gè)過(guò)程——通過(guò)試錯(cuò)和反饋,模型逐漸學(xué)習(xí)到更好的策略。
在REARANK的訓(xùn)練中,研究團(tuán)隊(duì)采用了分組策略優(yōu)化(GRPO)算法。簡(jiǎn)單來(lái)說(shuō),系統(tǒng)會(huì)針對(duì)每個(gè)查詢生成多種可能的排序結(jié)果,然后根據(jù)這些排序與理想排序的接近程度給予不同的獎(jiǎng)勵(lì)信號(hào)。模型通過(guò)不斷嘗試不同的推理和排序策略,逐漸學(xué)習(xí)到哪些推理路徑和排序決策能夠獲得更高的獎(jiǎng)勵(lì)。
一個(gè)關(guān)鍵挑戰(zhàn)是高質(zhì)量訓(xùn)練數(shù)據(jù)的稀缺性。標(biāo)注一組完整的排序數(shù)據(jù)成本極高,而大多數(shù)現(xiàn)有數(shù)據(jù)集只能提供有限的信息。為解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一種創(chuàng)新的數(shù)據(jù)增強(qiáng)方法:從僅179個(gè)帶注釋的查詢開始,通過(guò)隨機(jī)采樣多種不同的候選段落集合,生成了豐富的訓(xùn)練數(shù)據(jù)。這就像從幾個(gè)完整的拼圖中學(xué)習(xí)規(guī)律,然后應(yīng)用到各種不同的拼圖上一樣。
REARANK的獎(jiǎng)勵(lì)設(shè)計(jì)也很巧妙。主要獎(jiǎng)勵(lì)基于標(biāo)準(zhǔn)化折扣累積增益(NDCG)指標(biāo),這是衡量排序質(zhì)量的常用指標(biāo)。此外,還有格式獎(jiǎng)勵(lì),確保模型輸出符合預(yù)期的推理和排序格式。這種多維度的獎(jiǎng)勵(lì)機(jī)制引導(dǎo)模型不僅學(xué)會(huì)給出好的排序結(jié)果,還學(xué)會(huì)提供清晰的推理過(guò)程。
四、實(shí)驗(yàn)結(jié)果:小模型也能有大智慧
研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試上評(píng)估了REARANK的表現(xiàn),結(jié)果令人印象深刻。
在MS-MARCO數(shù)據(jù)集衍生的TREC-DL19和DL20基準(zhǔn)測(cè)試中,REARANK-7B(基于Qwen2.5-7B)取得了與強(qiáng)大的GPT-4相當(dāng)?shù)男阅埽h(yuǎn)超基線模型。更令人驚訝的是,在域外(即不同于訓(xùn)練數(shù)據(jù)的領(lǐng)域)基準(zhǔn)測(cè)試BEIR上,REARANK同樣表現(xiàn)出色,證明了其良好的泛化能力。
最引人注目的是在推理密集型基準(zhǔn)測(cè)試BRIGHT上,REARANK-7B甚至超越了強(qiáng)大的GPT-4模型,這突顯了強(qiáng)化學(xué)習(xí)在增強(qiáng)模型推理能力方面的顯著效果。
讓我們用具體數(shù)字來(lái)看看REARANK的表現(xiàn):
在TREC-DL19和DL20測(cè)試集上,REARANK-7B的nDCG@10(一種評(píng)估排序質(zhì)量的指標(biāo),越高越好)分別達(dá)到了74.16和70.00,相比基線模型RankQwen2.5-7B提升了5.91和7.27個(gè)百分點(diǎn)。
在域外BEIR基準(zhǔn)測(cè)試的平均性能上,REARANK-7B達(dá)到了54.59的nDCG@10,相比基線提升了4.49個(gè)百分點(diǎn)。
更令人印象深刻的是,REARANK-7B在推理密集型BRIGHT基準(zhǔn)測(cè)試上達(dá)到了17.7的平均性能,不僅超過(guò)了基線的15.0,甚至超過(guò)了強(qiáng)大的GPT-4(16.8)。
值得注意的是,這些優(yōu)異結(jié)果是通過(guò)一個(gè)只有7B參數(shù)的模型實(shí)現(xiàn)的,且僅使用了179個(gè)標(biāo)注查詢進(jìn)行訓(xùn)練。相比之下,同樣基于強(qiáng)化學(xué)習(xí)但采用集合式排序策略的Rank-R1模型使用了72k個(gè)訓(xùn)練樣本,而性能卻不如REARANK。
五、深入分析:為何REARANK如此成功?
為什么REARANK能夠取得如此出色的表現(xiàn)?研究團(tuán)隊(duì)進(jìn)行了深入分析,揭示了幾個(gè)關(guān)鍵因素。
首先,推理能力確實(shí)重要。研究表明,當(dāng)禁用REARANK的推理功能時(shí),其性能顯著下降。在TREC-DL基準(zhǔn)測(cè)試上,去除推理會(huì)導(dǎo)致性能下降3.9個(gè)百分點(diǎn);在BRIGHT基準(zhǔn)測(cè)試上,下降1.3個(gè)百分點(diǎn)。這證明了明確的推理過(guò)程對(duì)于高質(zhì)量排序至關(guān)重要。
相比之下,強(qiáng)大的Qwen3-32B模型在啟用和禁用推理模式時(shí)性能差異不大,這表明REARANK通過(guò)強(qiáng)化學(xué)習(xí)專門優(yōu)化了其推理能力,而不僅僅依賴預(yù)訓(xùn)練的能力。
其次,列表式排序策略比集合式策略更有效。列表式方法一次性對(duì)多個(gè)候選進(jìn)行排序,而集合式方法每次只判斷一個(gè)候選的相關(guān)性。研究結(jié)果表明,列表式方法不僅提供了更豐富的排序信號(hào),還在實(shí)際應(yīng)用中更加高效,因?yàn)樗鼫p少了需要調(diào)用大語(yǔ)言模型的次數(shù)。
第三,規(guī)范化的獎(jiǎng)勵(lì)設(shè)計(jì)對(duì)訓(xùn)練效果有顯著影響。研究發(fā)現(xiàn),相比直接使用原始nDCG@10或簡(jiǎn)單的差異nDCG,他們?cè)O(shè)計(jì)的規(guī)范化nDCG獎(jiǎng)勵(lì)能夠提供更有效的學(xué)習(xí)信號(hào),引導(dǎo)模型更好地學(xué)習(xí)排序策略。
最后,有趣的是,研究發(fā)現(xiàn)推理長(zhǎng)度與排序性能之間并無(wú)明顯相關(guān)性。這與直覺相反,表明推理質(zhì)量比推理長(zhǎng)度更重要。
六、REARANK的廣泛應(yīng)用前景
REARANK的成功不僅限于學(xué)術(shù)研究,它在實(shí)際應(yīng)用中有著廣闊的前景。
在信息檢索系統(tǒng)中,REARANK可以大幅提升搜索結(jié)果的質(zhì)量,幫助用戶更快找到最相關(guān)的內(nèi)容。特別是在處理復(fù)雜查詢時(shí),如"有沒有一套基本氣味可以混合產(chǎn)生所有可檢測(cè)的氣味,類似于RGB顏色系統(tǒng)?",傳統(tǒng)基于關(guān)鍵詞匹配的方法往往力不從心,而REARANK的推理能力可以深入理解查詢意圖和內(nèi)容關(guān)聯(lián)。
在基于檢索的生成系統(tǒng)(RAG)中,REARANK可以提供更高質(zhì)量的上下文信息,從而顯著提升生成內(nèi)容的準(zhǔn)確性和相關(guān)性。這對(duì)于構(gòu)建知識(shí)密集型應(yīng)用(如智能客服、研究助手等)尤為重要。
更令人興奮的是,研究還發(fā)現(xiàn)REARANK獲得的推理能力具有一定的遷移性。例如,在數(shù)學(xué)推理任務(wù)AIME 2024和AMC上,REARANK-7B的性能也優(yōu)于原始的Qwen2.5-7B模型,這表明通過(guò)重排序任務(wù)學(xué)習(xí)到的推理能力可以在一定程度上遷移到其他推理任務(wù)中。
此外,REARANK的緊湊模型規(guī)模(7B參數(shù))使其易于部署在資源受限的環(huán)境中,同時(shí)列表式排序策略減少了LLM調(diào)用次數(shù),顯著提高了推理效率和降低了運(yùn)行成本。
七、局限性與未來(lái)方向
盡管REARANK表現(xiàn)出色,研究團(tuán)隊(duì)也坦誠(chéng)指出了其局限性。首先,REARANK生成的排序解釋雖然有幫助,但其質(zhì)量和忠實(shí)度尚未經(jīng)過(guò)正式評(píng)估,可能包含一定程度的"幻覺"。其次,REARANK的性能在很大程度上依賴于初始候選集的質(zhì)量,如果BM25提供的初始候選質(zhì)量不佳,即使是最好的重排序也難以挽回。
未來(lái)的研究方向可能包括:評(píng)估和提高解釋質(zhì)量,探索與更先進(jìn)的初始檢索方法的結(jié)合,以及將REARANK的技術(shù)擴(kuò)展到多模態(tài)內(nèi)容的排序中。另一個(gè)有趣的方向是探索如何在更少的計(jì)算資源下進(jìn)一步提升模型性能,使其能夠在更廣泛的場(chǎng)景中部署。
總的來(lái)說(shuō),REARANK代表了信息檢索和大語(yǔ)言模型結(jié)合的一個(gè)重要進(jìn)展。通過(guò)引入明確的推理過(guò)程,它不僅提高了排序質(zhì)量,還增強(qiáng)了系統(tǒng)決策的可解釋性。這種"思考在先,排序在后"的方法為構(gòu)建更智能、更透明的信息檢索系統(tǒng)開辟了新的道路。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。