本篇研究來(lái)自加拿大滑鐵盧大學(xué)大衛(wèi)·R·切里頓計(jì)算機(jī)科學(xué)學(xué)院的Nandan Thakur、Crystina Zhang(兩位為共同第一作者)、Xueguang Ma和Jimmy Lin團(tuán)隊(duì),發(fā)表于2025年5月22日的arXiv預(yù)印本(arXiv:2505.16967v1)。研究代碼已在GitHub上開(kāi)源(https://github.com/castorini/rlhn),數(shù)據(jù)集可在Hugging Face上獲?。╤ttps://huggingface.co/rlhn)。感興趣的讀者可通過(guò)這些鏈接獲取更多技術(shù)細(xì)節(jié)。
一、研究背景:并非所有訓(xùn)練數(shù)據(jù)都能提升模型表現(xiàn)
想象一下,你在裝修房子時(shí)發(fā)現(xiàn)有些材料不但沒(méi)有提升房子的質(zhì)量,反而讓整體結(jié)構(gòu)變得脆弱。在信息檢索領(lǐng)域,研究人員也發(fā)現(xiàn)了類似的問(wèn)題——訓(xùn)練數(shù)據(jù)集中存在"有害"的部分,反而會(huì)損害模型的表現(xiàn)。
這項(xiàng)研究的起點(diǎn)非常有趣。研究團(tuán)隊(duì)在使用大規(guī)模數(shù)據(jù)集訓(xùn)練檢索和重排模型時(shí)發(fā)現(xiàn),某些數(shù)據(jù)集實(shí)際上會(huì)損害模型的效果。例如,BGE集合包含了來(lái)自不同來(lái)源的160萬(wàn)個(gè)查詢-段落對(duì),但研究人員發(fā)現(xiàn)從中移除15個(gè)數(shù)據(jù)集中的8個(gè)(刪除了約57.5%的數(shù)據(jù)),不但沒(méi)有降低模型效果,反而在BEIR基準(zhǔn)測(cè)試上將nDCG@10分?jǐn)?shù)提高了1.0點(diǎn)。
這個(gè)發(fā)現(xiàn)挑戰(zhàn)了"更多數(shù)據(jù)總是更好"的常見(jiàn)觀念。想象你正在做一鍋湯,但加入某些特定的調(diào)料后,湯的味道不升反降。這種情況促使研究人員更深入地研究訓(xùn)練數(shù)據(jù)的質(zhì)量,特別是"假負(fù)樣本"(false negatives)問(wèn)題——一些實(shí)際上與查詢相關(guān)的段落被錯(cuò)誤地標(biāo)記為不相關(guān)。
二、"假負(fù)樣本":好數(shù)據(jù)被錯(cuò)誤地歸為反例
什么是假負(fù)樣本?想象你在尋找關(guān)于"野獸過(guò)山車"的信息,數(shù)據(jù)集中已經(jīng)標(biāo)記了一個(gè)描述加拿大奇幻樂(lè)園中野獸過(guò)山車的段落為相關(guān)內(nèi)容。但同時(shí),還有一個(gè)描述"Splash Works是加拿大奇幻樂(lè)園內(nèi)20英畝大的水上樂(lè)園"的段落被錯(cuò)誤地標(biāo)為不相關(guān)。實(shí)際上,這個(gè)段落也包含了回答問(wèn)題所需的關(guān)鍵信息(即水上樂(lè)園也在同一個(gè)公園內(nèi)),卻被歸類為"負(fù)樣本"。這就是一個(gè)典型的假負(fù)樣本。
這類錯(cuò)誤在稀疏標(biāo)注的數(shù)據(jù)集中尤為常見(jiàn)。比如,在MS MARCO和NQ等數(shù)據(jù)集中,評(píng)估者通常只會(huì)標(biāo)記少量真正相關(guān)的段落,而其余大量未標(biāo)記的段落則被默認(rèn)為不相關(guān)。這種簡(jiǎn)化的標(biāo)注方式導(dǎo)致了大量的假負(fù)樣本混入訓(xùn)練數(shù)據(jù)。
過(guò)去的研究已經(jīng)注意到這個(gè)問(wèn)題:Qu等人(2021年)嘗試通過(guò)知識(shí)蒸餾來(lái)緩解;Moreira等人(2024年)則基于相關(guān)性分?jǐn)?shù)過(guò)濾潛在的假負(fù)樣本。但這些方法沒(méi)有直接處理假負(fù)樣本數(shù)據(jù)。前者假設(shè)交叉編碼器比檢索模型對(duì)假負(fù)樣本更魯棒,但并沒(méi)有移除假負(fù)樣本本身;后者假設(shè)假負(fù)樣本的相關(guān)性分?jǐn)?shù)系統(tǒng)性地高于95%的正樣本分?jǐn)?shù),但沒(méi)有考慮數(shù)據(jù)樣本層面的差異。
三、RLHN:一種有效的假負(fù)樣本重標(biāo)注方法
研究團(tuán)隊(duì)提出了一種名為RLHN(ReLabeling Hard Negatives,重標(biāo)注硬負(fù)樣本)的簡(jiǎn)單而有效的方法,利用級(jí)聯(lián)大語(yǔ)言模型(LLM)來(lái)識(shí)別和重新標(biāo)注假負(fù)樣本。這就像請(qǐng)兩位專家依次檢查食材的質(zhì)量:第一位專家負(fù)責(zé)初篩,第二位專家對(duì)有疑問(wèn)的食材進(jìn)行更精確的鑒定。
具體來(lái)說(shuō),RLHN分為兩個(gè)主要階段:
首先,他們使用成本較低的GPT-4o-mini對(duì)所有訓(xùn)練樣本中的硬負(fù)樣本進(jìn)行掃描,識(shí)別潛在的假負(fù)樣本。這相當(dāng)于請(qǐng)一位經(jīng)驗(yàn)豐富但收費(fèi)較低的品鑒師先對(duì)所有食材進(jìn)行初步篩選,標(biāo)記出那些可能有問(wèn)題的部分。
然后,對(duì)于被初步識(shí)別為假負(fù)樣本的部分,他們使用更可靠(但也更昂貴)的GPT-4o進(jìn)行第二輪評(píng)估和重新標(biāo)注。這就像請(qǐng)一位頂級(jí)專家對(duì)已經(jīng)被初步篩選出的食材進(jìn)行更專業(yè)的鑒定,確保判斷準(zhǔn)確無(wú)誤。
研究團(tuán)隊(duì)分析了BGE訓(xùn)練集合中的七個(gè)精選數(shù)據(jù)集,發(fā)現(xiàn)MS MARCO中高達(dá)56%的訓(xùn)練對(duì)可能含有假負(fù)樣本,而SCIDOCSRR中這一比例最低,約為3%。在所有檢測(cè)到的假負(fù)樣本對(duì)中,58%只包含一個(gè)假負(fù)樣本,19%包含兩個(gè)假負(fù)樣本,不到1%包含八個(gè)或更多假負(fù)樣本。
識(shí)別出假負(fù)樣本后,研究團(tuán)隊(duì)嘗試了三種不同的處理方法: 1. 完全移除:丟棄包含假負(fù)樣本的整個(gè)訓(xùn)練實(shí)例 2. 移除假負(fù)樣本:僅從硬負(fù)樣本集合中移除假負(fù)樣本,保留其余部分 3. RLHN重標(biāo)注:將假負(fù)樣本重新標(biāo)注為真實(shí)相關(guān)內(nèi)容(即正樣本)
這就像處理一籃子水果時(shí),你可以選擇:扔掉整籃有問(wèn)題的水果(方法1),只挑出壞掉的水果(方法2),或者重新分類那些被錯(cuò)誤歸類的好水果(方法3)。
四、實(shí)驗(yàn)設(shè)置:全面評(píng)估重標(biāo)注效果
研究團(tuán)隊(duì)使用了多種基準(zhǔn)測(cè)試和模型來(lái)評(píng)估RLHN的效果。
他們首先從BGE訓(xùn)練集合中選擇了七個(gè)經(jīng)過(guò)精心篩選的數(shù)據(jù)集,包括MS MARCO、HOTPOTQA、NQ、FEVER、SCIDOCSRR、FIQA-2018和ARGUANA,總計(jì)約68萬(wàn)訓(xùn)練對(duì)。這比原始的160萬(wàn)訓(xùn)練對(duì)減少了約2.35倍。
在模型選擇方面,他們使用了兩種類型的檢索器模型: 1. E5 (base):一個(gè)基于BERT的編碼器模型,包含1.1億參數(shù) 2. Qwen2.5-7B:一個(gè)基于LLM的解碼器模型,包含76.1億參數(shù)
此外,他們還使用Qwen2.5-3B作為重排模型。
評(píng)估基準(zhǔn)包括: 1. BEIR:一個(gè)包含16個(gè)人工構(gòu)建數(shù)據(jù)集的基準(zhǔn)測(cè)試 2. AIR-BENCH:一個(gè)由LLM自動(dòng)生成的零樣本評(píng)估基準(zhǔn),包括英文的五個(gè)特定領(lǐng)域:Arxiv、Finance、Healthcare、Law和News
所有模型評(píng)估均使用nDCG@10(歸一化折扣累積增益@10)作為主要指標(biāo),這是信息檢索領(lǐng)域常用的評(píng)估指標(biāo),衡量模型在返回前10個(gè)結(jié)果時(shí)的排序質(zhì)量。
五、實(shí)驗(yàn)結(jié)果:重標(biāo)注顯著提升模型性能
研究的結(jié)果令人印象深刻,清晰地表明了數(shù)據(jù)質(zhì)量對(duì)模型表現(xiàn)的巨大影響。
首先,在數(shù)據(jù)集篩選實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)從BGE訓(xùn)練集合中移除8個(gè)數(shù)據(jù)集后(僅保留7個(gè)核心數(shù)據(jù)集),E5 (base)模型在BEIR上的平均nDCG@10從0.519提升到0.529。這相當(dāng)于在減少2.35倍訓(xùn)練數(shù)據(jù)量的同時(shí),提高了模型性能。
更重要的是,RLHN方法在所有實(shí)驗(yàn)中都表現(xiàn)出色:
在BEIR基準(zhǔn)測(cè)試中,RLHN處理后的數(shù)據(jù)訓(xùn)練出的E5 (base)和Qwen2.5-7B模型分別達(dá)到0.515和0.518的平均nDCG@10,比默認(rèn)設(shè)置分別提高了0.7和1.4點(diǎn)。這種提升在7個(gè)域外(out-of-domain)數(shù)據(jù)集上尤為明顯,RLHN(第二階段)比默認(rèn)設(shè)置分別提高了3.2點(diǎn)和2.1點(diǎn)。
在AIR-BENCH零樣本評(píng)估中,RLHN同樣帶來(lái)了顯著提升。第一階段RLHN提高了1.1點(diǎn)nDCG@10,第二階段進(jìn)一步提高到2.1點(diǎn)nDCG@10。
重排模型的結(jié)果也很有說(shuō)服力。在BEIR上,使用RLHN處理后的數(shù)據(jù)訓(xùn)練的Qwen2.5-3B重排模型的nDCG@10分?jǐn)?shù)逐步提高了0.5點(diǎn)和0.8點(diǎn)。這種提升在7個(gè)域外數(shù)據(jù)集上更為顯著,分別提高了1.0點(diǎn)和1.8點(diǎn)。
研究人員注意到,重排模型相對(duì)于檢索模型,對(duì)假負(fù)樣本數(shù)據(jù)的魯棒性稍強(qiáng)。但即使如此,使用高質(zhì)量訓(xùn)練數(shù)據(jù)仍然能顯著提升重排模型的效果,尤其是在泛化到未見(jiàn)過(guò)的領(lǐng)域時(shí)。
六、人類驗(yàn)證:確認(rèn)LLM判斷的可靠性
為了驗(yàn)證LLM判斷的準(zhǔn)確性,研究團(tuán)隊(duì)邀請(qǐng)了三位人類評(píng)估者對(duì)670個(gè)隨機(jī)抽樣的查詢-硬負(fù)樣本對(duì)進(jìn)行標(biāo)注。評(píng)估者在Label Studio平臺(tái)上獨(dú)立工作,不知道LLM的預(yù)測(cè)結(jié)果。
結(jié)果表明,GPT-4o的判斷與人類評(píng)估者的一致性(用Cohen's Kappa系數(shù)衡量)比GPT-4o-mini高出約10個(gè)百分點(diǎn)(0.390 vs 0.320)。這印證了使用更強(qiáng)大的LLM作為最終判斷者的合理性,也證實(shí)了級(jí)聯(lián)設(shè)計(jì)的有效性。
七、假負(fù)樣本的類型分析
通過(guò)人工檢查一些訓(xùn)練實(shí)例,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾種不同類型的假負(fù)樣本:
1. 錯(cuò)誤標(biāo)注的不相關(guān)內(nèi)容:有些被檢測(cè)為假負(fù)樣本的段落實(shí)際上與查詢無(wú)關(guān)。例如,對(duì)于詢問(wèn)"哪個(gè)是美食雜志,Latin Mass Magazine還是Saveur?"的問(wèn)題,被檢測(cè)為假負(fù)樣本的Food & Wine和Cocina雜志實(shí)際上都是美食雜志,但與原問(wèn)題無(wú)關(guān)。
2. 可能存在的錯(cuò)誤標(biāo)注:在少數(shù)情況下,真實(shí)標(biāo)注的段落可能包含與假負(fù)樣本矛盾的信息。例如,關(guān)于"職業(yè)冰球聯(lián)盟成立于哪一年"的查詢,真實(shí)標(biāo)注段落提到1997年,但假負(fù)樣本中提到的1917年才是正確答案。
3. 過(guò)于寬泛或模糊的查詢:在MS MARCO中,很多訓(xùn)練查詢本身就比較模糊,導(dǎo)致多個(gè)段落都可能相關(guān)。例如"yin and yang的含義"這樣的查詢,多個(gè)段落都能正確解釋其含義,只是角度不同。
4. 部分正確的假負(fù)樣本:并非所有被檢測(cè)為假負(fù)樣本的段落都完全相關(guān)。例如,對(duì)于"查爾斯王子是多個(gè)組織的贊助人"的查詢,一些假負(fù)樣本可能只部分相關(guān)。
這些分析為未來(lái)改進(jìn)數(shù)據(jù)標(biāo)注和篩選方法提供了寶貴的見(jiàn)解。
八、研究結(jié)論與意義
這項(xiàng)研究最重要的發(fā)現(xiàn)是,大量訓(xùn)練數(shù)據(jù)并不總是意味著更好的模型表現(xiàn)。相反,精心篩選和清理訓(xùn)練數(shù)據(jù)可以在顯著減少數(shù)據(jù)量的同時(shí)提高模型效果。這就像烹飪一樣,使用少量但高質(zhì)量的食材往往比堆砌大量平庸的食材更能做出美味佳肴。
RLHN方法提供了一種簡(jiǎn)單有效的方式來(lái)識(shí)別和重新標(biāo)注訓(xùn)練數(shù)據(jù)中的假負(fù)樣本,從而提高數(shù)據(jù)質(zhì)量。這種方法不需要對(duì)模型架構(gòu)或訓(xùn)練過(guò)程進(jìn)行任何修改,只需要改進(jìn)訓(xùn)練數(shù)據(jù)本身,就能顯著提升模型在各種基準(zhǔn)測(cè)試上的表現(xiàn),尤其是在泛化到未見(jiàn)過(guò)的領(lǐng)域時(shí)。
研究團(tuán)隊(duì)已經(jīng)發(fā)布了經(jīng)過(guò)處理的訓(xùn)練數(shù)據(jù)集和代碼,方便社區(qū)進(jìn)一步研究和應(yīng)用。他們計(jì)劃繼續(xù)清理其他流行的訓(xùn)練數(shù)據(jù)集,以促進(jìn)高質(zhì)量訓(xùn)練數(shù)據(jù)在檢索和重排模型訓(xùn)練中的應(yīng)用。
對(duì)于普通用戶和開(kāi)發(fā)者來(lái)說(shuō),這項(xiàng)研究提醒我們,在追求大規(guī)模數(shù)據(jù)的同時(shí),也要注重?cái)?shù)據(jù)質(zhì)量。在信息檢索領(lǐng)域,正確標(biāo)注的訓(xùn)練數(shù)據(jù)對(duì)于構(gòu)建準(zhǔn)確、高效的搜索系統(tǒng)至關(guān)重要。通過(guò)識(shí)別和修正假負(fù)樣本,我們可以構(gòu)建更加魯棒和準(zhǔn)確的信息檢索系統(tǒng),最終為用戶提供更高質(zhì)量的搜索體驗(yàn)。
總之,這項(xiàng)研究向我們展示了"數(shù)據(jù)質(zhì)量勝于數(shù)量"的重要性,以及如何利用現(xiàn)代大語(yǔ)言模型技術(shù)來(lái)提升數(shù)據(jù)質(zhì)量,從而構(gòu)建更好的信息檢索系統(tǒng)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。