這項由ZeroEntropy團(tuán)隊的Nicholas Pipitone、Ghita Houir Alami、Advaith Avadhanam、Anton Kaminskyi和Ashley Khoo等人完成的研究發(fā)表于2025年9月,論文題目為"zELO: ELO-inspired Training Method for Rerankers and Embedding Models",感興趣的讀者可以通過arXiv:2509.12541訪問完整論文。
當(dāng)你在搜索引擎中輸入一個問題時,系統(tǒng)需要從數(shù)百萬個文檔中找出最相關(guān)的答案。這個過程就像在圖書館里找書一樣,需要先篩選出可能有用的書籍,然后再仔細(xì)挑選出最合適的那幾本。在AI系統(tǒng)中,這個精挑細(xì)選的過程被稱為"重排序",而執(zhí)行這個任務(wù)的AI模型就叫做"重排序器"。
然而,訓(xùn)練這些重排序器一直面臨著一個棘手的問題。傳統(tǒng)方法就像讓學(xué)生通過對比"好"和"壞"的例子來學(xué)習(xí),但問題是,誰來判斷什么是"好"什么是"壞"呢?如果請人類專家來標(biāo)注,成本高昂且效率低下。如果用其他AI系統(tǒng)來生成"壞"例子,又可能出現(xiàn)一個奇怪的現(xiàn)象:AI生成的"壞"例子實際上比人類標(biāo)注的"好"例子還要好,這就像讓學(xué)生看著錯誤答案反而學(xué)到了正確知識一樣。
ZeroEntropy團(tuán)隊提出的zELO方法就像給這個問題找到了一把新鑰匙。他們借鑒了國際象棋比賽中使用的ELO評分系統(tǒng),將文檔排序問題轉(zhuǎn)化為類似體育比賽的評分問題。在國際象棋中,每個棋手都有一個ELO分?jǐn)?shù),通過與其他棋手的對戰(zhàn)結(jié)果來調(diào)整分?jǐn)?shù)。研究團(tuán)隊將這個思路巧妙地應(yīng)用到了文檔排序任務(wù)中:讓多個先進(jìn)的AI模型對文檔進(jìn)行兩兩比較,就像舉辦"文檔相關(guān)性大賽"一樣,最終為每個文檔計算出一個絕對的相關(guān)性分?jǐn)?shù)。
這種方法的巧妙之處在于,它完全繞過了傳統(tǒng)方法中"需要人類標(biāo)注絕對好壞"的難題。相反,它只需要AI模型進(jìn)行相對比較,判斷"文檔A是否比文檔B更相關(guān)",這種相對判斷比絕對評分要準(zhǔn)確得多。就好比你可能很難準(zhǔn)確評價一道菜值幾分,但要判斷兩道菜哪個更好吃就容易多了。
基于這種創(chuàng)新的訓(xùn)練方法,研究團(tuán)隊開發(fā)出了兩個重排序模型:zerank-1和zerank-1-small。這兩個模型在多個領(lǐng)域的測試中都表現(xiàn)出色,包括金融、法律、醫(yī)學(xué)、編程和科學(xué)技術(shù)等領(lǐng)域。更令人印象深刻的是,這些模型不僅在公開數(shù)據(jù)集上表現(xiàn)優(yōu)異,在私人客戶數(shù)據(jù)上的表現(xiàn)也同樣出色,說明它們具有很好的泛化能力,不會出現(xiàn)"死記硬背"的問題。
一、傳統(tǒng)方法的困境:為什么現(xiàn)有技術(shù)遇到了瓶頸
要理解zELO方法的價值,我們首先需要明白傳統(tǒng)重排序器訓(xùn)練方法遇到了什么問題。重排序器就像一個挑剔的圖書管理員,需要根據(jù)讀者的問題從一堆候選書籍中挑出最有用的那幾本。這個"圖書管理員"需要通過學(xué)習(xí)大量例子來提高自己的判斷能力。
傳統(tǒng)的訓(xùn)練方法采用"對比學(xué)習(xí)"的策略,就像給學(xué)生提供"好"答案和"壞"答案的對比例子。對于每個查詢問題,系統(tǒng)會準(zhǔn)備一個"正面"文檔(相關(guān)的)和一個"負(fù)面"文檔(不相關(guān)的),讓模型學(xué)會區(qū)分兩者。問題的關(guān)鍵在于如何生成這些"負(fù)面"例子。
最簡單的方法是隨機(jī)選擇負(fù)面例子,但這就像讓學(xué)生通過對比"蘋果"和"飛機(jī)"來學(xué)習(xí)水果知識一樣,對比太過明顯,學(xué)習(xí)效果很差。因此,研究者們發(fā)明了"硬負(fù)樣本挖掘"的方法,試圖找到那些看起來相關(guān)但實際上不如正面例子的文檔作為負(fù)面例子。這就像故意選擇一些"假蘋果"來和"真蘋果"對比,讓學(xué)生學(xué)會更細(xì)致的判斷。
然而,研究團(tuán)隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象,他們稱之為"拉弗曲線"效應(yīng)。拉弗曲線原本是經(jīng)濟(jì)學(xué)概念,描述了稅率和稅收收入之間的關(guān)系:稅率太低收不到稅,稅率太高又會抑制經(jīng)濟(jì)活動反而減少稅收,只有適中的稅率才能獲得最大稅收。類似地,當(dāng)"硬負(fù)樣本挖掘"的智能程度越來越高時,訓(xùn)練效果反而開始下降。
這種現(xiàn)象的根本原因在于,當(dāng)AI系統(tǒng)變得足夠聰明時,它挖掘出的"負(fù)面"例子實際上比人類標(biāo)注的"正面"例子還要好。這就像讓一個經(jīng)驗豐富的廚師來挑選"不好的"食材,結(jié)果他挑出來的"次品"反而比普通人選的"好"食材更優(yōu)質(zhì)。在這種情況下,模型接收到了錯誤的學(xué)習(xí)信號,性能自然會下降。
研究團(tuán)隊通過實驗驗證了這個現(xiàn)象,他們發(fā)現(xiàn)即使是那些具有強(qiáng)大零樣本(不需要額外訓(xùn)練就能處理新任務(wù))能力的大型模型,如8B和70B參數(shù)的模型,使用傳統(tǒng)方法也能獲得20%和10%的性能提升,最終在某個數(shù)據(jù)集上達(dá)到93%的準(zhǔn)確率,遠(yuǎn)超其他方法的75%-81%。這說明傳統(tǒng)方法確實存在根本性的局限。
更重要的是,這些使用新方法訓(xùn)練的模型在私有數(shù)據(jù)上的表現(xiàn)也同樣出色,而競爭對手的模型在私有數(shù)據(jù)上性能會明顯下降。這表明傳統(tǒng)方法容易過度擬合評估數(shù)據(jù)集,就像學(xué)生只會做練習(xí)冊上的題目,遇到新題型就不知所措。
二、zELO方法的核心思想:從象棋比賽到文檔排序
zELO方法的靈感來源于國際象棋比賽中廣泛使用的ELO評分系統(tǒng)。在象棋世界里,每個棋手都有一個ELO分?jǐn)?shù),這個分?jǐn)?shù)會根據(jù)比賽結(jié)果動態(tài)調(diào)整。當(dāng)一個低分棋手擊敗高分棋手時,低分棋手的分?jǐn)?shù)會大幅上升,而高分棋手的分?jǐn)?shù)會相應(yīng)下降。反之,如果高分棋手擊敗低分棋手,分?jǐn)?shù)變化就會很小,因為這是"理所當(dāng)然"的結(jié)果。
研究團(tuán)隊巧妙地將這個思想應(yīng)用到了文檔排序任務(wù)中。他們不再讓模型學(xué)習(xí)絕對的"好"和"壞",而是讓多個AI模型對文檔進(jìn)行兩兩比較,就像組織一場"文檔相關(guān)性錦標(biāo)賽"。每輪比賽中,兩個文檔"對戰(zhàn)",AI裁判們投票決定哪個文檔對查詢問題更相關(guān)。
具體來說,研究團(tuán)隊首先使用傳統(tǒng)的檢索系統(tǒng)(如BM25關(guān)鍵詞搜索和向量相似度搜索的組合)為每個查詢問題找出大約100個候選文檔。然后,他們從這些候選文檔中選擇部分文檔對進(jìn)行比較。這種選擇并非隨機(jī)進(jìn)行,而是遵循特定的策略來確保比較結(jié)果的可靠性。
在每次比較中,他們使用多個先進(jìn)的大語言模型作為"評委團(tuán)"。每個模型會仔細(xì)分析查詢問題和兩個候選文檔,然后給出判斷:哪個文檔更相關(guān)。為了確保結(jié)果的可靠性,他們會繼續(xù)進(jìn)行比較,直到評委團(tuán)的意見趨于一致,標(biāo)準(zhǔn)誤差小于0.1為止。
這些兩兩比較的結(jié)果被組織成一個"比賽矩陣",記錄了每對文檔之間的勝負(fù)關(guān)系。然后,研究團(tuán)隊使用數(shù)學(xué)方法從這個矩陣中計算出每個文檔的絕對ELO分?jǐn)?shù)。這個過程類似于根據(jù)所有比賽結(jié)果計算每個棋手的最終排名。
為了確保計算結(jié)果的準(zhǔn)確性,研究團(tuán)隊還需要解決一個技術(shù)挑戰(zhàn):如何在不進(jìn)行所有可能的兩兩比較的情況下得到可靠的ELO分?jǐn)?shù)。畢竟,100個文檔的所有可能配對有近5000種,全部比較既耗時又昂貴。他們采用了圖論中的方法,確保比較圖具有三個關(guān)鍵特性:連通性(每個文檔都能通過比較鏈條與其他文檔建立關(guān)系)、最小度數(shù)約束(每個文檔至少參與足夠多的比較以確保評分穩(wěn)定)和低直徑(任意兩個文檔之間的比較路徑盡可能短)。
通過巧妙的采樣策略,他們只需要進(jìn)行大約400次比較(總可能比較數(shù)的0.4%)就能得到高質(zhì)量的ELO分?jǐn)?shù)。這就像通過精心安排的部分比賽就能準(zhǔn)確計算出所有選手的實力排名一樣。
三、技術(shù)實現(xiàn)的精妙之處:從理論到實踐
zELO方法的實現(xiàn)涉及多個技術(shù)層面的創(chuàng)新,每一個環(huán)節(jié)都經(jīng)過了精心設(shè)計。整個過程可以分為幾個相互關(guān)聯(lián)的階段,就像一條精密的生產(chǎn)流水線。
首先是數(shù)據(jù)準(zhǔn)備階段。研究團(tuán)隊收集了112,000個來自不同領(lǐng)域的查詢問題,涵蓋金融、法律、醫(yī)學(xué)、編程和科學(xué)技術(shù)等多個專業(yè)領(lǐng)域。對于每個查詢,他們使用混合檢索方法獲得候選文檔。這種混合方法結(jié)合了傳統(tǒng)的關(guān)鍵詞搜索(BM25)和現(xiàn)代的向量相似度搜索,就像同時使用字典查找和語義理解兩種方式來尋找相關(guān)信息。
在文檔比較階段,他們采用了一個由三個先進(jìn)語言模型組成的"評委團(tuán)"。選擇三個模型是在成本和準(zhǔn)確性之間找到的平衡點(diǎn):單個模型可能存在偏見,而更多模型會顯著增加計算成本。每個模型都會收到特別設(shè)計的提示詞,要求它仔細(xì)分析查詢問題和兩個候選文檔,給出詳細(xì)的推理過程,最后在-1到1的范圍內(nèi)給出偏好評分。
為了消除模型可能存在的位置偏見(比如總是偏好第一個文檔),研究團(tuán)隊會隨機(jī)調(diào)換文檔的展示順序,并相應(yīng)地調(diào)整評分符號。這種做法確保了比較結(jié)果的公正性,就像在盲品測試中隨機(jī)安排樣品順序一樣。
在數(shù)據(jù)稀疏性處理方面,研究團(tuán)隊面臨著一個重要的權(quán)衡:是對更多文檔對進(jìn)行比較,還是對更多查詢進(jìn)行處理。經(jīng)過實驗,他們發(fā)現(xiàn)后者更有價值。與其在同一個查詢下進(jìn)行更多文檔比較,不如將計算資源投入到處理更多不同的查詢上,這樣能獲得更豐富多樣的訓(xùn)練信號。
ELO分?jǐn)?shù)計算采用了Bradley-Terry模型的變種。在這個模型中,兩個文檔的相對勝率可以通過它們ELO分?jǐn)?shù)的差值來預(yù)測。具體來說,如果文檔A的ELO分?jǐn)?shù)比文檔B高100分,那么A勝過B的概率大約是64%。研究團(tuán)隊使用梯度下降法來優(yōu)化這些ELO分?jǐn)?shù),確保它們最好地解釋觀察到的比較結(jié)果。
為了處理計算復(fù)雜性,研究團(tuán)隊開發(fā)了一種基于隨機(jī)正則圖的稀疏采樣策略。他們生成多個隨機(jī)循環(huán),然后將這些循環(huán)的邊集合并,形成一個具有良好連通性和低直徑的比較圖。這種方法不僅在理論上有保證,在實踐中也表現(xiàn)出色,能夠用很少的比較次數(shù)獲得高質(zhì)量的ELO估計。
在模型訓(xùn)練的最后階段,研究團(tuán)隊將計算得到的ELO分?jǐn)?shù)作為監(jiān)督信號,使用標(biāo)準(zhǔn)的均方誤差損失函數(shù)來訓(xùn)練點(diǎn)式重排序器。這個過程相對直接,但關(guān)鍵在于前面階段生成的高質(zhì)量訓(xùn)練數(shù)據(jù)。
四、漸進(jìn)式改進(jìn):讓AI學(xué)會從錯誤中學(xué)習(xí)
zELO方法不是一次性的訓(xùn)練過程,而是采用了一種類似人類學(xué)習(xí)的漸進(jìn)式改進(jìn)策略。就像學(xué)生通過不斷練習(xí)和糾錯來提高成績一樣,研究團(tuán)隊設(shè)計了一個多輪迭代的訓(xùn)練流程。
在第一輪訓(xùn)練完成后,研究團(tuán)隊會用訓(xùn)練好的重排序器在驗證數(shù)據(jù)上進(jìn)行測試,特別關(guān)注那些表現(xiàn)不佳的案例。對于每個查詢,他們會找出人類標(biāo)注分?jǐn)?shù)最高的文檔,然后檢查這個文檔在AI重排序結(jié)果中的排名。如果這個"應(yīng)該排在前面"的文檔被排到了后面位置,就被認(rèn)為是一個"失敗案例"。
這種失敗檢測機(jī)制就像老師檢查學(xué)生作業(yè)時發(fā)現(xiàn)的錯誤。不同的是,研究團(tuán)隊不是簡單地告訴AI"這里錯了",而是進(jìn)一步分析錯誤的原因。他們會找到被錯誤排在失敗文檔前面的那個文檔,然后讓評委團(tuán)AI模型對這兩個文檔進(jìn)行新的比較。
有趣的是,在這種"復(fù)查"過程中,評委團(tuán)通常會強(qiáng)烈偏向人類標(biāo)注的高分文檔,這證實了原始排序確實存在問題。這些新的比較結(jié)果會被添加到訓(xùn)練數(shù)據(jù)中,用于訓(xùn)練第二輪的配對比較模型。
這種方法的巧妙之處在于,它結(jié)合了AI評委團(tuán)的大規(guī)模處理能力和人類標(biāo)注的高質(zhì)量信號。AI評委團(tuán)能夠進(jìn)行大量的文檔比較,提供豐富的訓(xùn)練信號,而人類標(biāo)注雖然數(shù)量有限,但質(zhì)量很高,能夠幫助發(fā)現(xiàn)和糾正系統(tǒng)性錯誤。
通過這種"AI為主,人類糾錯"的混合策略,研究團(tuán)隊成功地避免了傳統(tǒng)方法中完全依賴人類標(biāo)注的高成本問題,同時也規(guī)避了純AI生成數(shù)據(jù)可能存在的系統(tǒng)性偏見。最終的模型既保持了大規(guī)模訓(xùn)練的優(yōu)勢,又具備了人類專家知識的精準(zhǔn)性。
這種漸進(jìn)式改進(jìn)還帶來了另一個好處:模型的魯棒性得到了顯著提升。第一輪訓(xùn)練讓模型學(xué)會了基本的相關(guān)性判斷,第二輪訓(xùn)練則讓模型學(xué)會了更細(xì)致的區(qū)分,特別是那些容易混淆的邊界案例。這就像學(xué)生先掌握基礎(chǔ)知識,然后通過做錯題集來提高對難題的處理能力。
五、實驗結(jié)果:真金不怕火煉的性能驗證
研究團(tuán)隊對zerank-1和zerank-1-small進(jìn)行了全面而嚴(yán)格的性能測試,就像新車需要經(jīng)過各種路況測試一樣。測試結(jié)果顯示,這兩個模型在多個維度上都表現(xiàn)出色,不僅在準(zhǔn)確性上超越了現(xiàn)有的商業(yè)重排序器,在計算效率和泛化能力方面也有顯著優(yōu)勢。
在準(zhǔn)確性測試中,研究團(tuán)隊選擇了多個不同領(lǐng)域的公開數(shù)據(jù)集進(jìn)行評估,使用NDCG@10這一標(biāo)準(zhǔn)指標(biāo)來衡量性能。NDCG@10可以理解為"前10個搜索結(jié)果的質(zhì)量得分",分?jǐn)?shù)越高說明模型能更好地將相關(guān)文檔排在前面。結(jié)果顯示,zerank-1在所有測試領(lǐng)域都獲得了最高分?jǐn)?shù):在代碼搜索任務(wù)上得分0.754,對話搜索任務(wù)上得分0.596,金融領(lǐng)域得分0.894,法律領(lǐng)域得分0.821,醫(yī)學(xué)領(lǐng)域得分0.796,科學(xué)技術(shù)領(lǐng)域得分0.694。
更令人印象深刻的是,即使是較小的zerank-1-small模型,其性能也非常接近大模型,在大多數(shù)任務(wù)上的得分差距都在0.02-0.03之間。這說明zELO訓(xùn)練方法能夠有效地將知識壓縮到較小的模型中,實現(xiàn)了"小而精"的效果。
在與商業(yè)競爭對手的對比中,zerank-1的優(yōu)勢更加明顯。與Cohere的rerank-v3.5相比,zerank-1在所有測試任務(wù)上都有顯著提升,最大提升幅度達(dá)到5個百分點(diǎn)。與Salesforce的Llama-rank-v1相比,提升幅度甚至更大。這種全面的性能優(yōu)勢表明zELO方法確實能夠訓(xùn)練出更好的重排序器。
特別值得注意的是在私有客戶數(shù)據(jù)上的測試結(jié)果。許多AI模型在公開數(shù)據(jù)集上表現(xiàn)很好,但在實際應(yīng)用的私有數(shù)據(jù)上性能會顯著下降,這種現(xiàn)象被稱為"過擬合"。然而,zerank模型在私有數(shù)據(jù)上的表現(xiàn)甚至比在公開數(shù)據(jù)上更好,在法律、企業(yè)搜索、對話和醫(yī)療等領(lǐng)域的得分都有進(jìn)一步提升。這表明zELO方法訓(xùn)練出的模型具有很好的泛化能力,能夠適應(yīng)各種不同的實際應(yīng)用場景。
在計算效率方面,zerank-1也表現(xiàn)出色。在處理12KB大小的文檔時,zerank-1的平均響應(yīng)時間為149.7毫秒,而Cohere的rerank-v3.5需要171.5毫秒。在處理150KB的大文檔時,這種優(yōu)勢更加明顯:zerank-1只需314.4毫秒,而競爭對手需要459.2毫秒。這意味著zerank-1不僅更準(zhǔn)確,而且更快速,在實際應(yīng)用中能夠提供更好的用戶體驗。
研究團(tuán)隊還進(jìn)行了一個有趣的對比實驗:直接使用最新的Gemini Flash 2.0模型來進(jìn)行文檔排序,而不是訓(xùn)練專門的重排序器。結(jié)果顯示,即使是這樣強(qiáng)大的通用語言模型,其排序性能也明顯低于zerank模型。這說明專門的重排序器訓(xùn)練確實是必要的,通用模型無法直接替代專門優(yōu)化的重排序器。
六、開源貢獻(xiàn):讓技術(shù)普惠更多開發(fā)者
研究團(tuán)隊不僅開發(fā)了性能優(yōu)異的模型,還體現(xiàn)了開源精神,為整個AI社區(qū)做出了重要貢獻(xiàn)。他們發(fā)布了兩個完整的重排序模型:zerank-1基于Qwen3-4B初始化,zerank-1-small基于Qwen3-1.7B初始化。這兩個模型的權(quán)重都可以在Hugging Face平臺上獲得,為開發(fā)者和研究者提供了寶貴的資源。
特別值得稱贊的是,zerank-1-small采用了完全開放的Apache 2.0許可證,這意味著任何人都可以自由地使用、修改和分發(fā)這個模型,甚至用于商業(yè)目的。這種開放的許可政策大大降低了先進(jìn)AI技術(shù)的使用門檻,讓更多的初創(chuàng)公司和個人開發(fā)者能夠受益。
除了模型權(quán)重,研究團(tuán)隊還開源了他們的評估pipeline和訓(xùn)練數(shù)據(jù)生成工具zbench。zbench工具實現(xiàn)了完整的zELO方法,包括文檔比較、ELO分?jǐn)?shù)計算和模型訓(xùn)練等所有步驟。這意味著其他研究者不僅可以使用現(xiàn)成的模型,還可以根據(jù)自己的需求重現(xiàn)整個訓(xùn)練過程,或者在自己的數(shù)據(jù)上應(yīng)用zELO方法。
這種全面的開源策略具有重要的科學(xué)意義。它確保了研究結(jié)果的可重現(xiàn)性,讓其他研究者可以驗證、改進(jìn)或擴(kuò)展這項工作。同時,它也促進(jìn)了學(xué)術(shù)界和工業(yè)界的合作,加速了整個領(lǐng)域的發(fā)展。
從實用角度來看,這些開源資源為企業(yè)提供了強(qiáng)大的工具來改進(jìn)自己的搜索和推薦系統(tǒng)。企業(yè)可以直接使用預(yù)訓(xùn)練的模型,也可以使用zbench工具在自己的私有數(shù)據(jù)上進(jìn)行進(jìn)一步訓(xùn)練,實現(xiàn)個性化的優(yōu)化。
研究團(tuán)隊還展示了zELO方法在生產(chǎn)環(huán)境中的應(yīng)用潛力。由于整個方法是完全自動化的,它可以用于實時的生產(chǎn)評估。企業(yè)可以定期從查詢?nèi)罩局须S機(jī)抽樣,使用zELO方法自動標(biāo)注,然后用這些數(shù)據(jù)來發(fā)現(xiàn)和修復(fù)檢索系統(tǒng)中的問題,或者對重排序器進(jìn)行在線優(yōu)化。這種能力對于需要持續(xù)改進(jìn)搜索質(zhì)量的大規(guī)模應(yīng)用來說非常有價值。
七、技術(shù)創(chuàng)新的深層意義:重新定義AI訓(xùn)練范式
zELO方法的意義遠(yuǎn)超出了重排序任務(wù)本身,它實際上提出了一種全新的AI訓(xùn)練范式,這種范式可能對整個機(jī)器學(xué)習(xí)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。傳統(tǒng)的監(jiān)督學(xué)習(xí)依賴大量人工標(biāo)注的絕對標(biāo)簽,而zELO方法證明了通過相對比較可以獲得更好的訓(xùn)練效果。
這種轉(zhuǎn)變的哲學(xué)意義在于,它更接近人類的學(xué)習(xí)方式。人類很少通過記憶絕對標(biāo)準(zhǔn)來學(xué)習(xí),而是通過比較和對比來理解事物的相對質(zhì)量。比如,我們判斷一幅畫好不好,往往是通過與其他畫作的比較,而不是根據(jù)某個絕對的"好畫"標(biāo)準(zhǔn)。zELO方法將這種相對判斷的智慧引入了AI訓(xùn)練中。
從計算經(jīng)濟(jì)學(xué)的角度來看,zELO方法也提供了一個重要啟示:有時候"間接"的方法比"直接"的方法更有效。傳統(tǒng)方法試圖直接讓AI學(xué)習(xí)"什么是好的",但zELO方法讓AI學(xué)習(xí)"什么比什么更好",然后通過數(shù)學(xué)方法推導(dǎo)出絕對質(zhì)量。這種間接路徑雖然看起來復(fù)雜,但實際上更加穩(wěn)定和可靠。
該方法還展示了"集體智慧"在AI訓(xùn)練中的價值。通過讓多個AI模型形成"評委團(tuán)",zELO方法有效地利用了模型的多樣性和互補(bǔ)性。這種集體決策機(jī)制不僅提高了判斷的準(zhǔn)確性,還增強(qiáng)了系統(tǒng)的魯棒性。即使單個模型出現(xiàn)偏見或錯誤,集體決策也能在很大程度上糾正這些問題。
zELO方法的成功還驗證了一個重要假設(shè):在許多任務(wù)中,AI系統(tǒng)已經(jīng)超越了人類專家的標(biāo)注質(zhì)量。這并不意味著AI比人類更聰明,而是說明在處理大規(guī)模、重復(fù)性的判斷任務(wù)時,AI系統(tǒng)能夠保持更高的一致性和客觀性。這種認(rèn)識對于未來的AI系統(tǒng)設(shè)計具有重要指導(dǎo)意義。
從實際應(yīng)用的角度來看,zELO方法解決了AI訓(xùn)練中的一個根本性難題:標(biāo)注質(zhì)量與標(biāo)注成本之間的矛盾。高質(zhì)量的人工標(biāo)注成本高昂且難以擴(kuò)展,而低成本的自動標(biāo)注往往質(zhì)量不佳。zELO方法通過巧妙的設(shè)計找到了第三條路:使用AI系統(tǒng)進(jìn)行相對比較,然后通過數(shù)學(xué)方法獲得高質(zhì)量的絕對標(biāo)簽。
這種方法的可擴(kuò)展性也值得關(guān)注。隨著AI模型能力的不斷提升,zELO方法的效果也會相應(yīng)改善。更強(qiáng)大的評委模型會產(chǎn)生更準(zhǔn)確的比較結(jié)果,從而訓(xùn)練出更好的下游模型。這形成了一個正向的反饋循環(huán),推動整個系統(tǒng)不斷進(jìn)步。
八、未來展望:開啟智能搜索的新時代
zELO方法的成功不僅解決了當(dāng)前的技術(shù)挑戰(zhàn),更重要的是它為未來的發(fā)展開辟了新的可能性。隨著這種訓(xùn)練方法的普及和改進(jìn),我們可以期待看到搜索和信息檢索領(lǐng)域的根本性變革。
在個性化搜索方面,zELO方法展現(xiàn)出巨大的潛力。由于該方法可以在私有數(shù)據(jù)上進(jìn)行訓(xùn)練而不需要大量人工標(biāo)注,企業(yè)可以更容易地為特定用戶群體或應(yīng)用場景定制專門的重排序器。這意味著未來的搜索系統(tǒng)將能夠更好地理解用戶的個性化需求,提供更精準(zhǔn)的搜索結(jié)果。
多語言和跨文化搜索也將從這項技術(shù)中受益。傳統(tǒng)方法需要為每種語言收集大量標(biāo)注數(shù)據(jù),成本高昂且效果有限。而zELO方法可以利用多語言AI模型的比較能力,快速為不同語言構(gòu)建高質(zhì)量的重排序器。這將大大促進(jìn)信息技術(shù)在全球范圍內(nèi)的普及和應(yīng)用。
在專業(yè)領(lǐng)域的應(yīng)用方面,zELO方法特別適合那些需要專業(yè)知識但難以獲得大量專家標(biāo)注的領(lǐng)域。比如醫(yī)學(xué)文獻(xiàn)搜索、法律案例檢索、科學(xué)研究查找等。通過使用該領(lǐng)域的專業(yè)AI模型作為評委,可以快速構(gòu)建高質(zhì)量的專業(yè)搜索系統(tǒng)。
實時優(yōu)化和自適應(yīng)學(xué)習(xí)是另一個令人興奮的發(fā)展方向。由于zELO方法是完全自動化的,搜索系統(tǒng)可以根據(jù)用戶的實際查詢和反饋不斷調(diào)整和改進(jìn)。這種持續(xù)學(xué)習(xí)的能力將使搜索系統(tǒng)變得越來越智能,越來越符合用戶的實際需求。
在技術(shù)架構(gòu)方面,zELO方法也可能推動搜索系統(tǒng)向更加模塊化和靈活的方向發(fā)展。傳統(tǒng)的搜索系統(tǒng)往往是一個整體,難以針對特定需求進(jìn)行調(diào)整。而基于zELO訓(xùn)練的重排序器可以作為獨(dú)立的模塊,與不同的初始檢索系統(tǒng)組合,形成靈活多樣的搜索解決方案。
從更廣闊的AI發(fā)展角度來看,zELO方法代表的相對比較訓(xùn)練范式可能會擴(kuò)展到其他領(lǐng)域。比如圖像質(zhì)量評估、文本生成質(zhì)量評價、代碼質(zhì)量判斷等。這種訓(xùn)練方法的普及可能會推動整個AI領(lǐng)域向更加智能和高效的方向發(fā)展。
隨著計算能力的不斷提升和AI模型的持續(xù)改進(jìn),我們可以預(yù)期zELO方法本身也會不斷演進(jìn)。更大規(guī)模的評委團(tuán)、更復(fù)雜的比較策略、更精細(xì)的ELO計算方法等都是可能的發(fā)展方向。這些改進(jìn)將進(jìn)一步提升重排序器的性能,為用戶提供更好的搜索體驗。
說到底,zELO方法的價值不僅在于它解決了一個具體的技術(shù)問題,更在于它展示了一種全新的思考方式。在AI快速發(fā)展的今天,我們需要的不僅僅是更大更強(qiáng)的模型,還需要更聰明更高效的訓(xùn)練方法。zELO方法正是這種創(chuàng)新思維的體現(xiàn),它告訴我們,有時候改變問題的問法比尋找問題的答案更重要。通過將絕對判斷轉(zhuǎn)化為相對比較,從人工標(biāo)注轉(zhuǎn)向AI協(xié)作,這項研究為我們展示了AI訓(xùn)練的新可能性,也為構(gòu)建更智能、更實用的搜索系統(tǒng)指明了方向。
Q&A
Q1:什么是zELO方法?它是如何工作的?
A:zELO是一種新的AI訓(xùn)練方法,借鑒了國際象棋ELO評分系統(tǒng)的思想。它讓多個AI模型對文檔進(jìn)行兩兩比較,就像組織"文檔相關(guān)性比賽",然后通過數(shù)學(xué)方法計算出每個文檔的絕對相關(guān)性分?jǐn)?shù),用來訓(xùn)練重排序器。這種方法避免了傳統(tǒng)方法中需要大量人工標(biāo)注的問題。
Q2:zerank模型相比其他重排序器有什么優(yōu)勢?
A:zerank模型在準(zhǔn)確性、速度和泛化能力三個方面都有顯著優(yōu)勢。在多個領(lǐng)域的測試中,zerank-1的NDCG@10得分都超過了商業(yè)競爭對手,提升幅度最高達(dá)5個百分點(diǎn)。同時,它的響應(yīng)速度更快,在私有數(shù)據(jù)上的表現(xiàn)也更好,說明泛化能力強(qiáng),不容易過擬合。
Q3:普通開發(fā)者如何使用這些模型?
A:研究團(tuán)隊在Hugging Face平臺上開源了兩個模型:zerank-1和zerank-1-small,其中zerank-1-small采用Apache 2.0開源許可證,可以免費(fèi)商用。他們還提供了完整的訓(xùn)練工具zbench,開發(fā)者可以直接使用預(yù)訓(xùn)練模型,也可以在自己的數(shù)據(jù)上重現(xiàn)訓(xùn)練過程。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。