在人工智能領(lǐng)域,大型語(yǔ)言模型(LLMs)的預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量對(duì)模型性能至關(guān)重要。2025年5月,來(lái)自拉馬爾研究所、弗勞恩霍夫IAIS、DFKI SAINT、黑森AI和達(dá)姆施塔特工業(yè)大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)發(fā)表了一篇重要論文,提出了一種名為JQL(Judging Quality across Languages,發(fā)音為"Jackal")的創(chuàng)新方法,旨在高效篩選多語(yǔ)言預(yù)訓(xùn)練數(shù)據(jù)。這項(xiàng)研究已發(fā)表在arXiv上(arXiv:2505.22232v1),感興趣的讀者可以前往查閱完整論文。
想象一下,你正在為一場(chǎng)國(guó)際美食節(jié)挑選食材。你需要確保來(lái)自世界各地的食材都達(dá)到最高品質(zhì),但你既不懂所有的語(yǔ)言,也沒(méi)有時(shí)間親自檢查每一件食材。這就是大型語(yǔ)言模型訓(xùn)練者面臨的挑戰(zhàn)——如何從海量的多語(yǔ)言網(wǎng)絡(luò)文本中篩選出最優(yōu)質(zhì)的內(nèi)容?
研究團(tuán)隊(duì)指出,高質(zhì)量的多語(yǔ)言訓(xùn)練數(shù)據(jù)對(duì)于有效預(yù)訓(xùn)練大型語(yǔ)言模型至關(guān)重要,但目前市面上適合的開(kāi)源多語(yǔ)言數(shù)據(jù)集仍然有限?,F(xiàn)有的最先進(jìn)數(shù)據(jù)集主要依賴(lài)啟發(fā)式過(guò)濾方法,這限制了它們的跨語(yǔ)言遷移能力和可擴(kuò)展性。就像用一把只適合挑選蘋(píng)果的工具去挑選全球各種水果一樣,這些方法在處理多語(yǔ)言數(shù)據(jù)時(shí)顯得力不從心。
JQL方法的核心思想是將大型語(yǔ)言模型的評(píng)判能力"提煉"到輕量級(jí)的評(píng)估器中,這些評(píng)估器基于預(yù)訓(xùn)練的多語(yǔ)言嵌入模型構(gòu)建。想象成把專(zhuān)業(yè)品鑒師的技能傳授給許多輕便的自動(dòng)檢測(cè)設(shè)備,這些設(shè)備可以快速、準(zhǔn)確地評(píng)估各種語(yǔ)言的食材質(zhì)量。這些模型展現(xiàn)出強(qiáng)大的多語(yǔ)言和跨語(yǔ)言性能,即使是在訓(xùn)練過(guò)程中未見(jiàn)過(guò)的語(yǔ)言和文字系統(tǒng)也能表現(xiàn)出色。
研究團(tuán)隊(duì)在35種語(yǔ)言上進(jìn)行了實(shí)證評(píng)估,結(jié)果表明,由此產(chǎn)生的注釋管道大大優(yōu)于當(dāng)前的啟發(fā)式過(guò)濾方法,如Fineweb2。JQL明顯提高了下游模型訓(xùn)練質(zhì)量,并增加了數(shù)據(jù)保留率。簡(jiǎn)單來(lái)說(shuō),這種方法不僅能找出更優(yōu)質(zhì)的訓(xùn)練材料,還能保留更多有用的內(nèi)容,不會(huì)過(guò)度刪減。
讓我們深入了解JQL是如何工作的,以及它為什么能在多語(yǔ)言數(shù)據(jù)篩選領(lǐng)域帶來(lái)突破性進(jìn)展。
一、JQL工作流程:四步打造高質(zhì)量多語(yǔ)言數(shù)據(jù)
JQL方法由四個(gè)主要階段組成,就像一條精心設(shè)計(jì)的生產(chǎn)線(xiàn),每個(gè)階段都有其特定的目標(biāo)和貢獻(xiàn)。
首先,研究團(tuán)隊(duì)需要?jiǎng)?chuàng)建可靠的多語(yǔ)言評(píng)估標(biāo)準(zhǔn)。他們讓人類(lèi)標(biāo)注者根據(jù)教育價(jià)值對(duì)英語(yǔ)文檔進(jìn)行評(píng)分,使用0到5的等級(jí),其中0表示最低教育價(jià)值,5表示最高。這就像請(qǐng)專(zhuān)業(yè)美食評(píng)論家對(duì)食材的新鮮度和品質(zhì)進(jìn)行評(píng)分。然后,他們將這些文檔翻譯成所有目標(biāo)語(yǔ)言,構(gòu)建了一個(gè)多語(yǔ)言真實(shí)標(biāo)注數(shù)據(jù)集。這個(gè)階段的關(guān)鍵問(wèn)題是:如何獲得可靠的多語(yǔ)言基準(zhǔn)數(shù)據(jù)?
研究團(tuán)隊(duì)招募了15名不同背景的標(biāo)注者,包括計(jì)算機(jī)科學(xué)、英語(yǔ)研究、物理學(xué)和數(shù)學(xué)領(lǐng)域的專(zhuān)家。每個(gè)文檔由三名獨(dú)立標(biāo)注者評(píng)分,通過(guò)多數(shù)投票或平均值(當(dāng)沒(méi)有明確多數(shù)時(shí))合并這些評(píng)分。為確保標(biāo)注質(zhì)量和一致性,團(tuán)隊(duì)使用了Fineweb-Edu中定義的教育提示作為標(biāo)注指南,并進(jìn)行了專(zhuān)門(mén)的標(biāo)注者培訓(xùn)。最終,他們創(chuàng)建了一個(gè)包含511個(gè)手動(dòng)標(biāo)注文檔的數(shù)據(jù)集,并將其翻譯成35種歐洲語(yǔ)言,形成了研究的基礎(chǔ)數(shù)據(jù)集。
在第二階段,研究團(tuán)隊(duì)評(píng)估了不同大型語(yǔ)言模型作為"評(píng)判者"的能力,以找出最適合多語(yǔ)言文檔質(zhì)量評(píng)估的模型。他們測(cè)試了從Gemma-2-27B-it到Qwen-2.5-7B-it等多種模型,最終選出了Gemma-3-27B-it、Mistral-3.1-24B-it和LLaMA-3.3-70B-it這三個(gè)表現(xiàn)最佳的模型。這些模型能夠理解多種語(yǔ)言的文檔內(nèi)容,并給出合理的教育質(zhì)量評(píng)分。
第三階段是JQL方法的核心創(chuàng)新——將大型語(yǔ)言模型的評(píng)判能力提煉到輕量級(jí)的模型中。研究團(tuán)隊(duì)使用第二階段篩選出的頂級(jí)語(yǔ)言模型標(biāo)注了大量多語(yǔ)言數(shù)據(jù),然后利用這些標(biāo)注訓(xùn)練了一組輕量級(jí)的評(píng)估器。這些評(píng)估器共享一個(gè)凍結(jié)的多語(yǔ)言嵌入模型(Snowflake Arctic Embed v2.0)作為基礎(chǔ),并在其上添加簡(jiǎn)單的回歸頭。這種設(shè)計(jì)使得注釋速度大大提升,在單個(gè)A100 GPU上每分鐘可處理約11,000個(gè)文檔,每個(gè)文檔平均690個(gè)標(biāo)記。
最后一階段是使用這些輕量級(jí)評(píng)估器來(lái)注釋預(yù)訓(xùn)練語(yǔ)料庫(kù)并過(guò)濾出高質(zhì)量子集。研究團(tuán)隊(duì)采用了基于百分位數(shù)的動(dòng)態(tài)閾值方法,而不是使用固定閾值,這使他們能夠更好地控制質(zhì)量與數(shù)量之間的平衡。通過(guò)要求多個(gè)評(píng)估器達(dá)成共識(shí),他們進(jìn)一步增強(qiáng)了篩選的穩(wěn)健性。
二、研究發(fā)現(xiàn):JQL如何超越現(xiàn)有方法
研究團(tuán)隊(duì)在多個(gè)方面評(píng)估了JQL的性能,結(jié)果令人印象深刻。首先,在人類(lèi)標(biāo)注的基準(zhǔn)測(cè)試中,JQL輕量級(jí)評(píng)估器不僅表現(xiàn)出與原始大型語(yǔ)言模型相當(dāng)?shù)男阅?,在某些情況下甚至略有超越。更重要的是,這些評(píng)估器展現(xiàn)出強(qiáng)大的跨語(yǔ)言泛化能力,即使在訓(xùn)練過(guò)程中未見(jiàn)過(guò)的語(yǔ)言上也能表現(xiàn)良好。
在數(shù)據(jù)篩選效果方面,研究團(tuán)隊(duì)使用JQL過(guò)濾的數(shù)據(jù)集訓(xùn)練了2B參數(shù)的語(yǔ)言模型,并與使用Fineweb2啟發(fā)式過(guò)濾方法的基線(xiàn)進(jìn)行比較。結(jié)果顯示,JQL篩選的數(shù)據(jù)集在MMLU、HellaSwag和ARC等下游任務(wù)上一致地優(yōu)于基線(xiàn)。特別值得注意的是,使用0.6百分位閾值的JQL能夠保留比Fineweb2多4.8%的標(biāo)記,同時(shí)平均性能提高了4.27%,最終性能提升了4.6%。
研究團(tuán)隊(duì)還展示了JQL在訓(xùn)練中未見(jiàn)過(guò)的語(yǔ)言上的泛化能力。他們?cè)诎⒗Z(yǔ)、泰語(yǔ)和中文這三種語(yǔ)言上測(cè)試了JQL,結(jié)果表明,即使這些語(yǔ)言的文字系統(tǒng)和語(yǔ)言家族與訓(xùn)練數(shù)據(jù)完全不同,JQL仍然表現(xiàn)出色。這意味著JQL可以輕松擴(kuò)展到新的語(yǔ)言,而無(wú)需額外的訓(xùn)練或修改。
三、技術(shù)細(xì)節(jié):JQL如何處理多語(yǔ)言數(shù)據(jù)
JQL的強(qiáng)大之處在于其簡(jiǎn)單而有效的設(shè)計(jì)。與之前需要復(fù)雜規(guī)則系統(tǒng)或大型語(yǔ)言模型進(jìn)行在線(xiàn)推理的方法不同,JQL使用預(yù)訓(xùn)練的多語(yǔ)言嵌入模型和簡(jiǎn)單的回歸頭來(lái)評(píng)估文檔質(zhì)量。這種設(shè)計(jì)有幾個(gè)關(guān)鍵優(yōu)勢(shì):
首先,多語(yǔ)言嵌入模型能夠捕捉不同語(yǔ)言之間的語(yǔ)義相似性,使得跨語(yǔ)言遷移成為可能。這些模型將語(yǔ)義等價(jià)的文本映射到相似的嵌入空間,無(wú)論它們使用什么語(yǔ)言。就像一個(gè)能夠理解全球各地食材本質(zhì)特性的系統(tǒng),不管它們的名稱(chēng)或外觀如何不同。
其次,使用凍結(jié)的嵌入模型和輕量級(jí)回歸頭大大降低了計(jì)算需求?;貧w頭僅占總參數(shù)的1%左右,嵌入計(jì)算是主要的運(yùn)行時(shí)成本。這使得JQL能夠高效地處理大規(guī)模數(shù)據(jù),同時(shí)保持高質(zhì)量的注釋。
第三,JQL支持多種并行任務(wù)。由于不同的注釋任務(wù)(如教育價(jià)值評(píng)估、成人內(nèi)容過(guò)濾、數(shù)學(xué)準(zhǔn)確性評(píng)估或代碼質(zhì)量評(píng)估)可以共享同一個(gè)嵌入基礎(chǔ),只需要為每個(gè)任務(wù)添加不同的回歸頭,這大大降低了添加新任務(wù)的成本。
研究團(tuán)隊(duì)還發(fā)現(xiàn),使用更長(zhǎng)的上下文窗口(8192個(gè)標(biāo)記而不是512個(gè))可以顯著提高注釋性能,平均提高約7個(gè)百分點(diǎn)。對(duì)于愛(ài)爾蘭語(yǔ)或馬耳他語(yǔ)等低資源語(yǔ)言,性能提升甚至達(dá)到12個(gè)百分點(diǎn)。這表明完整理解文檔內(nèi)容對(duì)于準(zhǔn)確評(píng)估其質(zhì)量至關(guān)重要。
研究團(tuán)隊(duì)的實(shí)驗(yàn)還表明,文檔質(zhì)量評(píng)估中排序性能比分類(lèi)準(zhǔn)確性更為重要。盡管不同模型在分類(lèi)準(zhǔn)確性方面存在差異,但只要它們能夠正確排序文檔質(zhì)量,它們?cè)跀?shù)據(jù)篩選任務(wù)中的表現(xiàn)就相當(dāng)出色。這就像食材挑選中,能夠正確識(shí)別出哪些食材相對(duì)更新鮮更重要,而不是給每個(gè)食材分配絕對(duì)準(zhǔn)確的新鮮度等級(jí)。
四、JQL的實(shí)際應(yīng)用與影響
JQL不僅是一個(gè)學(xué)術(shù)突破,更是一個(gè)實(shí)用的工具,可以立即應(yīng)用于大規(guī)模語(yǔ)言模型的訓(xùn)練數(shù)據(jù)準(zhǔn)備。研究團(tuán)隊(duì)公開(kāi)發(fā)布了JQL的多個(gè)組件,包括:
1. 一個(gè)包含511個(gè)文檔的人類(lèi)標(biāo)注數(shù)據(jù)集,涵蓋35種語(yǔ)言,用于評(píng)估文檔的教育價(jià)值。 2. 由三個(gè)表現(xiàn)最佳的大型語(yǔ)言模型生成的1400多萬(wàn)個(gè)文檔的注釋?zhuān)采w35種語(yǔ)言。 3. 三個(gè)輕量級(jí)教育質(zhì)量評(píng)估器,用于高效的數(shù)據(jù)注釋。 4. 一個(gè)定制的數(shù)據(jù)注釋管道,用于大規(guī)模處理網(wǎng)絡(luò)文本。
這些資源使研究社區(qū)和實(shí)踐者能夠復(fù)制JQL的結(jié)果并將其應(yīng)用于自己的項(xiàng)目??紤]到高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)是降低訓(xùn)練成本和提高模型性能的最有效因素之一,JQL可能對(duì)未來(lái)的語(yǔ)言模型發(fā)展產(chǎn)生重大影響。
研究團(tuán)隊(duì)的工作還指出了幾個(gè)有前途的未來(lái)研究方向。首先,JQL可以輕松擴(kuò)展到教育價(jià)值以外的其他過(guò)濾標(biāo)準(zhǔn),如代碼質(zhì)量、數(shù)學(xué)準(zhǔn)確性或成人內(nèi)容審核。其次,JQL不僅可以用于預(yù)訓(xùn)練數(shù)據(jù)集的篩選,還可以用于指令微調(diào)和對(duì)齊等后訓(xùn)練階段的相關(guān)數(shù)據(jù)選擇。這種靈活性使JQL成為一個(gè)通用的工具,可以應(yīng)用于語(yǔ)言模型開(kāi)發(fā)的多個(gè)階段。
總的來(lái)說(shuō),JQL代表了一種系統(tǒng)的方法,可以高效地策劃多樣化和高質(zhì)量的多語(yǔ)言數(shù)據(jù),同時(shí)顯著減少計(jì)算需求。它提高了多語(yǔ)言數(shù)據(jù)集開(kāi)發(fā)的標(biāo)準(zhǔn),并為如何有效利用語(yǔ)言模型和嵌入模型進(jìn)行數(shù)據(jù)篩選提供了寶貴的見(jiàn)解。隨著語(yǔ)言模型繼續(xù)在全球范圍內(nèi)普及,像JQL這樣的工具將變得越來(lái)越重要,確保所有語(yǔ)言的用戶(hù)都能從高質(zhì)量的AI系統(tǒng)中受益。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。