av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 阿里巴巴與香港中文大學(xué)聯(lián)手打造AI"自我進(jìn)化"評判官:讓大模型學(xué)會給自己挑錯

阿里巴巴與香港中文大學(xué)聯(lián)手打造AI"自我進(jìn)化"評判官:讓大模型學(xué)會給自己挑錯

2025-09-18 11:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-18 11:07 ? 科技行者

這項(xiàng)由香港中文大學(xué)深圳分校、深圳大數(shù)據(jù)研究院以及阿里巴巴Qwen團(tuán)隊(duì)合作完成的突破性研究,剛剛發(fā)表在2025年的COLM會議上。該研究的論文標(biāo)題為《Self-Evolving Critique Abilities in Large Language Models》,由唐政陽、李子牛、肖震陽等研究人員共同完成。感興趣的讀者可以通過arXiv:2501.05727v2訪問完整論文。

現(xiàn)在的AI大模型就像一個聰明但缺乏自省能力的學(xué)生,它們能解決許多復(fù)雜問題,但卻不太擅長發(fā)現(xiàn)和糾正自己的錯誤。當(dāng)人類評判員也難以判斷AI回答質(zhì)量的時候,我們該如何幫助AI變得更加可靠呢?這就像培養(yǎng)一個孩子的批判性思維一樣,需要讓他們學(xué)會自己發(fā)現(xiàn)問題、分析問題并改正錯誤。

研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像是要培養(yǎng)一個完全依賴外界指導(dǎo)的學(xué)生學(xué)會自我反思。傳統(tǒng)的方法要么依靠人工標(biāo)注(就像請家教一對一輔導(dǎo)),要么依靠更強(qiáng)大的AI模型來指導(dǎo)(就像請更優(yōu)秀的學(xué)長來幫忙),但這兩種方法都有明顯的局限性:成本高昂,而且當(dāng)我們的AI已經(jīng)足夠強(qiáng)大時,可能找不到更好的"老師"來指導(dǎo)它們。

針對這個難題,研究團(tuán)隊(duì)開發(fā)了一個名為SCRIT(自我進(jìn)化評判系統(tǒng))的創(chuàng)新框架。這個系統(tǒng)就像是為AI大模型配備了一面"魔鏡",讓它們能夠看清自己的不足之處。SCRIT的核心思想是通過對比學(xué)習(xí)的方式,讓AI在分析標(biāo)準(zhǔn)答案的基礎(chǔ)上,學(xué)會識別和糾正錯誤的解題過程。

一、AI如何學(xué)會"照鏡子":對比學(xué)習(xí)的奇妙機(jī)制

傳統(tǒng)的AI評判方法就像讓一個人對著空氣自言自語,試圖發(fā)現(xiàn)自己的錯誤。這種"直接評判"方法往往會出現(xiàn)"橡皮圖章"現(xiàn)象,也就是說AI傾向于認(rèn)為所有的解題步驟都是對的,即使明顯存在錯誤。研究團(tuán)隊(duì)發(fā)現(xiàn),這就像一個缺乏參照物的人很難認(rèn)識到自己的不足一樣。

SCRIT采用的"對比評判"方法則完全不同,它就像是給AI提供了一個標(biāo)準(zhǔn)范本。在這個過程中,AI首先會仔細(xì)分析一個正確的解題過程,深入理解其中的關(guān)鍵概念和解題策略,然后再去審視需要評判的學(xué)生解答。這種方法的效果就像是讓一個學(xué)生先學(xué)習(xí)標(biāo)準(zhǔn)答案,理解了正確的思路后,再去批改其他同學(xué)的作業(yè),自然能夠更容易發(fā)現(xiàn)問題所在。

研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)證明了這種對比方法的有效性。他們發(fā)現(xiàn),當(dāng)AI擁有了正確的參考標(biāo)準(zhǔn)后,就能準(zhǔn)確識別出錯誤解題過程中的關(guān)鍵問題,比如概念理解偏差、計(jì)算錯誤或邏輯跳躍等。更重要的是,AI不僅能指出錯誤在哪里,還能提供正確的修改建議,就像一個經(jīng)驗(yàn)豐富的老師不僅會圈出學(xué)生的錯誤,還會在旁邊寫上正確的解法。

為了確保評判質(zhì)量,SCRIT還引入了自我驗(yàn)證機(jī)制。這個機(jī)制就像是讓AI給自己的批改結(jié)果再做一次檢查,確認(rèn)提出的修改建議確實(shí)能夠得到正確答案。只有通過這種"雙重檢驗(yàn)"的評判結(jié)果,才會被納入后續(xù)的訓(xùn)練數(shù)據(jù)中。

二、數(shù)據(jù)工廠:如何批量生產(chǎn)高質(zhì)量的學(xué)習(xí)材料

要讓AI學(xué)會自我評判,首先需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。這就像培養(yǎng)一個優(yōu)秀的批改老師,需要讓他們見識足夠多樣化的學(xué)生作業(yè)。研究團(tuán)隊(duì)從NuminaMath數(shù)據(jù)集開始,這個數(shù)據(jù)集包含了45.2萬個數(shù)學(xué)問題,涵蓋了從小學(xué)算術(shù)到奧林匹克競賽的各個難度層次。

接下來的工作就像是組織一場大規(guī)模的"作業(yè)比賽"。研究團(tuán)隊(duì)動用了七個不同能力水平的AI模型,包括DeepSeek、Mistral、Qwen系列等,讓它們針對這些數(shù)學(xué)問題提供解答。這樣做的目的是獲得盡可能多樣化的解題方法和錯誤類型,就像收集不同學(xué)生的作業(yè)樣本一樣。

在這個過程中,研究團(tuán)隊(duì)建立了嚴(yán)格的質(zhì)量篩選機(jī)制。他們要求每個問題都必須有至少一個正確答案和一個錯誤答案,這樣才能進(jìn)行有效的對比學(xué)習(xí)。經(jīng)過篩選后,最終獲得了66.5萬個問題-解答對,其中正確和錯誤的解答各占一半。

然后是最關(guān)鍵的評判生成步驟。SCRIT系統(tǒng)會針對每個錯誤的解答,隨機(jī)選擇一個正確的參考解答,進(jìn)行對比分析。這個過程分為四個階段:首先分析參考解答中的關(guān)鍵數(shù)學(xué)概念,然后逐步檢查學(xué)生解答的每個步驟,接著給出整體評判結(jié)論,最后提供完整的修正方案。

有趣的是,研究團(tuán)隊(duì)還會讓正確的解答之間進(jìn)行"互相學(xué)習(xí)"。雖然兩個解答都是正確的,但解題方法可能不同,通過這種對比,AI能夠?qū)W會欣賞不同的解題思路,提高評判的靈活性和全面性。

三、質(zhì)量把關(guān):自動篩選優(yōu)質(zhì)評判結(jié)果

就像工廠生產(chǎn)線需要質(zhì)量檢測一樣,SCRIT也建立了嚴(yán)格的自我驗(yàn)證機(jī)制。這個機(jī)制的核心思想是:一個好的批改不僅要能指出錯誤,更要能引導(dǎo)學(xué)生得到正確答案。

在實(shí)際操作中,研究團(tuán)隊(duì)發(fā)現(xiàn)AI生成的評判結(jié)果質(zhì)量參差不齊。有些評判看似專業(yè),但提出的修改建議卻無法真正解決問題,就像一個老師能發(fā)現(xiàn)學(xué)生答案不對,但給出的修正方法卻是錯誤的。還有些評判存在"睜眼說瞎話"的問題,明明前面的解題步驟都沒問題,卻在最后突然宣稱答案錯誤。

為了解決這些問題,SCRIT引入了一個巧妙的驗(yàn)證機(jī)制:讓AI按照自己提出的修改建議重新解題,看看是否真的能得到正確答案。這就像讓批改老師親自按照自己的修改建議重做一遍題目,如果連自己都做不出正確答案,那說明這次批改是有問題的。

通過這種驗(yàn)證機(jī)制,研究團(tuán)隊(duì)發(fā)現(xiàn)只有大約51.4%的初始評判結(jié)果能夠通過質(zhì)量檢測。這個比例在不同難度的問題上呈現(xiàn)出明顯的規(guī)律:簡單的小學(xué)數(shù)學(xué)問題(如GSM8K)通過率高達(dá)91.8%,而奧林匹克級別的復(fù)雜問題通過率僅為27.1%。這種現(xiàn)象完全符合直覺,就像學(xué)生批改簡單題目時出錯率低,面對復(fù)雜題目時容易力不從心。

最終,經(jīng)過層層篩選,研究團(tuán)隊(duì)獲得了34.2萬個高質(zhì)量的問題-解答-評判三元組,這些數(shù)據(jù)成為了訓(xùn)練SCRIT系統(tǒng)的珍貴素材。

四、實(shí)戰(zhàn)檢驗(yàn):讓AI評委接受全面考核

為了驗(yàn)證SCRIT系統(tǒng)的實(shí)際效果,研究團(tuán)隊(duì)設(shè)計(jì)了兩套嚴(yán)格的測試方案,就像是為AI評委安排了一場全方位的能力考核。

第一套測試叫做"評判與修正"協(xié)議。這個測試就像是讓AI同時扮演批改老師和輔導(dǎo)老師兩個角色:不僅要指出學(xué)生答案哪里錯了,還要提供正確的修改方案。測試材料涵蓋了數(shù)學(xué)推理和科學(xué)推理兩大領(lǐng)域,包括GSM8K、MATH、OlympiadBench等知名數(shù)據(jù)集。

測試分為三個難度梯度:首先是明確錯誤的答案(就像批改明顯做錯的作業(yè)),然后是正確和錯誤答案混合的情況(更接近真實(shí)的批改環(huán)境),最后是讓AI批改自己生成的答案(這是最具挑戰(zhàn)性的自我反思測試)。

結(jié)果令人振奮。在明確錯誤的答案測試中,SCRIT將原來39.7%的準(zhǔn)確率提升到了50.0%,相對提升幅度達(dá)到10.0%。在混合答案測試中,準(zhǔn)確率從57.7%提升到62.1%。即使在最困難的自我批改測試中,SCRIT也實(shí)現(xiàn)了從61.7%到62.9%的穩(wěn)步提升。

第二套測試更加嚴(yán)格,叫做"錯誤識別"協(xié)議。這個測試要求AI不僅要判斷答案對錯,還要準(zhǔn)確定位第一個出錯的步驟,就像醫(yī)生不僅要診斷出病人生病了,還要準(zhǔn)確找出病灶在哪里。

在這項(xiàng)測試中,SCRIT的表現(xiàn)更加令人印象深刻。在PRM800K數(shù)據(jù)集上,F(xiàn)1分?jǐn)?shù)從37.8%躍升至45.0%,相對提升幅度高達(dá)19.0%。這種提升在數(shù)學(xué)推理任務(wù)上表現(xiàn)得尤為突出,比如在GSM8K數(shù)據(jù)集上提升了11.3個百分點(diǎn),在MATH數(shù)據(jù)集上提升了9.1個百分點(diǎn)。

五、深度解析:為什么SCRIT如此有效

為了深入理解SCRIT成功的原因,研究團(tuán)隊(duì)進(jìn)行了大量的對比實(shí)驗(yàn),就像是解剖一個精密機(jī)械,想要弄清楚每個零件的作用。

首先,他們比較了三種不同的評判方法。傳統(tǒng)的"直接評判"方法就像讓人閉著眼睛批改作業(yè),往往會出現(xiàn)視而不見的問題。"錯誤注入"方法試圖通過人工制造錯誤來訓(xùn)練AI,但這些人造錯誤往往過于簡單,就像用練習(xí)題來準(zhǔn)備真正的考試,效果有限。

相比之下,SCRIT采用的"對比評判"方法表現(xiàn)最為出色。隨著訓(xùn)練數(shù)據(jù)的增加,對比方法的效果持續(xù)提升,而其他兩種方法很快就遇到了瓶頸。當(dāng)訓(xùn)練數(shù)據(jù)達(dá)到17萬個樣本時,對比方法的準(zhǔn)確率達(dá)到58.3%,而直接方法只有55.1%,錯誤注入方法更是下降到49.0%。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個有趣的規(guī)律:SCRIT的效果與模型大小密切相關(guān)。在從15億參數(shù)擴(kuò)展到720億參數(shù)的過程中,評判準(zhǔn)確率從41.7%大幅提升到58.3%,錯誤識別能力更是從12.5%猛增到45.1%。這說明更大的模型確實(shí)具備了更強(qiáng)的自我反思能力,就像一個人的知識越豐富,越能發(fā)現(xiàn)細(xì)微的錯誤。

更令人興奮的是,SCRIT支持多輪迭代改進(jìn)。研究團(tuán)隊(duì)進(jìn)行了三輪連續(xù)的訓(xùn)練,每一輪都在前一輪的基礎(chǔ)上進(jìn)一步提升。第一輪訓(xùn)練后,系統(tǒng)的評判能力顯著提升;第二輪訓(xùn)練繼續(xù)改進(jìn);第三輪訓(xùn)練依然能夠?qū)崿F(xiàn)進(jìn)步,雖然幅度有所減緩。這種持續(xù)改進(jìn)的能力為AI的長期發(fā)展開辟了新的可能性。

六、意外收獲:跨領(lǐng)域的學(xué)習(xí)能力

研究過程中的一個意外發(fā)現(xiàn)讓團(tuán)隊(duì)感到驚喜:SCRIT不僅在數(shù)學(xué)領(lǐng)域表現(xiàn)出色,在科學(xué)推理領(lǐng)域同樣展現(xiàn)出了強(qiáng)大的能力。這就像一個數(shù)學(xué)老師不僅會批改數(shù)學(xué)作業(yè),還能勝任物理和化學(xué)作業(yè)的批改工作。

為了驗(yàn)證這種跨領(lǐng)域能力,研究團(tuán)隊(duì)專門用科學(xué)推理問題訓(xùn)練了一個SCRIT版本。結(jié)果顯示,這個版本在科學(xué)推理任務(wù)上的表現(xiàn)更加優(yōu)秀,同時在數(shù)學(xué)任務(wù)上也保持了競爭力。這種現(xiàn)象說明SCRIT學(xué)到的不僅僅是具體的知識點(diǎn),而是一種通用的批判性思維能力。

在ARC-C、GPQA、MMLU-STEM等科學(xué)推理基準(zhǔn)測試中,SCRIT都實(shí)現(xiàn)了顯著的性能提升。特別值得注意的是,用科學(xué)數(shù)據(jù)訓(xùn)練的SCRIT在平衡解答測試中取得了67.4%的成績,比原始模型的52.8%提升了驚人的14.6個百分點(diǎn)。

七、細(xì)節(jié)優(yōu)化:每個設(shè)計(jì)選擇的深層考量

研究團(tuán)隊(duì)像精雕細(xì)琢藝術(shù)品一樣,仔細(xì)考慮了系統(tǒng)設(shè)計(jì)的每個細(xì)節(jié)。他們發(fā)現(xiàn),自我驗(yàn)證機(jī)制雖然只帶來了0.8%的準(zhǔn)確率提升,但在錯誤識別方面卻有3.0%的顯著改進(jìn),這個機(jī)制的價值在于能夠過濾掉那些看似合理實(shí)際卻有問題的評判結(jié)果。

在問題領(lǐng)域的多樣性方面,研究團(tuán)隊(duì)發(fā)現(xiàn)僅使用GSM8K和MATH兩個數(shù)據(jù)集訓(xùn)練的系統(tǒng),性能比使用九個不同領(lǐng)域數(shù)據(jù)集訓(xùn)練的系統(tǒng)要低1.4個百分點(diǎn)。這說明接觸多樣化的問題類型確實(shí)有助于培養(yǎng)更加全面的評判能力,就像一個見多識廣的老師比專門只教一種題型的老師更有經(jīng)驗(yàn)。

有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)了問題難度的微妙影響。用簡單問題訓(xùn)練的系統(tǒng)在錯誤識別方面表現(xiàn)更好,這可能是因?yàn)楹唵螁栴}的數(shù)學(xué)概念更加清晰,錯誤模式更容易掌握。但這也提醒我們,如何平衡簡單和復(fù)雜問題的比例,是一個值得進(jìn)一步研究的問題。

在解答來源的選擇上,研究團(tuán)隊(duì)測試了七個不同的AI模型,發(fā)現(xiàn)無論選擇哪個模型的解答進(jìn)行訓(xùn)練,SCRIT的最終表現(xiàn)差異都很小。這說明重要的不是解答本身的質(zhì)量,而是通過對比學(xué)習(xí)獲得的評判能力。

另一個重要發(fā)現(xiàn)是正確和錯誤解答的比例影響。當(dāng)訓(xùn)練數(shù)據(jù)中錯誤解答的比例更高時(25%正確:75%錯誤),系統(tǒng)的表現(xiàn)反而更好。這符合直覺:見過更多錯誤的老師,往往更擅長發(fā)現(xiàn)問題。

八、現(xiàn)實(shí)意義:開啟AI自我改進(jìn)的新時代

SCRIT的成功不僅僅是一項(xiàng)技術(shù)突破,更是AI發(fā)展歷程中的一個重要里程碑。它證明了AI系統(tǒng)具備了自我改進(jìn)的潛力,這種能力對于未來AI的發(fā)展具有深遠(yuǎn)的意義。

在教育領(lǐng)域,SCRIT可能會徹底改變在線教育的體驗(yàn)。原本,AI教學(xué)系統(tǒng)只能機(jī)械地對照標(biāo)準(zhǔn)答案給出對錯判斷,而配備了SCRIT能力的AI教師不僅能夠準(zhǔn)確識別學(xué)生思維中的錯誤環(huán)節(jié),還能提供具體的改進(jìn)建議。這就像為每個學(xué)生配備了一個24小時在線的專業(yè)輔導(dǎo)員,能夠及時發(fā)現(xiàn)并糾正學(xué)習(xí)中的問題。

在科研領(lǐng)域,SCRIT的思路為解決"可擴(kuò)展監(jiān)督"這一長期困擾AI研究的難題提供了新的方向。隨著AI系統(tǒng)變得越來越強(qiáng)大,如何在沒有更強(qiáng)監(jiān)督者的情況下繼續(xù)改進(jìn),成為了一個核心挑戰(zhàn)。SCRIT通過自我對比和驗(yàn)證的機(jī)制,為這個問題提供了一個可行的解決方案。

在更廣泛的應(yīng)用場景中,SCRIT的原理可以擴(kuò)展到其他需要質(zhì)量把控的領(lǐng)域。比如在代碼審查中,AI可以學(xué)會發(fā)現(xiàn)程序中的邏輯錯誤;在文檔寫作中,AI可以學(xué)會識別表達(dá)不清或邏輯混亂的地方;在決策制定中,AI可以學(xué)會發(fā)現(xiàn)推理過程中的漏洞。

研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前版本的局限性。SCRIT目前主要適用于有明確正確答案的領(lǐng)域,如數(shù)學(xué)和某些科學(xué)問題。對于那些主觀性較強(qiáng)或者沒有標(biāo)準(zhǔn)答案的問題,比如創(chuàng)意寫作或開放性討論,這種方法的效果可能會有所限制。

但這些局限性并不能掩蓋SCRIT的重要價值。正如研究團(tuán)隊(duì)在論文中所說,這項(xiàng)工作開辟了一個全新的研究方向,為AI的自主學(xué)習(xí)和持續(xù)改進(jìn)提供了可能性。未來的研究可能會將這種思路擴(kuò)展到更多領(lǐng)域,讓AI系統(tǒng)具備更加全面的自我反思和改進(jìn)能力。

說到底,SCRIT最重要的貢獻(xiàn)在于證明了AI可以通過巧妙的設(shè)計(jì)實(shí)現(xiàn)真正的自我改進(jìn)。它不再需要依賴外部的指導(dǎo),而是通過內(nèi)在的對比和驗(yàn)證機(jī)制不斷完善自己。這種能力的出現(xiàn),標(biāo)志著AI正在從被動的工具逐漸演化為具有自主學(xué)習(xí)能力的智能系統(tǒng)。這不僅會改變我們使用AI的方式,更可能改變AI技術(shù)發(fā)展的整個軌跡。對于普通人來說,這意味著未來的AI助手不僅會更加聰明,還會更加可靠,因?yàn)樗鼈円呀?jīng)學(xué)會了如何發(fā)現(xiàn)和糾正自己的錯誤。

Q&A

Q1:SCRIT系統(tǒng)是什么?它能做什么?

A:SCRIT是由阿里巴巴和香港中文大學(xué)聯(lián)合開發(fā)的AI自我評判系統(tǒng),全稱是"自我進(jìn)化評判系統(tǒng)"。它最大的能力是讓AI學(xué)會給自己挑錯——不僅能發(fā)現(xiàn)數(shù)學(xué)或科學(xué)推理中的錯誤,還能提供正確的修改方案。就像培養(yǎng)了一個會自我反思的學(xué)生,能夠通過對比標(biāo)準(zhǔn)答案來發(fā)現(xiàn)并糾正自己解題過程中的問題。

Q2:SCRIT和傳統(tǒng)的AI評判方法有什么不同?

A:傳統(tǒng)方法就像讓人閉著眼睛批改作業(yè),AI往往會出現(xiàn)"橡皮圖章"現(xiàn)象,傾向于認(rèn)為所有步驟都是對的。而SCRIT采用對比學(xué)習(xí)的方法,先讓AI分析正確的標(biāo)準(zhǔn)答案,理解關(guān)鍵概念和解題策略,然后再去評判需要檢查的答案。這種方法讓AI的評判準(zhǔn)確率提升了10%-19%,效果顯著優(yōu)于傳統(tǒng)方法。

Q3:普通人什么時候能用上SCRIT技術(shù)?

A:目前SCRIT還處于研究階段,主要應(yīng)用在數(shù)學(xué)和科學(xué)推理領(lǐng)域。不過這項(xiàng)技術(shù)的原理可以擴(kuò)展到很多實(shí)際應(yīng)用中,比如在線教育中的智能輔導(dǎo)、代碼審查中的錯誤檢測、文檔寫作中的邏輯檢查等。隨著技術(shù)的成熟,未來幾年內(nèi)我們很可能會在各種AI助手和教育工具中看到類似功能的應(yīng)用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-