這項(xiàng)由約翰霍普金斯大學(xué)的姜東偉、張阿爾文、王安德魯、安德魯斯·尼古拉斯以及哈沙比·丹尼爾等研究者聯(lián)合完成的研究,發(fā)表于2025年6月的預(yù)印本論文arXiv:2506.11930v1,有興趣深入了解的讀者可以通過https://github.com/JHU-CLSP/Feedback-Friction訪問相關(guān)代碼和完整論文。
近來,人工智能在自我改進(jìn)方面展現(xiàn)出了令人矚目的能力。當(dāng)我們給這些AI模型提供外部反饋時(shí),它們似乎能夠根據(jù)建議改進(jìn)自己的回答,就像學(xué)生聽取老師的指導(dǎo)后能寫出更好的作文一樣。然而,約翰霍普金斯大學(xué)的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:即使給AI提供近乎完美的外部反饋,這些智能系統(tǒng)仍然表現(xiàn)出一種"頑固"的特性,無法完全吸收和運(yùn)用這些寶貴的建議。
考慮這樣一個(gè)場(chǎng)景:你正在教一個(gè)聰明的學(xué)生解決數(shù)學(xué)問題。這個(gè)學(xué)生第一次嘗試時(shí)犯了錯(cuò)誤,于是你詳細(xì)指出了他的錯(cuò)誤所在,甚至給出了正確的解題思路。按理說,學(xué)生應(yīng)該能夠根據(jù)這些指導(dǎo)糾正錯(cuò)誤,得到正確答案。但研究團(tuán)隊(duì)發(fā)現(xiàn),即使是最先進(jìn)的AI系統(tǒng),在接受了高質(zhì)量的反饋后,也經(jīng)常無法達(dá)到理論上應(yīng)該能夠?qū)崿F(xiàn)的最佳表現(xiàn)。研究者將這種現(xiàn)象稱為"反饋摩擦"。
這項(xiàng)研究的獨(dú)特之處在于,它首次系統(tǒng)性地探索了AI模型在接受外部反饋時(shí)的表現(xiàn)上限。以往的研究雖然證明了AI能夠通過反饋獲得提升,但很少有人深入探討這種提升能達(dá)到怎樣的程度,以及是什么因素限制了AI的進(jìn)一步改進(jìn)。研究團(tuán)隊(duì)為此設(shè)計(jì)了一個(gè)精巧的實(shí)驗(yàn)環(huán)境,就像為學(xué)生量身定制了一個(gè)完美的學(xué)習(xí)場(chǎng)景,然后觀察他們能否充分利用所提供的優(yōu)質(zhì)教學(xué)資源。
一、實(shí)驗(yàn)設(shè)計(jì):為AI創(chuàng)造完美的學(xué)習(xí)環(huán)境
研究團(tuán)隊(duì)構(gòu)建了一個(gè)類似于師生對(duì)話的迭代學(xué)習(xí)系統(tǒng)。在這個(gè)系統(tǒng)中,有兩個(gè)主要角色:一個(gè)是負(fù)責(zé)解決問題的"學(xué)生"AI(求解模型),另一個(gè)是負(fù)責(zé)提供指導(dǎo)的"老師"AI(反饋生成模型)。整個(gè)過程就像一場(chǎng)持續(xù)的輔導(dǎo)課程。
當(dāng)面對(duì)一個(gè)問題時(shí),學(xué)生AI首先嘗試給出答案。如果答案錯(cuò)誤,老師AI就會(huì)根據(jù)正確答案和詳細(xì)的解題過程,為學(xué)生提供針對(duì)性的反饋。這種反饋不是簡(jiǎn)單的對(duì)錯(cuò)判斷,而是具體指出學(xué)生在哪一步犯了錯(cuò)誤,以及應(yīng)該如何改正。接著,學(xué)生AI會(huì)根據(jù)這些建議重新嘗試解決問題。這個(gè)過程最多重復(fù)十次,直到學(xué)生給出正確答案或者達(dá)到嘗試次數(shù)上限。
整個(gè)實(shí)驗(yàn)的精妙之處在于,研究團(tuán)隊(duì)確保了反饋的質(zhì)量幾乎是完美的。老師AI不僅知道正確答案,還掌握著詳細(xì)的解題步驟,這就相當(dāng)于給學(xué)生配備了一位全知全能的導(dǎo)師。在理想情況下,如果學(xué)生能夠完全吸收和應(yīng)用這些高質(zhì)量的指導(dǎo),他們應(yīng)該能夠解決所有原本不會(huì)的問題。
為了更全面地評(píng)估反饋的影響,研究團(tuán)隊(duì)設(shè)計(jì)了三種不同級(jí)別的反饋機(jī)制。第一種是最基礎(chǔ)的二元反饋,只是簡(jiǎn)單地告訴學(xué)生"答案錯(cuò)了",就像老師只在作業(yè)上打個(gè)叉號(hào)。第二種是自我反思式反饋,讓學(xué)生AI自己分析錯(cuò)誤原因,相當(dāng)于讓學(xué)生進(jìn)行自我檢討。第三種是由更強(qiáng)大的外部AI模型提供的詳細(xì)反饋,這就像請(qǐng)來了經(jīng)驗(yàn)豐富的特級(jí)教師為學(xué)生進(jìn)行一對(duì)一指導(dǎo)。
二、測(cè)試領(lǐng)域:從數(shù)學(xué)到常識(shí)的全方位挑戰(zhàn)
研究團(tuán)隊(duì)選擇了九個(gè)不同類型的任務(wù)來測(cè)試AI的反饋吸收能力,這些任務(wù)就像不同科目的考試,全方位檢驗(yàn)AI的學(xué)習(xí)能力。這些測(cè)試領(lǐng)域包括高難度的數(shù)學(xué)競(jìng)賽題目、科學(xué)推理問題、知識(shí)性問答、多領(lǐng)域綜合評(píng)估,以及專門設(shè)計(jì)的算術(shù)任務(wù)。
在數(shù)學(xué)推理方面,研究團(tuán)隊(duì)使用了AIME 2024競(jìng)賽題目和MATH-500數(shù)據(jù)集。AIME是美國(guó)頂尖的高中數(shù)學(xué)競(jìng)賽,題目極具挑戰(zhàn)性,即使是數(shù)學(xué)天才也需要深思熟慮才能解答。MATH-500則包含了各種類型的數(shù)學(xué)問題,從代數(shù)到幾何,從概率到數(shù)論,覆蓋面相當(dāng)廣泛。
知識(shí)推理能力的測(cè)試采用了TriviaQA和PopQA兩個(gè)數(shù)據(jù)集。這些題目就像《一站到底》節(jié)目中的知識(shí)問答,涵蓋歷史、地理、文學(xué)、科學(xué)等各個(gè)領(lǐng)域。AI需要從龐大的知識(shí)庫中提取正確信息并給出準(zhǔn)確答案。
科學(xué)推理能力的評(píng)估使用了GPQA數(shù)據(jù)集,這是一個(gè)專門為研究生水平設(shè)計(jì)的科學(xué)問題集合。這些問題不僅要求AI掌握深厚的科學(xué)知識(shí),還需要具備復(fù)雜的邏輯推理能力,就像博士生答辯時(shí)面臨的那些深度問題。
多領(lǐng)域綜合評(píng)估則采用了著名的MMLU和MMLU Pro數(shù)據(jù)集。MMLU涵蓋了從人文學(xué)科到自然科學(xué)的57個(gè)不同領(lǐng)域,被譽(yù)為AI能力的"高考"。MMLU Pro是其升級(jí)版本,難度更高,對(duì)AI的綜合能力提出了更嚴(yán)苛的要求。
特別值得一提的是,研究團(tuán)隊(duì)還設(shè)計(jì)了兩個(gè)合成的算術(shù)任務(wù):五位數(shù)乘法和十六進(jìn)制五位數(shù)乘法。這些任務(wù)的巧妙之處在于,它們排除了語義理解的干擾,純粹考驗(yàn)AI的計(jì)算能力和反饋吸收能力。十六進(jìn)制乘法更是一個(gè)"反事實(shí)"任務(wù),因?yàn)樗褂昧伺c常規(guī)不同的計(jì)算規(guī)則,對(duì)AI來說是一個(gè)全新的挑戰(zhàn)。
研究團(tuán)隊(duì)測(cè)試了當(dāng)前最先進(jìn)的AI模型,包括LLaMA-3.3 70B、LLaMA-4-Scout、LLaMA-4-Maverick、Claude 3.7以及具有擴(kuò)展思維能力的Claude 3.7。這些模型代表了當(dāng)前AI技術(shù)的最高水平,就像邀請(qǐng)了各個(gè)學(xué)校的尖子生來參加同一場(chǎng)考試。
三、令人意外的發(fā)現(xiàn):AI的"頑固"表現(xiàn)
實(shí)驗(yàn)結(jié)果讓研究團(tuán)隊(duì)感到既意外又困惑。即使在接受了高質(zhì)量反饋的情況下,所有測(cè)試的AI模型都表現(xiàn)出了明顯的"反饋摩擦"現(xiàn)象。這就像是給學(xué)生配備了最好的老師和最詳細(xì)的指導(dǎo),但學(xué)生仍然無法達(dá)到應(yīng)有的成績(jī)水平。
以AIME數(shù)學(xué)競(jìng)賽為例,Claude 3.7 Thinking模型在初始嘗試時(shí)的準(zhǔn)確率約為50%,這已經(jīng)是相當(dāng)不錯(cuò)的表現(xiàn)。經(jīng)過十輪反饋和改進(jìn)后,準(zhǔn)確率提升到了約75%。乍看之下,這似乎是一個(gè)令人鼓舞的進(jìn)步。然而,研究團(tuán)隊(duì)計(jì)算發(fā)現(xiàn),如果模型能夠完全吸收和應(yīng)用所提供的高質(zhì)量反饋,理論上它應(yīng)該能夠達(dá)到接近100%的準(zhǔn)確率。這意味著即使是表現(xiàn)最好的模型,也只實(shí)現(xiàn)了其潛在能力的四分之三左右。
在知識(shí)問答任務(wù)TriviaQA上,情況同樣如此。各個(gè)模型在接受反饋后都有了顯著提升,但仍然遠(yuǎn)未達(dá)到理論上的性能上限。這種現(xiàn)象在所有測(cè)試任務(wù)中都普遍存在,表明"反饋摩擦"是一個(gè)系統(tǒng)性的問題,而不是某個(gè)特定任務(wù)或模型的局限性。
更令人意外的是,即使是反饋質(zhì)量的提升也無法完全解決這個(gè)問題。當(dāng)研究團(tuán)隊(duì)從簡(jiǎn)單的"答案錯(cuò)誤"提示升級(jí)到詳細(xì)的錯(cuò)誤分析和改正建議時(shí),AI的表現(xiàn)確實(shí)有了改善,但仍然無法突破那道看不見的性能天花板。這就像是無論多么優(yōu)秀的老師,都無法讓學(xué)生在短時(shí)間內(nèi)完全掌握所有知識(shí)點(diǎn)。
在合成算術(shù)任務(wù)上,這種現(xiàn)象更加明顯。對(duì)于標(biāo)準(zhǔn)的五位數(shù)乘法,Claude模型能夠在多輪反饋后達(dá)到接近完美的表現(xiàn)。然而,面對(duì)十六進(jìn)制乘法這種"反事實(shí)"任務(wù)時(shí),所有模型的表現(xiàn)都極其糟糕,即使經(jīng)過十輪反饋,準(zhǔn)確率也無法超過20%。這暴露了AI在面對(duì)新規(guī)則或非常規(guī)任務(wù)時(shí)的嚴(yán)重局限性。
四、深入分析:是什么阻礙了AI的學(xué)習(xí)?
為了理解這種"反饋摩擦"現(xiàn)象的根本原因,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的錯(cuò)誤分析。他們邀請(qǐng)更強(qiáng)大的AI模型(o4-mini)作為"評(píng)判員",對(duì)那些經(jīng)過多輪反饋仍然無法解決的問題進(jìn)行分類分析。
分析結(jié)果顯示,在持續(xù)存在的錯(cuò)誤中,絕大多數(shù)(62.8%到100%)屬于"反饋抗拒"類型。這意味著AI并不是因?yàn)榻邮盏搅隋e(cuò)誤的指導(dǎo),也不是因?yàn)閱栴}本身過于復(fù)雜,而是由于某種內(nèi)在的機(jī)制,使得它們無法有效地整合和應(yīng)用外部反饋。這就像是學(xué)生明明聽懂了老師的講解,卻在實(shí)際操作中依然重復(fù)同樣的錯(cuò)誤。
相比之下,"反饋質(zhì)量問題"只占了很小的比例。這個(gè)發(fā)現(xiàn)特別重要,因?yàn)樗砻鲉栴}的根源不在于指導(dǎo)的質(zhì)量,而在于AI接受和應(yīng)用指導(dǎo)的能力。這推翻了人們普遍認(rèn)為的"只要提供更好的反饋就能解決問題"的觀點(diǎn)。
研究團(tuán)隊(duì)還嘗試了多種策略來緩解這種反饋摩擦。他們使用了逐漸增加隨機(jī)性的采樣策略,就像鼓勵(lì)學(xué)生嘗試不同的解題思路。他們還實(shí)施了"拒絕采樣"技術(shù),強(qiáng)制AI避開之前嘗試過的錯(cuò)誤答案,相當(dāng)于禁止學(xué)生重復(fù)犯同樣的錯(cuò)誤。
這些策略確實(shí)帶來了一定的改善。逐漸增加的隨機(jī)性幫助AI探索了更多可能的解決方案,而拒絕采樣則有效地避免了AI陷入錯(cuò)誤答案的循環(huán)。然而,即使是這些精心設(shè)計(jì)的干預(yù)措施,也無法完全消除反饋摩擦現(xiàn)象。AI的表現(xiàn)雖有提升,但仍然達(dá)不到理論上的最佳水平。
五、尋找根本原因:排除了哪些可能性?
研究團(tuán)隊(duì)像偵探一樣,系統(tǒng)性地調(diào)查了可能導(dǎo)致反饋摩擦的各種因素。他們首先檢查了AI的"自信心"是否會(huì)影響其接受反饋的能力。就像過分自信的學(xué)生可能對(duì)老師的建議充耳不聞一樣,研究團(tuán)隊(duì)想知道AI是否也存在類似的問題。
他們測(cè)量了AI在給出初始答案時(shí)的置信度,然后觀察這種置信度與最終改進(jìn)效果之間的關(guān)系。令人意外的是,分析結(jié)果顯示兩者之間沒有明顯的相關(guān)性。那些對(duì)自己答案非常"自信"的AI,在接受反饋后的改進(jìn)程度與那些"不太確定"的AI相差無幾。這表明過度自信并不是反饋摩擦的主要原因。
接下來,研究團(tuán)隊(duì)調(diào)查了數(shù)據(jù)熟悉度的影響。他們想知道AI是否會(huì)對(duì)那些在訓(xùn)練過程中經(jīng)常見到的內(nèi)容表現(xiàn)出更強(qiáng)的"固執(zhí)"。為了驗(yàn)證這一點(diǎn),他們使用了PopQA數(shù)據(jù)集,該數(shù)據(jù)集包含了不同知識(shí)實(shí)體的流行度信息,可以作為訓(xùn)練數(shù)據(jù)頻次的代理指標(biāo)。
分析結(jié)果再次讓人意外:知識(shí)實(shí)體的流行度與AI的反饋接受能力之間沒有顯著的相關(guān)性。無論是對(duì)那些在維基百科上查看次數(shù)很多的知名人物,還是對(duì)那些相對(duì)冷門的實(shí)體,AI表現(xiàn)出的反饋摩擦程度都差不多。這意味著"見多識(shí)廣"并不會(huì)讓AI變得更加頑固。
研究團(tuán)隊(duì)還探討了推理復(fù)雜度是否會(huì)影響反饋效果。他們比較了需要多步推理的復(fù)雜問題和相對(duì)簡(jiǎn)單的問題,看看AI在面對(duì)不同難度的任務(wù)時(shí)是否表現(xiàn)出不同程度的反饋摩擦。結(jié)果顯示,問題的復(fù)雜程度與反饋摩擦之間的關(guān)系并不明顯,這進(jìn)一步加深了這個(gè)現(xiàn)象的神秘色彩。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)不同的AI模型往往在不同的問題上表現(xiàn)出頑固性。也就是說,問題A可能難倒模型甲,但模型乙卻能夠通過反饋成功解決;而問題B可能讓模型乙束手無策,模型甲卻能應(yīng)對(duì)自如。這種現(xiàn)象表明,反饋摩擦不是由某些"普遍困難"的問題引起的,而是與每個(gè)模型的特定特征和局限性相關(guān)。
六、技術(shù)細(xì)節(jié):構(gòu)建完美反饋的藝術(shù)
為了確保實(shí)驗(yàn)的公正性和可靠性,研究團(tuán)隊(duì)在技術(shù)實(shí)現(xiàn)上投入了大量心血。他們精心設(shè)計(jì)了反饋生成系統(tǒng),確保AI"老師"能夠提供高質(zhì)量的指導(dǎo),同時(shí)避免直接泄露答案。
在反饋生成過程中,系統(tǒng)會(huì)自動(dòng)檢測(cè)并屏蔽那些可能直接暴露正確答案的信息。這就像是給學(xué)生提供解題思路和方法指導(dǎo),但不直接告訴他們最終答案。對(duì)于數(shù)學(xué)問題,系統(tǒng)會(huì)用"[遮蔽]"來替換獨(dú)立出現(xiàn)的數(shù)值答案;對(duì)于知識(shí)問答,系統(tǒng)會(huì)屏蔽那些與正確答案完全匹配的詞匯。
這種精細(xì)的信息過濾確保了實(shí)驗(yàn)的公平性。AI必須真正理解和應(yīng)用反饋中的指導(dǎo)思想,而不是簡(jiǎn)單地復(fù)制答案。這就像是要求學(xué)生展示解題過程,而不只是寫出最終結(jié)果。
在模型選擇方面,研究團(tuán)隊(duì)使用了當(dāng)前最先進(jìn)的商業(yè)AI模型。對(duì)于LLaMA系列模型,他們采用了零溫度設(shè)置以確保結(jié)果的可重現(xiàn)性;對(duì)于Claude模型,他們通過官方API進(jìn)行訪問。特別值得注意的是,Claude 3.7 Thinking是一個(gè)具有擴(kuò)展推理能力的特殊版本,它在給出最終答案前會(huì)進(jìn)行更深入的思考,類似于讓學(xué)生在答題前先進(jìn)行充分的思考和規(guī)劃。
為了生成高質(zhì)量的反饋,研究團(tuán)隊(duì)選擇了GPT-4.1 mini作為主要的反饋生成模型。經(jīng)過內(nèi)部測(cè)試,這個(gè)模型的反饋質(zhì)量與Claude 3.7相當(dāng),但成本更低,因此被選為主要的"AI老師"。研究團(tuán)隊(duì)還考慮過使用o4-mini,但發(fā)現(xiàn)它雖然推理能力更強(qiáng),但成本顯著更高,且反饋質(zhì)量提升有限。
在評(píng)估方面,研究團(tuán)隊(duì)采用了多種策略來確保結(jié)果的準(zhǔn)確性。對(duì)于大多數(shù)任務(wù),他們使用了標(biāo)準(zhǔn)的評(píng)估指標(biāo)和現(xiàn)有的評(píng)估框架。對(duì)于PopQA這樣的開放式問答任務(wù),由于標(biāo)準(zhǔn)答案的表述可能存在多樣性,他們采用了"AI裁判"的方法,使用另一個(gè)AI模型來判斷答案的正確性,避免因?yàn)楸硎霾町惗`判AI的真實(shí)能力。
七、未來展望:突破反饋摩擦的可能路徑
盡管當(dāng)前的研究揭示了AI在反饋吸收方面的重要局限性,但研究團(tuán)隊(duì)也為未來的改進(jìn)指明了方向。他們認(rèn)為,要真正解決反饋摩擦問題,可能需要從AI的訓(xùn)練階段就開始著手。
一個(gè)可能的方向是通過監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)的方法,專門訓(xùn)練AI更好地接受和應(yīng)用外部反饋。這就像是從小就培養(yǎng)孩子虛心接受建議的品格,而不是等到他們長(zhǎng)大后再進(jìn)行糾正。這種方法可能包括專門的"反饋吸收訓(xùn)練",讓AI在訓(xùn)練過程中就學(xué)會(huì)如何有效地整合外部指導(dǎo)。
另一個(gè)值得探索的方向是改進(jìn)反饋的生成方式。雖然當(dāng)前研究中的反饋已經(jīng)相當(dāng)高質(zhì)量,但可能仍有進(jìn)一步優(yōu)化的空間。未來的反饋生成系統(tǒng)可能需要更深入地理解AI的認(rèn)知模式和局限性,從而提供更有針對(duì)性的指導(dǎo)。
研究團(tuán)隊(duì)也承認(rèn),當(dāng)前研究在一些方面還存在局限性。由于計(jì)算資源的約束,他們無法對(duì)大型模型進(jìn)行大規(guī)模的微調(diào)實(shí)驗(yàn),而這種微調(diào)可能是解決反饋摩擦問題的關(guān)鍵。此外,雖然他們排除了幾個(gè)可能的原因,但反饋摩擦的根本機(jī)制仍然沒有完全清楚,這需要更深入的機(jī)械性解釋研究。
從更廣闊的視角來看,這項(xiàng)研究揭示了當(dāng)前AI系統(tǒng)在自我改進(jìn)方面的一個(gè)根本性挑戰(zhàn)。在追求更強(qiáng)大、更自主的AI系統(tǒng)的道路上,如何讓這些系統(tǒng)更好地接受和利用外部反饋,將是一個(gè)關(guān)鍵的技術(shù)難題。這不僅關(guān)系到AI的性能提升,也關(guān)系到人機(jī)協(xié)作的未來模式。
說到底,這項(xiàng)研究告訴我們一個(gè)重要的事實(shí):即使是最先進(jìn)的AI系統(tǒng),在學(xué)習(xí)和改進(jìn)方面仍然面臨著根本性的挑戰(zhàn)。就像人類學(xué)生一樣,AI也有自己的"學(xué)習(xí)盲區(qū)"和"認(rèn)知固化"現(xiàn)象。理解并克服這些局限性,不僅能夠幫助我們構(gòu)建更優(yōu)秀的AI系統(tǒng),也能讓我們更好地理解智能本身的本質(zhì)。這項(xiàng)研究為我們打開了一扇窗戶,讓我們看到了AI發(fā)展道路上的一個(gè)重要里程碑,同時(shí)也指向了未來需要攻克的關(guān)鍵挑戰(zhàn)。對(duì)于普通人來說,這意味著我們?cè)谂cAI合作時(shí),需要更加耐心和策略性,就像與一個(gè)有著特殊學(xué)習(xí)模式的學(xué)生打交道一樣。
Q&A
Q1:什么是"反饋摩擦"?它為什么重要? A:反饋摩擦是指AI模型即使接收到高質(zhì)量的外部反饋和指導(dǎo),也無法完全吸收并達(dá)到理論最佳表現(xiàn)的現(xiàn)象。這很重要,因?yàn)樗沂玖水?dāng)前AI在自我改進(jìn)方面的根本局限性,影響了人機(jī)協(xié)作的效果。
Q2:研究團(tuán)隊(duì)是如何確保反饋質(zhì)量的? A:研究團(tuán)隊(duì)給反饋生成的AI提供了完整的正確答案和詳細(xì)解題過程,同時(shí)使用了先進(jìn)的信息過濾技術(shù),確保反饋包含指導(dǎo)性信息但不直接泄露答案,就像優(yōu)秀的老師會(huì)引導(dǎo)學(xué)生思考而不是直接給出答案。
Q3:這項(xiàng)研究對(duì)普通人使用AI有什么啟示? A:這項(xiàng)研究提醒我們,在與AI互動(dòng)時(shí)需要更加耐心和策略性。AI可能無法完全理解和應(yīng)用我們的建議,因此需要多次嘗試不同的反饋方式,就像教導(dǎo)一個(gè)有特殊學(xué)習(xí)模式的學(xué)生一樣。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。