這項由上海AI實驗室的徐方志博士、西安交通大學的嚴航教授等研究團隊共同完成的突破性研究,發(fā)表于2025年4月的arXiv預印本平臺。對這項創(chuàng)新研究感興趣的讀者可以通過arXiv:2504.08672v1訪問完整論文,或訪問即將開放的代碼倉庫https://github.com/xufangzhi/Genius。
在人工智能快速發(fā)展的今天,讓機器具備人類般的推理能力一直是科學家們的終極目標。然而,現(xiàn)有的訓練方法就像教孩子學數(shù)學一樣,總是需要老師在旁邊不斷提供答案和指導。研究團隊面臨著一個根本性的挑戰(zhàn):如何讓人工智能模型在沒有任何外部指導的情況下,僅僅通過接觸大量普通問題就能自我提升推理能力?
傳統(tǒng)的訓練方法可以分為兩大類。第一類就像有標準答案的考試,需要為每個問題提供正確的解答步驟,這種方法雖然有效,但成本極高,就像為每道數(shù)學題都配備專門的解題指導。第二類方法則依賴外部的"評判官"來判斷答案對錯,但訓練這樣的評判官本身就需要大量的人工標注,而且容易出現(xiàn)"鉆空子"的問題,就像學生為了得高分而專門迎合考官喜好,卻沒有真正掌握知識。
面對這些限制,研究團隊提出了一個革命性的想法:能否讓人工智能完全依靠自己的力量,通過處理普通的、沒有標準答案的問題來提升推理能力?這就像讓一個人通過大量閱讀和思考,而不是通過做練習題來提高思維能力。
為了實現(xiàn)這個目標,研究團隊開發(fā)了一個名為"Genius"的全新框架。這個名字本身就體現(xiàn)了研究團隊的雄心:讓人工智能真正成為天才般的自學者。Genius的核心理念是讓模型學會"深謀遠慮"——在回答問題的每一步都要考慮后續(xù)可能的發(fā)展,而不是只看眼前。
整個Genius框架的工作原理可以用象棋高手的思維過程來類比。當一個象棋大師面對棋局時,他不會只考慮當前這一步棋,而是會在心中模擬走這步棋之后可能出現(xiàn)的各種后續(xù)變化,選擇那些能帶來最好長遠結果的走法。同樣,Genius讓人工智能在解決問題的每一步都進行"前瞻性思考",通過模擬后續(xù)步驟來評估當前選擇的好壞。
一、突破性的前瞻性重采樣策略
Genius框架的第一個創(chuàng)新點是"前瞻性重采樣策略"。這個聽起來復雜的名詞,實際上描述的是一種非常直觀的思維過程。
想象你正在做一道復雜的數(shù)學題,每當你寫下一個解題步驟時,你都會在心中快速思考:"如果我這樣做,接下來會發(fā)生什么?這會讓整個問題變得更容易還是更困難?"這就是前瞻性思考的本質(zhì)。
在傳統(tǒng)的AI訓練中,模型往往采用"貪婪"的策略,就像一個只顧眼前利益的人,每次都選擇看起來最好的下一步,卻不考慮長遠后果。這種方法的問題在于,有時候當前看起來最好的選擇,可能會導致后面陷入死胡同。
Genius的前瞻性策略則完全不同。當模型需要決定下一步該如何推理時,它會像一個深謀遠慮的棋手一樣,為每個可能的選擇都模擬一段未來的發(fā)展路徑。具體來說,模型會生成多個候選的下一步解答,然后對每個候選方案都繼續(xù)往下模擬幾步,看看會得到什么樣的結果。
這個過程就像試穿衣服一樣。你不會僅僅因為一件衣服的顏色好看就買下它,而是會想象穿上這件衣服后的整體效果,考慮它與你現(xiàn)有的服裝如何搭配,是否適合即將到來的場合等等。模型也是如此,它會為每個推理步驟的候選方案都"試穿"一下,看看選擇這個方案后整個解題過程會變成什么樣。
更巧妙的是,Genius不僅利用前瞻性思考來選擇最優(yōu)的下一步,還利用這個過程來創(chuàng)建訓練數(shù)據(jù)。通過比較不同候選方案的前瞻性表現(xiàn),模型可以自動識別出哪些推理步驟是"好的",哪些是"不好的",從而創(chuàng)建出用于訓練的正負樣本對。這就像一個學生通過比較不同解題思路的最終效果,來總結哪種思路更有效一樣。
研究團隊在實驗中發(fā)現(xiàn),這種前瞻性策略能夠顯著提升模型的推理質(zhì)量。在沒有任何外部監(jiān)督的情況下,僅僅通過這種"深謀遠慮"的思維方式,模型就能學會更好的推理模式。
二、優(yōu)勢校準優(yōu)化損失函數(shù)的創(chuàng)新
前瞻性思考雖然強大,但也帶來了新的挑戰(zhàn)。就像人類的直覺有時候會出錯一樣,模型的前瞻性評估也可能存在偏差和噪聲。有時候,模型可能錯誤地認為某個實際上很好的推理步驟是不好的,或者相反。
為了解決這個問題,研究團隊開發(fā)了第二個重要創(chuàng)新:優(yōu)勢校準優(yōu)化損失函數(shù)(ACO)。這個技術的核心思想是建立一個"糾錯機制",當發(fā)現(xiàn)前瞻性評估與實際表現(xiàn)不符時,自動調(diào)整訓練的強度。
這個機制可以用開車時的GPS導航來類比。有時候GPS會因為信號問題或道路信息更新不及時而給出錯誤的路線建議。一個聰明的司機不會盲目相信GPS,而是會根據(jù)實際路況來判斷GPS建議的可靠性。當發(fā)現(xiàn)GPS的建議明顯不合理時,司機會減少對這個建議的依賴程度。
ACO損失函數(shù)的工作原理類似。當模型發(fā)現(xiàn)某個被前瞻性評估標記為"不好"的推理步驟,實際上帶來的長期收益卻很高時,它會自動降低對這個負面評估的重視程度。相反,如果一個被評估為"好"的步驟確實帶來了良好的后續(xù)發(fā)展,模型就會更加信任這個評估。
具體來說,ACO通過一個巧妙的數(shù)學公式來實現(xiàn)這種動態(tài)調(diào)整。研究團隊設計了一個"校準因子",這個因子會根據(jù)前瞻性評估與實際優(yōu)勢之間的差異來自動調(diào)節(jié)訓練強度。當差異較大時,校準因子會降低,表明這個訓練樣本可能包含噪聲,應該減少其對模型更新的影響。當差異較小時,校準因子保持較高水平,表明這是一個可靠的訓練信號。
這種設計的優(yōu)雅之處在于,它不需要任何人工干預或外部監(jiān)督,完全通過模型內(nèi)部的一致性檢查來自動調(diào)節(jié)訓練過程。這就像一個自我糾錯的學習系統(tǒng),能夠在學習過程中自動識別和減少錯誤信息的干擾。
三、逐步構建全局最優(yōu)解
Genius框架的第三個核心創(chuàng)新是其逐步構建全局最優(yōu)解的方法。傳統(tǒng)的推理過程往往是線性的,就像沿著一條固定的路徑向前走。而Genius采用的是一種"束搜索"策略,就像同時探索多條可能的路徑,然后選擇最有前景的幾條繼續(xù)前進。
這個過程可以用登山來形象地解釋。如果你想登上一座復雜地形的山峰,最好的策略不是選定一條路就一直走到底,而是在每個關鍵的分岔口都派出"偵察員"去探索不同方向,然后根據(jù)探索結果決定哪條路最有希望到達山頂。
在Genius的實現(xiàn)中,模型在解決問題的每一步都會保持多個候選的推理路徑。比如在數(shù)學問題求解中,模型可能會同時考慮代數(shù)方法和幾何方法兩種不同的解題思路。對于每種思路,模型都會生成若干個具體的下一步操作,然后利用前瞻性評估來判斷這些操作的質(zhì)量。
接下來是關鍵的選擇過程。模型不會簡單地選擇當前評分最高的操作,而是會根據(jù)前瞻性評估的結果構建一個概率分布,然后從這個分布中進行采樣。這種做法的好處是既能保證大部分時候選擇好的操作,又能保持一定的探索性,避免陷入局部最優(yōu)解。
這就像一個探險隊長在分配資源時的策略:雖然會把大部分資源投入到最有希望的路線上,但也會保留一些資源去嘗試其他可能性,以防主要路線遇到不可預見的障礙。
通過這種方式,Genius能夠在保持探索多樣性的同時,逐步收斂到高質(zhì)量的推理路徑。實驗結果顯示,這種平衡探索與利用的策略,比簡單的貪婪選擇或隨機選擇都能獲得更好的結果。
四、令人印象深刻的實驗結果
研究團隊對Genius框架進行了全面而嚴格的測試,結果令人振奮。他們選擇了LLaMA3.1-8B-Instruct作為基礎模型,這是目前廣泛使用的高性能語言模型之一。
在數(shù)學推理方面,Genius的表現(xiàn)特別突出。在GSM8K數(shù)學問題數(shù)據(jù)集上,模型的準確率從原來的70.28%提升到了78.32%,這相當于解決問題的能力提高了8個百分點。在更具挑戰(zhàn)性的MATH數(shù)據(jù)集上,準確率從30.52%提升到34.64%。雖然絕對數(shù)值看起來不高,但要知道MATH數(shù)據(jù)集包含的都是大學水平的數(shù)學競賽題目,即使是人類數(shù)學專業(yè)的學生也不一定能輕松解決。
邏輯推理能力的提升同樣顯著。在ReClor邏輯閱讀理解任務中,準確率從49.40%提升到58.80%。在LogiQA邏輯推理任務中,從33.33%提升到40.86%。這些提升意味著模型在理解復雜邏輯關系和進行抽象推理方面變得更加強大。
更令人驚喜的是,這些提升是在使用相對較少的訓練數(shù)據(jù)的情況下實現(xiàn)的。研究團隊僅使用了25,000個無監(jiān)督的一般性問題進行訓練,這個數(shù)據(jù)量在當今的AI訓練標準中算是相當精簡的。這證明了Genius框架的高效性——它能夠從有限的數(shù)據(jù)中提取最大的學習價值。
為了驗證方法的通用性,研究團隊還在其他模型上進行了測試。在Qwen2.5系列模型(包括3B和7B參數(shù)版本)上,Genius同樣表現(xiàn)出色,證明了這個框架不僅僅適用于特定的模型架構,而是具有廣泛的適用性。
特別值得一提的是,在競賽級別的數(shù)學問題AIME2024上,Genius將模型的表現(xiàn)提升了6.67%。AIME是美國數(shù)學邀請賽,其題目難度遠超普通的數(shù)學考試,即使是數(shù)學天賦極高的學生也很難獲得好成績。模型在這類超高難度問題上的提升,充分說明了Genius框架在培養(yǎng)深層推理能力方面的有效性。
五、保持通用能力的平衡藝術
在提升推理能力的同時,保持模型在其他任務上的表現(xiàn)是一個重要挑戰(zhàn)。就像一個專門練習數(shù)學的學生可能會在語文或歷史科目上退步一樣,過度專注于推理訓練的AI模型也可能在一般性任務上表現(xiàn)下降。
研究團隊特別關注了這個問題,并在多個通用基準測試上驗證了Genius的表現(xiàn)。結果令人安心:在大多數(shù)通用任務上,Genius不僅沒有造成性能下降,反而帶來了輕微的提升。
在AlpacaEval指令跟隨任務中,模型的得分從24.60提升到26.96。這個任務測試的是模型理解和執(zhí)行各種類型指令的能力,涵蓋了從創(chuàng)意寫作到信息整理等多個方面。性能的提升說明推理能力的增強對模型的整體智能水平產(chǎn)生了正面影響。
在WildBench這個評估模型在真實世界復雜場景下表現(xiàn)的基準測試中,Genius訓練后的模型得分從-1.11提升到2.68。這個提升特別有意義,因為WildBench的題目都來自真實用戶的實際需求,更接近模型在實際應用中會遇到的情況。
最引人注目的是在Arena-Hard基準測試上的表現(xiàn),這是一個評估模型與人類偏好對齊程度的困難測試。模型的得分從30.31大幅提升到50.00,幾乎翻了一倍。這個結果表明,Genius不僅提升了模型的推理能力,還讓模型的回答更符合人類的期望和偏好。
在知識密集型任務如MMLU(大規(guī)模多任務語言理解)和WikiBench上,模型保持了穩(wěn)定的表現(xiàn),沒有出現(xiàn)明顯的退化。這證明了Genius框架在提升推理能力的同時,并沒有犧牲模型原有的知識儲備和理解能力。
六、深入的機制分析與消融實驗
為了更好地理解Genius框架各個組件的貢獻,研究團隊進行了詳細的消融實驗。這些實驗就像拆解一臺精密機器,逐個檢查每個部件的作用。
首先是前瞻性機制的驗證。當研究團隊移除前瞻性思考模塊,讓模型回到傳統(tǒng)的逐步生成方式時,性能出現(xiàn)了顯著下降。在使用Magpie數(shù)據(jù)集訓練時,平均性能下降了3.17%,在OpenHermes數(shù)據(jù)集上下降了3.25%。這證明了"深謀遠慮"確實比"走一步算一步"要有效得多。
接著是采樣策略的對比實驗。研究團隊將Genius的智能采樣策略替換為簡單的貪婪選擇(總是選擇當前評分最高的選項),結果發(fā)現(xiàn)性能下降更加明顯,平均下降超過4%。這說明在推理過程中保持適當?shù)奶剿餍允欠浅V匾?,過度的確定性選擇反而會限制模型找到最優(yōu)解的能力。
優(yōu)化方法的對比同樣充滿洞察。研究團隊將Genius的ACO損失函數(shù)與其他主流優(yōu)化方法進行了對比,包括DPO、SimPO、IPO、ROPO等。結果顯示,ACO在處理無監(jiān)督自訓練場景時具有明顯優(yōu)勢。相比傳統(tǒng)的監(jiān)督微調(diào)方法,ACO的優(yōu)勢更加突出,在某些情況下性能差距超過10%。
這些對比實驗揭示了一個重要事實:在無監(jiān)督自訓練的設置下,傳統(tǒng)的優(yōu)化方法往往難以處理訓練信號中的噪聲和不確定性,而ACO通過其自適應校準機制,能夠更好地應對這些挑戰(zhàn)。
七、擴展性與未來潛力的探索
Genius框架最令人興奮的特點之一是其優(yōu)秀的擴展性。研究團隊通過縮小規(guī)模的擴展實驗發(fā)現(xiàn),隨著訓練步數(shù)的增加,模型性能呈現(xiàn)出穩(wěn)定的上升趨勢,而且這種上升趨勢遠未達到飽和點。
這個發(fā)現(xiàn)的意義非常深遠。傳統(tǒng)的AI訓練往往存在"邊際效益遞減"的問題,即投入更多資源后得到的改進越來越小。而Genius顯示出的持續(xù)改進潛力,意味著只要有足夠的計算資源和通用數(shù)據(jù),模型的推理能力還有很大的提升空間。
研究團隊還測試了Genius在編程任務上的表現(xiàn)。雖然Genius主要是為自然語言推理設計的,但在MBPP編程問題和LiveCodeBench編程競賽中,它同樣帶來了性能提升。這種跨領域的效果進一步證明了Genius培養(yǎng)的是一種通用的推理能力,而不僅僅是針對特定類型問題的技巧。
更重要的是,Genius的無監(jiān)督特性意味著它可以利用互聯(lián)網(wǎng)上大量的無標注數(shù)據(jù)進行訓練??紤]到網(wǎng)絡上存在著海量的問題、討論和思考內(nèi)容,這為AI推理能力的大規(guī)模提升提供了前所未有的可能性。
八、技術實現(xiàn)的巧妙細節(jié)
Genius框架在技術實現(xiàn)上有許多值得稱道的細節(jié)設計。整個系統(tǒng)采用了分階段的處理流程,每個階段都有其特定的作用和優(yōu)化目標。
在前瞻性采樣階段,系統(tǒng)使用束搜索維護多個候選路徑,默認保持2個主要分支,每個分支生成4個候選步驟,然后模擬4步未來發(fā)展。這種參數(shù)設置在計算效率和探索充分性之間找到了良好的平衡點。
溫度參數(shù)的使用也很巧妙。在生成候選步驟時,系統(tǒng)使用0.6的溫度參數(shù)來保證多樣性,而在前瞻性模擬中則使用不同的參數(shù)設置來平衡創(chuàng)造性和合理性。這種精細的參數(shù)控制確保了系統(tǒng)既能產(chǎn)生有創(chuàng)意的解決方案,又不會偏離合理范圍。
ACO損失函數(shù)中的校準參數(shù)α設置為1,這個看似簡單的選擇實際上是經(jīng)過大量實驗調(diào)優(yōu)的結果。研究團隊發(fā)現(xiàn),這個參數(shù)值能夠在保持訓練穩(wěn)定性的同時,提供足夠的自適應調(diào)節(jié)能力。
訓練過程的批次大小設置為128,學習率為5e-7,這些參數(shù)的選擇都考慮了無監(jiān)督訓練的特殊性。相比傳統(tǒng)的監(jiān)督訓練,無監(jiān)督自訓練需要更加謹慎的參數(shù)設置,以避免在噪聲數(shù)據(jù)上過擬合。
九、與現(xiàn)有方法的深度對比
將Genius與現(xiàn)有的推理增強方法進行對比,能夠更清楚地看出其獨特價值。目前主流的方法大致可以分為幾類:基于監(jiān)督微調(diào)的方法、基于強化學習的方法,以及各種混合方法。
監(jiān)督微調(diào)方法如STaR需要大量的標注數(shù)據(jù),就像需要老師為每道題都提供詳細的解題步驟。這種方法的問題在于獲取高質(zhì)量標注數(shù)據(jù)的成本極高,而且標注質(zhì)量很難保證一致性。更重要的是,這種方法限制了模型接觸問題類型的多樣性,因為只有那些容易標注的問題才會被包含在訓練集中。
強化學習方法如Self-Rewarding雖然不需要人工標注的解題步驟,但需要訓練專門的獎勵模型來判斷答案質(zhì)量。這相當于需要培訓一位"判官"來評價學生的表現(xiàn)。然而,訓練這樣的判官本身就需要大量的人工標注數(shù)據(jù),而且判官的偏見和局限性會直接影響到模型的學習效果。
Genius的優(yōu)勢在于它完全避開了這些限制。它不需要標準答案,也不需要外部的評判標準,而是通過模型自身的內(nèi)在一致性來進行學習。這就像一個學習者通過大量閱讀和思考來提高思維能力,而不是依賴外部的標準答案或評價。
實驗結果顯示,Genius在多個基準測試上都超越了這些現(xiàn)有方法。在GSM8K數(shù)學問題上,Genius比Self-Rewarding方法高出2.28個百分點,比CoH方法高出3.95個百分點。在更困難的MATH數(shù)據(jù)集上,優(yōu)勢更加明顯,比Self-Rewarding高出4.45個百分點。
十、局限性與改進方向
盡管Genius框架取得了令人矚目的成果,研究團隊也坦誠地指出了當前方法的一些局限性和未來的改進方向。
首先是計算效率問題。前瞻性采樣需要為每個候選步驟都進行未來模擬,這相比傳統(tǒng)的逐步生成需要更多的計算資源。雖然研究團隊通過優(yōu)化算法和并行計算減少了這種開銷,但在大規(guī)模應用中,計算成本仍然是一個需要考慮的因素。
其次是前瞻深度的限制。目前Genius只模擬4步未來發(fā)展,這對于短期和中期規(guī)劃是足夠的,但對于需要更長遠規(guī)劃的復雜問題可能還不夠。增加前瞻深度會帶來計算復雜度的指數(shù)級增長,如何在深度和效率之間找到更好的平衡點是一個值得進一步研究的問題。
訓練數(shù)據(jù)的質(zhì)量也是一個重要因素。雖然Genius能夠利用無標注的數(shù)據(jù)進行訓練,但數(shù)據(jù)的質(zhì)量仍然會影響最終效果。如何自動識別和過濾低質(zhì)量的訓練樣本,或者設計更強的魯棒性機制來應對噪聲數(shù)據(jù),是未來研究的重要方向。
另外,當前的方法主要在文本推理任務上進行了驗證,對于多模態(tài)推理(涉及圖像、音頻等)的效果還需要進一步探索。隨著AI應用場景的擴展,多模態(tài)推理能力將變得越來越重要。
最后是評估標準的問題。現(xiàn)有的基準測試雖然能夠在一定程度上反映模型的推理能力,但可能還不能完全捕捉到推理的所有重要方面。開發(fā)更全面、更具挑戰(zhàn)性的評估方法,對于推動整個領域的發(fā)展具有重要意義。
十一、對AI發(fā)展的深遠影響
Genius框架的提出不僅僅是一個技術創(chuàng)新,更代表了AI發(fā)展理念的重要轉變。它向我們展示了一種全新的可能性:AI系統(tǒng)可以通過純粹的自主學習來獲得高級認知能力。
這種轉變的意義是深遠的。傳統(tǒng)的AI訓練嚴重依賴人工標注和監(jiān)督,這不僅成本高昂,而且在某種程度上限制了AI的發(fā)展?jié)摿?。人類的認知偏見、知識局限性和標注不一致性都會傳遞給AI系統(tǒng)。而Genius展示的無監(jiān)督學習范式,為AI獲得超越人類認知局限的推理能力提供了可能。
從實用角度來看,Genius的成功為AI的民主化和普及化開辟了新道路。由于不需要昂貴的專家標注,更多的研究機構和企業(yè)可以利用這種方法來提升自己的AI系統(tǒng)。這可能會加速AI技術的普及和應用。
在教育領域,Genius的思想也具有啟發(fā)意義。它強調(diào)的"前瞻性思考"和"自我糾錯"機制,與優(yōu)秀學習者的認知策略高度一致。這提示我們,在AI輔助教育中,培養(yǎng)學生的元認知能力和深度思考習慣可能比簡單的知識傳授更加重要。
從科學研究的角度,Genius為我們理解智能的本質(zhì)提供了新的視角。它表明,高級的推理能力可能不需要外部的明確指導,而是可以通過內(nèi)在的一致性約束和自我優(yōu)化來獲得。這與人類智能的發(fā)展過程有著驚人的相似性。
十二、實際應用的廣闊前景
Genius框架的應用前景極其廣闊,幾乎可以擴展到所有需要推理能力的AI應用場景。
在教育技術領域,配備Genius能力的AI助教將能夠更好地理解學生的思維過程,提供更有針對性的指導。這種AI助教不僅能夠給出正確答案,更重要的是能夠引導學生學會正確的思考方法。
在科研輔助方面,Genius的前瞻性思考能力使其非常適合假設生成和實驗設計。研究人員可以利用這樣的AI系統(tǒng)來探索新的研究方向,評估不同研究路徑的可行性。
商業(yè)決策是另一個重要的應用領域。Genius的多步驟規(guī)劃和前瞻性評估能力,可以幫助企業(yè)管理者分析復雜的商業(yè)場景,評估不同策略的長期效果。
在法律和政策分析中,Genius的邏輯推理能力可以幫助分析復雜的法律條文,預測政策變化的可能影響,為決策者提供更全面的分析支持。
醫(yī)療診斷是另一個具有巨大潛力的應用方向。雖然當前的研究主要集中在文本推理上,但Genius的核心思想——前瞻性思考和自我校驗——同樣適用于醫(yī)療推理過程。
創(chuàng)意寫作和內(nèi)容創(chuàng)作也將從Genius的能力中受益。更強的推理能力意味著AI可以創(chuàng)作出邏輯更嚴密、結構更合理的內(nèi)容,無論是小說、劇本還是技術文檔。
說到底,Genius框架代表的不僅僅是一個技術突破,更是AI發(fā)展理念的重要進步。它告訴我們,AI的智能不必完全依賴人類的明確指導,而是可以通過適當?shù)膶W習機制實現(xiàn)自我提升。這種"授人以漁"而非"授人以魚"的方法,可能是通向通用人工智能的關鍵一步。
當我們回顧這項研究的意義時,最令人興奮的可能不是它當前取得的具體性能提升,而是它為AI發(fā)展開辟的全新道路。在數(shù)據(jù)標注成本日益高昂、對AI能力要求不斷提高的今天,像Genius這樣的無監(jiān)督學習框架可能正是我們所需要的解決方案。
隨著更多研究者在這個方向上的深入探索,我們有理由相信,未來的AI系統(tǒng)將具備更強的自主學習能力和更深層的推理能力。而這一切的起點,就是像Genius這樣的開創(chuàng)性研究。對于想要深入了解這項研究技術細節(jié)的讀者,可以通過arXiv:2504.08672v1獲取完整論文,相關代碼也將在https://github.com/xufangzhi/Genius開源發(fā)布。
Q&A
Q1:Genius是什么?它能做什么? A:Genius是由上海AI實驗室等機構開發(fā)的AI自訓練框架,它的核心能力是讓大語言模型在沒有任何外部監(jiān)督的情況下,僅通過處理普通問題就能自我提升推理能力。就像讓AI學會"深謀遠慮",在解決問題時不只看當前步驟,還會模擬未來可能的發(fā)展來做出最優(yōu)選擇。
Q2:Genius會不會取代現(xiàn)有的AI訓練方法? A:不會完全取代,但會極大改變AI訓練方式。傳統(tǒng)方法需要大量人工標注數(shù)據(jù),成本高昂且限制了AI接觸問題的多樣性。Genius開辟了一條新路徑,讓AI可以利用互聯(lián)網(wǎng)上大量無標注數(shù)據(jù)進行自我提升,這將大大降低訓練成本并提高效率。
Q3:普通人如何受益于Genius技術? A:隨著Genius技術的成熟,我們將看到更智能的AI助手出現(xiàn)在教育、醫(yī)療、法律咨詢等領域。這些AI不僅能給出答案,更重要的是能夠進行深度思考和推理,提供更有價值的洞察和建議。而且由于訓練成本降低,這些先進AI服務的普及速度會更快。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。