這項由IBM研究院的Avishai Elmakies、Hagai Aronowitz、Nimrod Shabtay、Eli Schwartz、Ron Hoory和Avihu Dekel共同完成的研究,發(fā)表于2025年9月21日的arXiv預印本論文庫(論文編號:arXiv:2509.16990v1),為那些對原始研究感興趣的讀者提供了查詢途徑。
說到語音識別和理解,大家可能都有過這樣的經(jīng)歷:對著手機說話,它卻總是理解錯你的意思,或者回答得牛頭不對馬嘴。這背后的問題其實很復雜,就像教一個外國朋友理解中文一樣,不僅要讓他聽懂你在說什么,還要讓他理解你想表達的真正意思。
現(xiàn)在,IBM的研究團隊找到了一種新方法,能夠讓AI在理解人類語音方面變得更加聰明。他們的方法就像是給AI請了一位更好的"語言老師",這位老師不僅會糾正AI的錯誤,還會獎勵它做得好的地方。這種訓練方法被稱為"群體相對策略優(yōu)化"(GRPO),聽起來很拗口,但原理其實很簡單:讓AI生成多個答案,然后比較這些答案的好壞,獎勵表現(xiàn)好的,懲罰表現(xiàn)差的。
研究團隊專門測試了兩種特別有挑戰(zhàn)性的任務:語音問答和語音翻譯。語音問答就像是讓AI聽一段錄音然后回答相關(guān)問題,而語音翻譯則是讓AI直接把英文語音翻譯成德文文字。這兩種任務的難點在于,它們都沒有標準答案,同一個問題可能有多種正確的回答方式,就像同一道菜可以有多種烹飪方法一樣。
研究結(jié)果顯示,使用這種新訓練方法的AI模型在各項測試中都表現(xiàn)得更好。比如在語音問答任務中,新方法讓AI的回答質(zhì)量提升了將近10%,而在語音翻譯任務中,翻譯準確度也有顯著改善。更重要的是,這種方法適用于不同大小的AI模型,從20億參數(shù)的小模型到80億參數(shù)的大模型都能受益。
這項研究的意義不僅僅在于技術(shù)的改進,更在于它為AI理解人類語音開辟了新的道路。未來,我們可能會看到更智能的語音助手、更準確的實時翻譯設(shè)備,以及更自然的人機對話系統(tǒng)。
一、語音理解AI的現(xiàn)狀與挑戰(zhàn)
想要理解這項研究的重要性,我們首先需要了解當前語音理解AI面臨的挑戰(zhàn)。傳統(tǒng)的AI訓練就像是一對一的師傅帶徒弟:給AI一個標準答案,然后讓它不斷練習直到能夠復制這個答案。這種方法在處理有明確答案的任務時效果不錯,比如語音轉(zhuǎn)文字,因為一句話通常只有一種正確的文字表達方式。
但是當涉及到更復雜的理解任務時,這種簡單的訓練方式就顯露出了局限性。舉個例子,如果有人問"今天天氣怎么樣?",AI可能回答"今天是晴天"、"今天陽光明媚"或者"今天天氣很好",這些答案都是正確的,但傳統(tǒng)訓練方法只能選擇其中一個作為標準答案。
語音理解AI還面臨著另一個挑戰(zhàn):它們需要同時處理語音信號和語言理解兩個層面的任務。這就像是要求一個人在聽外語的同時進行實時翻譯,不僅要聽清楚每個音節(jié),還要理解整句話的含義。當前的語音感知大語言模型(SALLM)雖然在這方面已經(jīng)有了很大進步,但在開放式問答和翻譯任務上仍有提升空間。
更具體地說,現(xiàn)有的強化學習方法在訓練語音AI時往往依賴于簡單的獎勵機制,比如只用"對"或"錯"來評判AI的回答。這種二元評價方式就像是考試只有滿分和零分兩種結(jié)果,無法反映回答質(zhì)量的細微差別。一個接近正確但不完全準確的回答,和一個完全錯誤的回答,在這種評價體系下得到的評分是一樣的,這顯然不夠公平也不夠有效。
IBM研究團隊意識到,要讓語音理解AI變得更智能,就需要一種更精細、更靈活的訓練方法。這種方法不僅要能夠處理多樣化的正確答案,還要能夠準確評估答案質(zhì)量的優(yōu)劣,從而給AI提供更有價值的學習信號。
二、GRPO訓練方法的核心原理
群體相對策略優(yōu)化(GRPO)的工作原理就像是舉辦一場特殊的學習競賽。在傳統(tǒng)的AI訓練中,每次只讓AI給出一個答案,然后告訴它對錯。而GRPO方法則讓AI同時給出多個不同的答案,然后比較這些答案的質(zhì)量,讓AI從這種比較中學習。
具體來說,當AI面對一個問題時,GRPO會要求它生成多個可能的回答,比如生成8個不同的答案。然后,系統(tǒng)會使用一個評分標準(比如BLEU分數(shù))來評估每個答案的質(zhì)量。BLEU分數(shù)就像是一把精密的尺子,能夠測量AI生成的文本與標準答案之間的相似度,分數(shù)越高說明質(zhì)量越好。
接下來是關(guān)鍵的學習過程:系統(tǒng)會計算出這組答案的平均分數(shù),然后告訴AI哪些答案超過了平均水平,哪些答案低于平均水平。對于那些表現(xiàn)優(yōu)秀的答案,AI會得到正面反饋,系統(tǒng)會增加AI再次生成類似高質(zhì)量答案的概率。相反,對于表現(xiàn)不佳的答案,AI會得到負面反饋,降低生成類似低質(zhì)量答案的可能性。
這個過程有點像是組織一群學生進行小組討論:每個學生都要提出自己的觀點,然后老師會評判這些觀點的質(zhì)量,告訴大家哪些想法比較好,哪些還需要改進。通過這種群體比較的方式,每個學生都能從其他人的表現(xiàn)中學到東西,而不是僅僅依賴于老師給出的標準答案。
GRPO方法的另一個優(yōu)勢在于它的自適應性。因為獎勵是基于相對表現(xiàn)而不是絕對標準,AI可以根據(jù)自己當前的能力水平進行學習。在訓練初期,即使答案質(zhì)量普遍不高,AI仍然可以通過比較找出相對較好的答案進行學習。隨著訓練的進行,整體答案質(zhì)量提升了,評判標準也會相應提高,從而推動AI持續(xù)改進。
研究團隊還引入了一個重要的技術(shù)細節(jié):重要性采樣權(quán)重。這個概念聽起來復雜,但原理很簡單。它就像是在比較不同學生作業(yè)時考慮他們的基礎(chǔ)水平差異。如果一個平時成績一般的學生突然交出了優(yōu)秀作業(yè),這個進步就應該得到更多的鼓勵。同樣,GRPO會根據(jù)AI生成每個答案的"難度"來調(diào)整獎勵的權(quán)重,確保訓練過程更加公平有效。
三、混合策略GRPO的創(chuàng)新嘗試
在基礎(chǔ)GRPO方法的基礎(chǔ)上,研究團隊還探索了一種叫做"混合策略GRPO"(MP-GRPO)的變體。這種方法的核心思想是在AI生成的多個答案中,偷偷加入一個"標準答案"作為參考。
這種做法就像是在學生討論小組中悄悄安排一位"托兒"——這位托兒知道正確答案,能夠在討論中起到引導作用。當AI看到這個高質(zhì)量的標準答案時,它會意識到自己的回答還有提升空間,從而朝著更正確的方向?qū)W習。
然而,混合策略的效果并不是在所有情況下都理想。研究團隊發(fā)現(xiàn),這種方法在自動語音翻譯任務中表現(xiàn)不錯,能夠進一步提升翻譯質(zhì)量。但在語音問答任務中,混合策略反而可能降低性能。
這種差異的原因很有意思:用于實驗的AI模型本身就是在語音翻譯任務上訓練過的,所以它對翻譯任務有一定的基礎(chǔ)。在這種情況下,標準答案就像是一個有益的提醒,幫助AI回憶起正確的翻譯方向。但對于語音問答這個全新的任務,AI的基礎(chǔ)幾乎為零,過早接觸標準答案可能會讓它產(chǎn)生依賴心理,反而影響了自主學習能力。
這個發(fā)現(xiàn)提醒我們,AI訓練中沒有萬能的方法。就像教育孩子一樣,對于已經(jīng)有一定基礎(chǔ)的技能,適當?shù)闹笇Ш褪痉妒怯袔椭模坏珜τ谌碌募寄?,可能需要讓孩子多嘗試、多犯錯,才能真正掌握。
研究團隊在混合策略中采用了一些技術(shù)處理來確保訓練的穩(wěn)定性。比如,他們?yōu)闃藴蚀鸢冈O(shè)置了特殊的權(quán)重計算方式,避免這個"完美答案"對整個評分體系造成過大的影響。這就像是在學生討論中,確保那位"托兒"不會過于搶眼,而是恰到好處地發(fā)揮引導作用。
四、獎勵函數(shù)的精心設(shè)計
選擇什么樣的評分標準來判斷AI回答的好壞,是這項研究中的一個關(guān)鍵問題。研究團隊測試了多種不同的評分方法,包括BLEU、ROUGE-1、ROUGE-2、ROUGE-L和METEOR等。這些評分方法就像是不同的考試評分標準,各有各的側(cè)重點。
BLEU分數(shù)主要關(guān)注AI生成的文本與標準答案在用詞和短語搭配上的相似度,就像是檢查學生的作文是否用了正確的詞匯和句式。ROUGE系列分數(shù)則更關(guān)注內(nèi)容的完整性和覆蓋度,類似于檢查作文是否包含了所有要點。METEOR分數(shù)試圖在精確性和完整性之間找到平衡,就像是綜合評估作文的各個方面。
有趣的是,研究團隊發(fā)現(xiàn)使用BLEU作為獎勵函數(shù)時,AI在各項評測指標上的綜合表現(xiàn)最好。這個發(fā)現(xiàn)有點反直覺:你可能會想,如果用BLEU來訓練,AI當然在BLEU指標上表現(xiàn)最好,但其他指標可能會受影響。然而實際結(jié)果顯示,BLEU訓練出來的AI在其他評分標準上也表現(xiàn)不錯,體現(xiàn)了很好的通用性。
這種現(xiàn)象可以用"一法通、萬法通"來解釋。BLEU分數(shù)雖然主要關(guān)注文本相似度,但為了獲得高BLEU分數(shù),AI必須在用詞準確性、語法正確性和語義連貫性等多個方面都有不錯的表現(xiàn)。這種綜合要求實際上促使AI在各個方面都有所提升。
相比之下,其他評分方法雖然在各自關(guān)注的指標上表現(xiàn)突出,但往往會以犧牲其他方面的性能為代價。比如,用ROUGE-2訓練的AI可能在內(nèi)容覆蓋度上表現(xiàn)很好,但在語言流暢性方面可能不如BLEU訓練的AI。
研究團隊還考慮了使用神經(jīng)網(wǎng)絡(luò)基礎(chǔ)的評分方法,比如BERTScore,這種方法能夠理解詞匯的語義關(guān)系,而不僅僅是表面的文字匹配。但由于計算成本的考慮,他們最終還是選擇了BLEU作為主要的獎勵函數(shù)。這個選擇體現(xiàn)了研究中經(jīng)常需要面對的權(quán)衡:理論上最優(yōu)的方法未必是實踐中最合適的方法。
五、實驗設(shè)計和數(shù)據(jù)集選擇
為了驗證新方法的有效性,研究團隊精心設(shè)計了實驗,選擇了兩個具有代表性的任務:語音問答和自動語音翻譯。這兩個任務的選擇很有講究,因為它們都屬于"開放式"任務,也就是說沒有唯一的標準答案,這正是GRPO方法最能發(fā)揮優(yōu)勢的地方。
對于語音問答任務,研究團隊使用了LibriSQA數(shù)據(jù)集。這個數(shù)據(jù)集很有趣:它基于LibriSpeech音頻書庫構(gòu)建,包含了大量的語音錄音以及相應的問題和答案??梢韵胂蟪蛇@樣一個場景:AI需要聽一段有聲書的朗讀,然后回答關(guān)于書中內(nèi)容的問題。這種任務不僅要求AI能夠準確理解語音內(nèi)容,還要能夠進行邏輯推理和信息提取。
LibriSQA數(shù)據(jù)集包含了大約10.7萬個訓練樣本,研究團隊將其中20%用作驗證,剩下的用于訓練。測試集包含約2500個樣本。為了讓訓練更加有效,他們還設(shè)計了多種不同的提示方式,比如"聽這段音頻并回答下面的問題"等,就像是用不同的方式問同一個問題,讓AI學會更靈活地理解指令。
對于自動語音翻譯任務,研究團隊選擇了CoVoST2數(shù)據(jù)集,專門測試英語到德語的翻譯。這個數(shù)據(jù)集包含了約22萬個訓練樣本、1.2萬個驗證樣本和1.5萬個測試樣本。翻譯任務的挑戰(zhàn)在于,AI需要直接從英文語音生成德文文字,跳過了傳統(tǒng)的"語音轉(zhuǎn)文字再翻譯"的兩步驟過程。這就像是要求一個同聲傳譯員直接把聽到的英文說成德文,對AI的能力要求很高。
實驗中使用的AI模型主要是Granite Speech,這是IBM開發(fā)的語音感知語言模型。研究團隊測試了兩個不同規(guī)模的版本:20億參數(shù)的小模型和80億參數(shù)的大模型。這種規(guī)模上的對比很重要,因為它能夠驗證新方法是否在不同大小的模型上都有效。
值得注意的是,這些模型原本并沒有在語音問答任務上進行過專門訓練,這實際上為實驗提供了更嚴格的測試條件。就像讓一個只學過數(shù)學的學生去考物理,能夠更好地檢驗學習方法的通用性和有效性。
六、令人矚目的實驗結(jié)果
實驗結(jié)果展現(xiàn)了GRPO方法的顯著優(yōu)勢。在語音問答任務中,無論是20億參數(shù)還是80億參數(shù)的模型,使用GRPO訓練后的性能都大幅超越了傳統(tǒng)的監(jiān)督微調(diào)方法。具體來說,20億參數(shù)的模型在BLEU分數(shù)上從40.88提升到44.90,提升幅度接近10%。更令人印象深刻的是80億參數(shù)的模型,BLEU分數(shù)從42.34躍升到46.40,提升幅度約為10%。
這些數(shù)字背后的意義很重大。BLEU分數(shù)的提升意味著AI生成的回答與標準答案更加接近,但更重要的是,這種提升是全方位的。除了BLEU分數(shù),其他評測指標如BERTScore、ROUGE系列和METEOR分數(shù)也都有顯著改善。這就像是一個學生不僅在主科上取得了進步,在其他科目上也全面提升了。
在自動語音翻譯任務中,GRPO方法同樣表現(xiàn)出色。20億參數(shù)的模型BLEU分數(shù)從30.50提升到31.47,而80億參數(shù)的模型從31.62提升到35.08,提升幅度達到了令人矚目的10.9%。這個結(jié)果特別有意義,因為翻譯質(zhì)量的提升直接關(guān)系到實際應用的可用性。
更有趣的是,實驗結(jié)果揭示了模型規(guī)模與訓練方法之間的微妙關(guān)系。在語音問答任務中,兩種規(guī)模的模型都從GRPO訓練中顯著受益,表現(xiàn)出了良好的可擴展性。但在翻譯任務中,小模型使用傳統(tǒng)監(jiān)督微調(diào)時表現(xiàn)尚可,而大模型的傳統(tǒng)微調(diào)效果反而略有下降。這種現(xiàn)象可能是因為大模型更容易在傳統(tǒng)訓練中過擬合,而GRPO的多樣性生成機制有效緩解了這個問題。
實驗還對比了不同獎勵函數(shù)的效果。結(jié)果顯示,雖然使用不同獎勵函數(shù)訓練的模型在對應的評測指標上表現(xiàn)最佳,但BLEU獎勵訓練的模型在綜合性能上最為均衡。這個發(fā)現(xiàn)驗證了研究團隊在獎勵函數(shù)選擇上的判斷。
混合策略GRPO的實驗結(jié)果則呈現(xiàn)出任務相關(guān)性。在翻譯任務中,加入標準答案作為參考確實能帶來額外的性能提升,但在問答任務中效果相反。這個發(fā)現(xiàn)提醒我們,AI訓練中的"一刀切"方法往往不可取,需要根據(jù)具體任務和模型基礎(chǔ)來調(diào)整策略。
七、技術(shù)實現(xiàn)的精妙細節(jié)
在技術(shù)實現(xiàn)層面,研究團隊面臨了許多需要精心平衡的挑戰(zhàn)。GRPO算法的核心在于優(yōu)勢估計的計算,這個過程就像是為每個AI生成的答案打分排名。系統(tǒng)會先計算出一組答案的平均獎勵,然后用標準差進行歸一化,確保不同批次的訓練數(shù)據(jù)能夠公平比較。
訓練過程中的超參數(shù)調(diào)整也很關(guān)鍵。研究團隊發(fā)現(xiàn),群組大?。看巫孉I生成多少個答案)對訓練效果有重要影響。經(jīng)過反復實驗,他們確定8個答案為一組是比較理想的選擇:太少了無法充分體現(xiàn)多樣性,太多了會增加計算成本且收益遞減。
另一個重要參數(shù)是正則化系數(shù)β,它控制著模型在追求高獎勵和保持穩(wěn)定性之間的平衡。研究團隊發(fā)現(xiàn),當β設(shè)為0時,模型訓練容易發(fā)散,特別是在大型數(shù)據(jù)集上;而β值過高則會限制模型的學習能力。經(jīng)過精心調(diào)試,β=0.02被證明是一個理想的折中點。
在生成答案時,研究團隊使用了溫度為1的采樣策略進行訓練,這確保了生成答案的多樣性。而在最終評測時,他們采用了top-p=0.9、溫度=0.9的策略,這樣既保證了答案質(zhì)量,又保持了一定的創(chuàng)造性。這種訓練和推理時采用不同參數(shù)的做法,體現(xiàn)了對AI行為的精細控制。
計算資源的管理也是一個重要考慮。GRPO訓練比傳統(tǒng)監(jiān)督微調(diào)需要更多的計算資源,因為它需要為每個問題生成多個答案。研究團隊使用了4塊H100 GPU進行訓練,對于20億參數(shù)的模型,完整的GRPO訓練需要大約24小時,相比之下傳統(tǒng)監(jiān)督微調(diào)的成本要低得多。
為了確保比較的公平性,研究團隊為監(jiān)督微調(diào)和GRPO都進行了全面的超參數(shù)搜索。他們測試了不同的學習率(從10^-6到5×10^-5)、訓練輪數(shù)(1到10輪)、批次大?。?2到48)等,確保每種方法都能發(fā)揮出最佳性能。這種嚴謹?shù)膶嶒炘O(shè)計增強了結(jié)果的可信度。
八、深入理解性能提升的原因
GRPO方法能夠帶來顯著性能提升的原因值得深入分析。傳統(tǒng)的監(jiān)督微調(diào)就像是讓學生按照標準答案反復練習,雖然能夠快速掌握基本技能,但容易產(chǎn)生僵化思維。而GRPO則更像是讓學生在開放環(huán)境中探索學習,通過比較不同嘗試的效果來逐步改進。
多樣性生成是GRPO的核心優(yōu)勢之一。當AI被要求為同一個問題生成多個不同的答案時,它被迫探索答案空間的不同區(qū)域,這種探索過程本身就是一種有價值的學習。就像讓學生用多種方法解決同一道數(shù)學題,即使有些方法不夠完美,但這個過程能夠加深對問題本質(zhì)的理解。
相對比較機制也發(fā)揮了重要作用。在GRPO中,AI不需要知道什么是"完美答案",只需要知道哪些答案相對更好。這種相對評價更符合人類的認知方式,也更適合處理那些沒有唯一標準答案的開放性任務。這就像是在藝術(shù)創(chuàng)作中,我們很難定義什么是"完美的畫作",但通常能夠分辨出哪幅畫更優(yōu)秀。
GRPO的自適應性質(zhì)也很重要。隨著訓練的進行,AI的整體能力水平會提升,這時用于比較的基準也會相應提高。這種"水漲船高"的機制確保了AI始終面臨適當?shù)奶魬?zhàn),既不會因為任務太簡單而失去學習動力,也不會因為任務太難而無法取得進展。
另一個關(guān)鍵因素是獎勵信號的密度。傳統(tǒng)方法通常只在序列結(jié)束時給出一個總體評分,而GRPO通過比較多個完整答案,實際上為每個生成步驟都提供了間接的指導信息。這種更密集的反饋有助于AI更精確地調(diào)整其生成策略。
研究結(jié)果還顯示,GRPO特別適合處理那些允許多種正確答案的任務。在語音問答和翻譯任務中,同一個輸入可能對應多種合理的輸出,GRPO的多樣性生成和比較機制正好能夠捕捉這種一對多的映射關(guān)系,而傳統(tǒng)的一對一監(jiān)督學習在這方面就顯得力不從心。
說到底,這項研究為我們展示了AI訓練的一個重要方向:從簡單的模仿學習轉(zhuǎn)向更復雜的理解學習。GRPO方法讓AI不再是機械地復制標準答案,而是學會了評估和比較不同答案的質(zhì)量,這種能力更接近人類的學習方式。
研究團隊的工作還有一個重要意義:它證明了強化學習方法在語音理解任務中的巨大潛力。雖然強化學習在游戲和機器人控制領(lǐng)域已經(jīng)取得了顯著成功,但在自然語言處理特別是語音處理領(lǐng)域的應用還相對較少。這項研究為后續(xù)的相關(guān)研究開辟了新的道路。
當然,這種方法也有其局限性。GRPO訓練需要更多的計算資源,訓練時間也更長。此外,對于那些確實存在唯一正確答案的任務(比如簡單的語音識別),傳統(tǒng)的監(jiān)督學習可能仍然是更經(jīng)濟有效的選擇。
展望未來,這項研究為語音AI的發(fā)展指出了一個明確的方向:通過更智能的訓練方法,我們可以讓AI在理解人類語音方面變得更加準確和自然。這不僅會改善我們?nèi)粘J褂玫恼Z音助手,還可能催生全新的應用場景,比如更智能的客服系統(tǒng)、更準確的實時翻譯設(shè)備,以及更自然的人機對話界面。
研究團隊還貼心地考慮了方法的可擴展性,他們在不同規(guī)模的模型上都驗證了GRPO的有效性,這意味著無論是資源有限的移動設(shè)備還是強大的云端服務器,都可能從這種訓練方法中受益。這種通用性為該方法的實際應用奠定了堅實基礎(chǔ)。
歸根結(jié)底,這項研究告訴我們的不僅僅是一種新的技術(shù)方法,更是一種新的思考方式:AI的學習過程可以更像人類,通過探索、比較和反思來不斷進步,而不是簡單地記憶和重復。這種理念的轉(zhuǎn)變可能會對整個AI領(lǐng)域產(chǎn)生深遠的影響。
Q&A
Q1:什么是群體相對策略優(yōu)化GRPO?它與傳統(tǒng)AI訓練有什么不同?
A:GRPO是一種新的AI訓練方法,讓AI同時生成多個答案然后比較優(yōu)劣進行學習,就像組織學生小組討論一樣。傳統(tǒng)訓練只給AI一個標準答案反復練習,而GRPO讓AI在比較中學會判斷答案質(zhì)量,更適合沒有唯一標準答案的開放性任務。
Q2:IBM這項研究在語音問答和翻譯上取得了什么樣的效果?
A:實驗結(jié)果顯示,使用GRPO訓練的AI在語音問答任務上BLEU分數(shù)提升了約10%,在英德語音翻譯上最高提升了10.9%。更重要的是,這種提升是全方位的,在多個評測指標上都有顯著改善,證明了方法的有效性。
Q3:GRPO訓練方法有什么局限性嗎?普通用戶什么時候能體驗到?
A:GRPO需要更多計算資源和訓練時間,成本比傳統(tǒng)方法高。目前還在研究階段,但由于它適用于不同規(guī)模的模型,未來可能會逐步應用到語音助手、翻譯軟件等產(chǎn)品中,讓用戶體驗到更準確自然的語音交互。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。