這項由康卡斯特應(yīng)用AI實驗室的阿克沙特·潘迪、卡倫·庫馬爾,以及倫敦大學學院的拉斐爾·唐共同完成的研究發(fā)表于2025年9月,研究成果已在arXiv平臺發(fā)布(論文編號:arXiv:2509.10452v1)。有興趣深入了解技術(shù)細節(jié)的讀者可以通過該編號在arXiv網(wǎng)站上查找到完整論文。
現(xiàn)代語音識別技術(shù)已經(jīng)相當先進,就像擁有了一個幾乎完美的翻譯員,能夠?qū)⑽覀冋f的話準確轉(zhuǎn)換成文字。比如OpenAI的Whisper這樣的明星產(chǎn)品,在日常對話中表現(xiàn)出色。然而,當這些"翻譯員"遇到全新的專業(yè)術(shù)語、方言俚語或者特定行業(yè)的表達方式時,就像突然聽到了外星語言一樣束手無策。
傳統(tǒng)的解決方案就是收集大量這個新領(lǐng)域的語音數(shù)據(jù),然后重新訓練模型。這就好比讓翻譯員去那個地方生活一段時間,熟悉當?shù)氐谋磉_習慣。但現(xiàn)實往往很骨感——收集高質(zhì)量的語音數(shù)據(jù)既昂貴又耗時,有時甚至根本不可能。比如某個新興的技術(shù)公司想讓語音助手理解他們獨特的產(chǎn)品術(shù)語,或者醫(yī)院希望語音識別系統(tǒng)能準確識別醫(yī)學專業(yè)詞匯,但他們沒有足夠的資源去錄制大量相關(guān)語音。
研究團隊面臨的核心挑戰(zhàn)是:能否僅僅使用文字資料,就讓現(xiàn)有的語音識別模型學會理解新領(lǐng)域的內(nèi)容?這就像是要求翻譯員僅僅通過閱讀一個地方的文字資料,就學會理解當?shù)厝说目谝艉捅磉_習慣,而從未真正聽過當?shù)厝苏f話。
為了解決這個看似不可能的任務(wù),研究團隊開發(fā)了一套名為WhisTLE的創(chuàng)新方法。這個名字巧妙地結(jié)合了"Whisper"(目標語音識別模型)和"Text-to-Latent Encodings"(文本到潛在編碼的轉(zhuǎn)換),形象地概括了他們的核心思路。
WhisTLE的工作原理可以用一個巧妙的比喻來理解。設(shè)想語音識別過程就像是一個翻譯工作室,里面有兩個房間:第一個房間里的"聽音師傅"負責把聲音轉(zhuǎn)換成某種內(nèi)部的理解形式,第二個房間里的"寫字師傅"則把這種理解轉(zhuǎn)換成最終的文字。在正常情況下,聲音必須經(jīng)過聽音師傅處理后,才能傳遞給寫字師傅完成最終翻譯。
WhisTLE的創(chuàng)新之處在于訓練了一個"文字解讀師傅",這個師傅學會了模仿聽音師傅的工作方式。當只有文字沒有聲音時,文字解讀師傅就能直接產(chǎn)生與聽音師傅相同格式的理解內(nèi)容,然后傳遞給寫字師傅。這樣,整個系統(tǒng)就能在沒有真實語音的情況下繼續(xù)學習新的詞匯和表達方式。
更進一步說,研究團隊發(fā)現(xiàn)最好的效果來自于將WhisTLE與現(xiàn)有的文本轉(zhuǎn)語音技術(shù)結(jié)合使用。這就像是同時雇用了一個"朗讀師傅",把文字讀出來給聽音師傅聽,再加上文字解讀師傅直接提供理解內(nèi)容給寫字師傅。這種雙重保險的方式確保了學習過程既有表面層次的輸入輸出訓練,又有深層次的理解機制訓練。
一、深度監(jiān)督的核心理念
傳統(tǒng)的文本適應(yīng)方法主要關(guān)注輸入和輸出的匹配,就像只教學生標準答案而不解釋解題思路。比如現(xiàn)有的淺層融合方法,就是在語音識別系統(tǒng)外面再加一個語言模型,在最后決策時把兩者的意見綜合考慮。這種方法的問題在于,當遇到完全陌生的詞匯時,原始的語音識別系統(tǒng)仍然一頭霧水,外部語言模型的幫助也很有限。
另一種常見做法是使用文本轉(zhuǎn)語音技術(shù)來生成人工語音數(shù)據(jù),然后用這些數(shù)據(jù)訓練語音識別模型。這就像給學生播放錄音來學習新詞匯。雖然這種方法有一定效果,但它只提供了從輸入到輸出的直接映射訓練,沒有深入到模型內(nèi)部的理解機制。
WhisTLE的深度監(jiān)督方法則不同,它直接介入到模型的內(nèi)部工作機制中。研究團隊意識到,語音識別模型內(nèi)部有一個關(guān)鍵的中間表示層,這個層次包含了模型對輸入語音的抽象理解。通過訓練一個專門的變分自編碼器來模擬這個中間表示,WhisTLE能夠為模型提供更深層次的指導。
這種方法的優(yōu)勢在于信息瓶頸理論的支持。簡單來說,模型內(nèi)部的表示層通常比原始語音包含更少但更關(guān)鍵的信息,就像是把一幅復雜的畫壓縮成幾個關(guān)鍵特征點。因此,學習模擬這些關(guān)鍵特征比直接模擬原始語音要容易得多,訓練效率也更高。
二、技術(shù)架構(gòu)的精妙設(shè)計
WhisTLE的技術(shù)核心是一個精心設(shè)計的變分自編碼器架構(gòu)。這個編碼器的任務(wù)是學習如何僅從文本信息中產(chǎn)生與Whisper編碼器輸出格式完全一致的表示。整個架構(gòu)采用了卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計,包含三層編碼器和四層解碼器,各層之間還有殘差連接來保證信息的有效傳遞。
文本首先通過嵌入層轉(zhuǎn)換成數(shù)值表示,然后經(jīng)過轉(zhuǎn)置卷積層進行上采樣,使其能夠匹配語音編碼器的輸出維度。接下來的卷積層逐步提取和抽象文本特征,最終產(chǎn)生與語音編碼器輸出格式相同的表示。
訓練過程采用標準的變分自編碼器損失函數(shù),包含重構(gòu)損失和正則化項。重構(gòu)損失確保生成的表示盡可能接近真實的語音編碼器輸出,而正則化項則防止模型過擬合,保證生成表示的多樣性和泛化能力。研究團隊使用了beta調(diào)節(jié)的KL散度正則化,通過調(diào)節(jié)beta參數(shù)來平衡重構(gòu)精度和表示的規(guī)律性。
在實際應(yīng)用時,整個流程分為兩個階段。第一階段是在源域數(shù)據(jù)上訓練變分自編碼器,這時候既有語音也有對應(yīng)的文本,可以讓文本編碼器學習如何模擬語音編碼器的輸出。第二階段是在目標域進行文本適應(yīng),這時候只有文本數(shù)據(jù),用訓練好的文本編碼器替代語音編碼器來訓練解碼器。
值得注意的是,在推理階段,系統(tǒng)完全恢復到原始的Whisper架構(gòu),文本編碼器被拋棄,不會帶來任何額外的計算開銷。這種設(shè)計確保了適應(yīng)后的模型在實際應(yīng)用中的效率和原始性能。
三、實驗設(shè)計的全面考量
研究團隊設(shè)計了一套全面的實驗來驗證WhisTLE的有效性。他們選擇了六個不同的數(shù)據(jù)集,其中CommonVoice和LibriSpeech作為"本域"數(shù)據(jù)集,代表模型原本擅長的領(lǐng)域;EMNS、EmoV-DB、ST-AEDS和EABI作為"跨域"數(shù)據(jù)集,代表需要適應(yīng)的新領(lǐng)域。
這種選擇反映了現(xiàn)實應(yīng)用場景:通常情況下,我們有一個在大規(guī)模通用數(shù)據(jù)上訓練好的模型,現(xiàn)在需要讓它適應(yīng)某個特定的小眾領(lǐng)域。比如,一個在日常對話數(shù)據(jù)上訓練的模型現(xiàn)在需要理解情感表達數(shù)據(jù)庫中的特殊語調(diào),或者適應(yīng)英國各地口音的語音特點。
實驗采用了標準的四步流程。首先在本域數(shù)據(jù)集上對Whisper進行標準微調(diào),建立基線性能。然后在相同數(shù)據(jù)上訓練變分自編碼器,讓文本編碼器學會模擬語音編碼器。接著使用跨域的純文本數(shù)據(jù)進行WhisTLE適應(yīng)訓練。最后在跨域數(shù)據(jù)的語音-文本對上測試最終性能。
為了防止模型在適應(yīng)新領(lǐng)域時忘記原有能力,研究團隊采用了交替訓練策略。在每一步文本適應(yīng)訓練的同時,還會進行兩步原域數(shù)據(jù)的訓練,確保模型既學會了新知識又保持了原有技能。
實驗還包含了多種基線方法的對比。淺層融合方法使用三元語法語言模型,通過網(wǎng)格搜索找到最佳融合權(quán)重。文本轉(zhuǎn)語音基線使用FastSpeech2和SpeechT5模型分別處理CommonVoice和LibriSpeech對應(yīng)的合成任務(wù)。研究團隊還測試了多種方法的組合,探索不同技術(shù)路線的互補效果。
四、實驗結(jié)果的深度解析
實驗結(jié)果展現(xiàn)了WhisTLE方法的顯著優(yōu)勢。在Whisper-large模型上,將WhisTLE與文本轉(zhuǎn)語音方法結(jié)合使用,在四個跨域數(shù)據(jù)集上平均獲得了12.3%的相對詞錯誤率降低,相比單獨使用文本轉(zhuǎn)語音方法有明顯改進。更重要的是,在32個測試場景中,WhisTLE相關(guān)的方法在27個場景中都表現(xiàn)最佳。
具體來看各個數(shù)據(jù)集的表現(xiàn),ST-AEDS和EMNS數(shù)據(jù)集上的改進最為顯著,平均詞錯誤率降低了3-4個百分點。這兩個數(shù)據(jù)集分別代表美式英語語音和情感敘事語音,說明WhisTLE在處理具有特定風格特征的語音時特別有效。
EABI和EmoV-DB數(shù)據(jù)集上的改進相對較小但仍然一致,分別代表英國口音和情感語音數(shù)據(jù)庫。這種一致性說明WhisTLE的有效性不局限于特定類型的語音特征,而是具有廣泛的適用性。
不同模型規(guī)模的對比也很有啟發(fā)性。Whisper-medium在所有跨域數(shù)據(jù)集上都能達到6.0以下的詞錯誤率,相對改進幅度普遍超過25%。這說明中等規(guī)模的模型可能更容易從深度監(jiān)督中受益,而大模型雖然絕對性能更好,但改進空間相對有限。
特別值得關(guān)注的是組合效果。WhisTLE與文本轉(zhuǎn)語音方法的結(jié)合帶來的改進幾乎等于兩種方法單獨改進幅度的總和,這種強烈的互補效應(yīng)證明了深度監(jiān)督和輸入輸出監(jiān)督確實針對模型適應(yīng)的不同方面。
淺層融合方法的表現(xiàn)則相對不穩(wěn)定,在某些情況下甚至大幅降低了性能。特別是在LibriSpeech作為源域時,淺層融合經(jīng)常導致模型產(chǎn)生重復幻覺,嚴重影響識別質(zhì)量。這進一步證明了內(nèi)部深度適應(yīng)相比外部后處理的優(yōu)勢。
五、技術(shù)創(chuàng)新的深層意義
WhisTLE方法的創(chuàng)新不僅僅在于技術(shù)細節(jié),更在于它對語音識別適應(yīng)問題的重新思考。傳統(tǒng)方法往往將適應(yīng)問題簡化為數(shù)據(jù)匹配問題,要么收集更多目標域數(shù)據(jù),要么在推理時引入外部知識。WhisTLE則直接切入模型內(nèi)部的表示學習機制,從根本上改變了模型對新域內(nèi)容的理解方式。
這種深度監(jiān)督的理念具有廣泛的啟發(fā)意義。在機器學習的許多其他領(lǐng)域,我們同樣面臨著如何在有限數(shù)據(jù)下實現(xiàn)模型適應(yīng)的挑戰(zhàn)。WhisTLE證明了通過精心設(shè)計的中間表示學習,可以顯著提高適應(yīng)效率和效果。
從計算效率的角度看,WhisTLE的設(shè)計也很巧妙。雖然訓練過程需要額外的變分自編碼器,但這個編碼器相對輕量,參數(shù)量遠小于主要的語音識別模型。更重要的是,推理時完全不需要額外計算,保持了原模型的運行效率。
研究團隊在Canary模型上的驗證實驗進一步證明了方法的通用性。Canary使用不同的編碼器架構(gòu)(Conformer vs Transformer),但WhisTLE仍然有效,只需要簡單的架構(gòu)調(diào)整。這說明核心思想不依賴于特定的模型架構(gòu),具有廣泛的適用性。
六、實際應(yīng)用的廣闊前景
WhisTLE的實用價值在現(xiàn)實場景中非常明顯??紤]一個智能客服系統(tǒng)需要理解特定行業(yè)的專業(yè)術(shù)語,傳統(tǒng)方法需要收集大量該行業(yè)的通話錄音,成本高昂且涉及隱私問題。而WhisTLE只需要該行業(yè)的文字資料,比如產(chǎn)品手冊、技術(shù)文檔等,就能實現(xiàn)有效適應(yīng)。
在醫(yī)療領(lǐng)域,語音識別系統(tǒng)需要準確理解各種醫(yī)學術(shù)語和藥物名稱。通過WhisTLE,系統(tǒng)可以利用醫(yī)學教科書、病歷模板等文字資源進行適應(yīng),而無需錄制大量醫(yī)生的語音。這不僅降低了數(shù)據(jù)收集成本,也避免了醫(yī)療隱私的敏感問題。
對于多語言和方言適應(yīng),WhisTLE同樣具有重要價值。當需要讓語音識別系統(tǒng)理解某個地區(qū)的方言時,收集足夠的方言語音往往困難重重。但該地區(qū)的文字資料通常更容易獲得,WhisTLE可以利用這些文字資料實現(xiàn)有效的方言適應(yīng)。
企業(yè)內(nèi)部應(yīng)用也是一個重要場景。每個公司都有自己獨特的術(shù)語體系、產(chǎn)品名稱和業(yè)務(wù)流程。通過WhisTLE,企業(yè)可以快速定制語音識別系統(tǒng),讓它理解公司特有的表達方式,提高內(nèi)部溝通和文檔處理的效率。
七、技術(shù)局限與改進方向
盡管WhisTLE展現(xiàn)了令人印象深刻的效果,但它也有一些局限性需要認真考慮。首先,方法的效果在一定程度上依賴于源域和目標域之間的相似性。當兩個域差異過大時,僅靠文本信息可能無法完全彌補語音特征的差距。
變分自編碼器的訓練質(zhì)量直接影響最終效果。如果文本編碼器無法準確模擬語音編碼器的輸出分布,后續(xù)的適應(yīng)訓練就會受到影響。這要求在源域有足夠高質(zhì)量的語音-文本對來訓練編碼器。
另一個潛在問題是新詞匯的處理。雖然WhisTLE能夠幫助模型理解新領(lǐng)域的表達方式,但對于完全未見過的詞匯,特別是那些發(fā)音與拼寫關(guān)系復雜的詞匯,仍然可能面臨挑戰(zhàn)。
計算資源的需求也是考慮因素之一。雖然推理時不增加計算量,但訓練階段需要同時維護語音識別模型和變分自編碼器,對GPU內(nèi)存有一定要求。對于資源受限的應(yīng)用場景,這可能是一個障礙。
從改進方向來看,研究團隊提到了將這種適應(yīng)范式擴展到語音識別之外的其他領(lǐng)域。這個思路很有前景,比如在計算機視覺、自然語言處理等領(lǐng)域,都存在類似的跨域適應(yīng)挑戰(zhàn)。深度監(jiān)督的理念可能在這些領(lǐng)域同樣有效。
另一個有趣的方向是探索更先進的表示學習技術(shù)。隨著自監(jiān)督學習和對比學習的發(fā)展,可能有更好的方法來學習跨模態(tài)的表示映射。結(jié)合這些新技術(shù),WhisTLE的效果可能會進一步提升。
八、理論基礎(chǔ)與技術(shù)細節(jié)
WhisTLE方法的理論基礎(chǔ)建立在信息瓶頸原理之上。這個原理認為,深度網(wǎng)絡(luò)的中間層通常包含經(jīng)過壓縮和抽象的關(guān)鍵信息,去除了輸入中的冗余成分。對于語音識別任務(wù),編碼器的輸出就是這樣一個信息瓶頸,它保留了語音中與文字轉(zhuǎn)換相關(guān)的關(guān)鍵特征,同時過濾了說話人身份、背景噪音等無關(guān)信息。
基于這個理論,研究團隊假設(shè)學習模擬這個中間表示比直接模擬原始語音要簡單得多。實驗結(jié)果驗證了這個假設(shè):他們的文本編碼器只需要91-104M參數(shù)就能有效模擬語音編碼器的輸出,而同等效果的文本轉(zhuǎn)語音系統(tǒng)通常需要更多參數(shù)和更長的訓練時間。
變分自編碼器的選擇也有深層考慮。相比普通的自編碼器,變分自編碼器引入了隨機性,能夠生成更多樣化的表示。這種多樣性對于泛化到新領(lǐng)域很重要,因為它減少了過擬合到訓練數(shù)據(jù)特定模式的風險。
損失函數(shù)的設(shè)計融合了重構(gòu)精度和表示規(guī)律性。重構(gòu)損失確保生成的表示在功能上等價于真實的語音編碼器輸出,而KL散度正則化則確保表示的分布特性符合預期。Beta參數(shù)的調(diào)節(jié)允許在精度和泛化能力之間找到最佳平衡點。
從數(shù)學角度看,WhisTLE實際上是在學習一個從文本空間到語音編碼空間的映射函數(shù)。這個映射需要保持語義一致性,即相同意思的文本和語音應(yīng)該映射到相似的編碼表示。通過在大量語音-文本對上訓練,模型能夠?qū)W習到這種跨模態(tài)的語義對應(yīng)關(guān)系。
九、性能分析與計算效率
詳細的性能分析顯示,WhisTLE的效果在不同場景下表現(xiàn)出有趣的模式。在情感豐富的數(shù)據(jù)集上,比如EMNS和EmoV-DB,改進幅度相對較大,這可能是因為情感信息在文本中有一定體現(xiàn),WhisTLE能夠捕捉到這些語義線索。
相比之下,在口音變化較大的數(shù)據(jù)集上,比如EABI,改進幅度相對較小。這符合預期,因為口音主要體現(xiàn)在發(fā)音層面,文本信息難以完全覆蓋這種變化。但即使如此,WhisTLE仍然能帶來一致的改進,說明方法的穩(wěn)健性。
計算效率方面,WhisTLE的訓練時間比文本轉(zhuǎn)語音方法短得多。FastSpeech2需要在48句話的批次上訓練16萬步,而WhisTLE只需要在4句話的批次上訓練10萬步。考慮到批次大小的差異,WhisTLE的訓練效率大約是FastSpeech2的12倍。
內(nèi)存使用方面,WhisTLE在訓練時需要同時加載語音識別模型和變分自編碼器。對于Whisper-large,這大約需要額外的104M參數(shù)存儲。雖然增加了內(nèi)存需求,但相比訓練完整的文本轉(zhuǎn)語音系統(tǒng),仍然是可接受的。
推理效率是WhisTLE的一大優(yōu)勢。由于推理時完全恢復到原始模型架構(gòu),不存在任何性能損失。這對于實時應(yīng)用非常重要,因為用戶不需要為了獲得更好的適應(yīng)效果而犧牲響應(yīng)速度。
十、跨模型驗證與泛化能力
在Canary模型上的驗證實驗提供了重要的泛化證據(jù)。Canary-1B和Canary-180M-flash使用了與Whisper不同的編碼器架構(gòu),前者采用Conformer編碼器,后者是Canary-1B的輕量版本。WhisTLE在這些模型上仍然有效,只需要簡單的架構(gòu)調(diào)整。
具體的調(diào)整是在變分自編碼器末端添加一個線性層,用于生成Canary解碼器所需的編碼長度信息。這個小修改就足以讓WhisTLE適配不同的模型架構(gòu),說明核心方法的靈活性。
Canary-180M-flash上的結(jié)果特別令人印象深刻,在LibriSpeech作為源域時獲得了71%的相對改進。這可能是因為較小的模型更容易從深度監(jiān)督中受益,它們的表示空間相對簡單,更容易被文本編碼器準確模擬。
跨模型的一致性結(jié)果證明了WhisTLE不是針對特定模型的技巧,而是一個通用的適應(yīng)范式。這對于實際應(yīng)用很重要,因為用戶可以在不同的語音識別系統(tǒng)上應(yīng)用相同的適應(yīng)策略。
從更廣的角度看,這種跨模型的成功暗示了編碼器-解碼器架構(gòu)的一些共同特性。不同的編碼器雖然使用不同的計算模塊,但它們學習到的中間表示可能具有相似的信息結(jié)構(gòu),使得相同的適應(yīng)方法在不同模型上都能奏效。
說到底,WhisTLE代表了語音識別領(lǐng)域適應(yīng)技術(shù)的一個重要進步。它巧妙地解決了純文本適應(yīng)這個長期存在的難題,通過深度監(jiān)督的方式直接改造模型的內(nèi)部理解機制。更重要的是,這種方法在保持高效性的同時實現(xiàn)了顯著的性能提升,為實際應(yīng)用提供了一個可行且有效的解決方案。
研究團隊的工作不僅在技術(shù)層面有所突破,更在理念上為跨域適應(yīng)問題提供了新的思路。通過證明深度監(jiān)督的有效性,他們?yōu)槠渌枰缬蜻m應(yīng)的機器學習任務(wù)指明了一個有前景的方向。雖然目前的方法還有一些局限性,但隨著技術(shù)的進一步發(fā)展,這種深度適應(yīng)的理念很可能在更廣泛的應(yīng)用場景中發(fā)揮重要作用。
對于普通用戶而言,WhisTLE的意義在于它讓語音識別技術(shù)變得更加靈活和實用。無論是企業(yè)定制化應(yīng)用,還是特殊領(lǐng)域的專業(yè)需求,都可能從這種技術(shù)中受益。而對于研究人員來說,WhisTLE開啟了一個新的研究方向,即如何通過深度監(jiān)督實現(xiàn)更有效的跨域適應(yīng)。隨著這個領(lǐng)域的進一步發(fā)展,我們有理由期待看到更多創(chuàng)新的適應(yīng)方法出現(xiàn)。
Q&A
Q1:WhisTLE到底是什么?它能解決什么問題?
A:WhisTLE是一種讓語音識別模型僅通過文字就能適應(yīng)新領(lǐng)域的技術(shù)。它解決的核心問題是當語音識別遇到新詞匯或新場景時表現(xiàn)不佳,但又難以收集足夠語音數(shù)據(jù)的困境。通過訓練一個"文字解讀師傅"來模擬"聽音師傅"的工作,讓模型能在沒有真實語音的情況下學習新知識。
Q2:WhisTLE相比傳統(tǒng)方法有什么優(yōu)勢?效果怎么樣?
A:WhisTLE的最大優(yōu)勢是訓練效率高且推理時無額外成本。實驗顯示,結(jié)合文本轉(zhuǎn)語音技術(shù),WhisTLE平均降低了12.3%的詞錯誤率,在32個測試場景中有27個表現(xiàn)最佳。相比傳統(tǒng)方法,它的訓練速度大約快12倍,且適應(yīng)后的模型運行速度與原模型完全相同。
Q3:WhisTLE適用于哪些實際場景?有什么限制?
A:WhisTLE特別適合醫(yī)療、法律、企業(yè)內(nèi)部等需要理解專業(yè)術(shù)語的場景,以及方言、口音適應(yīng)等情況。主要限制是效果依賴于源域和目標域的相似性,對于差異過大的領(lǐng)域可能效果有限。此外,完全陌生的詞匯仍然具有挑戰(zhàn)性,訓練時也需要一定的GPU內(nèi)存支持。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。