這項(xiàng)由阿里巴巴集團(tuán)的Ovis團(tuán)隊(duì)主導(dǎo)的研究發(fā)表于2025年8月,相關(guān)技術(shù)報(bào)告已在arXiv平臺(tái)發(fā)布。感興趣的讀者可以通過Hugging Face模型庫(https://huggingface.co/AIDC-AI/Ovis2.5-9B)或GitHub項(xiàng)目頁面(https://github.com/AIDC-AI/Ovis)獲取完整的技術(shù)細(xì)節(jié)和模型文件。
想象一下,如果AI助手不僅能理解你的話,還能像人類一樣仔細(xì)觀察圖片,甚至能對(duì)復(fù)雜的圖表進(jìn)行深度思考和推理,那會(huì)是怎樣的體驗(yàn)?阿里巴巴的研究團(tuán)隊(duì)剛剛實(shí)現(xiàn)了這個(gè)愿景,他們開發(fā)的Ovis2.5模型就像給AI裝上了一雙"火眼金睛",不僅能看懂各種圖片,還能進(jìn)行深度思考。
在AI發(fā)展的征途中,讓機(jī)器理解視覺信息一直是個(gè)巨大挑戰(zhàn)。就好比教一個(gè)盲人學(xué)會(huì)繪畫一樣困難。傳統(tǒng)的AI視覺模型就像戴著度數(shù)不合適眼鏡的人,看圖片時(shí)要么只能看清楚局部細(xì)節(jié),要么只能模糊地看到整體輪廓,很難同時(shí)兼顧。而且更重要的是,即使看懂了圖片,AI往往只能給出直接的答案,缺乏像人類那樣的深度思考過程。
Ovis2.5的出現(xiàn)就像為AI換上了一副完美的眼鏡。與之前的AI視覺模型相比,它有兩個(gè)革命性的突破。首先,它可以直接處理原始分辨率的圖片,不需要像切西瓜一樣把圖片切成小塊再拼接。這就好比一個(gè)人能夠直接看清整幅畫作,而不是只能通過放大鏡一小塊一小塊地觀察。其次,Ovis2.5還學(xué)會(huì)了"思考",遇到復(fù)雜問題時(shí)不會(huì)急于給出答案,而是會(huì)在內(nèi)心進(jìn)行反復(fù)推理,就像人類解決難題時(shí)的思維過程一樣。
研究團(tuán)隊(duì)為Ovis2.5設(shè)計(jì)了一套完整的"學(xué)習(xí)課程",就像培養(yǎng)一個(gè)天才學(xué)生一樣循序漸進(jìn)。這個(gè)學(xué)習(xí)過程分為五個(gè)階段,每個(gè)階段都有明確的目標(biāo)和方法。首先是基礎(chǔ)視覺訓(xùn)練,讓AI學(xué)會(huì)看懂各種圖片;然后是多模態(tài)預(yù)訓(xùn)練,教會(huì)它如何將看到的內(nèi)容與文字聯(lián)系起來;接著是指令調(diào)優(yōu)階段,讓AI學(xué)會(huì)按照人類的要求完成各種任務(wù);隨后通過偏好優(yōu)化訓(xùn)練,讓AI的回答更符合人類期望;最后通過強(qiáng)化學(xué)習(xí),進(jìn)一步提升AI的推理能力。
在這個(gè)訓(xùn)練過程中,研究團(tuán)隊(duì)特別注重培養(yǎng)AI的"思考能力"。他們?yōu)锳I提供了大量包含思考過程的訓(xùn)練數(shù)據(jù),就像給學(xué)生展示優(yōu)秀的解題思路一樣。這些數(shù)據(jù)不僅包含正確答案,更重要的是包含了到達(dá)答案的完整推理過程,包括自我檢查和錯(cuò)誤修正。通過這樣的訓(xùn)練,AI學(xué)會(huì)了在遇到復(fù)雜問題時(shí)先進(jìn)入"思考模式",在內(nèi)心進(jìn)行充分推理后再給出最終答案。
為了驗(yàn)證Ovis2.5的能力,研究團(tuán)隊(duì)設(shè)計(jì)了一系列嚴(yán)格的測試。在OpenCompass這個(gè)權(quán)威的多模態(tài)評(píng)測平臺(tái)上,Ovis2.5-9B模型獲得了78.3分的優(yōu)異成績,顯著超越了之前的版本,也在同等參數(shù)規(guī)模的開源模型中創(chuàng)造了新的記錄。Ovis2.5-2B雖然參數(shù)更少,但也達(dá)到了73.9分,證明了"小模型,大性能"的設(shè)計(jì)理念。
一、革命性的視覺處理技術(shù)
傳統(tǒng)的AI視覺模型處理圖片就像一個(gè)近視眼的人看畫展,需要把大幅畫作切成許多小塊,然后逐一觀察每個(gè)片段,最后再在腦海中拼接成完整圖像。這種方式不僅效率低下,而且經(jīng)常會(huì)遺漏重要的全局信息,就像只看到樹木而忽略了整片森林。
Ovis2.5采用了一種全新的"原生分辨率視覺處理"技術(shù),就像為AI配備了一副完美的眼鏡,能夠直接以圖片的原始分辨率進(jìn)行觀察,無需進(jìn)行任何裁剪或壓縮。這種技術(shù)的核心是使用了原生分辨率視覺變換器(NaViT),它能夠處理各種尺寸和比例的圖片,就像人眼能夠自然地觀察不同大小的物體一樣。
這種技術(shù)的優(yōu)勢(shì)在處理復(fù)雜圖表時(shí)尤為明顯。比如觀察一張包含大量數(shù)據(jù)的財(cái)務(wù)報(bào)表或者科學(xué)圖表時(shí),傳統(tǒng)方法可能會(huì)因?yàn)榍懈顖D片而破壞數(shù)據(jù)之間的關(guān)聯(lián)性,就像把一張地圖撕成碎片后再重組,很容易迷失方向。而Ovis2.5能夠保持圖表的完整結(jié)構(gòu),清晰地識(shí)別各個(gè)數(shù)據(jù)點(diǎn)之間的關(guān)系,準(zhǔn)確理解圖表所要表達(dá)的信息。
為了增強(qiáng)空間感知能力,研究團(tuán)隊(duì)還為視覺處理模塊配備了旋轉(zhuǎn)位置編碼(RoPE)技術(shù)。這就像為AI的"眼睛"安裝了精確的定位系統(tǒng),使其能夠準(zhǔn)確理解圖片中各個(gè)元素的空間位置關(guān)系。無論是判斷物體的遠(yuǎn)近關(guān)系,還是分析圖表中數(shù)據(jù)的分布趨勢(shì),這種技術(shù)都能提供關(guān)鍵的空間信息支持。
整個(gè)視覺處理系統(tǒng)基于先進(jìn)的SigLIP模型進(jìn)行初始化,這相當(dāng)于為AI提供了一個(gè)良好的視覺基礎(chǔ)。就像一個(gè)藝術(shù)學(xué)生在接受專業(yè)訓(xùn)練之前已經(jīng)具備了基本的繪畫技能一樣,這種預(yù)訓(xùn)練為后續(xù)的學(xué)習(xí)奠定了堅(jiān)實(shí)基礎(chǔ)。
二、突破性的深度推理能力
如果說傳統(tǒng)的AI就像一個(gè)只會(huì)背標(biāo)準(zhǔn)答案的學(xué)生,那么Ovis2.5就像一個(gè)真正會(huì)獨(dú)立思考的學(xué)者。它最令人驚嘆的特色就是具備了"思考模式",能夠像人類一樣進(jìn)行深度推理和反思。
當(dāng)面對(duì)復(fù)雜問題時(shí),Ovis2.5不會(huì)急于給出答案,而是會(huì)啟動(dòng)內(nèi)在的思考過程。這個(gè)過程被巧妙地設(shè)計(jì)為可見的思考標(biāo)簽,用戶可以選擇查看AI的完整推理過程,就像能夠窺視一個(gè)天才學(xué)者的思維軌跡一樣。在這個(gè)思考過程中,AI會(huì)進(jìn)行多角度分析,提出不同的假設(shè),甚至?xí)晕屹|(zhì)疑和糾錯(cuò)。
這種思考能力的培養(yǎng)并非一蹴而就。研究團(tuán)隊(duì)為AI準(zhǔn)備了大量包含完整推理過程的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)不僅展示了正確的答案,更重要的是展示了到達(dá)答案的思維路徑。就像優(yōu)秀的老師不僅要告訴學(xué)生答案是什么,更要教會(huì)學(xué)生如何思考一樣。
特別值得一提的是,Ovis2.5學(xué)會(huì)了自我反思和錯(cuò)誤修正。當(dāng)它發(fā)現(xiàn)自己的初步推理可能存在問題時(shí),會(huì)主動(dòng)回過頭重新審視,調(diào)整思路,就像一個(gè)負(fù)責(zé)任的學(xué)者會(huì)反復(fù)檢查自己的研究結(jié)論一樣。這種能力使得AI在處理復(fù)雜的數(shù)學(xué)問題、科學(xué)推理或者需要多步邏輯分析的任務(wù)時(shí)表現(xiàn)尤為出色。
用戶可以根據(jù)具體需求選擇是否啟用思考模式。對(duì)于簡單問題,可以關(guān)閉思考模式快速獲得答案;而對(duì)于復(fù)雜問題,啟用思考模式雖然會(huì)增加一些等待時(shí)間,但能獲得更準(zhǔn)確、更可靠的結(jié)果。這就像在速度和準(zhǔn)確性之間提供了一個(gè)可調(diào)節(jié)的平衡點(diǎn)。
三、精心設(shè)計(jì)的五階段訓(xùn)練體系
培養(yǎng)一個(gè)既能看懂圖片又會(huì)深度思考的AI,就像培養(yǎng)一個(gè)全才學(xué)者一樣需要系統(tǒng)性的教育。Ovis2.5的訓(xùn)練過程被精心設(shè)計(jì)為五個(gè)遞進(jìn)的階段,每個(gè)階段都有明確的學(xué)習(xí)目標(biāo)和專門的訓(xùn)練方法。
第一階段是視覺感知基礎(chǔ)訓(xùn)練。在這個(gè)階段,AI主要學(xué)習(xí)如何理解圖片中的基本信息,就像教一個(gè)孩子認(rèn)識(shí)各種物體一樣。訓(xùn)練數(shù)據(jù)主要是圖片和相應(yīng)的文字描述,AI需要學(xué)會(huì)將看到的視覺內(nèi)容轉(zhuǎn)換為文字表達(dá)。為了確保學(xué)習(xí)的穩(wěn)定性,研究團(tuán)隊(duì)采用了漸進(jìn)式的訓(xùn)練策略,先處理較低分辨率的圖片,逐步提升到更高分辨率。
第二階段是多模態(tài)理解訓(xùn)練。這個(gè)階段的目標(biāo)是讓AI學(xué)會(huì)將視覺信息與語言信息進(jìn)行整合,就像教會(huì)一個(gè)學(xué)生不僅要能看懂圖片,還要能用文字準(zhǔn)確描述所看到的內(nèi)容。訓(xùn)練內(nèi)容擴(kuò)展到包含文字識(shí)別、物體定位、圖表分析等多種任務(wù),訓(xùn)練數(shù)據(jù)也從簡單的圖片描述擴(kuò)展到對(duì)話形式的問答。
第三階段是指令理解和執(zhí)行訓(xùn)練。在這個(gè)階段,AI學(xué)會(huì)根據(jù)具體的指令完成各種復(fù)雜任務(wù),就像訓(xùn)練一個(gè)助手能夠理解并執(zhí)行各種工作要求。訓(xùn)練內(nèi)容涵蓋了文本處理、多圖片分析、視頻理解等各個(gè)方面。特別重要的是,在這個(gè)階段引入了包含思考過程的訓(xùn)練數(shù)據(jù),開始培養(yǎng)AI的深度推理能力。
第四階段是偏好對(duì)齊訓(xùn)練。這個(gè)階段使用直接偏好優(yōu)化(DPO)技術(shù),讓AI學(xué)會(huì)生成更符合人類期望的回答。訓(xùn)練方式類似于讓AI在多個(gè)候選答案中學(xué)會(huì)選擇最好的那個(gè),就像培養(yǎng)一個(gè)編輯的審美判斷能力一樣。這個(gè)階段特別注重提升AI在推理任務(wù)上的表現(xiàn),通過對(duì)比不同質(zhì)量的推理過程,讓AI學(xué)會(huì)什么是優(yōu)質(zhì)的思考方式。
第五階段是強(qiáng)化學(xué)習(xí)優(yōu)化。在最后這個(gè)階段,使用組相對(duì)策略優(yōu)化(GRPO)技術(shù)進(jìn)一步提升AI的推理能力。這個(gè)階段專注于可驗(yàn)證的推理任務(wù),通過獎(jiǎng)勵(lì)機(jī)制鼓勵(lì)A(yù)I生成更準(zhǔn)確的推理過程。為了保持之前階段學(xué)到的通用能力,這個(gè)階段只更新語言模型部分的參數(shù),視覺處理部分保持不變。
四、卓越的性能表現(xiàn)
經(jīng)過精心訓(xùn)練的Ovis2.5在各種測試中都表現(xiàn)出了令人印象深刻的能力。在權(quán)威的OpenCompass多模態(tài)評(píng)測平臺(tái)上,Ovis2.5展現(xiàn)了全面而均衡的性能。這個(gè)評(píng)測平臺(tái)就像是AI領(lǐng)域的"高考",從多個(gè)維度考察模型的綜合能力。
在基礎(chǔ)視覺理解方面,Ovis2.5表現(xiàn)穩(wěn)健。無論是識(shí)別圖片中的物體、理解場景內(nèi)容,還是回答關(guān)于圖片的各種問題,它都能給出準(zhǔn)確而詳細(xì)的答案。特別是在處理高分辨率圖片時(shí),它能夠捕捉到許多細(xì)微的細(xì)節(jié),就像一個(gè)觀察力敏銳的偵探一樣不放過任何線索。
在數(shù)學(xué)推理能力測試中,Ovis2.5的表現(xiàn)尤為突出。面對(duì)復(fù)雜的數(shù)學(xué)問題,它能夠展現(xiàn)出完整的解題思路,不僅給出正確答案,還能清晰地說明每一步的推理過程。在MathVista測試中獲得了83.4分的優(yōu)異成績,證明了其在視覺數(shù)學(xué)推理方面的強(qiáng)大能力。
文字識(shí)別和文檔理解是Ovis2.5的另一個(gè)強(qiáng)項(xiàng)。無論是掃描的文檔、手寫的筆記,還是復(fù)雜的表格,它都能準(zhǔn)確識(shí)別并理解其中的信息。在OCRBench測試中,它不僅超越了同類開源模型,甚至在某些方面超過了商業(yè)化的GPT-4o模型,顯示出了在實(shí)用性方面的巨大優(yōu)勢(shì)。
在圖表分析能力方面,Ovis2.5展現(xiàn)出了專業(yè)級(jí)的水準(zhǔn)。面對(duì)復(fù)雜的統(tǒng)計(jì)圖表、科學(xué)數(shù)據(jù)可視化或者商業(yè)報(bào)表,它能夠準(zhǔn)確理解數(shù)據(jù)之間的關(guān)系,識(shí)別趨勢(shì)變化,甚至能夠基于圖表數(shù)據(jù)進(jìn)行推理和預(yù)測。這種能力在ChartQA Pro測試中得到了充分驗(yàn)證,獲得了63.8分的優(yōu)秀成績。
物體定位和空間推理也是Ovis2.5的優(yōu)勢(shì)領(lǐng)域。在RefCOCO系列測試中,它能夠根據(jù)自然語言描述準(zhǔn)確找到圖片中的特定物體,平均準(zhǔn)確率達(dá)到90.1分。這種能力不僅需要理解語言描述,還需要準(zhǔn)確的空間感知,體現(xiàn)了多模態(tài)理解的真正融合。
五、實(shí)際應(yīng)用的廣闊前景
Ovis2.5的能力遠(yuǎn)不止停留在實(shí)驗(yàn)室的測試中,它在現(xiàn)實(shí)世界中有著廣闊的應(yīng)用前景。憑借其強(qiáng)大的視覺理解和推理能力,這個(gè)AI系統(tǒng)可以在許多領(lǐng)域發(fā)揮重要作用。
在教育領(lǐng)域,Ovis2.5可以成為一個(gè)智能的學(xué)習(xí)助手。學(xué)生遇到不懂的題目時(shí),只需要拍一張照片,它就能提供詳細(xì)的解題思路和步驟說明。特別是對(duì)于數(shù)學(xué)、物理等需要復(fù)雜推理的學(xué)科,它的思考模式能夠幫助學(xué)生理解解題的邏輯過程,而不僅僅是得到答案。這就像有了一個(gè)永遠(yuǎn)不會(huì)疲倦、知識(shí)淵博的私人導(dǎo)師。
在醫(yī)療健康領(lǐng)域,Ovis2.5的圖像分析能力可以協(xié)助醫(yī)生進(jìn)行診斷。它可以分析醫(yī)學(xué)影像,識(shí)別異常區(qū)域,甚至可以解讀復(fù)雜的檢查報(bào)告。雖然不能替代專業(yè)醫(yī)生的判斷,但可以作為一個(gè)有力的輔助工具,提高診斷的效率和準(zhǔn)確性。
商業(yè)分析是另一個(gè)重要的應(yīng)用場景。面對(duì)復(fù)雜的財(cái)務(wù)報(bào)表、市場數(shù)據(jù)圖表或者商業(yè)演示文檔,Ovis2.5可以快速提取關(guān)鍵信息,分析趨勢(shì)變化,甚至提供決策建議。這對(duì)于需要處理大量數(shù)據(jù)的商業(yè)分析師來說,無疑是一個(gè)強(qiáng)大的工具。
在日常生活中,Ovis2.5也能提供許多實(shí)用的幫助。比如識(shí)別菜譜上的文字并提供烹飪建議、分析家庭財(cái)務(wù)記錄、幫助理解復(fù)雜的說明書或者合同條款等等。它就像一個(gè)博學(xué)的朋友,隨時(shí)準(zhǔn)備為你答疑解惑。
對(duì)于殘障人士來說,Ovis2.5更是一個(gè)貼心的助手。視力受損的用戶可以通過它來"看懂"各種圖片和文檔,獲得詳細(xì)的描述和解釋。這種無障礙的技術(shù)應(yīng)用體現(xiàn)了AI技術(shù)的人文關(guān)懷。
六、技術(shù)創(chuàng)新的深層意義
Ovis2.5的技術(shù)突破不僅僅是性能數(shù)據(jù)的提升,更代表了人工智能發(fā)展的一個(gè)重要里程碑。它展示了AI系統(tǒng)如何能夠更接近人類的認(rèn)知方式,具備視覺理解和邏輯推理的綜合能力。
原生分辨率處理技術(shù)的應(yīng)用代表了視覺AI的一個(gè)重要發(fā)展方向。傳統(tǒng)的固定分辨率處理方式就像戴著有色眼鏡看世界,總會(huì)有信息的損失或扭曲。而原生分辨率處理則讓AI能夠以最原始、最真實(shí)的方式感知視覺世界,這為更精確的視覺理解奠定了基礎(chǔ)。
思考模式的引入則代表了AI推理能力的重大進(jìn)步。以往的AI系統(tǒng)往往是"黑盒子",用戶只能看到輸入和輸出,無法了解其內(nèi)部的推理過程。Ovis2.5的思考模式讓這個(gè)"黑盒子"變得透明,用戶可以理解AI的思考軌跡,這不僅提高了結(jié)果的可信度,也為AI的進(jìn)一步改進(jìn)提供了方向。
多階段訓(xùn)練體系的設(shè)計(jì)體現(xiàn)了AI教育的科學(xué)性。就像培養(yǎng)人才需要循序漸進(jìn)一樣,AI的訓(xùn)練也需要有層次、有計(jì)劃的安排。這種系統(tǒng)性的訓(xùn)練方法不僅提高了訓(xùn)練效率,也確保了AI能力的全面發(fā)展。
高效的訓(xùn)練基礎(chǔ)設(shè)施也是這項(xiàng)研究的重要貢獻(xiàn)。通過數(shù)據(jù)打包和混合并行技術(shù),訓(xùn)練速度提升了3-4倍,這意味著類似的AI系統(tǒng)可以更快速、更經(jīng)濟(jì)地進(jìn)行開發(fā)和部署。
說到底,Ovis2.5的意義遠(yuǎn)超一個(gè)簡單的技術(shù)產(chǎn)品。它展現(xiàn)了AI技術(shù)如何能夠真正理解和處理復(fù)雜的現(xiàn)實(shí)世界信息,如何能夠進(jìn)行類人的推理和思考。這種能力的實(shí)現(xiàn)不僅推動(dòng)了學(xué)術(shù)研究的邊界,更為AI技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用鋪平了道路。
對(duì)于普通用戶而言,Ovis2.5代表著一個(gè)更智能、更可靠的AI助手即將走入我們的生活。它不再是簡單的問答工具,而是一個(gè)能夠深度理解、獨(dú)立思考的智能伙伴。隨著技術(shù)的不斷完善和優(yōu)化,我們有理由期待AI將在更多場景下為人類提供有價(jià)值的幫助。
當(dāng)然,任何技術(shù)都有其局限性和發(fā)展空間。研究團(tuán)隊(duì)也坦誠地指出了未來的改進(jìn)方向,包括支持4K級(jí)別的超高分辨率圖像處理、處理更長時(shí)間的視頻內(nèi)容、以及集成更多實(shí)用工具等。這種開放和誠實(shí)的態(tài)度體現(xiàn)了科學(xué)研究的嚴(yán)謹(jǐn)性,也為后續(xù)的技術(shù)發(fā)展指明了方向。
總的來說,阿里巴巴團(tuán)隊(duì)的這項(xiàng)研究不僅為我們帶來了一個(gè)功能強(qiáng)大的AI模型,更為整個(gè)AI領(lǐng)域的發(fā)展貢獻(xiàn)了寶貴的經(jīng)驗(yàn)和方法。隨著Ovis2.5等先進(jìn)AI系統(tǒng)的不斷涌現(xiàn),我們正在見證人工智能從實(shí)驗(yàn)室走向現(xiàn)實(shí)生活的歷史性轉(zhuǎn)變。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過前文提到的官方鏈接獲取完整的研究資料和模型文件,親自體驗(yàn)這項(xiàng)令人興奮的技術(shù)創(chuàng)新。
Q&A
Q1:Ovis2.5相比傳統(tǒng)AI視覺模型有什么突破性改進(jìn)?
A:Ovis2.5最大的突破是采用了原生分辨率處理技術(shù),能夠直接處理各種尺寸的原始圖片,不需要切割或壓縮,就像為AI配了一副完美眼鏡。同時(shí)它還具備思考模式,遇到復(fù)雜問題時(shí)會(huì)進(jìn)行深度推理和自我檢查,而不是急于給出答案。
Q2:Ovis2.5的思考模式是如何工作的?
A:思考模式讓AI在回答問題前進(jìn)行內(nèi)在推理,用戶可以選擇查看完整的思考過程。AI會(huì)多角度分析問題,提出假設(shè),甚至自我質(zhì)疑和糾錯(cuò),就像人類學(xué)者的思維軌跡。用戶可根據(jù)需求選擇開啟或關(guān)閉這個(gè)模式,在速度和準(zhǔn)確性之間找到平衡。
Q3:普通人可以在哪些場景使用Ovis2.5?
A:Ovis2.5可以作為學(xué)習(xí)助手幫助解題和理解復(fù)雜概念,協(xié)助分析各種圖表和文檔,識(shí)別圖片中的文字內(nèi)容,解讀說明書或合同條款等。對(duì)視力受損用戶來說更是貼心助手,能詳細(xì)描述各種圖片和文檔內(nèi)容,在教育、醫(yī)療、商業(yè)分析等多個(gè)領(lǐng)域都有廣泛應(yīng)用前景。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。