這項由阿里云Skywork AI團隊和昆侖公司聯(lián)合完成的突破性研究發(fā)表于2025年6月,研究團隊包括王曉琨、王佩宇、裴江波、沈偉等多位專家,他們的研究成果已在arXiv平臺公開發(fā)布(論文編號:arXiv:2505.07263v2)。有興趣深入了解的讀者可以通過https://huggingface.co/Skywork/Skywork-VL-Reward-7B訪問完整模型和技術(shù)資料。
想象你正在教導一個聰明的學生如何理解圖片和文字的組合內(nèi)容,但這個學生需要學會的不僅僅是看懂內(nèi)容,更要懂得什么樣的回答才是人類真正想要的。這正是阿里云研究團隊面臨的挑戰(zhàn)。在人工智能快速發(fā)展的今天,雖然能夠同時理解圖像和文字的AI模型已經(jīng)相當先進,但如何讓這些模型的回答更貼近人類偏好,卻一直是個技術(shù)難題。
傳統(tǒng)的文字AI已經(jīng)有了相當成熟的"評分系統(tǒng)"來判斷回答質(zhì)量,就像考試中的標準答案一樣。但當AI需要同時處理圖片和文字時,這套評分系統(tǒng)就顯得力不從心了?,F(xiàn)有的多模態(tài)獎勵模型就像只會簡單打分的老師,無法準確評估復(fù)雜的視覺推理過程,特別是那些需要深度思考的高難度問題。
阿里云團隊開發(fā)的Skywork-VL Reward模型就像是一位經(jīng)驗豐富的全能教師,不僅能理解圖片和文字的結(jié)合,更能準確判斷什么樣的回答更符合人類期望。這個模型基于著名的Qwen2.5-VL-7B-Instruct架構(gòu)構(gòu)建,包含70億個參數(shù),經(jīng)過精心設(shè)計的兩階段訓練過程,最終能夠為多模態(tài)AI的回答提供精準的質(zhì)量評分。
**一、構(gòu)建史上最全面的多模態(tài)偏好數(shù)據(jù)庫**
要訓練出一個優(yōu)秀的"AI評委",首先需要大量高質(zhì)量的"評分標準"數(shù)據(jù)。研究團隊就像收集食譜的大廚一樣,從各個渠道匯集了約19萬個精心篩選的對比樣本,這些樣本覆蓋了從簡單圖片描述到復(fù)雜推理任務(wù)的各種場景。
這個龐大的數(shù)據(jù)集主要來源于三個重要渠道。第一個是LLaVA-Critic-113k數(shù)據(jù)集,包含11.3萬個多模態(tài)樣本,每個樣本都配有詳細的質(zhì)量評判和解釋說明,就像美食評論不僅給出星級評分,還詳細說明評分理由。第二個是Skywork-Reward-Preference-80K數(shù)據(jù)集,雖然是純文本數(shù)據(jù),但經(jīng)過精心篩選,能夠顯著提升模型對文字內(nèi)容的理解和評判能力。第三個是RLAIF-V數(shù)據(jù)集,包含超過8.3萬個偏好對比樣本,來源廣泛,能夠增強模型在不同場景下的泛化能力。
除了這些公開數(shù)據(jù),研究團隊還創(chuàng)建了一個獨特的內(nèi)部數(shù)據(jù)集,專門針對復(fù)雜推理任務(wù)。這個數(shù)據(jù)集包含約5萬個精心設(shè)計的對比樣本,主要涵蓋數(shù)學、物理、生物和化學等科學領(lǐng)域的多模態(tài)推理問題。這些問題就像高考中的綜合應(yīng)用題,需要AI不僅看懂圖表和公式,還要進行多步驟的邏輯推理。
數(shù)據(jù)收集完成后,團隊還進行了三個階段的精心篩選和優(yōu)化。第一階段像圖書管理員整理書籍一樣,去除重復(fù)和相似的樣本,篩選出約20萬個高質(zhì)量的獨特樣本。第二階段使用一個初步訓練的模型對所有數(shù)據(jù)進行預(yù)評分,就像預(yù)審員篩選材料,對評分過低或評分差異過小的樣本用GPT-4o重新生成更優(yōu)質(zhì)的回答。第三階段專門針對推理類任務(wù),使用兩種不同的方法生成回答:一種是直接生成,另一種是先用視覺模型描述圖像,再用推理模型生成答案,這樣能夠涵蓋不同類型的推理路徑。
**二、創(chuàng)新的雙階段訓練策略**
訓練Skywork-VL Reward就像培養(yǎng)一位全能評委,需要分階段進行專門訓練。研究團隊采用了巧妙的雙階段訓練策略,確保模型既能精通多模態(tài)內(nèi)容,又能在純文本任務(wù)上保持競爭力。
在模型架構(gòu)方面,團隊對原有的Qwen2.5-VL-7B-Instruct模型進行了精心改造。原本這個模型就像一個能看圖說話的學生,現(xiàn)在研究團隊把它改造成了一個能給回答打分的評委。具體來說,他們移除了原本用于生成文字的輸出層,替換成一個專門的評分頭,這個評分頭就像評委手中的記分牌,能夠根據(jù)輸入的圖片、問題和回答給出一個精確的質(zhì)量分數(shù)。
第一階段的訓練專注于多模態(tài)理解能力。在這個階段,模型主要學習如何同時處理圖像和文字信息,就像學生先要掌握基礎(chǔ)的看圖理解能力。訓練過程中,研究團隊采用了部分參數(shù)凍結(jié)策略,就像保護珍貴文物一樣,凍結(jié)了模型中負責視覺理解的核心組件,只訓練負責融合和評判的部分,這樣既保持了原有的視覺能力,又能高效地學習新的評分技能。
第二階段則加入了純文本數(shù)據(jù),讓模型在保持多模態(tài)能力的同時,不忘記如何處理純文字任務(wù)。這就像讓一個既會畫畫又會寫作的藝術(shù)家,確保兩種技能都不退化。整個訓練過程使用了經(jīng)典的配對排序損失函數(shù),這種方法不追求給出絕對的分數(shù),而是專注于判斷哪個回答更好,就像奧運會評委不需要知道每個動作的絕對分數(shù),只需要準確排出名次即可。
訓練過程中,團隊使用AdamW優(yōu)化器,第一階段采用相對較高的學習率,第二階段則降低學習率進行精細調(diào)整。每個階段都訓練2個輪次,研究團隊發(fā)現(xiàn)這樣的設(shè)置既能確保收斂,又不會過度擬合。
**三、多維度基準測試驗證模型性能**
為了全面驗證Skywork-VL Reward的實際表現(xiàn),研究團隊設(shè)計了comprehensive的評估體系,就像給新車進行全方位的路測一樣。
在多模態(tài)任務(wù)的核心測試VL-RewardBench上,Skywork-VL Reward展現(xiàn)出了令人矚目的性能。這個基準測試包含1250個精心設(shè)計的測試樣本,涵蓋一般多模態(tài)理解、視覺幻覺檢測和復(fù)雜推理三個維度。結(jié)果顯示,Skywork-VL Reward在綜合性能上達到73.1%的準確率,超越了包括Gemini-2.0-flash在內(nèi)的所有專有模型,在開源模型中更是遙遙領(lǐng)先。
特別值得關(guān)注的是,在視覺幻覺檢測這個最具挑戰(zhàn)性的任務(wù)上,Skywork-VL Reward取得了80.0%的驚人成績,大幅超越了其他所有模型。視覺幻覺是指AI模型在描述圖像時出現(xiàn)的事實性錯誤,比如把圖片中的紅色汽車說成藍色,或者聲稱看到了實際不存在的物體。這種錯誤在實際應(yīng)用中可能造成嚴重后果,因此準確識別和評判這類錯誤的能力極其重要。
在純文本任務(wù)的RewardBench測試中,模型同樣表現(xiàn)優(yōu)異,達到90.1%的平均分數(shù)。這個結(jié)果證明了雙階段訓練策略的有效性——模型在學會處理復(fù)雜多模態(tài)任務(wù)的同時,并沒有損失處理純文本的能力。在具體的子任務(wù)中,模型在安全性判斷和推理任務(wù)上都取得了91%以上的高分,顯示出良好的綜合素質(zhì)。
研究團隊還通過具體案例展示了模型的判斷能力。在一個幾何計算題中,模型需要評判兩個都得出正確答案但推理過程不同的回答。優(yōu)質(zhì)回答直接使用正確公式進行簡潔計算,而劣質(zhì)回答則充滿了反復(fù)修正和冗余解釋。Skywork-VL Reward準確地給優(yōu)質(zhì)回答打出5.86分,給劣質(zhì)回答打出-15.5分,顯示出對推理質(zhì)量的敏銳判斷力。在另一個圖表分析案例中,面對詢問哪個國家在貧困率圖表中柱狀圖最長的問題,模型同樣能夠區(qū)分簡潔準確的回答和重復(fù)冗余的表述。
**四、實際應(yīng)用中的顯著效果提升**
Skywork-VL Reward不僅在基準測試中表現(xiàn)優(yōu)異,在實際應(yīng)用中也展現(xiàn)出強大的實用價值。研究團隊將其應(yīng)用于混合偏好優(yōu)化訓練過程中,結(jié)果顯示這種應(yīng)用能夠顯著提升AI模型的多模態(tài)推理能力。
在MathVista這個極具挑戰(zhàn)性的數(shù)學推理基準測試中,使用Skywork-VL Reward指導的模型訓練取得了明顯進步?;A(chǔ)模型的準確率為69.2%,經(jīng)過不同獎勵模型指導訓練后,使用Qwen2.5-VL-7B-Instruct指導能達到71.2%,使用InternVL3-8B指導能達到71.8%,而使用Skywork-VL Reward指導則能達到73.5%的最高水平。這4.3個百分點的提升看似不大,但在如此困難的任務(wù)上,這樣的提升是非常顯著的。
這種提升的背后反映了Skywork-VL Reward對復(fù)雜推理過程的深度理解能力。傳統(tǒng)的獎勵模型往往只能判斷最終答案的對錯,但Skywork-VL Reward能夠評估整個推理鏈條的質(zhì)量,包括邏輯的清晰性、步驟的合理性以及表達的簡潔性。這種細致的判斷能力使得AI模型能夠?qū)W習到更好的推理模式,而不僅僅是死記硬背正確答案。
混合偏好優(yōu)化的過程就像讓AI模型在多位優(yōu)秀老師的指導下學習,每位老師都有自己的專長和判斷標準。Skywork-VL Reward在這個過程中扮演了一位特別優(yōu)秀的導師角色,它不僅關(guān)注答案的正確性,更重視推理過程的質(zhì)量和表達的清晰度。
**五、技術(shù)創(chuàng)新與未來展望**
Skywork-VL Reward的成功源于多項技術(shù)創(chuàng)新的巧妙結(jié)合。首先是大規(guī)模高質(zhì)量數(shù)據(jù)集的構(gòu)建,研究團隊不僅收集了現(xiàn)有的優(yōu)質(zhì)數(shù)據(jù),還專門針對復(fù)雜推理任務(wù)創(chuàng)建了獨特的數(shù)據(jù)集。其次是巧妙的模型架構(gòu)設(shè)計,通過替換輸出層并采用部分參數(shù)凍結(jié)策略,在保持原有能力的基礎(chǔ)上高效學習新技能。再次是創(chuàng)新的雙階段訓練方法,確保模型既精通多模態(tài)任務(wù)又不忘記文本處理能力。
這項研究的意義遠超技術(shù)本身。隨著多模態(tài)AI在教育、醫(yī)療、自動駕駛等領(lǐng)域的廣泛應(yīng)用,如何確保AI的回答質(zhì)量和安全性變得至關(guān)重要。Skywork-VL Reward提供了一個可靠的評估工具,就像為AI世界建立了一套通用的"質(zhì)量標準"。
當前的研究主要關(guān)注結(jié)果導向的評估,即只評判最終回答的質(zhì)量。未來的發(fā)展方向可能會轉(zhuǎn)向過程導向的評估,即對推理過程中的每個步驟都進行評分和指導。這種更細粒度的評估能夠幫助AI模型學習更好的思維模式,而不僅僅是正確的答案。
研究團隊已經(jīng)將Skywork-VL Reward開源,這意味著全世界的研究者和開發(fā)者都能使用這個工具來改進自己的AI系統(tǒng)。這種開放的態(tài)度將有助于推動整個行業(yè)的進步,讓更多優(yōu)秀的多模態(tài)AI系統(tǒng)涌現(xiàn)出來。
說到底,Skywork-VL Reward代表了AI理解人類偏好這一關(guān)鍵技術(shù)的重要進展。它不僅能夠準確評估AI的多模態(tài)表現(xiàn),更為構(gòu)建更智能、更可靠的AI系統(tǒng)提供了重要工具。隨著這項技術(shù)的不斷完善和應(yīng)用,我們有理由期待未來的AI助手能夠更好地理解我們的需求,提供更加貼心和準確的服務(wù)。對于普通用戶而言,這意味著與AI交互將變得更加自然和高效,無論是詢問圖片內(nèi)容、尋求學習幫助,還是進行復(fù)雜的分析推理,AI都能給出更符合期望的回答。這項研究真正體現(xiàn)了技術(shù)為人類服務(wù)的理念,讓AI變得更加智能的同時,也更加貼近人心。
Q&A
Q1:Skywork-VL Reward是什么?它能做什么? A:Skywork-VL Reward是阿里云開發(fā)的多模態(tài)AI評分系統(tǒng),就像一位能同時理解圖片和文字的專業(yè)評委。它能判斷AI回答圖文問題的質(zhì)量,特別擅長評估復(fù)雜推理過程,幫助訓練出更優(yōu)秀的AI模型。
Q2:這個模型會不會取代人類評估? A:目前不會完全取代人類,但能大大提高評估效率。它更像是人類評估專家的得力助手,能夠處理大量重復(fù)性評估工作,但復(fù)雜的創(chuàng)意性和倫理性判斷仍需要人類參與。
Q3:普通用戶能使用這個技術(shù)嗎? A:研究團隊已經(jīng)將模型開源(網(wǎng)址:https://huggingface.co/Skywork/Skywork-VL-Reward-7B),技術(shù)開發(fā)者可以直接使用。對普通用戶來說,這項技術(shù)會間接改善各種AI應(yīng)用的回答質(zhì)量,讓AI助手變得更聰明更貼心。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。