
這項令人矚目的研究來自微軟研究院,由該院的江令杰、黃紹涵、吳珣、李藝霞、張東東以及魏富儒共同完成,同時還有來自北京大學和南方科技大學的合作研究人員參與。這項名為"VisCodex"的研究成果發(fā)表于2025年8月,展現(xiàn)了人工智能領(lǐng)域的一個重要突破。有興趣深入了解的讀者可以通過論文的GitHub頁面(https://github.com/JackLingjie/VisCodex)訪問完整的代碼和數(shù)據(jù)資源。
在人工智能的發(fā)展歷程中,我們見證了許多專門化的"天才"——有的擅長理解圖像,有的精通編寫代碼,還有的能夠進行多模態(tài)對話。但就像現(xiàn)實生活中很少有人既是優(yōu)秀的畫家又是杰出的程序員一樣,讓AI同時具備視覺理解能力和編程技能一直是個巨大挑戰(zhàn)。微軟研究院的這項工作就像培養(yǎng)了一位"AI達芬奇",它不僅能夠"看懂"圖像內(nèi)容,還能根據(jù)所看到的內(nèi)容編寫出功能完整的代碼。
這個問題的復雜性在于,傳統(tǒng)的多模態(tài)大語言模型雖然在圖像理解和文本對話方面表現(xiàn)出色,但當涉及到需要同時運用視覺理解和編程技能的任務(wù)時,往往力不從心。比如,當你向這些模型展示一個網(wǎng)頁截圖并要求它編寫相應(yīng)的HTML代碼時,或者展示一個數(shù)據(jù)圖表要求生成對應(yīng)的Python繪圖代碼時,它們經(jīng)常會在代碼的準確性和功能完整性方面出現(xiàn)問題。這就像讓一個只會看畫但不懂繪畫技巧的人去臨摹一幅復雜的藝術(shù)作品一樣困難。
研究團隊面臨的核心挑戰(zhàn)是如何讓AI模型既保持強大的視覺理解能力,又具備扎實的編程功底。傳統(tǒng)的解決方案通常需要從頭訓練一個全新的模型,這不僅耗費大量計算資源,還可能在整合不同能力時產(chǎn)生"顧此失彼"的問題。就像培養(yǎng)一個全才需要在多個領(lǐng)域投入大量時間和精力,AI模型的多技能整合也面臨著類似的資源分配難題。
微軟研究院的解決方案頗具創(chuàng)新性。他們沒有選擇重新訓練一個龐大的模型,而是采用了一種類似"技能融合"的巧妙方法。研究團隊將這種方法稱為"任務(wù)向量模型融合",這個概念可以用一個生動的比喻來理解:想象你有兩位專家朋友,一位是視覺藝術(shù)專家,另一位是編程高手?,F(xiàn)在你需要創(chuàng)造一個既懂藝術(shù)又懂編程的"復合型專家"。與其從零開始培養(yǎng)這樣一個人才,不如想辦法將兩位專家的專業(yè)知識和技能進行有機整合。
在技術(shù)實現(xiàn)上,研究團隊首先識別出每個專門模型的"專業(yè)技能精髓"——也就是所謂的任務(wù)向量。這些任務(wù)向量就像是每個專家的"技能包",包含了他們在特定領(lǐng)域的核心能力。對于視覺語言模型,這個技能包包含了如何理解圖像、如何將視覺信息與文本信息建立聯(lián)系等能力。對于編程模型,技能包則包含了代碼語法理解、算法邏輯構(gòu)建、程序功能實現(xiàn)等編程相關(guān)的核心技能。
模型融合的過程就像是在調(diào)制一杯完美的雞尾酒。研究團隊不是簡單地將兩種"原料"等量混合,而是通過精心設(shè)計的配比來確保最終的"成品"既保持原有的優(yōu)勢特色,又能產(chǎn)生新的協(xié)同效應(yīng)。具體來說,他們使用一個權(quán)重參數(shù)λ來控制不同技能的融合比例。當λ設(shè)置為0.7時,意味著70%的權(quán)重給予視覺語言能力,30%給予編程能力。這種精確的比例控制確保了最終模型既不會失去原有的視覺理解優(yōu)勢,也不會在編程能力方面有所妥協(xié)。
更巧妙的是,研究團隊只對模型的語言處理核心部分進行融合操作,而保持視覺編碼器和跨模態(tài)連接模塊不變。這就像在改造一個復雜機器時,只更換核心處理器而保持感知系統(tǒng)和連接部件原樣,這樣既能獲得新的處理能力,又能確保系統(tǒng)的穩(wěn)定性和兼容性。
為了支撐這項研究,團隊還構(gòu)建了一個名為"多模態(tài)編程數(shù)據(jù)集"的龐大資源庫,包含了598,000個精心挑選和整理的樣本。這個數(shù)據(jù)集就像是為AI準備的"綜合練習冊",涵蓋了四個主要的學習方向。
首先是增強版HTML代碼生成,占數(shù)據(jù)集的33%。研究團隊發(fā)現(xiàn)現(xiàn)有的網(wǎng)頁代碼數(shù)據(jù)集存在諸多問題,比如圖片鏈接失效、CSS樣式簡陋、整體視覺效果不佳等。為了解決這些問題,他們采用了一種創(chuàng)新的"圖像驅(qū)動生成"方法。這個過程就像請一位經(jīng)驗豐富的網(wǎng)頁設(shè)計師,根據(jù)給定的設(shè)計草圖重新創(chuàng)作一個全新的、更加精美的網(wǎng)頁。他們從現(xiàn)有數(shù)據(jù)中選取了56萬張網(wǎng)頁圖像作為"設(shè)計靈感",然后使用GPT-4o重新設(shè)計和編寫對應(yīng)的HTML代碼,確保生成的網(wǎng)頁不僅功能完善,而且視覺效果出色。
第二部分是圖表轉(zhuǎn)代碼數(shù)據(jù),占35%。這部分數(shù)據(jù)來源于兩個渠道:一是現(xiàn)有的16.4萬個合成圖表樣本,二是從GitHub收集的真實Python matplotlib腳本。對于后者,研究團隊面臨著代碼質(zhì)量參差不齊的挑戰(zhàn)。就像整理一個雜亂的工具箱,他們需要從12.9萬個原始腳本中篩選出高質(zhì)量的代碼。這個過程包括了代碼重寫、格式標準化、圖表類型分類等步驟,最終保留了4.6萬個優(yōu)質(zhì)的圖表代碼對。整個篩選過程就像一個嚴格的質(zhì)量檢查流程,確保每個代碼樣本都能生成美觀、準確的可視化圖表。
第三部分是圖像增強版代碼問答數(shù)據(jù),占10%。這些數(shù)據(jù)來自Stack Overflow這個程序員聚集的問答社區(qū),特別關(guān)注那些包含圖像的編程問題。研究團隊從海量的帖子中篩選出那些"圖片不可或缺"的問題——也就是說,如果沒有圖片,僅憑文字描述無法準確理解和解決的編程問題。這個篩選過程就像從圖書館中挑選那些"圖文并茂且缺一不可"的參考資料。最終,他們整理出了5.9萬個高質(zhì)量的圖像增強版編程問答對。
最后一部分是算法編程題,占22%。為了確保模型不會因為專注于多模態(tài)能力而忽視基礎(chǔ)的編程邏輯思維,研究團隊特意加入了12.9萬個算法編程題目。這些題目涵蓋了LeetCode、Codeforces等知名編程競賽平臺的經(jīng)典問題,就像為學生準備的數(shù)學基礎(chǔ)練習題,確保AI在學習新技能的同時不會丟失原有的邏輯推理能力。
除了構(gòu)建強大的訓練數(shù)據(jù),研究團隊還開發(fā)了一個名為"InfiBench-V"的專門測試基準。如果說訓練數(shù)據(jù)是AI的"課本",那么這個測試基準就是"期末考試"。與現(xiàn)有的測試往往只關(guān)注單一技能不同,InfiBench-V專門設(shè)計用來評估AI在"看圖編程"這種復合任務(wù)上的表現(xiàn)。
InfiBench-V的構(gòu)建過程體現(xiàn)了研究團隊的嚴謹態(tài)度。他們從Stack Overflow收集了約100萬個包含圖像的編程問題,然后通過多輪篩選,最終挑選出322個最具代表性的問題組成測試集。這個篩選過程就像選拔奧運會參賽選手一樣嚴格:首先從海量候選中篩選出4萬個高質(zhì)量問題,然后使用GPT-4o進一步過濾,只保留那些"圖像信息不可缺少"的問題,最后由領(lǐng)域?qū)<胰斯ぬ暨x出最終的322題。
這些測試題目涵蓋了13種編程語言和5個主要技術(shù)領(lǐng)域:前端開發(fā)(占31%)、后端開發(fā)(占23%)、數(shù)據(jù)科學與機器學習(占30%)、移動端和桌面應(yīng)用開發(fā)(占13%),以及IT運維(占3%)。這種多樣化的覆蓋確保了測試的全面性,就像一次綜合性的技能認證考試,能夠全方位檢驗AI的多模態(tài)編程能力。
為了確保測試結(jié)果的客觀性和準確性,研究團隊設(shè)計了三種評估方法。第一種是關(guān)鍵詞匹配,適用于那些有明確技術(shù)要求的問題。就像檢查學生作文是否包含了指定的關(guān)鍵概念一樣,系統(tǒng)會檢查AI生成的代碼中是否包含了解決問題所必需的關(guān)鍵元素。第二種是單元測試,主要用于評估代碼功能的正確性。這種方法就像讓程序"實際跑一跑",看看能不能產(chǎn)生預期的結(jié)果。第三種是使用GPT-4o作為評判員,特別適用于那些需要綜合理解和評價的復雜問題。
在實際測試中,VisCodex展現(xiàn)出了令人印象深刻的性能。在設(shè)計轉(zhuǎn)代碼(Design2Code)基準測試中,8B參數(shù)版本的VisCodex在低級特征識別和高級語義理解方面分別達到了90.1%和90.9%的準確率,這個成績不僅超越了所有同等規(guī)模的開源模型,甚至接近了GPT-4o這樣的商業(yè)模型的表現(xiàn)。在圖表模仿(ChartMimic)任務(wù)中,VisCodex同樣表現(xiàn)出色,在低級和高級評估指標上分別達到了74.8%和74.1%的得分。
更大規(guī)模的33B參數(shù)版本表現(xiàn)更加出色。在所有測試項目中,它都取得了最佳成績:設(shè)計轉(zhuǎn)代碼任務(wù)達到90.5%和91.1%,圖表生成任務(wù)達到79.3%和78.5%,綜合平均分達到72.3%,已經(jīng)非常接近GPT-4o的73.3%。這個結(jié)果說明,通過巧妙的模型融合策略,開源模型已經(jīng)能夠在多模態(tài)編程任務(wù)上與最先進的商業(yè)模型一較高下。
研究團隊還進行了詳細的對比實驗來驗證他們方法的有效性。他們發(fā)現(xiàn),模型融合策略相比于不進行融合的基礎(chǔ)模型,在各項測試中都有顯著提升。更重要的是,他們比較了不同的編程模型作為融合對象的效果,發(fā)現(xiàn)專門針對編程任務(wù)優(yōu)化的模型確實能夠帶來更好的融合效果,這進一步證實了"專業(yè)模型融合"策略的正確性。
為了驗證方法的通用性,研究團隊還在其他架構(gòu)的模型上進行了測試。他們使用基于Llama3.1架構(gòu)的模型進行了類似的融合實驗,結(jié)果同樣顯示出了性能提升,這說明他們提出的方法不僅適用于特定的模型架構(gòu),而是具有廣泛的適用性。
在數(shù)據(jù)質(zhì)量方面,研究團隊通過與現(xiàn)有數(shù)據(jù)集的對比驗證了他們構(gòu)建的多模態(tài)編程數(shù)據(jù)集的優(yōu)越性。與WebCode2M和Web2Code等現(xiàn)有數(shù)據(jù)集相比,他們的數(shù)據(jù)集在各項評估指標上都取得了更好的成績,特別是在布局敏感的指標和視覺保真度方面表現(xiàn)突出,這表明高質(zhì)量的訓練數(shù)據(jù)對于提升模型性能的重要作用。
這項研究的意義遠超出了技術(shù)本身的突破。在實際應(yīng)用中,這種能夠同時理解視覺內(nèi)容和生成代碼的AI系統(tǒng)將為軟件開發(fā)、網(wǎng)頁設(shè)計、數(shù)據(jù)可視化等多個領(lǐng)域帶來革命性的改變。開發(fā)者可以通過簡單地展示設(shè)計圖或數(shù)據(jù)圖表,就能獲得相應(yīng)的代碼實現(xiàn),大大提高工作效率。對于非技術(shù)背景的用戶來說,這種技術(shù)降低了從想法到實現(xiàn)的門檻,讓更多人能夠參與到數(shù)字化創(chuàng)作中來。
更重要的是,這項研究展示了一種新的AI能力整合思路。與傳統(tǒng)的"從頭訓練大模型"不同,通過精巧的模型融合技術(shù),可以更高效地創(chuàng)造出具備多種專業(yè)技能的AI系統(tǒng)。這種方法不僅節(jié)約了計算資源,也為未來構(gòu)建更加智能、更加通用的AI系統(tǒng)提供了新的可能性。
從技術(shù)發(fā)展的角度來看,VisCodex代表了多模態(tài)AI發(fā)展的一個重要里程碑。它不僅在技術(shù)指標上取得了突破,更重要的是驗證了"專業(yè)模型協(xié)同"這一設(shè)計理念的可行性。這種理念可能會影響未來AI系統(tǒng)的設(shè)計思路,推動從"單一巨型模型"向"專業(yè)模型協(xié)同"的范式轉(zhuǎn)變。
當然,這項研究也面臨一些挑戰(zhàn)和限制。雖然在測試中表現(xiàn)出色,但在處理一些極端復雜或者全新類型的多模態(tài)編程任務(wù)時,模型可能仍然存在不足。此外,模型融合的最優(yōu)比例可能因具體任務(wù)而異,如何自動確定最佳融合策略仍然是一個有待進一步研究的問題。
展望未來,這項研究為多模態(tài)AI的發(fā)展開辟了新的方向。隨著更多專業(yè)化模型的出現(xiàn)和模型融合技術(shù)的不斷完善,我們可以期待看到更多具備多重專業(yè)技能的AI系統(tǒng)。這些系統(tǒng)不僅能夠在各自的專業(yè)領(lǐng)域表現(xiàn)出色,還能在跨領(lǐng)域的復雜任務(wù)中展現(xiàn)出強大的綜合能力。
說到底,微軟研究院的這項工作向我們展示了AI發(fā)展的一個新可能:不是通過建造更大的"萬能機器",而是通過讓不同的"專家機器"學會協(xié)作,來創(chuàng)造出更加智能和實用的AI系統(tǒng)。這種思路不僅在技術(shù)上更加高效,也更符合人類社會中"術(shù)業(yè)有專攻、協(xié)作出佳績"的智慧。對于普通用戶來說,這意味著我們很快就能擁有真正的"AI助手",它們不僅能理解我們的想法,還能將想法轉(zhuǎn)化為具體的數(shù)字化成果。而對于整個AI領(lǐng)域來說,這項研究可能預示著一個更加多元化、專業(yè)化、協(xié)作化的AI生態(tài)系統(tǒng)的到來。
Q&A
Q1:VisCodex與普通AI編程助手有什么區(qū)別?
A:VisCodex最大的特點是能同時"看懂"圖像和編寫代碼。比如你給它看一個網(wǎng)頁截圖,它就能寫出對應(yīng)的HTML代碼;給它看一個數(shù)據(jù)圖表,它就能生成相應(yīng)的Python繪圖代碼。而普通的AI編程助手通常只能處理純文本的編程問題,無法理解圖像內(nèi)容。
Q2:VisCodex是如何實現(xiàn)既能看圖又能編程的?
A:微軟研究團隊采用了"模型融合"技術(shù),就像讓兩個專家合作一樣。他們將擅長圖像理解的視覺語言模型和專精編程的代碼模型進行巧妙融合,通過精確的權(quán)重控制讓最終模型既保持視覺理解能力,又具備強大的編程技能,而不是從頭訓練一個全新的大模型。
Q3:普通人能使用VisCodex嗎?有什么實際用處?
A:雖然目前還是研究階段,但VisCodex的技術(shù)將來可能讓非技術(shù)人員也能輕松進行網(wǎng)頁開發(fā)和數(shù)據(jù)可視化。比如設(shè)計師可以直接用設(shè)計圖生成網(wǎng)頁代碼,數(shù)據(jù)分析師可以通過圖表樣例快速生成繪圖代碼,大大降低了從創(chuàng)意到實現(xiàn)的技術(shù)門檻。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。