av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 UC Santa Cruz團隊大幅精簡視覺編碼器訓(xùn)練:OpenVision 2讓AI"看圖說話"訓(xùn)練速度提升1.5倍

UC Santa Cruz團隊大幅精簡視覺編碼器訓(xùn)練:OpenVision 2讓AI"看圖說話"訓(xùn)練速度提升1.5倍

2025-09-23 11:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-23 11:05 ? 科技行者

這項由加州大學(xué)圣克魯茲分校的劉彥青、李先航等研究人員,聯(lián)合蘋果公司和加州大學(xué)伯克利分校共同完成的研究,發(fā)表于2025年9月的arXiv預(yù)印本平臺。感興趣的讀者可以通過項目頁面https://ucsc-vlaa.github.io/OpenVision2 或論文鏈接arXiv:2509.01644v1訪問完整研究內(nèi)容。

想象一下教孩子認識世界的過程。傳統(tǒng)方法就像同時讓孩子看圖片、聽描述,還要他們把圖片和文字配對連線,這樣雖然學(xué)得全面,但過程繁瑣耗時。而現(xiàn)在,研究團隊發(fā)現(xiàn)了一個更簡單高效的方法:只要讓AI直接看圖片然后描述出來就夠了,就像讓孩子看到蘋果直接說"這是紅色的蘋果"一樣自然。

在人工智能的世界里,教會機器"看懂"圖片一直是個復(fù)雜的工程。就好比培養(yǎng)一個藝術(shù)鑒賞家,傳統(tǒng)做法需要讓他既學(xué)會看畫,又學(xué)會讀文字,還要學(xué)會把畫和文字對應(yīng)起來。這種叫做"對比學(xué)習(xí)"的方法雖然效果不錯,但就像同時學(xué)三門課程一樣費時費力。UC Santa Cruz的研究團隊卻發(fā)現(xiàn),其實只要專心訓(xùn)練機器"看圖說話"這一項技能就足夠了。

他們開發(fā)的OpenVision 2系統(tǒng),就像把原來的三合一課程簡化成了單科集訓(xùn)。原本的OpenVision需要一個圖像編碼器來"看圖",一個文本編碼器來"讀字",還需要一個文本生成器來"說話"。而OpenVision 2直接砍掉了文本編碼器這個中間環(huán)節(jié),讓圖像編碼器直接和文本生成器對話,就像讓學(xué)生跳過復(fù)雜的理論課,直接進入實踐操作一樣。

這種簡化帶來的效果令人驚喜。以ViT-L/14模型為例,訓(xùn)練時間從83小時縮短到57小時,內(nèi)存使用量從24.5GB降到13.8GB,這意味著研究人員可以用更小的計算資源訓(xùn)練更大的模型。更重要的是,這種簡化并沒有犧牲性能。在各種視覺理解任務(wù)上,OpenVision 2的表現(xiàn)與原版不相上下,在某些OCR(光學(xué)字符識別)任務(wù)上甚至表現(xiàn)更好。

研究團隊的發(fā)現(xiàn)挑戰(zhàn)了長期以來的一個觀念:要訓(xùn)練出優(yōu)秀的視覺編碼器,就必須使用CLIP式的對比學(xué)習(xí)方法。他們證明,純粹的生成式訓(xùn)練(也就是"看圖說話"的方法)不僅可行,而且在很多情況下更好。這就像發(fā)現(xiàn)了一條更直接的學(xué)習(xí)路徑,既省力又高效。

一、從復(fù)雜到簡單的革命性轉(zhuǎn)變

OpenVision的原始設(shè)計就像一個全能型學(xué)習(xí)系統(tǒng)。它需要處理兩種不同類型的圖片描述:一種是從網(wǎng)上抓取的原始描述,通常比較簡單粗糙,比如"一只橙色的貓坐在臺階上";另一種是由高級AI模型生成的詳細描述,能夠描述"圖片中有一只毛茸茸的橙色虎斑小貓,坐在風化的淺色木質(zhì)臺階上,它的眼睛大而圓,呈現(xiàn)柔和的橙棕色,給人以好奇的表情"這樣的細致內(nèi)容。

原來的訓(xùn)練過程就像開辦一個三重課程的學(xué)習(xí)班。首先,系統(tǒng)要學(xué)會對比不同的圖像和文本對,就像讓學(xué)生練習(xí)看圖識字的配對游戲。同時,它還要學(xué)會根據(jù)圖像和簡單描述來生成詳細描述,這相當于看圖作文的練習(xí)。整個過程需要維護三個獨立的神經(jīng)網(wǎng)絡(luò)組件,每個都需要大量的計算資源和存儲空間。

OpenVision 2的革命性改變就在于徹底拋棄了這種復(fù)雜的三重結(jié)構(gòu)。新系統(tǒng)就像一個專心致志的學(xué)生,只專注于一件事:看圖說話。當給它一張圖片時,它直接學(xué)習(xí)如何生成相應(yīng)的文字描述,不再需要復(fù)雜的對比和配對過程。這種方法借鑒了近年來CapPa和AIMv2等研究的思路,同時也與現(xiàn)代多模態(tài)系統(tǒng)如LLaVA的設(shè)計理念高度一致。

更巧妙的是,研究團隊還加入了一個"部分遮擋"的訓(xùn)練技巧。就像讓學(xué)生練習(xí)看不完整的圖片也能寫出完整描述一樣,系統(tǒng)在訓(xùn)練時會隨機遮住大約三分之二的視覺信息,只用剩余的三分之一來生成描述。這不僅進一步減少了計算負擔,還意外地提升了系統(tǒng)的理解能力,因為它必須學(xué)會從有限的信息中推斷出更多內(nèi)容。

這種簡化設(shè)計的另一個重要優(yōu)勢是解決了訓(xùn)練和應(yīng)用之間的不一致問題。原來的OpenVision在訓(xùn)練時使用對比學(xué)習(xí),但在實際應(yīng)用中(比如接入LLaVA這樣的對話系統(tǒng))卻要進行生成式任務(wù),這就像學(xué)生在課堂上練習(xí)選擇題,考試時卻要寫作文。OpenVision 2從一開始就專注于生成式訓(xùn)練,使得預(yù)訓(xùn)練階段與后續(xù)應(yīng)用完美對接。

二、數(shù)據(jù)質(zhì)量的關(guān)鍵突破

數(shù)據(jù)就像烹飪的原材料,質(zhì)量決定了最終成品的水準。OpenVision 2的成功很大程度上依賴于一個叫做"ReCap-DataComp-1B v2"的高質(zhì)量數(shù)據(jù)集。這個數(shù)據(jù)集的誕生過程就像請了一位頂級大廚來重新制作菜譜。

傳統(tǒng)的網(wǎng)絡(luò)爬取數(shù)據(jù)就像從各家小餐廳收集的菜譜,質(zhì)量參差不齊,有些描述過于簡單("一只貓"),有些又完全跑題。研究團隊決定用強大的LLaMA-3模型來重新"翻譯"這些圖片。這就好比請一位經(jīng)驗豐富的美食評論家重新品嘗每道菜,然后寫出詳細而準確的評價。

ReCap-DataComp-1B v2數(shù)據(jù)集的制作過程特別精妙。它不是簡單地讓AI看圖寫話,而是同時參考原始的簡單描述和圖片內(nèi)容,生成更加豐富和準確的描述。這就像讓評論家不僅要品嘗菜品,還要參考菜單說明,寫出既忠于原意又更加詳盡的評價。通過這種方法生成的描述既保持了多樣性,又確保了準確性。

實驗結(jié)果顯示,使用高質(zhì)量合成描述訓(xùn)練的模型在各項測試中都顯著優(yōu)于使用原始網(wǎng)絡(luò)描述訓(xùn)練的模型。在TextVQA任務(wù)上,性能提升了5.1分,在OCR任務(wù)上更是提升了53分。這種巨大的改進證明了"好的老師勝過復(fù)雜的教學(xué)方法"這一樸素道理。

研究團隊還發(fā)現(xiàn),完全使用合成數(shù)據(jù)訓(xùn)練的效果比混合使用真實和合成數(shù)據(jù)更好。這個發(fā)現(xiàn)頗有些顛覆性,就像發(fā)現(xiàn)標準化的教科書比各種雜七雜八的參考資料更適合學(xué)習(xí)一樣。這種一致性和高質(zhì)量的訓(xùn)練數(shù)據(jù)使得模型能夠?qū)W習(xí)到更加穩(wěn)定和可靠的視覺-語言對應(yīng)關(guān)系。

三、訓(xùn)練效率的顯著提升

OpenVision 2在訓(xùn)練效率方面的提升就像從手工制作轉(zhuǎn)向工業(yè)化生產(chǎn)。所有實驗都在Google Cloud的TPU v4上進行,這些專門為機器學(xué)習(xí)優(yōu)化的芯片就像是為AI訓(xùn)練量身定制的超級工廠。

最直觀的改進體現(xiàn)在訓(xùn)練時間上。使用ViT-L/14模型在224分辨率下訓(xùn)練時,時間從83小時縮短到57小時,相當于節(jié)省了約1.5倍的時間。當模型規(guī)模擴大到SoViT-400M時,這種效率提升更加明顯,訓(xùn)練時間從241小時減少到121小時,幾乎縮短了一半。這就像把一個需要一周完成的項目壓縮到三天內(nèi)完成,而質(zhì)量絲毫不受影響。

內(nèi)存使用量的改善同樣令人印象深刻。在相同的批處理大小下,OpenVision 2的內(nèi)存需求大約是原版的一半。這意味著研究人員可以在相同的硬件上訓(xùn)練更大的批次,或者用更少的設(shè)備完成同樣的訓(xùn)練任務(wù)。具體來說,ViT-L/14模型的內(nèi)存使用從24.5GB降到13.8GB,這使得最大批處理大小可以從2000提升到8000。

這種效率提升不僅僅是數(shù)字上的改進,它還開啟了新的可能性。研究團隊成功訓(xùn)練出了參數(shù)量超過10億的視覺編碼器,這在原來的OpenVision架構(gòu)下幾乎是不可想象的。就像更高效的生產(chǎn)線不僅能降低成本,還能制造出以前無法生產(chǎn)的大型產(chǎn)品一樣。

研究還詳細分析了不同優(yōu)化策略的貢獻。CLIPA優(yōu)化技術(shù)和token掩碼策略都對效率提升起到了重要作用,但兩者結(jié)合使用時效果最佳。CLIPA技術(shù)通過先在低分辨率圖像上預(yù)訓(xùn)練再在高分辨率上微調(diào)的方式大幅減少計算量,而token掩碼則進一步減少了文本解碼器的工作負擔。兩種技術(shù)的結(jié)合就像同時使用了高效的教學(xué)方法和精簡的課程內(nèi)容。

四、性能表現(xiàn)的全面驗證

為了驗證OpenVision 2的實際效果,研究團隊在兩個主要的多模態(tài)框架LLaVA-1.5和Open-LLaVA-Next上進行了全面測試。這就像讓一個新培養(yǎng)的學(xué)生同時參加不同學(xué)校的考試,以確保其能力的普適性。

測試涵蓋了八個不同類型的任務(wù),包括文本問答(TextVQA)、圖表問答(ChartQA)、光學(xué)字符識別(OCR)、多模態(tài)評估(MME)、種子基準測試(SEED)、科學(xué)問答(SQA)、通用問答(GQA)和教皇測試(POPE)。這些測試就像全科考試,從不同角度檢驗AI系統(tǒng)的視覺理解能力。

在LLaVA-1.5框架下的測試結(jié)果顯示,OpenVision 2不僅保持了與原版相當?shù)男阅?,在某些任?wù)上甚至表現(xiàn)更好。特別是在OCR相關(guān)任務(wù)上,新系統(tǒng)表現(xiàn)尤為突出。以ViT-L/14模型在224分辨率下的表現(xiàn)為例,TextVQA得分從57.7提升到59.0,OCR任務(wù)得分從315提升到327。這種提升就像學(xué)生不僅保持了原有的優(yōu)勢科目,還在薄弱環(huán)節(jié)有了顯著進步。

更令人驚喜的是,當模型規(guī)模擴大時,這種優(yōu)勢變得更加明顯。使用更大的H/14模型在448分辨率下訓(xùn)練時,OpenVision 2在TextVQA上達到65.6分,ChartQA達到18.1分,OCR任務(wù)達到416分,這些數(shù)字都顯著優(yōu)于同等條件下的基線模型。

在Open-LLaVA-Next框架下的測試進一步證實了這些發(fā)現(xiàn)。OpenVision 2在保持高性能的同時,顯著減少了訓(xùn)練成本。這種一致性表明,新方法的優(yōu)勢不是偶然現(xiàn)象,而是一種可靠的改進。

特別值得注意的是,研究團隊還成功訓(xùn)練出了參數(shù)量達到10.1億的超大模型OpenVision 2-g/14。這個巨型模型在各項測試中都表現(xiàn)出色,證明了新方法的可擴展性。這就像證明了一種新的教學(xué)方法不僅適用于小班教學(xué),也能在大規(guī)模教育中發(fā)揮作用。

五、技術(shù)細節(jié)的深入探索

OpenVision 2的核心創(chuàng)新可以通過幾個關(guān)鍵的設(shè)計決策來理解。首先是架構(gòu)簡化,原來需要三個獨立網(wǎng)絡(luò)組件的復(fù)雜系統(tǒng)被精簡為兩個組件。這種簡化就像把復(fù)雜的多道工序合并成流水線作業(yè),不僅減少了中間環(huán)節(jié)的損耗,還提高了整體效率。

token掩碼策略是另一個重要創(chuàng)新。在訓(xùn)練過程中,系統(tǒng)會隨機隱藏大約三分之二的視覺token,只用剩余的信息來生成文本描述。這種做法看似反直覺,但實際上促使模型學(xué)習(xí)更有效的信息提取方式。就像讓學(xué)生練習(xí)從不完整的材料中提取關(guān)鍵信息,反而能提高他們的理解和推理能力。

實驗發(fā)現(xiàn),保留25-35%的視覺token時效果最佳,這個比例既能提供足夠的信息支持文本生成,又能強制模型學(xué)會抓住最重要的視覺特征。如果保留太多token(如100%),模型可能會過度依賴細節(jié)而忽略整體理解;如果保留太少(如10%),則信息不足以支撐準確的描述生成。

與之前的研究相比,OpenVision 2在多個維度上都有所改進。相比CapPa,它使用了更高質(zhì)量的合成標注,采用了更簡單的融合方式,并且擴展到了更大的模型規(guī)模。相比AIMv2,它專注于純文本生成而不涉及圖像重建,使用了不同的token掩碼策略,并且數(shù)據(jù)完全基于合成標注。

數(shù)據(jù)處理方面,ReCap-DataComp-1B v2的生成策略特別值得關(guān)注。它在生成合成標注時同時考慮原始圖像和網(wǎng)絡(luò)標注,使用加權(quán)top-k采樣來平衡多樣性和準確性。這種方法就像讓AI評論家既要看作品又要參考別人的評價,寫出既有獨特見解又有一定共識基礎(chǔ)的評論。

六、對現(xiàn)有認知的挑戰(zhàn)

OpenVision 2的成功對計算機視覺領(lǐng)域的一個基本假設(shè)提出了挑戰(zhàn)。長期以來,研究界普遍認為CLIP式的對比學(xué)習(xí)是訓(xùn)練高質(zhì)量視覺編碼器的必要條件。這就像人們一直相信學(xué)習(xí)外語必須同時練習(xí)聽說讀寫四項技能一樣。

然而,OpenVision 2證明了純粹的生成式學(xué)習(xí)同樣可以達到甚至超越對比學(xué)習(xí)的效果。這個發(fā)現(xiàn)的意義不僅僅在于技術(shù)層面,它還暗示著我們對機器學(xué)習(xí)本質(zhì)的理解可能需要更新。生成式學(xué)習(xí)讓模型直接學(xué)習(xí)從視覺到語言的映射,這種端到端的學(xué)習(xí)方式可能更加符合人類認知的自然過程。

這種認知轉(zhuǎn)變的實際意義是深遠的。對于研究人員而言,它意味著可以用更簡單的方法達到更好的效果。對于產(chǎn)業(yè)界而言,它意味著更低的計算成本和更高的開發(fā)效率。對于整個AI發(fā)展而言,它可能指向一個更加高效和可持續(xù)的發(fā)展方向。

研究團隊特別強調(diào)了這種方法與下游應(yīng)用的一致性優(yōu)勢。由于OpenVision 2在預(yù)訓(xùn)練階段就使用生成式目標,它與LLaVA等多模態(tài)對話系統(tǒng)的架構(gòu)天然匹配。這種一致性就像讓學(xué)生從一開始就按照考試標準來學(xué)習(xí),避免了后期的適應(yīng)問題。

更重要的是,這種方法的成功為未來的研究開辟了新的方向。如果純生成式學(xué)習(xí)確實優(yōu)于復(fù)雜的對比學(xué)習(xí),那么我們可能需要重新審視很多現(xiàn)有的技術(shù)假設(shè)。這就像發(fā)現(xiàn)了一條更直接通往山頂?shù)穆窂?,雖然看起來簡單,但實際效果更好。

七、實際應(yīng)用的廣闊前景

OpenVision 2的技術(shù)突破不僅僅停留在學(xué)術(shù)層面,它在實際應(yīng)用中的潛力同樣令人興奮。更高的訓(xùn)練效率意味著更多的研究團隊和公司能夠負擔得起訓(xùn)練高質(zhì)量視覺編碼器的成本,這將大大降低AI技術(shù)的準入門檻。

在商業(yè)應(yīng)用方面,這種效率提升直接轉(zhuǎn)化為成本節(jié)約。企業(yè)可以用更少的計算資源訓(xùn)練出更好的模型,或者在相同預(yù)算下訓(xùn)練更大更強的模型。這就像找到了一種更高效的生產(chǎn)方式,既降低了成本又提高了產(chǎn)品質(zhì)量。

對于科研機構(gòu)而言,OpenVision 2使得大規(guī)模視覺編碼器的訓(xùn)練變得更加可行。研究團隊已經(jīng)成功訓(xùn)練出了10.1億參數(shù)的模型,這在原有架構(gòu)下是極其昂貴的。現(xiàn)在,更多的研究小組可以嘗試訓(xùn)練大規(guī)模模型,推動整個領(lǐng)域的快速發(fā)展。

在具體的應(yīng)用場景中,OpenVision 2訓(xùn)練的視覺編碼器可以用于各種多模態(tài)任務(wù)。從圖像描述生成到視覺問答,從文檔理解到圖表分析,這些經(jīng)過優(yōu)化訓(xùn)練的編碼器都能提供更好的性能。特別是在OCR相關(guān)任務(wù)上的突出表現(xiàn),使得它在處理文檔、標志、圖表等包含文字信息的圖像時具有明顯優(yōu)勢。

更重要的是,OpenVision 2的開源特性使得整個社區(qū)都能受益于這些改進。研究團隊不僅公布了完整的訓(xùn)練代碼和預(yù)訓(xùn)練模型,還提供了ReCap-DataComp-1B v2數(shù)據(jù)集。這種開放態(tài)度就像建設(shè)了一個公共圖書館,讓所有人都能獲得高質(zhì)量的學(xué)習(xí)資源。

展望未來,這種高效的訓(xùn)練方法可能會成為視覺編碼器訓(xùn)練的新標準。隨著技術(shù)的進一步優(yōu)化和硬件的持續(xù)發(fā)展,我們可能會看到更大規(guī)模、更高性能的視覺編碼器不斷涌現(xiàn),推動整個人工智能領(lǐng)域的快速發(fā)展。

說到底,OpenVision 2的成功證明了一個簡單而深刻的道理:有時候,最好的解決方案不是最復(fù)雜的那個,而是最簡單有效的那個。就像老話說的"大道至簡",在AI的世界里,簡單優(yōu)雅的方法往往比復(fù)雜花哨的技術(shù)更有生命力。這項研究不僅為我們提供了一個更好的工具,更重要的是,它讓我們重新思考了解決問題的方式。當我們面對復(fù)雜挑戰(zhàn)時,也許答案并不在于增加更多的復(fù)雜度,而在于找到問題的本質(zhì),用最直接的方式去解決它。

對于那些想要深入了解技術(shù)細節(jié)或在自己的項目中應(yīng)用這些創(chuàng)新的讀者,完整的研究論文和相關(guān)資源都已在項目網(wǎng)站https://ucsc-vlaa.github.io/OpenVision2 上公開提供。這種開放共享的精神正是推動科技進步的重要動力,讓更多的人能夠站在巨人的肩膀上,繼續(xù)探索AI的無限可能。

Q&A

Q1:OpenVision 2相比原版OpenVision有什么主要改進?

A:OpenVision 2的核心改進是大幅簡化了訓(xùn)練架構(gòu),去掉了原版中的文本編碼器和對比學(xué)習(xí)損失,只保留圖像編碼器和文本解碼器,專注于"看圖說話"的生成式訓(xùn)練。這使得訓(xùn)練時間縮短1.5倍,內(nèi)存使用減少1.8倍,同時性能保持不變甚至更好。

Q2:為什么OpenVision 2能夠在簡化架構(gòu)的同時保持甚至提升性能?

A:關(guān)鍵在于使用了高質(zhì)量的合成數(shù)據(jù)集ReCap-DataComp-1B v2和巧妙的token掩碼策略。高質(zhì)量的訓(xùn)練數(shù)據(jù)就像好的教材,而掩碼策略強制模型學(xué)會從不完整信息中提取關(guān)鍵特征,提高了模型的理解能力。同時,生成式訓(xùn)練與下游應(yīng)用更匹配。

Q3:OpenVision 2的技術(shù)突破對普通AI開發(fā)者有什么實際意義?

A:最直接的好處是大幅降低了訓(xùn)練成本和硬件要求,讓更多研究團隊和小公司能夠訓(xùn)練高質(zhì)量的視覺編碼器。研究團隊還開源了所有代碼、預(yù)訓(xùn)練模型和數(shù)據(jù)集,開發(fā)者可以直接使用這些資源構(gòu)建自己的多模態(tài)AI應(yīng)用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-