這項(xiàng)由智譜AI公司與清華大學(xué)聯(lián)合開展的突破性研究于2025年7月1日發(fā)表在arXiv平臺上(論文編號:arXiv:2507.01006v1),研究團(tuán)隊(duì)包含了來自智譜AI公司和清華大學(xué)的數(shù)十位研究人員。有興趣深入了解的讀者可以通過https://github.com/THUDM/GLM-4.1V-Thinking訪問完整的代碼、模型和詳細(xì)信息。
當(dāng)你和朋友聊天時(shí),有沒有注意到一個(gè)有趣的現(xiàn)象:當(dāng)朋友問你一個(gè)復(fù)雜問題時(shí),你通常不會立刻脫口而出答案,而是會先在心里默默思考一番,理清思路后再開口回答。這種思考過程包括了分析問題、回憶相關(guān)知識、權(quán)衡不同選擇,甚至可能推翻之前的想法重新思考。然而,傳統(tǒng)的AI模型就像一個(gè)過于急躁的學(xué)生,總是立刻給出答案,缺乏這種深度思考的能力。
智譜AI和清華大學(xué)的研究團(tuán)隊(duì)意識到了這個(gè)問題,他們開發(fā)了一個(gè)名為GLM-4.1V-Thinking的視覺語言模型。這個(gè)模型最大的特點(diǎn)就是會"思考",就像一個(gè)慎重的學(xué)者一樣,在給出最終答案之前會先進(jìn)行詳細(xì)的內(nèi)心獨(dú)白和推理過程。
研究團(tuán)隊(duì)發(fā)現(xiàn),讓AI學(xué)會思考并不簡單。就像教一個(gè)孩子學(xué)會深度思考一樣,需要經(jīng)過多個(gè)階段的訓(xùn)練。他們采用了一種叫做"推理導(dǎo)向訓(xùn)練框架"的方法,這個(gè)框架包含三個(gè)關(guān)鍵階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。
在預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)就像為AI準(zhǔn)備一個(gè)豐富的圖書館,里面包含了大量的圖像文本配對數(shù)據(jù)、學(xué)術(shù)文獻(xiàn)、文檔圖表、教學(xué)視頻等各種類型的信息。這個(gè)"圖書館"的規(guī)模是驚人的,僅圖像文本配對數(shù)據(jù)就超過100億對。為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的篩選流程,就像圖書管理員會仔細(xì)挑選高質(zhì)量書籍一樣。他們使用CLIP模型來計(jì)算圖像和文本的相似度,只保留相似度高于0.3的配對,還采用了概念平衡重采樣策略來減少數(shù)據(jù)中的偏見。
更有趣的是,研究團(tuán)隊(duì)還開發(fā)了一個(gè)"重新描述"模型,專門用來改善原始數(shù)據(jù)中的文字描述。這個(gè)模型就像一個(gè)細(xì)心的編輯,會將原本嘈雜、不準(zhǔn)確的圖片描述重新寫成更精確、更詳細(xì)的版本,同時(shí)保持事實(shí)的準(zhǔn)確性。
在處理多模態(tài)交錯(cuò)數(shù)據(jù)時(shí),研究團(tuán)隊(duì)面臨了一個(gè)巨大挑戰(zhàn):網(wǎng)絡(luò)上的數(shù)據(jù)往往質(zhì)量參差不齊,很多樣本缺乏真正的圖文對應(yīng)關(guān)系。為了解決這個(gè)問題,他們設(shè)計(jì)了專門的處理流程。對于網(wǎng)頁數(shù)據(jù),他們首先聚合來自大規(guī)模開源數(shù)據(jù)集的原始內(nèi)容,然后進(jìn)行多階段清理和過濾。他們會丟棄與文章內(nèi)容語義無關(guān)的圖片,移除廣告和二維碼等噪音元素,并使用啟發(fā)式規(guī)則和專用圖像分類器來提高處理精度。
在學(xué)術(shù)書籍處理方面,研究團(tuán)隊(duì)收集了超過1億本數(shù)字化書籍,重點(diǎn)篩選科學(xué)、技術(shù)、工程和數(shù)學(xué)領(lǐng)域的內(nèi)容。他們使用PDF解析工具進(jìn)行深度解析,提取高質(zhì)量的圖文交錯(cuò)內(nèi)容。這就像是將一座巨大的圖書館數(shù)字化,并且確保每一頁的圖片和文字都能完美對應(yīng)。
為了增強(qiáng)模型的文字識別能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含2.2億張圖片的OCR數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括三個(gè)部分:合成文檔圖像、自然場景文字圖像和學(xué)術(shù)文檔。合成文檔圖像是通過將語言預(yù)訓(xùn)練語料庫中的文本渲染成不同字體、大小、顏色和方向的圖片制作而成的。自然場景文字圖像則是通過Paddle-OCR工具處理大量自然圖像,自動提取文本內(nèi)容和對應(yīng)的邊界框獲得的。學(xué)術(shù)文檔部分采用了類似Nougat的處理方法,將arXiv論文的LaTeX源代碼標(biāo)準(zhǔn)化并轉(zhuǎn)換為HTML格式,最終分割成頁面并渲染。
在視覺定位方面,研究團(tuán)隊(duì)構(gòu)建了一個(gè)混合定位數(shù)據(jù)集,涵蓋自然圖像和圖形用戶界面兩個(gè)主要領(lǐng)域。對于自然圖像,他們使用LAION-115M作為基礎(chǔ)數(shù)據(jù)集,利用GLIPv2模型解析每張圖片的標(biāo)題并自動預(yù)測每個(gè)名詞短語對應(yīng)的邊界框。對于GUI領(lǐng)域,他們從CommonCrawl快照中提取URL并捕獲相應(yīng)的網(wǎng)頁截圖,使用Playwright框架深度交互網(wǎng)頁,編譯和解析所有可見的DOM元素及其精確渲染的邊界框。
在視頻理解方面,研究團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模、高質(zhì)量的視頻文本數(shù)據(jù)集。為了解決標(biāo)準(zhǔn)標(biāo)題中常見的幻覺和遺漏問題,他們開發(fā)了一個(gè)精細(xì)的人工標(biāo)注流程,準(zhǔn)確捕捉復(fù)雜的動作和場景中的文字。此外,為了編碼更深層的視覺敘事,他們使用人機(jī)協(xié)作工作流程標(biāo)注關(guān)鍵的電影元素,如攝像機(jī)運(yùn)動和鏡頭構(gòu)圖。
在模型架構(gòu)設(shè)計(jì)上,GLM-4.1V-Thinking采用了三個(gè)核心組件:視覺編碼器、MLP適配器和大語言模型解碼器。研究團(tuán)隊(duì)使用AIMv2-Huge作為視覺編碼器,GLM作為語言模型。為了處理視頻輸入,他們將原始的2D卷積替換為3D卷積,實(shí)現(xiàn)了2倍的時(shí)間下采樣,從而提高模型效率。
為了支持任意圖像分辨率和縱橫比,研究團(tuán)隊(duì)引入了兩個(gè)關(guān)鍵改進(jìn)。首先,他們集成了2D-RoPE技術(shù),使模型能夠有效處理極端縱橫比(超過200:1)或高分辨率(超過4K)的圖像。其次,為了保持預(yù)訓(xùn)練ViT的基礎(chǔ)能力,他們保留了原始的可學(xué)習(xí)絕對位置嵌入。在訓(xùn)練過程中,這些嵌入通過雙三次插值動態(tài)適應(yīng)可變分辨率輸入。
對于視頻輸入的時(shí)間建模,研究團(tuán)隊(duì)在每個(gè)幀標(biāo)記后插入時(shí)間索引標(biāo)記,其中時(shí)間索引通過將每幀的時(shí)間戳編碼為字符串來實(shí)現(xiàn)。與多圖像輸入不同,視頻幀形成時(shí)間上連貫的序列。這種設(shè)計(jì)明確告知模型真實(shí)世界的時(shí)間戳和幀之間的時(shí)間距離,從而提升其時(shí)間理解和定位能力。
在監(jiān)督微調(diào)階段,研究團(tuán)隊(duì)的目標(biāo)是將基礎(chǔ)視覺語言模型轉(zhuǎn)換為能夠進(jìn)行長鏈?zhǔn)剿季S推理的模型。他們精心策劃了一個(gè)長思維鏈語料庫,涵蓋可驗(yàn)證領(lǐng)域(如STEM問題)和不可驗(yàn)證任務(wù)(如指令遵循、開放式寫作)。與以往將SFT應(yīng)用于短思維鏈數(shù)據(jù)的工作流程不同,他們故意省略了這一步驟。他們認(rèn)為SFT的作用不是注入新知識,而是將模型現(xiàn)有的視覺語言理解與更有效的思考和回應(yīng)風(fēng)格對齊。
在回應(yīng)格式設(shè)計(jì)上,每個(gè)回應(yīng)都遵循標(biāo)準(zhǔn)化結(jié)構(gòu): {思考內(nèi)容} {回答內(nèi)容} 。思考部分捕捉模型的推理過程,包括反思、回溯、重試和驗(yàn)證等策略?;卮鸩糠殖尸F(xiàn)簡潔、完整且邏輯合理的解決方案。對于有特定最終答案的可驗(yàn)證任務(wù),答案部分的最終結(jié)果需要用<|begin_of_box|>和<|end_of_box|>包裝,并且只接受一個(gè)框標(biāo)跨度。
研究團(tuán)隊(duì)發(fā)現(xiàn),冷啟動數(shù)據(jù)集的質(zhì)量對RL訓(xùn)練的穩(wěn)定性至關(guān)重要。在實(shí)踐中,他們發(fā)現(xiàn)構(gòu)造不當(dāng)?shù)臄?shù)據(jù)可能導(dǎo)致訓(xùn)練不穩(wěn)定甚至崩潰。為了緩解這個(gè)問題,他們實(shí)施了嚴(yán)格的數(shù)據(jù)清理流程,強(qiáng)制嚴(yán)格遵守格式約定(如正確使用和標(biāo)簽),并移除推理風(fēng)格不一致或嘈雜的示例。
強(qiáng)化學(xué)習(xí)階段是整個(gè)訓(xùn)練過程的關(guān)鍵。在這個(gè)階段,研究團(tuán)隊(duì)主要依靠強(qiáng)化學(xué)習(xí)來提升模型性能。他們采用了可驗(yàn)證獎勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的組合,在所有多模態(tài)域和能力上進(jìn)行大規(guī)模RL訓(xùn)練,包括STEM問題求解(如數(shù)學(xué)、物理、化學(xué))、定位、光學(xué)字符識別(OCR)、視頻理解、GUI代理、圖表和文檔理解、邏輯推理以及指令遵循。
在獎勵(lì)系統(tǒng)設(shè)計(jì)上,研究團(tuán)隊(duì)建立了一個(gè)兼容RLVR和RLHF的獎勵(lì)系統(tǒng),并為每個(gè)多模態(tài)域進(jìn)行了定制。對于RLVR任務(wù),系統(tǒng)首先從生成輸出中提取包含最終答案的片段,然后將這個(gè)關(guān)鍵答案與參考答案進(jìn)行比較以確定正確性,最后返回二進(jìn)制(0/1)或連續(xù)形式的獎勵(lì)值。對于RLHF任務(wù),系統(tǒng)直接獲取輸出的答案片段,并使用獎勵(lì)模型進(jìn)行評分。
研究團(tuán)隊(duì)發(fā)現(xiàn),在訓(xùn)練統(tǒng)一的VLM處理不同技能時(shí),即使某個(gè)單一能力的獎勵(lì)信號存在任何弱點(diǎn),都可能破壞整個(gè)訓(xùn)練過程。他們通過實(shí)驗(yàn)發(fā)現(xiàn),即使STEM子域提供了高質(zhì)量獎勵(lì),但多圖像QA任務(wù)的獎勵(lì)缺陷也會導(dǎo)致所有域的模型崩潰。這強(qiáng)調(diào)了穩(wěn)定、有效的RL需要在每個(gè)域中都有精心調(diào)整、抗黑客攻擊的驗(yàn)證器。
為了應(yīng)對這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)領(lǐng)域特定的獎勵(lì)系統(tǒng),具有以下特點(diǎn):共享驗(yàn)證函數(shù)(如格式驗(yàn)證、框內(nèi)容提取和精確匹配等常見檢查被實(shí)現(xiàn)為可重用函數(shù))、領(lǐng)域特定模塊(每個(gè)域都有自己的子模塊,支持復(fù)雜驗(yàn)證邏輯,包括分支工作流、功能評估和由自定義判斷提示和超參數(shù)驅(qū)動的基于模型的判斷)以及單元測試(為了驗(yàn)證每個(gè)域中的獎勵(lì)系統(tǒng),他們定義了針對該域輸出分布的單元測試,并基于測試結(jié)果迭代改進(jìn)獎勵(lì)邏輯)。
研究團(tuán)隊(duì)提出了一種名為"帶課程采樣的強(qiáng)化學(xué)習(xí)"(RLCS)的創(chuàng)新方法。這種方法的核心思想是動態(tài)調(diào)整訓(xùn)練樣本的難度,以匹配模型不斷發(fā)展的能力。就像為學(xué)生安排學(xué)習(xí)進(jìn)度一樣,太簡單的題目無法促進(jìn)學(xué)習(xí),太難的題目又會讓學(xué)生挫敗,只有適中難度的題目才能最大化學(xué)習(xí)效果。
在RLCS框架中,研究團(tuán)隊(duì)采用了自適應(yīng)課程,持續(xù)調(diào)整訓(xùn)練樣本的難度以匹配模型不斷發(fā)展的能力。他們既評估樣本的離線難度也評估在線難度。在訓(xùn)練前,他們通過對整個(gè)數(shù)據(jù)集運(yùn)行多個(gè)成熟視覺語言模型(或早期RL檢查點(diǎn))的pass@k評估,并將這些定量分?jǐn)?shù)與專家人類難度標(biāo)注合并,來評估每個(gè)樣本的固有難度。這個(gè)過程產(chǎn)生了一組細(xì)粒度的難度標(biāo)簽,將數(shù)據(jù)分為從非常簡單到非常困難的多個(gè)層次。
在訓(xùn)練過程中,研究團(tuán)隊(duì)執(zhí)行在線難度分級。對于每個(gè)生成的展開,他們記錄pass@k結(jié)果,將其映射到相應(yīng)的難度層,并將這些結(jié)果與離線標(biāo)簽合并。這種在線難度分布也為模型當(dāng)前性能提供了有價(jià)值的見解。通過利用這些難度標(biāo)簽以及模型的子類別性能,他們在訓(xùn)練迭代的粒度上持續(xù)重新權(quán)衡不同難度類別的采樣比例。
為了提高強(qiáng)化學(xué)習(xí)的有效性,研究團(tuán)隊(duì)實(shí)施了幾個(gè)關(guān)鍵改進(jìn)。他們采用了更大的批量大小,當(dāng)在訓(xùn)練期間混合多域多模態(tài)數(shù)據(jù)時(shí),推薦相對較大的批量大小以在長期內(nèi)實(shí)現(xiàn)更高的性能上限。他們還開發(fā)了通過比率EMA進(jìn)行動態(tài)采樣擴(kuò)展的方法。在GRPO中,當(dāng)同時(shí)移除熵?fù)p失和KL損失時(shí),完全由正確或完全由錯(cuò)誤樣本組成的展開批次不提供有用的梯度。換句話說,全正確/錯(cuò)誤提示減少了可用批量大小。隨著這些全正確或全錯(cuò)誤批次的比例增長或波動,有效批量大小可能劇烈變化,降低訓(xùn)練穩(wěn)定性。
研究團(tuán)隊(duì)還實(shí)施了強(qiáng)制回答機(jī)制。當(dāng)思考過程變得過長時(shí),可能會被展開長度限制截?cái)?。因?yàn)槟P碗S后無法產(chǎn)生答案,通常會被分配零獎勵(lì)。然而,這種冗長的推理不一定是錯(cuò)誤的——對于困難問題,過長思考路徑的已生成部分可能是完全有效的。以這種方式截?cái)嗖粌H浪費(fèi)了展開預(yù)算,還向訓(xùn)練注入了噪音。為了解決這個(gè)問題,他們通過插入標(biāo)記后跟標(biāo)記來強(qiáng)制截?cái)?,這促使模型發(fā)出最終答案并允許他們?yōu)槠渫评斫o予公平獎勵(lì)。
在訓(xùn)練穩(wěn)定性方面,研究團(tuán)隊(duì)識別了幾個(gè)顯著影響整個(gè)訓(xùn)練流程穩(wěn)定性的關(guān)鍵因素。他們發(fā)現(xiàn)冷啟動SFT數(shù)據(jù)的質(zhì)量對訓(xùn)練穩(wěn)定性有重要影響,因此強(qiáng)烈建議將冷啟動數(shù)據(jù)質(zhì)量維持在某個(gè)閾值之上。他們移除了熵?fù)p失,因?yàn)榘l(fā)現(xiàn)加入熵?fù)p失來促進(jìn)多樣性可能導(dǎo)致模型產(chǎn)生亂碼輸出,最終導(dǎo)致訓(xùn)練崩潰。在展開過程中,他們使用top-p = 1而不是更小的值來產(chǎn)生更穩(wěn)定的RL訓(xùn)練。
在基礎(chǔ)設(shè)施優(yōu)化方面,研究團(tuán)隊(duì)廣泛優(yōu)化了RL基礎(chǔ)設(shè)施,專注于幾個(gè)關(guān)鍵組件。他們實(shí)現(xiàn)了跨DP等級的序列長度負(fù)載平衡,因?yàn)槊總€(gè)樣本的展開長度事先未知,一些等級可能被分配許多極長序列(如視頻或長文檔提示,或具有長回應(yīng)的困難問題)。他們還采用了序列打包和梯度累積的等級內(nèi)訓(xùn)練方法,因?yàn)镽L中樣本長度的不可預(yù)測變化使得無法提前知道每個(gè)DP等級將執(zhí)行多少次前向傳遞。
在評估方面,研究團(tuán)隊(duì)對GLM-4.1V-9B-Thinking進(jìn)行了全面評估,涵蓋28個(gè)公共基準(zhǔn)測試,包括八個(gè)不同類別:通用VQA、STEM、OCR和圖表、長文檔、視覺定位、GUI代理、編程和視頻理解。評估結(jié)果顯示,GLM-4.1V-9B-Thinking在10B參數(shù)以下的模型中在23個(gè)基準(zhǔn)測試上創(chuàng)造了新的最先進(jìn)性能,展現(xiàn)了在廣泛多模態(tài)任務(wù)譜上的一致且強(qiáng)勁的性能。
在通用VQA領(lǐng)域,GLM-4.1V-9B-Thinking在五個(gè)廣泛使用的基準(zhǔn)測試上超越了所有10B以下的競爭開源模型,涵蓋單圖像和多圖像設(shè)置。在STEM類別中,該模型在MMMU_Val、MMMU_Pro、VideoMMMU和AI2D等具有挑戰(zhàn)性的科學(xué)和工程基準(zhǔn)測試上取得了最高性能。在OCR和圖表領(lǐng)域,GLM-4.1V-9B-Thinking在ChartQAPro和ChartMuseum上創(chuàng)造了新的最先進(jìn)分?jǐn)?shù)。對于長文檔理解,GLM-4.1V-9B-Thinking在MMLongBench上超越了所有其他模型。
值得注意的是,盡管GLM-4.1V-9B-Thinking的規(guī)模相對較小,但在28個(gè)基準(zhǔn)測試中的18個(gè)上超越了規(guī)模大得多的Qwen2.5-VL-72B模型,包括MMStar、MUIRBENCH、MMMU_Pro和ChartMuseum等特別具有挑戰(zhàn)性的任務(wù)。與專有的GPT-4o相比,GLM-4.1V-9B-Thinking在大多數(shù)任務(wù)上取得了優(yōu)異結(jié)果,盡管GPT-4o具有顯著更大的規(guī)模和閉源優(yōu)勢。
為了探索多域強(qiáng)化學(xué)習(xí)中的跨域泛化現(xiàn)象,研究團(tuán)隊(duì)選擇了四個(gè)代表性域:STEM、OCR和圖表、定位和GUI代理。實(shí)驗(yàn)結(jié)果表明,強(qiáng)化學(xué)習(xí)展現(xiàn)了強(qiáng)大的跨域泛化和相互促進(jìn)。在一個(gè)域上的訓(xùn)練提升了其他域的性能,而跨域聯(lián)合訓(xùn)練在每個(gè)域中產(chǎn)生了更大的改進(jìn)。這種協(xié)同效應(yīng)可能是GLM-4.1V-9B-Thinking卓越性能的基礎(chǔ)。
研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前研究的局限性。首先,雖然RL提高了任務(wù)完成率,但并不一致地改善推理質(zhì)量。在某些情況下,模型產(chǎn)生正確答案但依賴錯(cuò)誤的推理步驟。這個(gè)問題的出現(xiàn)是因?yàn)楫?dāng)前的獎勵(lì)模型通常評估最終結(jié)果而不評估中間推理步驟。因此,如果有缺陷或幻覺的推理鏈產(chǎn)生正確答案,可能會被無意中強(qiáng)化。
其次,RL訓(xùn)練可能表現(xiàn)出不穩(wěn)定性。早期實(shí)驗(yàn)表明,設(shè)置上的微小變化可能導(dǎo)致推理深度或輸出風(fēng)格的顯著變化。盡管后期版本的改進(jìn)(如改進(jìn)的獎勵(lì)設(shè)計(jì)和增強(qiáng)的冷啟動數(shù)據(jù))使訓(xùn)練更加穩(wěn)定,但剩余的敏感性表明大規(guī)模RL優(yōu)化中的更深層挑戰(zhàn)。
第三,盡管GLM-4.1V-9B-Thinking在各種任務(wù)上表現(xiàn)強(qiáng)勁,但在復(fù)雜場景中仍有困難。涉及雜亂圖像、遮擋物體或模糊視覺細(xì)節(jié)的情況可能導(dǎo)致模型出現(xiàn)感知錯(cuò)誤,從而損害其推理能力。在這些條件下,模型可能訴諸猜測或一般假設(shè),而不是進(jìn)行基于根據(jù)的推理。
展望未來,研究團(tuán)隊(duì)認(rèn)為一個(gè)關(guān)鍵方向是改進(jìn)模型推理的監(jiān)督和評估方式。未來的獎勵(lì)模型應(yīng)該不僅評估最終答案,還要評估中間推理步驟,積極檢測幻覺和標(biāo)記邏輯不一致。對于具有主觀評估的任務(wù),探索防止獎勵(lì)黑客攻擊的策略也是朝向通用智能的必要步驟。
研究團(tuán)隊(duì)還對多模態(tài)訓(xùn)練對純文本推理任務(wù)的潛在益處感興趣。例如,理解視覺推理任務(wù)(如解釋圖像中的代碼)是否能增強(qiáng)純文本編程任務(wù)的性能是一個(gè)有前景的研究方向。探索視覺和語言模態(tài)如何相互強(qiáng)化可能會帶來通用推理能力的重大進(jìn)展。
隨著模型能力的提高,評估框架也必須相應(yīng)發(fā)展。許多當(dāng)前基準(zhǔn)測試正接近飽和或無法有效識別關(guān)鍵錯(cuò)誤,如推理鏈中的幻覺。未來的基準(zhǔn)測試應(yīng)該既更具挑戰(zhàn)性又更具診斷性,專門設(shè)計(jì)用于檢測更多失敗模式,如捷徑推理或幻覺。
總的來說,GLM-4.1V-9B-Thinking代表了朝向通用多模態(tài)推理的重要一步。通過推理導(dǎo)向的訓(xùn)練框架,該模型學(xué)會了在視覺、文本、數(shù)學(xué)、科學(xué)和代理域中進(jìn)行推理。研究團(tuán)隊(duì)將GLM-4.1V-9B-Thinking開源,以支持多模態(tài)推理的進(jìn)一步研究。這項(xiàng)工作不僅推進(jìn)了人工智能的技術(shù)邊界,也為未來開發(fā)更智能、更可靠的AI系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。
Q&A
Q1:GLM-4.1V-Thinking的"思考"功能是什么意思?它真的會思考嗎? A:GLM-4.1V-Thinking的"思考"指的是模型在給出最終答案前會先生成詳細(xì)的推理過程,就像人類解決問題時(shí)的內(nèi)心獨(dú)白。雖然這不是真正意義上的人類思考,但模型會展示完整的分析步驟、考慮不同可能性、甚至推翻之前的想法重新思考,讓整個(gè)推理過程更加透明和可靠。
Q2:這個(gè)模型有什么實(shí)際用途?普通人能用到嗎? A:GLM-4.1V-9B-Thinking在多個(gè)領(lǐng)域都有實(shí)際應(yīng)用價(jià)值,包括幫助學(xué)生解決數(shù)學(xué)物理題、協(xié)助醫(yī)生分析醫(yī)療圖像、輔助程序員調(diào)試代碼、幫助設(shè)計(jì)師生成UI界面等。研究團(tuán)隊(duì)已經(jīng)開源了這個(gè)模型,普通人可以通過GitHub(https://github.com/THUDM/GLM-4.1V-Thinking)獲取相關(guān)資源,不過使用起來可能需要一定的技術(shù)背景。
Q3:GLM-4.1V-Thinking比其他AI模型強(qiáng)在哪里? A:最大的優(yōu)勢是它具備深度推理能力,不會急著給出答案而是先仔細(xì)思考。在性能上,這個(gè)只有90億參數(shù)的模型在很多任務(wù)上甚至超越了720億參數(shù)的大型模型,特別是在數(shù)學(xué)解題、視頻理解、圖表分析等復(fù)雜任務(wù)上表現(xiàn)突出。更重要的是,它的推理過程是透明的,用戶可以看到模型是如何一步步得出結(jié)論的。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。