這項由上海AI實驗室、復旦大學、上海交通大學等機構(gòu)聯(lián)合完成的研究發(fā)表于2025年4月,論文標題為《MM-IFEngine: Towards Multimodal Instruction Following》。研究團隊包括丁勝遠、吳慎熙、趙祥宇等多位研究人員,有興趣深入了解的讀者可以通過論文開源地址https://github.com/SYuan03/MM-IFEngine訪問完整代碼和數(shù)據(jù)集。
當你跟朋友聊天時說"幫我寫個200字的總結(jié),要用詩歌形式,別提到任何顏色",朋友能完美理解并執(zhí)行這個復雜要求。但如果你給AI一張圖片,然后提出同樣復雜的要求,大多數(shù)AI都會"聽不懂"或者做不到位。這就是多模態(tài)大語言模型在"指令遵循"方面遇到的核心難題。
上海AI實驗室的研究團隊發(fā)現(xiàn)了一個令人驚訝的現(xiàn)象:雖然現(xiàn)在的AI在回答圖片相關(guān)問題方面已經(jīng)相當出色,但在嚴格按照用戶的復雜指令要求來處理視覺內(nèi)容時,表現(xiàn)卻差強人意。這就好比一個學霸能夠回答各種數(shù)學題,但當老師要求"用紅筆寫答案,每行不超過10個字,最后要畫個笑臉"時,這個學霸就開始犯糊涂了。
研究團隊針對這個問題,開發(fā)了一個名為"MM-IFEngine"的創(chuàng)新系統(tǒng)。這個系統(tǒng)就像一個專門訓練AI如何"聽懂話"的教練,能夠大量生成各種復雜的圖片-指令配對數(shù)據(jù),讓AI在海量練習中學會精確理解和執(zhí)行用戶的多重要求。更重要的是,他們還創(chuàng)建了一個全新的評測基準"MM-IFEval",這個基準就像給AI設計的"期末考試",專門檢驗AI是否真正掌握了復雜指令遵循的能力。
在傳統(tǒng)的AI訓練中,研究人員往往關(guān)注讓AI回答得"對不對",但很少關(guān)注AI是否能按照用戶的具體要求來組織答案。比如用戶說"用50個字總結(jié)這張圖片內(nèi)容,要用第二人稱,語氣要幽默",大多數(shù)AI可能能總結(jié)圖片內(nèi)容,但很可能忽略字數(shù)限制、人稱要求或語氣要求。這種情況在實際應用中會造成很大困擾。
這項研究的突破性意義在于,它不僅識別出了這個被忽視的重要問題,還提供了完整的解決方案。研究團隊通過大規(guī)模實驗證明,經(jīng)過他們系統(tǒng)訓練的AI模型在各種指令遵循測試中表現(xiàn)顯著提升,在MM-IFEval基準上提高了10.2%,在其他相關(guān)測試中也有7.6%到12.3%不等的提升。
一、發(fā)現(xiàn)問題:AI的"聽話"能力有待提升
當我們仔細觀察現(xiàn)在的多模態(tài)AI系統(tǒng)時,會發(fā)現(xiàn)一個有趣的現(xiàn)象。這些AI就像那些只會按自己想法做事的員工一樣,雖然能力很強,但總是不能完全按照老板的具體要求來完成任務。
研究團隊通過分析發(fā)現(xiàn),現(xiàn)有的多模態(tài)指令遵循訓練數(shù)據(jù)非常稀少,就像圖書館里關(guān)于"如何聽懂復雜指令"的書籍寥寥無幾。更嚴重的是,現(xiàn)有的評測標準過于簡單,大多只包含單一的、原子化的指令,就像考試題目都是"1+1等于幾"這樣的簡單問題,而實際工作中遇到的卻是"在30分鐘內(nèi),用三種不同方法計算出這個復雜公式的結(jié)果,并用圖表形式展示,最后寫一份不超過200字的總結(jié)"這樣的復合任務。
現(xiàn)有評測方法的另一個問題是過于依賴LLM作為評判者,就像讓一個人既當運動員又當裁判。對于那些需要精確計算的約束條件,比如"回答必須包含exactly 56個單詞"或"必須恰好分為5個段落",LLM評判往往不夠準確。這就好比讓一個不太會數(shù)數(shù)的人來檢查你的作業(yè)是否恰好寫了100個字。
研究團隊還注意到,當前的多模態(tài)指令遵循基準測試存在明顯的性能飽和問題。幾乎所有模型的得分都超過了80%,這種情況就像考試題目太簡單,所有學生都能考高分,根本無法區(qū)分真正的學習水平差異。這種飽和現(xiàn)象表明現(xiàn)有基準缺乏足夠的挑戰(zhàn)性,無法準確評估模型在復雜、多約束條件下的真實表現(xiàn)能力。
二、創(chuàng)新解決方案:MM-IFEngine系統(tǒng)架構(gòu)
面對這些挑戰(zhàn),研究團隊設計了MM-IFEngine系統(tǒng),這個系統(tǒng)就像一個精密的內(nèi)容生產(chǎn)工廠,能夠自動化生成大量高質(zhì)量的圖片-指令配對數(shù)據(jù)。整個系統(tǒng)的工作流程分為三個精心設計的階段,每個階段都有其獨特的作用和價值。
第一個階段是圖片篩選,研究團隊就像挑選食材的大廚一樣,從海量圖片中精心挑選出那些內(nèi)容豐富、語義清晰的高質(zhì)量圖片。他們使用IC9600和RAM指標來評估圖片的語義豐富度,同時過濾掉那些分辨率過低或內(nèi)容單調(diào)的圖片。這個過程確保了后續(xù)生成的指令能夠基于足夠豐富的視覺內(nèi)容,就像好的食材是制作美味佳肴的基礎(chǔ)一樣。
第二個階段是任務生成,這個階段的工作方式根據(jù)圖片來源的不同而有所區(qū)別。對于那些沒有原始問答對的純圖片數(shù)據(jù)集(比如CC3M),系統(tǒng)會從預定義的16種任務類型中隨機選擇幾種作為示例,然后讓強大的語言模型GPT-4o為每張圖片生成合適的任務指令。這些任務涵蓋了描述性分析、情感表達、創(chuàng)意寫作、社交媒體內(nèi)容和角色扮演等五大類別,確保生成的任務具有足夠的多樣性和實用性。
對于那些已經(jīng)包含問答對的數(shù)據(jù)集(比如ALLaVA),系統(tǒng)采用了更加精細的處理策略。研究團隊首先對原始問題進行仔細分析,過濾掉那些包含少樣本示例或選擇題形式的問題,因為這些問題格式不適合添加復雜約束條件。他們使用正則表達式和長度限制來篩選問題,確保最終保留的問題都適合進行約束集成。
第三個階段是約束集成,這是整個系統(tǒng)最核心的創(chuàng)新部分。研究團隊構(gòu)建了一個包含32種不同約束類型的豐富約束池,這些約束被歸類為六大主要類別:文本長度要求、數(shù)學要求、語言格式要求、修辭邏輯要求、行為要求和關(guān)鍵詞要求。每個類別下又細分為多個具體的約束子類型,形成了一個層次化的約束分類體系。
約束集成的過程并不是簡單的隨機組合,而是采用了智能化的方法。系統(tǒng)會使用LLM來為特定的約束類型生成具體的約束內(nèi)容,同時確保生成的約束與任務指令之間保持良好的兼容性。為了避免約束之間的沖突,系統(tǒng)還設計了質(zhì)量控制檢查機制,能夠自動識別和過濾掉那些相互矛盾或與任務指令不兼容的約束組合。
通過這個三階段的流程,MM-IFEngine能夠生成大量高質(zhì)量、多樣化的訓練數(shù)據(jù)。研究團隊使用這個系統(tǒng)構(gòu)建了MM-IFInstruct-23k數(shù)據(jù)集,包含23,000個高質(zhì)量的多模態(tài)指令遵循訓練樣本。這些樣本來自多個不同的數(shù)據(jù)源:16,000個來自CC3M,6,000個來自ALLaVA,4,000個來自MultiUI、Geo170k和ChartQA等專業(yè)數(shù)據(jù)集。
為了進一步提升訓練效果,研究團隊還創(chuàng)建了MM-IFDPO-23k偏好優(yōu)化數(shù)據(jù)集。這個數(shù)據(jù)集采用了創(chuàng)新的負樣本生成策略,通過四種不同的設置來生成拒絕樣本:保留圖片但隨機移除三分之一約束、保留圖片但隨機移除三分之二約束、保留圖片但移除所有約束,以及保留完整指令但移除圖片。這種多樣化的負樣本生成方法能夠幫助模型更好地理解約束的重要性,從而在直接偏好優(yōu)化(DPO)訓練中取得更好的效果。
三、評測基準:MM-IFEval的創(chuàng)新設計
為了準確評估多模態(tài)指令遵循能力,研究團隊開發(fā)了MM-IFEval基準測試,這個基準就像為AI設計的"綜合能力考試",能夠全面檢驗AI在復雜多約束環(huán)境下的表現(xiàn)。
MM-IFEval包含400個精心設計的測試問題,這些問題被分為兩大類型:300個組合級(Compose-Level)問題和100個感知級(Perception-Level)問題。組合級問題主要測試AI對輸出格式、內(nèi)容結(jié)構(gòu)等方面的約束遵循能力,而感知級問題則更加注重AI對圖片中特定視覺元素的理解和推理能力。
與現(xiàn)有基準相比,MM-IFEval在約束多樣性方面實現(xiàn)了顯著突破。該基準包含32種不同的約束類別,平均每個問題包含5.1個約束條件,這與之前基準的8個類別和平均2.6個約束形成鮮明對比。這種高復雜度的設計使得即使是最先進的模型也面臨巨大挑戰(zhàn),GPT-4o在該基準上的得分僅為64.6%,而開源模型Qwen2-VL-72B的得分為50.8%,這表明該基準具有足夠的區(qū)分度和挑戰(zhàn)性。
MM-IFEval的另一個重要創(chuàng)新是其混合評估策略,這個策略就像組建了一支專業(yè)的評審團隊,每個成員都有自己的專長領(lǐng)域。整個評估體系包含三種不同的評估方法,每種方法都針對特定類型的約束進行優(yōu)化。
第一種是基于規(guī)則的驗證方法,這種方法專門處理那些可以通過程序化方式精確檢驗的約束。比如檢查回答是否恰好包含200個單詞,或者是否嚴格按照JSON格式輸出,這些都可以通過編寫特定的驗證函數(shù)來自動完成。研究團隊為10種不同的約束子類別開發(fā)了專門的驗證函數(shù),這些函數(shù)能夠提供比人工判斷更加準確和一致的評估結(jié)果。
第二種是LLM直接判斷方法,這種方法主要用于評估那些相對容易判斷但無法通過固定規(guī)則驗證的約束。比如檢查回答中是否包含特定的詞匯或短語,或者是否采用了指定的敘述視角,這些約束雖然沒有嚴格的格式要求,但LLM能夠通過語義理解來準確判斷是否滿足要求。
第三種是LLM比較判斷方法,這是最具創(chuàng)新性的評估方法,專門針對那些難以直接評估的主觀性約束。對于涉及語調(diào)、風格或角色扮演的約束,系統(tǒng)會生成兩個版本的回答:一個包含目標約束,另一個不包含該約束。然后讓LLM比較這兩個回答,判斷哪個更好地體現(xiàn)了指定的約束要求。這種比較方法能夠顯著提高對主觀性約束的評估準確性。
感知級問題的設計特別注重圖片內(nèi)容與約束條件之間的強關(guān)聯(lián)性。這些問題涵蓋了13個不同的圖片類別,包括網(wǎng)頁界面、圖表數(shù)據(jù)、海報設計、視覺差異識別等多種類型。每個類別都有其獨特的挑戰(zhàn)性,比如網(wǎng)頁界面問題需要AI準確理解界面元素的功能和布局,圖表數(shù)據(jù)問題需要AI能夠從可視化數(shù)據(jù)中提取準確信息,而視覺差異問題則測試AI的細致觀察和比較能力。
四、實驗結(jié)果:顯著的性能提升
研究團隊進行了全面的實驗驗證,結(jié)果顯示MM-IFEngine生成的訓練數(shù)據(jù)能夠顯著提升模型的指令遵循能力。實驗涵蓋了兩個代表性的多模態(tài)大語言模型:Qwen2-VL-7B-Instruct和LLaVA-Next-Llama3-8B,這兩個模型在實驗前后的表現(xiàn)差異清晰地展示了訓練數(shù)據(jù)的有效性。
在MM-IFEval基準測試中,使用MM-IFInstruct-23k進行監(jiān)督微調(diào)后,LLaVA-Next-Llama3-8B的平均得分從39.7%提升到49.2%,提升幅度達到9.5個百分點。而Qwen2-VL-7B-Instruct的表現(xiàn)更加亮眼,從42.0%提升到52.3%,提升幅度達到10.3個百分點。當使用MM-IFDPO-23k進行直接偏好優(yōu)化訓練后,效果提升更加顯著,LLaVA-Next模型的得分提升到49.3%,Qwen2-VL模型則達到52.2%。
值得特別關(guān)注的是,DPO訓練方法在多個基準測試中都顯示出了優(yōu)于傳統(tǒng)監(jiān)督微調(diào)的效果。在MIA-Bench測試中,經(jīng)過DPO訓練的LLaVA-Next模型得分從83.3%提升到90.0%,提升了6.7個百分點。在IFEval測試中,該模型的得分更是從50.7%大幅提升到69.1%,提升幅度達到18.4個百分點。這些結(jié)果表明,負樣本對比學習對于訓練模型遵循復雜約束具有特別重要的作用。
為了驗證訓練不會影響模型的其他能力,研究團隊還在多個傳統(tǒng)的視覺問答基準上進行了測試。結(jié)果顯示,經(jīng)過指令遵循訓練的模型在MMMU、MMBench、MMStar等通用知識測試中保持了相當?shù)男阅芩剑谀承y試中甚至略有提升。這說明專門的指令遵循訓練不會損害模型的原有能力,反而可能通過提升模型的理解能力帶來額外收益。
在MM-IFEval基準的排行榜中,最先進的專有模型GPT-4o獲得了64.6%的得分,Claude-3.5V-Sonnet獲得了61.7%的得分,這表明即使是最強大的商業(yè)模型在復雜指令遵循任務上仍有很大提升空間。開源模型中表現(xiàn)最好的是Qwen2-VL-72B,得分為50.8%,而經(jīng)過MM-IFDPO-23k訓練的Qwen2-VL-7B模型得分達到52.2%,甚至超過了參數(shù)規(guī)模大十倍的基礎(chǔ)模型,這充分證明了高質(zhì)量訓練數(shù)據(jù)的重要性。
研究團隊還進行了詳細的消融實驗,探索不同負樣本生成策略對DPO訓練效果的影響。實驗結(jié)果顯示,移除100%約束條件生成的負樣本能夠帶來最好的訓練效果,這種策略在所有測試基準上都取得了最高分數(shù)。移除66%約束條件和移除33%約束條件的策略效果依次遞減,而完全移除圖片輸入的策略效果最差。這個發(fā)現(xiàn)揭示了一個重要規(guī)律:約束條件的移除比例越高,正負樣本之間的語義差距越大,從而能夠為對比學習提供更強的信號。
感知級和組合級問題的分析結(jié)果也很有啟發(fā)性。在感知級問題上,所有模型的表現(xiàn)都明顯低于組合級問題,這說明將復雜約束與視覺理解相結(jié)合確實是一個更具挑戰(zhàn)性的任務。即使是最強的模型在感知級問題上的得分也只有44%左右,這為未來的研究指明了重點方向。
五、技術(shù)創(chuàng)新與應用前景
MM-IFEngine系統(tǒng)的技術(shù)創(chuàng)新不僅僅體現(xiàn)在數(shù)據(jù)生成的自動化上,更重要的是它建立了一套完整的多模態(tài)指令遵循能力培養(yǎng)體系。這個體系的設計理念借鑒了人類學習復雜技能的過程,通過大量多樣化的練習來培養(yǎng)AI的"聽話"能力。
約束分類體系的設計特別值得關(guān)注。研究團隊將現(xiàn)實世界中可能遇到的各種指令要求進行了系統(tǒng)化的歸納和分類,形成了一個層次化的約束taxonomy。這個分類體系不僅覆蓋了文本長度、格式要求等基礎(chǔ)約束,還包括了語調(diào)模擬、角色扮演等高級約束,甚至考慮到了數(shù)學精度、科學計數(shù)法等專業(yè)領(lǐng)域的特殊要求。
在約束集成的過程中,系統(tǒng)采用了智能化的兼容性檢查機制。這個機制能夠自動識別約束之間的潛在沖突,比如同時要求"使用第一人稱"和"保持客觀中立的語調(diào)"這樣的矛盾要求。通過LLM的語義理解能力,系統(tǒng)能夠在約束組合階段就過濾掉這些不合理的組合,確保生成的訓練數(shù)據(jù)質(zhì)量。
混合評估策略的設計也體現(xiàn)了深刻的技術(shù)洞察。研究團隊認識到,不同類型的約束需要不同的評估方法,強行使用統(tǒng)一的評估標準可能導致評估結(jié)果的不準確。基于規(guī)則的驗證方法確保了客觀約束評估的精確性,LLM判斷方法提供了語義約束評估的靈活性,而比較判斷方法則解決了主觀約束評估的難題。
從應用前景來看,這項研究成果有望在多個領(lǐng)域產(chǎn)生重要影響。在內(nèi)容創(chuàng)作領(lǐng)域,經(jīng)過訓練的AI能夠更好地理解創(chuàng)作者的具體要求,比如"寫一篇800字的產(chǎn)品介紹,語調(diào)要專業(yè)但不失親切,必須包含三個具體的使用場景"。在教育領(lǐng)域,AI家教能夠更準確地按照老師的教學要求來設計作業(yè)和練習,比如"設計5道數(shù)學題,難度遞增,每題都要包含實際生活場景"。
在企業(yè)應用中,這種能力的提升意義更加顯著。AI助手能夠更好地理解和執(zhí)行復雜的工作指令,比如"分析這份銷售報告,用圖表形式展示三個關(guān)鍵趨勢,每個趨勢用不超過50字解釋,最后提出兩個具體的改進建議"。這種精確的指令遵循能力將大大提高AI在實際工作中的實用性和可靠性。
從技術(shù)發(fā)展的角度看,這項研究開啟了多模態(tài)AI能力評估的新方向。傳統(tǒng)的評估方法主要關(guān)注AI回答的準確性,而忽略了AI是否能夠按照用戶的具體要求來組織和呈現(xiàn)答案。MM-IFEval基準的提出填補了這個評估空白,為后續(xù)的模型發(fā)展提供了明確的目標和衡量標準。
研究團隊還特別注重開源精神,他們將完整的數(shù)據(jù)集、評估代碼和訓練腳本都進行了開源發(fā)布。這種做法不僅有利于學術(shù)界的重現(xiàn)和驗證,更重要的是為整個社區(qū)提供了寶貴的資源和工具。其他研究團隊可以基于這些開源資源來開發(fā)更先進的指令遵循模型,或者針對特定領(lǐng)域的需求來定制化改進現(xiàn)有方法。
六、挑戰(zhàn)與局限性分析
盡管這項研究取得了顯著成果,但研究團隊也坦誠地指出了當前方法的一些局限性和面臨的挑戰(zhàn)。這種客觀的態(tài)度體現(xiàn)了嚴謹?shù)目茖W精神,也為未來的改進指明了方向。
首先是數(shù)據(jù)生成的質(zhì)量控制問題。雖然MM-IFEngine能夠自動生成大量訓練數(shù)據(jù),但要確保每個生成樣本的質(zhì)量仍然是一個挑戰(zhàn)。研究團隊采用了80%的準確率閾值作為質(zhì)量標準,這意味著仍有20%的數(shù)據(jù)可能存在質(zhì)量問題。雖然這個比例在大規(guī)模數(shù)據(jù)生成中是可以接受的,但如何進一步提高數(shù)據(jù)質(zhì)量仍然是一個需要持續(xù)關(guān)注的問題。
約束兼容性檢查雖然能夠過濾掉明顯的沖突,但對于一些微妙的不兼容情況可能仍然無法完全識別。比如要求"保持學術(shù)嚴謹性"和"使用幽默風趣的語調(diào)"這樣的約束,雖然不是完全沖突,但在實際執(zhí)行中可能會產(chǎn)生矛盾。這種邊界情況的處理需要更加精細的設計和更強的語義理解能力。
評估方法的準確性也存在提升空間。雖然混合評估策略比單一評估方法更加準確,但LLM作為評判者仍然可能存在一定的偏見和不一致性。特別是在比較判斷方法中,LLM的評判標準可能會受到訓練數(shù)據(jù)和模型偏見的影響,這可能會對最終的評估結(jié)果產(chǎn)生系統(tǒng)性影響。
從更廣泛的角度來看,當前的研究主要集中在英語環(huán)境下的指令遵循,對于其他語言的適用性還需要進一步驗證。不同語言的表達習慣和約束形式可能存在顯著差異,這就需要針對不同語言特點來調(diào)整約束設計和評估方法。
另一個重要的挑戰(zhàn)是計算資源的需求。高質(zhì)量的指令遵循訓練需要大量的計算資源,特別是DPO訓練方法需要生成和比較大量的樣本對。這可能會限制該方法在資源受限環(huán)境下的應用,也會影響中小型研究團隊的參與度。
從實際應用的角度看,用戶指令的多樣性和復雜性遠遠超出了當前基準測試的覆蓋范圍。現(xiàn)實世界中的指令往往更加隨意、模糊,包含大量隱含信息和上下文依賴。如何讓AI在這種開放環(huán)境下仍然能夠準確理解和執(zhí)行指令,仍然是一個巨大的挑戰(zhàn)。
倫理和安全方面的考慮也不容忽視。強化的指令遵循能力可能會讓AI更容易被惡意指令所利用,比如生成有害內(nèi)容或進行誤導性宣傳。如何在提升指令遵循能力的同時保持適當?shù)陌踩吔?,是未來發(fā)展中必須認真考慮的問題。
七、未來發(fā)展方向
基于當前的研究成果和存在的局限性,研究團隊和更廣泛的學術(shù)界可以在多個方向上繼續(xù)深入探索,推動多模態(tài)指令遵循技術(shù)的進一步發(fā)展。
在數(shù)據(jù)質(zhì)量提升方面,未來的工作可以探索更加智能的質(zhì)量控制機制。比如開發(fā)專門的質(zhì)量評估模型,能夠自動識別和過濾低質(zhì)量的生成樣本。另外,可以引入人工驗證環(huán)節(jié),對關(guān)鍵樣本進行人工審核,建立更加可靠的質(zhì)量標準。多輪迭代生成也是一個有前景的方向,通過多次優(yōu)化來逐步提升樣本質(zhì)量。
約束設計的豐富化是另一個重要方向。當前的32種約束類型雖然已經(jīng)相當全面,但仍然可以進一步擴展。比如可以添加更多領(lǐng)域特定的約束,如法律文書的格式要求、醫(yī)學報告的規(guī)范性要求等??缒B(tài)約束的設計也很有價值,比如要求AI的回答與圖片中的色彩風格保持一致,或者根據(jù)圖片內(nèi)容選擇合適的情感表達方式。
在評估方法的改進上,可以探索更加客觀和一致的評估標準。比如開發(fā)專門的約束評估模型,這些模型專門訓練來判斷特定類型的約束是否得到滿足。多評估者一致性檢查也是一個重要方向,通過多個獨立的評估者來提高評估結(jié)果的可靠性。
模型架構(gòu)的優(yōu)化也有很大潛力。當前的方法主要依賴于后訓練的微調(diào),但如果能在模型的預訓練階段就引入指令遵循的意識,可能會取得更好的效果。多任務學習框架也值得探索,讓模型在學習指令遵循的同時保持甚至提升其他能力。
個性化指令遵循是一個極具應用價值的研究方向。不同用戶的指令習慣和偏好可能存在顯著差異,如果AI能夠?qū)W習和適應個人的指令風格,將大大提升用戶體驗。這需要開發(fā)用戶畫像技術(shù)和個性化適應算法。
跨語言和跨文化的指令遵循研究也亟待開展。不同語言和文化背景下的指令表達方式、約束類型和評估標準都可能存在差異。開發(fā)多語言的指令遵循基準和訓練數(shù)據(jù),對于技術(shù)的全球化應用具有重要意義。
在實際應用的場景化方面,可以針對特定領(lǐng)域開發(fā)專門的指令遵循系統(tǒng)。比如教育領(lǐng)域的AI家教、醫(yī)療領(lǐng)域的AI助手、法律領(lǐng)域的AI顧問等,每個領(lǐng)域都有其獨特的指令遵循需求和挑戰(zhàn)。
長期來看,指令遵循能力的提升還需要與其他AI能力的發(fā)展相結(jié)合。比如與推理能力結(jié)合,讓AI能夠理解復雜的多步驟指令;與創(chuàng)造性結(jié)合,讓AI在遵循約束的同時保持創(chuàng)新性;與情感智能結(jié)合,讓AI能夠理解和響應情感性的指令要求。
說到底,這項研究雖然取得了重要突破,但也只是在多模態(tài)AI發(fā)展道路上邁出的重要一步。讓AI真正像人類一樣理解和執(zhí)行復雜指令,仍然需要整個學術(shù)界和產(chǎn)業(yè)界的持續(xù)努力。不過,隨著越來越多像MM-IFEngine這樣的創(chuàng)新系統(tǒng)的出現(xiàn),我們有理由相信,AI的"聽話"能力將會越來越強,最終能夠成為人類真正可靠的智能助手。研究團隊的開源精神和嚴謹態(tài)度為后續(xù)研究奠定了良好基礎(chǔ),相信會有更多優(yōu)秀的研究成果在此基礎(chǔ)上涌現(xiàn)出來。
Q&A
Q1:MM-IFEngine是什么?它解決了什么問題? A:MM-IFEngine是上海AI實驗室開發(fā)的多模態(tài)指令遵循訓練系統(tǒng)。它解決了當前AI模型雖然能回答圖片相關(guān)問題,但無法精確按照用戶復雜要求(如字數(shù)限制、格式要求、語調(diào)要求等)來組織答案的問題。就像AI能做數(shù)學題但不會按老師的具體要求來寫作業(yè)一樣。
Q2:MM-IFEval基準測試有什么特點?為什么很有挑戰(zhàn)性? A:MM-IFEval包含400個測試問題,涵蓋32種約束類型,平均每題5.1個約束條件,遠超現(xiàn)有基準的復雜度。即使GPT-4o也只能達到64.6%的分數(shù)。它的挑戰(zhàn)性在于需要AI同時滿足多個復雜約束,比如"用200字寫詩歌形式的總結(jié),要用第二人稱,不能提及顏色"這樣的復合要求。
Q3:這項研究對普通用戶有什么實際意義? A:這項研究讓AI更"聽話",能準確理解和執(zhí)行復雜指令。未來當你要求AI"寫個500字的產(chǎn)品介紹,語調(diào)專業(yè)但親切,包含三個使用場景,格式要分段"時,AI就能完全按你的要求來完成,而不是只回答大概內(nèi)容卻忽略具體要求。這將大大提升AI在工作、學習、創(chuàng)作等場景中的實用性。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。