在人工智能飛速發(fā)展的今天,AI已經(jīng)能夠讀懂圖片、理解語言,甚至與人對話。但如果讓AI看著一張照片寫詩,或者根據(jù)圖片設(shè)計海報文案,它們的表現(xiàn)又如何呢?這個問題聽起來簡單,實際上卻涉及了AI最復(fù)雜的能力之一——創(chuàng)造力。最近,由上海AI實驗室聯(lián)合浙江大學(xué)、同濟大學(xué)、南京大學(xué)等多所知名高校組成的研究團隊,發(fā)表了一項關(guān)于多模態(tài)大語言模型(MLLMs)創(chuàng)意能力評估的重磅研究。這項名為"Creation-MMBench"的研究成果發(fā)表于2025年3月,感興趣的讀者可以通過GitHub平臺(https://github.com/opencompass/Creation-MMBench)獲取完整的研究數(shù)據(jù)和代碼。
從傳統(tǒng)意義上講,創(chuàng)造力一直被視為人類獨有的天賦。然而,隨著GPT-4、Gemini等大型語言模型的涌現(xiàn),AI在創(chuàng)作詩歌、撰寫故事、生成創(chuàng)意文案等方面表現(xiàn)出了令人驚嘆的能力。但這些AI模型大多只能處理文字,無法直接"看懂"圖片并基于視覺內(nèi)容進(jìn)行創(chuàng)作。而新一代的多模態(tài)AI模型,比如GPT-4V、Claude等,已經(jīng)能夠同時理解文字和圖像。那么,當(dāng)這些"多才多藝"的AI面對需要視覺理解與創(chuàng)意表達(dá)相結(jié)合的任務(wù)時,它們的表現(xiàn)到底如何呢?
研究團隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象:盡管現(xiàn)有的AI評估基準(zhǔn)測試已經(jīng)非常豐富,涵蓋了數(shù)學(xué)推理、科學(xué)知識、邏輯分析等各個方面,但在創(chuàng)意能力評估這個領(lǐng)域卻存在著巨大的空白。這就好比我們有各種標(biāo)準(zhǔn)化考試來測試學(xué)生的數(shù)學(xué)、語文能力,卻沒有專門的測試來評估他們的藝術(shù)創(chuàng)作天賦。為了填補這個空白,研究團隊開發(fā)了Creation-MMBench——一個專門用于評估多模態(tài)AI創(chuàng)意能力的全新基準(zhǔn)測試。
這個測試系統(tǒng)的設(shè)計理念源于心理學(xué)中著名的"智力三元理論"。該理論將人類智力分為三個主要部分:分析智力(處理信息和解決問題的能力)、實用智力(在現(xiàn)實環(huán)境中應(yīng)用知識的能力)和創(chuàng)造智力(產(chǎn)生新穎且合適解決方案的能力)?,F(xiàn)有的AI測試主要集中在前兩種智力上,而對創(chuàng)造智力的評估嚴(yán)重不足。研究團隊認(rèn)為,這種不平衡的評估方式無法全面反映AI的真實能力水平,特別是在日常生活中需要創(chuàng)意思維的場景下。
Creation-MMBench包含了765個精心設(shè)計的測試案例,覆蓋51種不同類型的創(chuàng)意任務(wù)。這些任務(wù)被巧妙地分為四大類別。首先是"文學(xué)寫作"類別,就像讓AI當(dāng)一回詩人或小說家,要求它們根據(jù)圖片內(nèi)容創(chuàng)作詩歌、編寫故事或者設(shè)計對話場景。比如,給AI展示一張黃昏時分的湖邊風(fēng)景照,要求它寫一首表達(dá)寧靜與思考的詩歌。
第二類是"日常功能性寫作",這類任務(wù)更貼近普通人的生活需求。比如讓AI看著一張美食照片撰寫社交媒體文案,或者根據(jù)獲獎證書的圖片寫一段朋友圈分享文字。這類任務(wù)考驗的是AI能否將視覺信息轉(zhuǎn)化為實用的日常表達(dá)。
第三類是"專業(yè)功能性寫作",這要求AI具備特定領(lǐng)域的專業(yè)知識。例如,讓AI扮演室內(nèi)設(shè)計師的角色,根據(jù)房屋戶型圖分析空間布局的優(yōu)缺點并提出改進(jìn)建議;或者讓AI作為營養(yǎng)師,根據(jù)一道菜的圖片分析其營養(yǎng)價值并給出飲食建議。
最后一類是"創(chuàng)意多模態(tài)理解",這類任務(wù)最為復(fù)雜,要求AI不僅要理解圖片內(nèi)容,還要挖掘其背后的深層含義。比如分析一張廣告海報的創(chuàng)意策略,或者解釋一個網(wǎng)絡(luò)表情包的幽默點在哪里。
為了確保測試的公正性和準(zhǔn)確性,研究團隊沒有采用傳統(tǒng)的標(biāo)準(zhǔn)答案對比方式,而是開發(fā)了一套基于AI評判的評分系統(tǒng)。他們讓GPT-4o充當(dāng)"評委",根據(jù)詳細(xì)的評分標(biāo)準(zhǔn)對AI生成的創(chuàng)意作品進(jìn)行評判。這種方法類似于讓經(jīng)驗豐富的老師來評閱學(xué)生的作文——不是簡單地對答案,而是從創(chuàng)意性、邏輯性、語言表達(dá)等多個維度進(jìn)行綜合評價。
研究團隊還特別設(shè)計了兩套評價指標(biāo)。一套是"視覺事實準(zhǔn)確性評分",用來檢驗AI是否準(zhǔn)確理解了圖片內(nèi)容。另一套是"獎勵評分",通過將待測試的AI模型與基準(zhǔn)模型(GPT-4o)進(jìn)行對比,評估其創(chuàng)意表現(xiàn)的相對水平。這就好比在鋼琴比賽中,不僅要看選手是否彈對了音符,還要評判其演奏的藝術(shù)表現(xiàn)力。
通過對20個主流多模態(tài)AI模型的測試,研究團隊得出了一些令人深思的結(jié)論。在商業(yè)化的AI模型中,Google的Gemini-2.0-Pro表現(xiàn)最為出色,與OpenAI的GPT-4o水平相當(dāng),特別是在日常功能性寫作方面表現(xiàn)突出。這兩個模型就像是班級里的優(yōu)等生,在各種創(chuàng)意任務(wù)中都顯示出了較強的綜合能力。
然而,開源AI模型的表現(xiàn)則相對遜色。即使是表現(xiàn)最好的開源模型Qwen2.5-VL-72B,其創(chuàng)意能力也明顯落后于頂級商業(yè)模型。這種差距就像是校隊選手與職業(yè)選手之間的區(qū)別——雖然都具備基本技能,但在復(fù)雜任務(wù)的處理上還有明顯差距。
更有趣的是,研究團隊發(fā)現(xiàn)了一個意想不到的現(xiàn)象:當(dāng)AI模型經(jīng)過視覺訓(xùn)練以獲得"看圖"能力后,它們原本的文字創(chuàng)作能力竟然會有所下降。這種現(xiàn)象被稱為"視覺指令調(diào)優(yōu)的負(fù)面影響"。為了驗證這一發(fā)現(xiàn),研究團隊創(chuàng)建了Creation-MMBench-TO,這是一個純文字版本的測試,其中圖片被替換為詳細(xì)的文字描述。
結(jié)果顯示,當(dāng)移除視覺輸入改用文字描述時,大部分多模態(tài)AI模型的創(chuàng)意表現(xiàn)都有所提升。這個發(fā)現(xiàn)類似于發(fā)現(xiàn)某些學(xué)生在聽課時比看書學(xué)得更好——不同的信息輸入方式會影響AI的創(chuàng)意表達(dá)能力。這一現(xiàn)象提醒我們,在追求AI多功能化的同時,也要關(guān)注不同能力之間可能存在的相互影響。
在不同類型的創(chuàng)意任務(wù)中,AI模型的表現(xiàn)也呈現(xiàn)出明顯的差異。專業(yè)功能性寫作任務(wù)對所有模型來說都是最大的挑戰(zhàn),這類任務(wù)不僅需要創(chuàng)意思維,還需要深厚的專業(yè)知識儲備。相比之下,日常功能性寫作任務(wù)的表現(xiàn)最好,這可能是因為這類任務(wù)更接近AI在訓(xùn)練過程中接觸到的常見文本類型。
為了驗證測試結(jié)果的可靠性,研究團隊還進(jìn)行了人類評估實驗。他們邀請志愿者對部分AI生成的創(chuàng)意作品進(jìn)行評判,并將結(jié)果與AI評委的判斷進(jìn)行對比。結(jié)果顯示,GPT-4o作為評委的判斷與人類評價者的意見具有較高的一致性,這證明了評估方法的有效性。
這項研究的價值不僅在于揭示了當(dāng)前AI模型在創(chuàng)意能力方面的現(xiàn)狀,更重要的是為未來的AI發(fā)展指明了方向。研究結(jié)果表明,雖然AI在某些創(chuàng)意任務(wù)上已經(jīng)表現(xiàn)不錯,但在需要深度專業(yè)知識支撐的復(fù)雜創(chuàng)意任務(wù)中,還有很大的提升空間。這就好比AI現(xiàn)在能夠?qū)懗霾诲e的日記和簡單故事,但要創(chuàng)作出深刻的學(xué)術(shù)論文或?qū)I(yè)技術(shù)文檔,還需要進(jìn)一步的發(fā)展。
研究團隊還發(fā)現(xiàn),當(dāng)前的開源AI模型與商業(yè)模型之間存在顯著的創(chuàng)意能力差距。這種差距不僅體現(xiàn)在技術(shù)實現(xiàn)上,也反映了數(shù)據(jù)資源、訓(xùn)練方法和計算能力等方面的綜合差異。這個發(fā)現(xiàn)對AI技術(shù)的普及和應(yīng)用具有重要意義——它提醒我們,真正高質(zhì)量的AI創(chuàng)意能力可能仍然掌握在少數(shù)技術(shù)領(lǐng)先的公司手中。
對于普通用戶而言,這項研究的結(jié)果具有很強的實用價值。當(dāng)我們在選擇AI工具來協(xié)助創(chuàng)意工作時,可以根據(jù)具體需求來選擇合適的模型。如果需要處理日常的文案寫作或社交媒體內(nèi)容創(chuàng)作,目前的主流AI模型已經(jīng)能夠提供相當(dāng)不錯的幫助。但如果涉及專業(yè)領(lǐng)域的創(chuàng)意工作,比如市場營銷策略設(shè)計或技術(shù)文檔撰寫,可能還需要更多的人工干預(yù)和專業(yè)指導(dǎo)。
展望未來,這項研究為AI創(chuàng)意能力的發(fā)展提供了重要的參考基準(zhǔn)。隨著技術(shù)的不斷進(jìn)步,我們可以期待AI在創(chuàng)意領(lǐng)域的表現(xiàn)會越來越好。但同時也要認(rèn)識到,創(chuàng)意不僅僅是技術(shù)問題,它還涉及文化背景、情感表達(dá)、審美判斷等復(fù)雜因素。真正的創(chuàng)意AI不僅要學(xué)會模仿人類的創(chuàng)作模式,更要發(fā)展出自己獨特的"創(chuàng)意風(fēng)格"。
說到底,這項研究為我們揭示了AI創(chuàng)意能力發(fā)展的現(xiàn)狀和挑戰(zhàn)。雖然AI在某些創(chuàng)意任務(wù)上已經(jīng)展現(xiàn)出令人印象深刻的能力,但距離真正的創(chuàng)意專家還有一段路要走。歸根結(jié)底,AI的創(chuàng)意能力正在快速發(fā)展,但在復(fù)雜的專業(yè)創(chuàng)意任務(wù)中,人類的經(jīng)驗、直覺和專業(yè)判斷依然不可替代。這個發(fā)現(xiàn)既讓我們對AI的潛力感到興奮,也提醒我們在享受AI便利的同時,不要忽視人類創(chuàng)意思維的獨特價值。對于有興趣深入了解這項研究的讀者,可以訪問GitHub平臺獲取完整的研究數(shù)據(jù)和評估代碼,親自體驗這套創(chuàng)意能力測試系統(tǒng)。
Q&A
Q1:Creation-MMBench是什么?它有什么特別之處? A:Creation-MMBench是專門評估多模態(tài)AI創(chuàng)意能力的測試系統(tǒng),包含765個創(chuàng)意任務(wù)。它的特別之處在于這是首個專門測試AI"看圖創(chuàng)作"能力的基準(zhǔn),填補了AI創(chuàng)意評估的空白,就像為AI設(shè)計的"創(chuàng)意高考"。
Q2:為什么AI學(xué)會看圖后文字創(chuàng)作能力會下降? A:研究發(fā)現(xiàn)這種現(xiàn)象叫"視覺指令調(diào)優(yōu)的負(fù)面影響"。當(dāng)AI同時學(xué)習(xí)處理圖像和文字時,兩種能力之間會產(chǎn)生競爭,就像一個人同時學(xué)多種技能時可能會相互干擾,需要在不同能力間找到平衡點。
Q3:普通人如何利用這項研究成果選擇AI工具? A:根據(jù)研究結(jié)果,如果你需要日常文案寫作或社交媒體內(nèi)容,主流AI已經(jīng)很好用;但如果涉及專業(yè)領(lǐng)域創(chuàng)意工作,最好選擇頂級商業(yè)模型如GPT-4或Gemini,并做好人工審核和調(diào)整的準(zhǔn)備。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。