在現(xiàn)代人工智能快速發(fā)展的時代,視覺語言模型(VLM)已經(jīng)能夠像人類助手一樣幫助我們處理各種視覺任務(wù)。但你是否曾經(jīng)思考過,同樣的場景,不同的人會有不同的認知和期望?2025年6月,由武漢大學(xué)李永奇、周沈、李曉虎等學(xué)者領(lǐng)導(dǎo)的研究團隊在論文《Aligning VLM Assistants with Personalized Situated Cognition》中提出了一個關(guān)鍵問題:如何讓視覺語言模型根據(jù)不同人的背景和情況,提供個性化的幫助?這篇發(fā)表于arXiv(arXiv:2506.00930v1)的研究論文,探索了讓AI視覺助手更好理解人類個性化情境認知的方法。
想象一下,當(dāng)你和一位工程師同時看到一個"壞掉的秋千"的場景時,你們會有完全不同的反應(yīng)。作為普通人,你可能擔(dān)心孩子的安全,希望AI助手告訴你如何保護孩子避免受傷;而工程師則可能想要知道如何修復(fù)秋千,期待AI提供專業(yè)的修理建議。這正是研究團隊關(guān)注的問題:同樣的視覺場景,因人而異的認知和需求,要求AI助手提供個性化的回應(yīng)。
要解決這個問題,研究團隊首先需要一種方法來描述不同個體的多樣性。考慮到人類多樣性受年齡、社會經(jīng)濟地位等眾多因素影響,研究團隊借鑒了社會學(xué)中的"角色集合"(Role-Set)概念,將每個人定義為一組"角色@位置"的組合。比如,一個人可能同時是"家中的父親"、"社區(qū)的消防員"、"博物館的訪客"等多重身份。這種簡化但有效的方法,讓研究團隊能夠在實驗中模擬人類的多樣性。
基于這一定義,研究團隊構(gòu)建了一個名為PCogAlignBench的基準測試集,包含了18,000個樣本和20個具有不同角色集的個體。在這個基準測試中,每個樣本包含了個體的角色集、圖像和個體提出的問題。此外,測試樣本還包括"指導(dǎo)標準",描述了"期望的個性化回應(yīng)的特征",這為評估模型的個性化程度提供了標準。
研究團隊還提出了一個名為PCogAlign的框架,用于訓(xùn)練視覺語言模型提供個性化的回應(yīng)。這個框架分為三個步驟:首先,估計個體的情境認知和最佳行動;然后,通過協(xié)作代理采樣多個個性化回應(yīng);最后,構(gòu)建并使用一個認知感知和行動基礎(chǔ)的獎勵模型,迭代選擇最佳回應(yīng)。
PCogAlign框架的核心在于它能夠理解個體的情境認知,并根據(jù)這種認知生成個性化的回應(yīng)。在第一步中,框架使用語境學(xué)習(xí)方法來估計個體在特定視覺場景下的情境認知,包括對場景狀態(tài)的認知、對身體和心理狀態(tài)的認知,以及對適當(dāng)下一步行動的認知。
在第二步中,框架設(shè)計了兩個協(xié)作代理:關(guān)鍵點生成器(KeyG)和回應(yīng)生成器(ResG)。關(guān)鍵點生成器利用個體的情境認知和期望的最佳行動,生成關(guān)鍵點,指導(dǎo)如何考慮個體的認知并改善個體的身體行為和心理感受。回應(yīng)生成器則使用這些關(guān)鍵點重新生成回應(yīng)。通過多次迭代,框架能夠收集多個候選的個性化回應(yīng)。
最后,框架構(gòu)建了一個認知感知和行動基礎(chǔ)的獎勵模型,用于選擇最佳回應(yīng)。這個獎勵模型通過負角色集來收集訓(xùn)練數(shù)據(jù),例如,對于"老師@學(xué)校"的個體,"學(xué)生@學(xué)校"的角色集可以被視為負角色集,因為為學(xué)生設(shè)計的回應(yīng)對老師可能不合適。獎勵模型考慮個體的行動來判斷回應(yīng)是否滿足個性化期望,從而選擇最能引導(dǎo)個體采取最佳行動的回應(yīng)。
研究團隊在PCogAlignBench上進行了廣泛的實驗,結(jié)果顯示PCogAlign框架在各種設(shè)置下都優(yōu)于基線方法。具體來說,PCogAlign在"獲勝率"(與基線方法相比的優(yōu)勢)上平均提高了2.4%。此外,人類評估結(jié)果也證實了自動評估方法的可靠性,顯示人類評估者在88%的情況下與自動評估結(jié)果一致。
研究還發(fā)現(xiàn),當(dāng)使用不同的視覺語言模型時,PCogAlign框架始終表現(xiàn)出優(yōu)勢。例如,在MiniCPM-V-2_6模型上,PCogAlign(P)方法(框架的簡化版本)在"獲勝率"上比基線方法提高了19.8%。這表明該框架具有很好的適應(yīng)性,可以應(yīng)用于不同的視覺語言模型。
這項研究的創(chuàng)新之處在于它首次嘗試讓視覺語言模型理解并適應(yīng)人類的個性化情境認知。傳統(tǒng)的對齊方法通常關(guān)注一般性目標,如減少幻覺或符合通用人類價值觀,而忽略了人類多樣性所帶來的個性化需求。PCogAlign框架通過理解個體的情境認知和期望行動,使視覺語言模型能夠提供真正個性化的幫助。
研究團隊也指出了一些局限性和未來的研究方向。首先,雖然角色集概念簡化了人類多樣性的表示,但實際生活中的個體多樣性遠不止于此,未來研究可以探索更全面的表示方法。其次,雖然實驗證明了簡單但有效的方法來估計個性化情境認知和最佳行動,但可能存在更好的方法來完成這一步驟。最后,實驗中發(fā)現(xiàn)基于DPO的變體效果較弱,這表明可能需要更適合個性化對齊的偏好優(yōu)化算法。
這項研究對我們?nèi)粘I畹挠绊懖蝗菪∮U。想象一下,未來的AI助手能夠理解你的不同角色和情境,在你工作時提供專業(yè)建議,在你陪伴孩子時給出親子互動的建議,或者在你旅游時推薦符合你興趣的景點。這種個性化的AI助手將使技術(shù)更好地適應(yīng)人類的多樣性,而不是要求人類適應(yīng)技術(shù)的局限性。
總的來說,武漢大學(xué)研究團隊的這項工作為個性化視覺語言模型的發(fā)展開辟了新的道路,使AI助手能夠更好地理解和滿足不同人群的多樣化需求。隨著研究的深入,我們可以期待未來的AI系統(tǒng)能夠更好地理解人類的個性化認知,提供真正符合個人需求的幫助。研究團隊已將其構(gòu)建的基準測試集和代碼開源于GitHub(https://github.com/NLPGM/PCogAlign),有興趣的讀者可以通過該鏈接獲取更多信息。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。