av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 讓AI讀懂你的心:武漢大學(xué)團隊開發(fā)個性化視覺大模型輔助系統(tǒng)的突破性研究

讓AI讀懂你的心:武漢大學(xué)團隊開發(fā)個性化視覺大模型輔助系統(tǒng)的突破性研究

2025-06-06 11:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 11:22 ? 科技行者

在現(xiàn)代人工智能快速發(fā)展的時代,視覺語言模型(VLM)已經(jīng)能夠像人類助手一樣幫助我們處理各種視覺任務(wù)。但你是否曾經(jīng)思考過,同樣的場景,不同的人會有不同的認知和期望?2025年6月,由武漢大學(xué)李永奇、周沈、李曉虎等學(xué)者領(lǐng)導(dǎo)的研究團隊在論文《Aligning VLM Assistants with Personalized Situated Cognition》中提出了一個關(guān)鍵問題:如何讓視覺語言模型根據(jù)不同人的背景和情況,提供個性化的幫助?這篇發(fā)表于arXiv(arXiv:2506.00930v1)的研究論文,探索了讓AI視覺助手更好理解人類個性化情境認知的方法。

想象一下,當(dāng)你和一位工程師同時看到一個"壞掉的秋千"的場景時,你們會有完全不同的反應(yīng)。作為普通人,你可能擔(dān)心孩子的安全,希望AI助手告訴你如何保護孩子避免受傷;而工程師則可能想要知道如何修復(fù)秋千,期待AI提供專業(yè)的修理建議。這正是研究團隊關(guān)注的問題:同樣的視覺場景,因人而異的認知和需求,要求AI助手提供個性化的回應(yīng)。

要解決這個問題,研究團隊首先需要一種方法來描述不同個體的多樣性。考慮到人類多樣性受年齡、社會經(jīng)濟地位等眾多因素影響,研究團隊借鑒了社會學(xué)中的"角色集合"(Role-Set)概念,將每個人定義為一組"角色@位置"的組合。比如,一個人可能同時是"家中的父親"、"社區(qū)的消防員"、"博物館的訪客"等多重身份。這種簡化但有效的方法,讓研究團隊能夠在實驗中模擬人類的多樣性。

基于這一定義,研究團隊構(gòu)建了一個名為PCogAlignBench的基準測試集,包含了18,000個樣本和20個具有不同角色集的個體。在這個基準測試中,每個樣本包含了個體的角色集、圖像和個體提出的問題。此外,測試樣本還包括"指導(dǎo)標準",描述了"期望的個性化回應(yīng)的特征",這為評估模型的個性化程度提供了標準。

研究團隊還提出了一個名為PCogAlign的框架,用于訓(xùn)練視覺語言模型提供個性化的回應(yīng)。這個框架分為三個步驟:首先,估計個體的情境認知和最佳行動;然后,通過協(xié)作代理采樣多個個性化回應(yīng);最后,構(gòu)建并使用一個認知感知和行動基礎(chǔ)的獎勵模型,迭代選擇最佳回應(yīng)。

PCogAlign框架的核心在于它能夠理解個體的情境認知,并根據(jù)這種認知生成個性化的回應(yīng)。在第一步中,框架使用語境學(xué)習(xí)方法來估計個體在特定視覺場景下的情境認知,包括對場景狀態(tài)的認知、對身體和心理狀態(tài)的認知,以及對適當(dāng)下一步行動的認知。

在第二步中,框架設(shè)計了兩個協(xié)作代理:關(guān)鍵點生成器(KeyG)和回應(yīng)生成器(ResG)。關(guān)鍵點生成器利用個體的情境認知和期望的最佳行動,生成關(guān)鍵點,指導(dǎo)如何考慮個體的認知并改善個體的身體行為和心理感受。回應(yīng)生成器則使用這些關(guān)鍵點重新生成回應(yīng)。通過多次迭代,框架能夠收集多個候選的個性化回應(yīng)。

最后,框架構(gòu)建了一個認知感知和行動基礎(chǔ)的獎勵模型,用于選擇最佳回應(yīng)。這個獎勵模型通過負角色集來收集訓(xùn)練數(shù)據(jù),例如,對于"老師@學(xué)校"的個體,"學(xué)生@學(xué)校"的角色集可以被視為負角色集,因為為學(xué)生設(shè)計的回應(yīng)對老師可能不合適。獎勵模型考慮個體的行動來判斷回應(yīng)是否滿足個性化期望,從而選擇最能引導(dǎo)個體采取最佳行動的回應(yīng)。

研究團隊在PCogAlignBench上進行了廣泛的實驗,結(jié)果顯示PCogAlign框架在各種設(shè)置下都優(yōu)于基線方法。具體來說,PCogAlign在"獲勝率"(與基線方法相比的優(yōu)勢)上平均提高了2.4%。此外,人類評估結(jié)果也證實了自動評估方法的可靠性,顯示人類評估者在88%的情況下與自動評估結(jié)果一致。

研究還發(fā)現(xiàn),當(dāng)使用不同的視覺語言模型時,PCogAlign框架始終表現(xiàn)出優(yōu)勢。例如,在MiniCPM-V-2_6模型上,PCogAlign(P)方法(框架的簡化版本)在"獲勝率"上比基線方法提高了19.8%。這表明該框架具有很好的適應(yīng)性,可以應(yīng)用于不同的視覺語言模型。

這項研究的創(chuàng)新之處在于它首次嘗試讓視覺語言模型理解并適應(yīng)人類的個性化情境認知。傳統(tǒng)的對齊方法通常關(guān)注一般性目標,如減少幻覺或符合通用人類價值觀,而忽略了人類多樣性所帶來的個性化需求。PCogAlign框架通過理解個體的情境認知和期望行動,使視覺語言模型能夠提供真正個性化的幫助。

研究團隊也指出了一些局限性和未來的研究方向。首先,雖然角色集概念簡化了人類多樣性的表示,但實際生活中的個體多樣性遠不止于此,未來研究可以探索更全面的表示方法。其次,雖然實驗證明了簡單但有效的方法來估計個性化情境認知和最佳行動,但可能存在更好的方法來完成這一步驟。最后,實驗中發(fā)現(xiàn)基于DPO的變體效果較弱,這表明可能需要更適合個性化對齊的偏好優(yōu)化算法。

這項研究對我們?nèi)粘I畹挠绊懖蝗菪∮U。想象一下,未來的AI助手能夠理解你的不同角色和情境,在你工作時提供專業(yè)建議,在你陪伴孩子時給出親子互動的建議,或者在你旅游時推薦符合你興趣的景點。這種個性化的AI助手將使技術(shù)更好地適應(yīng)人類的多樣性,而不是要求人類適應(yīng)技術(shù)的局限性。

總的來說,武漢大學(xué)研究團隊的這項工作為個性化視覺語言模型的發(fā)展開辟了新的道路,使AI助手能夠更好地理解和滿足不同人群的多樣化需求。隨著研究的深入,我們可以期待未來的AI系統(tǒng)能夠更好地理解人類的個性化認知,提供真正符合個人需求的幫助。研究團隊已將其構(gòu)建的基準測試集和代碼開源于GitHub(https://github.com/NLPGM/PCogAlign),有興趣的讀者可以通過該鏈接獲取更多信息。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-