近日,由深圳先進(jìn)技術(shù)研究院、中國(guó)科學(xué)院自動(dòng)化研究所、新南威爾士大學(xué)等多家研究機(jī)構(gòu)聯(lián)合發(fā)表的一項(xiàng)研究成果引起了學(xué)術(shù)界廣泛關(guān)注。這項(xiàng)由方飛騰、林婷恩、吳宇川等研究人員領(lǐng)導(dǎo)的研究于2025年5月29日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.23923v1),題為"ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents"(基于角色的行為自適應(yīng)獎(jiǎng)勵(lì)建模,用于高級(jí)角色扮演語(yǔ)言助手)。該研究提出了一種全新的獎(jiǎng)勵(lì)建模框架,旨在大幅提升人工智能在角色扮演方面的能力。
想象一下,如果你曾經(jīng)和AI聊天助手互動(dòng)過(guò),你可能注意到它們?cè)谀7绿囟ń巧珪r(shí)常常顯得不夠真實(shí)。有時(shí)候,它們會(huì)忘記自己應(yīng)該扮演的角色特征,或者無(wú)法保持一致的性格特點(diǎn)。這就像是看一部電影,演員突然忘記了自己的角色設(shè)定,開始以完全不同的方式行動(dòng)和說(shuō)話。這種不連貫性會(huì)嚴(yán)重影響用戶體驗(yàn),打破沉浸感。
ChARM研究團(tuán)隊(duì)正是針對(duì)這一痛點(diǎn)展開工作。他們開發(fā)的系統(tǒng)能讓AI助手更好地扮演從哈利波特中的斯內(nèi)普教授到漫威宇宙中的鋼鐵俠等各種角色,使其表現(xiàn)得更加真實(shí)、連貫且符合角色設(shè)定。這項(xiàng)技術(shù)的意義不僅在于提升娛樂體驗(yàn),還可能為教育、心理健康支持等領(lǐng)域帶來(lái)革命性變化。
傳統(tǒng)的AI角色扮演面臨兩大核心挑戰(zhàn):一是如何讓AI理解和把握角色的復(fù)雜性;二是如何讓AI在不同情境下保持角色的一致性。以往的方法往往依賴專家標(biāo)注的偏好數(shù)據(jù),不僅成本高昂,還難以擴(kuò)展到多樣化的角色和場(chǎng)景中。研究團(tuán)隊(duì)通過(guò)一個(gè)生動(dòng)的例子展示了這一困境:當(dāng)三個(gè)不同的AI模型扮演《火影忍者》中的"宇智波佐助"與"大蛇丸"對(duì)話時(shí),它們會(huì)產(chǎn)生完全不同的回應(yīng),人類評(píng)價(jià)者很難客觀判斷哪個(gè)回應(yīng)更符合角色特征。
ChARM通過(guò)兩項(xiàng)創(chuàng)新性的技術(shù)突破了這些限制。首先,它引入了"行為自適應(yīng)邊界"(Act-adaptive Margin)機(jī)制,能夠動(dòng)態(tài)評(píng)估對(duì)話的質(zhì)量差異,并據(jù)此調(diào)整學(xué)習(xí)強(qiáng)度。這就像是一位經(jīng)驗(yàn)豐富的表演教練,能夠精確地識(shí)別出演員表演中的細(xì)微差別,并相應(yīng)地調(diào)整指導(dǎo)的力度。其次,ChARM采用了"自我進(jìn)化"(Self-Evolution)策略,利用大規(guī)模未標(biāo)注數(shù)據(jù)不斷完善模型,減少對(duì)昂貴人工標(biāo)注的依賴。這類似于一個(gè)不斷自我反思和進(jìn)步的演員,通過(guò)不斷實(shí)踐來(lái)完善自己的表演技巧。
研究團(tuán)隊(duì)還創(chuàng)建了首個(gè)專為角色扮演設(shè)計(jì)的大規(guī)模偏好數(shù)據(jù)集——RoleplayPref,包含1,108個(gè)角色、13個(gè)子類別和16,888個(gè)雙語(yǔ)對(duì)話。這些角色涵蓋了從動(dòng)漫、電影、電視劇、小說(shuō)、游戲角色到名人、音樂家、作家、科學(xué)家等各種類型,為模型提供了豐富多樣的學(xué)習(xí)素材。除此之外,他們還開發(fā)了專門的評(píng)估基準(zhǔn)RoleplayEval,用于全面測(cè)試AI助手的角色扮演能力。
實(shí)驗(yàn)結(jié)果令人印象深刻?;贑hARM構(gòu)建的獎(jiǎng)勵(lì)模型在偏好排名任務(wù)上比傳統(tǒng)的Bradley-Terry模型提高了13%的準(zhǔn)確率。當(dāng)將ChARM生成的獎(jiǎng)勵(lì)信號(hào)應(yīng)用于直接偏好優(yōu)化(DPO)等技術(shù)時(shí),模型在CharacterEval和RoleplayEval基準(zhǔn)測(cè)試上都達(dá)到了最先進(jìn)的表現(xiàn)水平,甚至超越了一些閉源商業(yè)模型。
讓我們更深入地了解ChARM的工作原理。想象你正在教一個(gè)孩子如何扮演不同的角色。傳統(tǒng)方法就像是給孩子一個(gè)簡(jiǎn)單的打分系統(tǒng):"這個(gè)表演好,得10分;那個(gè)表演差,得5分"。而ChARM則更像是一個(gè)能夠根據(jù)孩子的特點(diǎn)和表演內(nèi)容進(jìn)行個(gè)性化指導(dǎo)的老師:"這個(gè)部分你表現(xiàn)得非常自然,但在表達(dá)角色情感時(shí)還可以更加投入"。
ChARM的行為自適應(yīng)邊界機(jī)制利用獎(jiǎng)勵(lì)模型自身的生成能力來(lái)評(píng)估不同偏好對(duì)的質(zhì)量。當(dāng)模型對(duì)某個(gè)對(duì)話對(duì)的質(zhì)量判斷更有信心時(shí),它會(huì)調(diào)整更高的學(xué)習(xí)強(qiáng)度;反之,當(dāng)模型對(duì)質(zhì)量判斷不那么確定時(shí),它會(huì)采取更保守的學(xué)習(xí)策略。這種動(dòng)態(tài)調(diào)整能夠有效應(yīng)對(duì)數(shù)據(jù)中的噪聲和主觀性差異,大大提高了模型的魯棒性和泛化能力。
自我進(jìn)化策略則更像是一個(gè)不斷成長(zhǎng)的學(xué)習(xí)循環(huán)。首先,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)初始的種子獎(jiǎng)勵(lì)模型,能夠?qū)巧珜?duì)話質(zhì)量進(jìn)行初步評(píng)估。然后,他們引入了基于閾值的過(guò)濾策略,從未標(biāo)注的偏好數(shù)據(jù)集中提取高置信度樣本。通過(guò)計(jì)算獎(jiǎng)勵(lì)分?jǐn)?shù)差距G和行為自適應(yīng)邊界M,他們得到一個(gè)質(zhì)量評(píng)估分?jǐn)?shù)Q。根據(jù)Q值,他們將數(shù)據(jù)分為三類:精確集(直接添加到訓(xùn)練集)、不確定集(需要進(jìn)一步處理)和困難集(需要重寫)。
對(duì)于困難集中的低質(zhì)量數(shù)據(jù),ChARM引入了三種有針對(duì)性的重寫策略:精細(xì)重寫(利用頂級(jí)大模型修改流暢度和吸引力低的負(fù)面樣本)、角色檔案替換(更換提示中的角色檔案并基于原始上下文生成新回應(yīng))、以及表達(dá)和動(dòng)作移除(刪除角色回應(yīng)中的動(dòng)作、語(yǔ)氣和表達(dá)元素,降低回應(yīng)的多樣性和吸引力)。
這個(gè)迭代過(guò)程不斷擴(kuò)展訓(xùn)練數(shù)據(jù)集并改進(jìn)低置信度樣本,顯著提高了獎(jiǎng)勵(lì)模型評(píng)估復(fù)雜角色扮演場(chǎng)景的準(zhǔn)確性和魯棒性。這就像是一個(gè)不斷練習(xí)和接受反饋的演員,通過(guò)反復(fù)排練和調(diào)整,最終達(dá)到近乎完美的表演水平。
在深入實(shí)驗(yàn)評(píng)估中,研究團(tuán)隊(duì)將ChARM與多種開源模型(如LLaMa3.1 8B/70B、Qwen2.5 7B/32B/72B)和閉源模型(如GPT-4o、GPT-4o-mini、Claude-3.5-sonnet)以及專有模型(如Doubao-PRO-Character、aba minimax5.5s)進(jìn)行了比較。結(jié)果顯示,經(jīng)過(guò)ChARM增強(qiáng)的Qwen2.5-7B和Qwen2.5-32B模型在所有角色扮演能力維度上都取得了顯著提升。
特別值得一提的是,研究團(tuán)隊(duì)還進(jìn)行了人類評(píng)估,比較ChARM-DPO-32B與三個(gè)基準(zhǔn)模型:Claude3.5-sonnet、GPT-4o和Doubao-Pro-Character。在每次比較中,兩個(gè)模型都會(huì)對(duì)相同的角色扮演對(duì)話上下文生成回應(yīng)。五位人類評(píng)估者隨后評(píng)估這些回應(yīng),將結(jié)果分類為ChARM-DPO-32B的勝利、平局或失敗。在200個(gè)測(cè)試樣本中,ChARM-DPO-32B顯著優(yōu)于所有三個(gè)模型,有力地證明了該方法的有效性。
ChARM的創(chuàng)新之處在于它不僅僅是一個(gè)技術(shù)改進(jìn),而是對(duì)角色扮演AI的整體理解和方法論的重新思考。傳統(tǒng)方法往往將角色扮演視為一個(gè)簡(jiǎn)單的生成任務(wù),而ChARM則將其視為一個(gè)復(fù)雜的表演藝術(shù),需要深入理解角色動(dòng)機(jī)、背景知識(shí)和情感表達(dá)的微妙之處。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)層面。隨著AI助手在日常生活中的普及,人們?cè)絹?lái)越希望與這些助手建立更加自然、個(gè)性化的互動(dòng)關(guān)系。能夠栩栩如生地扮演各種角色的AI不僅可以提供更加沉浸式的娛樂體驗(yàn),還可以在教育(如扮演歷史人物)、心理健康支持(如扮演同理心強(qiáng)的傾聽者)等領(lǐng)域發(fā)揮重要作用。
當(dāng)然,這項(xiàng)研究也存在一些局限性。研究團(tuán)隊(duì)指出,目前的獎(jiǎng)勵(lì)模型僅基于兩個(gè)維度構(gòu)建:知識(shí)一致性和角色吸引力。然而,評(píng)估角色扮演質(zhì)量還有許多其他重要維度,如情節(jié)發(fā)展和情感感知。未來(lái)的工作可能會(huì)收集更多高質(zhì)量、多維度的評(píng)估數(shù)據(jù),構(gòu)建更全面、更精細(xì)的模型。
總的來(lái)說(shuō),ChARM代表了角色扮演AI領(lǐng)域的一個(gè)重要突破。通過(guò)引入行為自適應(yīng)邊界和自我進(jìn)化策略,研究團(tuán)隊(duì)不僅提高了模型的性能,還解決了數(shù)據(jù)稀缺和擴(kuò)展性的關(guān)鍵挑戰(zhàn)。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和應(yīng)用,我們可以期待未來(lái)的AI助手將能夠以更加真實(shí)、自然和個(gè)性化的方式與我們互動(dòng),真正模糊人工智能與人類交流之間的界限。
對(duì)于對(duì)該研究感興趣的讀者,可以通過(guò)訪問項(xiàng)目官方GitHub倉(cāng)庫(kù)(https://github.com/calubkk/ChARM)獲取代碼和數(shù)據(jù)集,深入了解這項(xiàng)創(chuàng)新技術(shù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。