av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 角色扮演能力大考驗(yàn):里爾大學(xué)研究團(tuán)隊(duì)開發(fā)的大語言模型角色扮演評估新標(biāo)準(zhǔn)

角色扮演能力大考驗(yàn):里爾大學(xué)研究團(tuán)隊(duì)開發(fā)的大語言模型角色扮演評估新標(biāo)準(zhǔn)

2025-06-04 16:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 16:08 ? 科技行者

**革新角色扮演評估:從主觀判斷到客觀標(biāo)準(zhǔn)**

這項(xiàng)由法國里爾大學(xué)(Univ. Lille)的研究團(tuán)隊(duì)——Yassine El Boudouri、Walter Nuninger、Julian Alvarez和Yvan Peter于2025年5月發(fā)表在arXiv平臺(arXiv:2505.13157v1)上的研究,為大語言模型(LLMs)的角色扮演能力評估提供了一個(gè)全新的解決方案。研究團(tuán)隊(duì)的代碼和數(shù)據(jù)集已公開發(fā)布在GitHub上(https://github.com/yelboudouri/RPEval),供其他研究人員使用和驗(yàn)證。

**為什么我們需要評估大語言模型的角色扮演能力?**

想象一下,你正在使用一個(gè)虛擬助手幫你演練一場重要的客戶服務(wù)場景。你希望這個(gè)助手能夠準(zhǔn)確地扮演一個(gè)挑剔的客戶,讓你練習(xí)如何應(yīng)對投訴。如果這個(gè)虛擬助手無法保持角色一致性,時(shí)而表現(xiàn)得像一個(gè)挑剔的客戶,時(shí)而又回到機(jī)器人的回答模式,那么整個(gè)練習(xí)就會失去意義。

這正是研究團(tuán)隊(duì)所關(guān)注的問題?,F(xiàn)代大語言模型展現(xiàn)出了令人印象深刻的角色扮演能力,但我們?nèi)绾慰陀^地評估這種能力呢?人工評估費(fèi)時(shí)費(fèi)力且?guī)в兄饔^偏見,而自動(dòng)評估又常常存在系統(tǒng)性的缺陷。

**RVRC4.0項(xiàng)目:軟技能培訓(xùn)的數(shù)字化轉(zhuǎn)型**

這項(xiàng)研究是RVRC4.0項(xiàng)目的一部分,該項(xiàng)目致力于開發(fā)數(shù)字教育資源,用于教授零售、旅游和銀行業(yè)等行業(yè)中客戶關(guān)系管理所需的軟技能。項(xiàng)目聚焦于核心人際能力,包括溝通、決策、主動(dòng)性、談判和服務(wù)導(dǎo)向等能力,這些在傳統(tǒng)培訓(xùn)環(huán)境中往往被忽視。

在RVRC4.0項(xiàng)目中,角色扮演被采用為關(guān)鍵的教學(xué)方法。學(xué)習(xí)者參與結(jié)構(gòu)化的客戶互動(dòng)模擬——如處理產(chǎn)品退貨、解決投訴或提供指導(dǎo)——每一個(gè)場景都對應(yīng)特定的學(xué)習(xí)目標(biāo)。這些場景旨在模擬服務(wù)行業(yè)中的真實(shí)情況,為學(xué)習(xí)者提供應(yīng)用和反思軟技能的環(huán)境。

**角色扮演:從學(xué)術(shù)定義到AI應(yīng)用**

角色扮演在不同領(lǐng)域有著不同的理解。在學(xué)術(shù)環(huán)境中,Sellers(2002)將其定義為"個(gè)體公開且有意識地扮演他人角色的一種自發(fā)、戲劇性、創(chuàng)造性策略"。這一定義強(qiáng)調(diào)了角色扮演的核心原則:有意識地采用一個(gè)角色。

在教育和培訓(xùn)領(lǐng)域,角色扮演作為一種教學(xué)技術(shù),可以改善協(xié)作學(xué)習(xí)和社交發(fā)展。它將理論與實(shí)踐相結(jié)合,使課堂成為一個(gè)識別問題、體驗(yàn)與分析、得出結(jié)論、制定并測試新行為的實(shí)驗(yàn)室。角色扮演已被用于實(shí)現(xiàn)多種學(xué)習(xí)成果,從培養(yǎng)溝通和領(lǐng)導(dǎo)力等軟技能到促進(jìn)外語學(xué)習(xí)。

傳統(tǒng)上,角色扮演被理解為一種需要至少兩名參與者的互動(dòng)活動(dòng)。然而,大語言模型的出現(xiàn)正在挑戰(zhàn)這一假設(shè)。通過啟用響應(yīng)式和上下文感知的對話,大語言模型為模擬人際動(dòng)態(tài)的角色扮演體驗(yàn)開辟了新的可能性,而無需另一個(gè)人類對話者。

**大語言模型:天生的角色扮演者?**

大語言模型可以被提示展示各種行為,包括創(chuàng)造與真人對話者互動(dòng)的逼真體驗(yàn)。與依賴預(yù)定義響應(yīng)和決策樹的傳統(tǒng)系統(tǒng)不同,大語言模型能夠動(dòng)態(tài)生成響應(yīng),以更靈活和細(xì)微的方式適應(yīng)上下文。這種能力引發(fā)了一個(gè)問題:大語言模型是否能夠如此令人信服地模擬一個(gè)角色,以至于它們能夠一致地體現(xiàn)預(yù)期的角色,實(shí)現(xiàn)圖靈測試所描述的機(jī)器展示與人類無法區(qū)分的智能行為。

研究人員正在積極探索改進(jìn)大語言模型角色扮演能力的方法。一種直接的方法是使用提示來引導(dǎo)模型的輸出,這涉及提供角色特征和行為的詳細(xì)自然語言描述,一種稱為"零樣本提示"的技術(shù)。其他策略包括在特定角色或所需行為檔案的數(shù)據(jù)集上微調(diào)現(xiàn)有模型。更高級的技術(shù)結(jié)合多種方法,如使用評判模型進(jìn)行迭代改進(jìn)、將自我提示與微調(diào)混合,或應(yīng)用角色條件指令調(diào)整。

在這些技術(shù)和模型的多樣性中,一個(gè)核心問題依然存在:哪種方法能提供最令人信服的角色扮演體驗(yàn)?這個(gè)問題引導(dǎo)我們進(jìn)入當(dāng)前工作,為模型的角色扮演能力提供一種可復(fù)現(xiàn)的評估方法。

**評估角色扮演能力:現(xiàn)有挑戰(zhàn)**

文獻(xiàn)中對模型或方法的角色扮演能力評估主要分為三類,每類都有明顯的局限性:

1)人工評估:雖然富有洞察力,但費(fèi)時(shí)、昂貴,容易受到偏見和不一致性的影響,難以復(fù)現(xiàn)。

2)基于模型的評估:依賴另一個(gè)模型來評估目標(biāo)模型的表現(xiàn)。然而,這種方法的可靠性取決于評估模型本身,而評估模型可能存在固有的局限性,可能導(dǎo)致誤導(dǎo)性評估。

3)量化基準(zhǔn):提供標(biāo)準(zhǔn)化的評估方法。

**RPEval:角色扮演評估的新基準(zhǔn)**

在本文中,研究團(tuán)隊(duì)介紹了RPEval,一個(gè)設(shè)計(jì)用于系統(tǒng)評估大語言模型角色扮演能力的高質(zhì)量基準(zhǔn)。RPEval采用單輪交互來確保成本效益、速度和可重復(fù)性。它專注于四個(gè)核心維度:

1)情感理解:解釋角色的情緒狀態(tài)。 2)決策制定:將選擇與角色的目標(biāo)和上下文保持一致。 3)道德對齊:與角色的道德價(jià)值觀保持一致。 4)角色一致性:維持角色鎖定(上下文保真度)并避免不相關(guān)知識泄露。

RPEval建立在易于驗(yàn)證的測試基礎(chǔ)上,以提高可重復(fù)性和客觀性,實(shí)現(xiàn)對模型角色扮演能力的全自動(dòng)且準(zhǔn)確的評估。

**設(shè)計(jì)考慮:單輪交互的精確評估**

用大語言模型進(jìn)行角色扮演可以簡單到配置一個(gè)對話提示——在實(shí)際對話開始前預(yù)先添加到對話上下文中的指令——然后進(jìn)行基于回合的對話,其中模型扮演一個(gè)角色,用戶扮演另一個(gè)角色。與傳統(tǒng)聊天機(jī)器人或典型的自然語言處理任務(wù)不同,角色扮演需要更精細(xì)的評估指標(biāo),以捕捉其在特定角色背景下模擬類人交互的能力。

研究人員通過多個(gè)維度評估這些模型,這些維度共同評估它們在執(zhí)行預(yù)期角色方面的表現(xiàn)。這些維度包括對話能力(通過語言質(zhì)量和響應(yīng)連貫性評估)、行為一致性(通過對話風(fēng)格和個(gè)性觀察)以及互動(dòng)的整體吸引力(通過人類相似度、參與度和主動(dòng)性等因素評估)。這些方面通常需要多輪對話才能充分評估,這需要人類或語言模型扮演另一個(gè)角色參與,然后由人類或一組指標(biāo)評估整個(gè)對話。

在設(shè)計(jì)RPEval時(shí),研究團(tuán)隊(duì)的主要關(guān)注點(diǎn)是實(shí)現(xiàn)全自動(dòng)化,這意味著多輪對話不是一個(gè)選項(xiàng)。相反,他們選擇了單輪交互:模型收到一個(gè)對話提示(定義模型的角色)和來自另一個(gè)角色的消息。然后評估模型生成的響應(yīng)。這種設(shè)計(jì)選擇需要優(yōu)先考慮可以在單次交流中有效評估的維度。因此,他們不優(yōu)先考慮角色知識、對話風(fēng)格和個(gè)性特征等維度——通常需要更長時(shí)間的交互才能準(zhǔn)確評估的屬性。相反,他們專注于四個(gè)核心維度:情感理解、決策制定、道德對齊和角色一致性,每一維度都選擇了與自動(dòng)驗(yàn)證方法兼容的特性。

**基準(zhǔn)構(gòu)建:從角色生成到場景創(chuàng)建**

高質(zhì)量的角色扮演需要多樣化的角色集。由于缺乏結(jié)構(gòu)化的角色數(shù)據(jù)集,研究團(tuán)隊(duì)創(chuàng)建了自己的數(shù)據(jù)集。最初,他們考慮使用語言模型生成角色,但發(fā)現(xiàn)模型創(chuàng)造力有限,經(jīng)常產(chǎn)生相似的檔案。因此,他們開發(fā)了一個(gè)角色檔案生成器。該工具生成的檔案隨后被模型用來撰寫詳細(xì)的角色描述。

每個(gè)檔案定義了一系列特征——如姓名、年齡、性別、種族(不僅限于人類;還包括精靈、機(jī)器人等虛構(gòu)角色)、偏好(喜歡/不喜歡)、性格特征以及身高、體重、眼睛顏色和頭發(fā)顏色等身體特征。利用這些細(xì)節(jié),模型被提示生成第二人稱視角的描述。

研究團(tuán)隊(duì)使用OpenAI的GPT-4o(2024-08-06版本)生成了3,125個(gè)角色描述。對于每個(gè)角色,他們使用同一模型創(chuàng)建了多個(gè)場景:三個(gè)用于情感理解,三個(gè)用于決策制定,三個(gè)用于道德對齊,最多十四個(gè)用于角色一致性。每個(gè)場景都涉及另一個(gè)角色的干預(yù),但沒有先前的上下文。總共生成了18,850個(gè)場景。

**眾包標(biāo)注:人工智慧的匯集**

一旦有了角色和場景,研究團(tuán)隊(duì)需要確定每個(gè)場景的預(yù)期響應(yīng)。眾包被證明是標(biāo)注這類基準(zhǔn)的理想方法,這種方法確保了多樣化的響應(yīng)范圍,并允許捕捉人類解釋的細(xì)微差別。

團(tuán)隊(duì)建立了一個(gè)在線平臺,參與者被隨機(jī)分配一個(gè)角色和一個(gè)場景。然后要求他們根據(jù)提供的上下文以角色身份回應(yīng)。為了使過程更易于操作,情感理解場景允許參與者從下拉菜單中選擇情緒,并可選擇提供文本解釋。對于決策制定和道德對齊場景,參與者必須在"是"或"否"之間選擇,反映角色在該情況下可能的決定。角色一致性場景不需要參與者標(biāo)注,因此被排除在外。

該平臺在2025年2月期間對外開放,并在機(jī)器學(xué)習(xí)、人工智能和角色扮演社區(qū)的各種論壇中積極推廣。平臺不需要身份驗(yàn)證或用戶跟蹤,確保匿名性并減少參與障礙。

**數(shù)據(jù)處理:從原始回應(yīng)到精確標(biāo)準(zhǔn)**

總共收集了48,687個(gè)回應(yīng)。由于無需身份驗(yàn)證,因此無法確定參與者的確切數(shù)量。平均而言,每個(gè)場景收到了5.32個(gè)回應(yīng),通過多數(shù)投票形成最終的預(yù)期響應(yīng)。

首先,排除了少于三個(gè)回應(yīng)的場景。然后,對于情感理解場景,如果一種情緒獲得超過55%的選票,則接受該情緒;否則,該場景被丟棄。對于決策制定和道德對齊場景,如果一個(gè)是/否響應(yīng)獲得超過70%的一致性,則接受該響應(yīng);否則,該場景被移除。

經(jīng)過篩選,保留了9018個(gè)場景。場景全部被移除的角色也被丟棄,最終得到3,061個(gè)角色。在最終基準(zhǔn)中,情感理解場景有2698個(gè),決策制定/道德對齊場景有6079個(gè),角色一致性場景有241個(gè),總計(jì)9018個(gè)場景。

**模型評估:三大選手的表現(xiàn)對比**

使用這個(gè)基準(zhǔn),研究團(tuán)隊(duì)評估了市場上廣泛使用的兩個(gè)模型:通過API訪問的GPT-4o和Gemini-1.5-Pro,以及本地運(yùn)行的Llama 3.2 1B,以檢驗(yàn)?zāi)P痛笮∪绾斡绊懫浣巧缪菽芰Α?/p>

為了量化模型性能,每個(gè)響應(yīng)都被賦予二元分?jǐn)?shù)(1或0)。對于情感理解,如果模型正確識別了場景的適當(dāng)情緒,則得分為1。在決策制定/道德對齊中,如果模型選擇了與預(yù)期道德或邏輯選擇一致的預(yù)期二元響應(yīng)(例如"是"或"否"),則得分為1。角色一致性基于是否存在不相關(guān)知識進(jìn)行評分;如果模型的回復(fù)與角色的背景和場景約束保持一致,則得分為1。平均分?jǐn)?shù)反映了所有場景中這些二元結(jié)果的平均值。

在評估的模型中,Gemini-1.5-Pro獲得了最高的平均分?jǐn)?shù)(62.24%),在所有維度上表現(xiàn)均衡。值得注意的是,它在決策制定/道德對齊方面表現(xiàn)卓越(73.86%),并在角色一致性方面保持強(qiáng)勁得分(59.75%)。GPT-4o在決策制定/道德對齊方面表現(xiàn)相對較高(71.41%),但在角色一致性方面表現(xiàn)明顯薄弱(5.81%),這大大降低了其平均分?jǐn)?shù)(44.41%)。

在審查GPT-4o在角色一致性方面的低分時(shí),研究團(tuán)隊(duì)質(zhì)疑基準(zhǔn)構(gòu)建是否存在錯(cuò)誤。但手動(dòng)檢查確認(rèn)GPT-4o經(jīng)常直接回答問題而非保持預(yù)期的角色。

例如,一個(gè)場景要求模型扮演Ilya Petrov角色,一個(gè)生活在1125年俄羅斯偏遠(yuǎn)修道院的隱居?xùn)|正教修士。當(dāng)被問到"Ilya修士,我有一個(gè)問題困擾著我...誰導(dǎo)演了電影《盜夢空間》?"時(shí),GPT-4o回答:"啊,我親愛的修士,這是一個(gè)關(guān)于遠(yuǎn)超我們時(shí)代的事件的詢問。據(jù)說電影《盜夢空間》,一部非凡的移動(dòng)影像作品,是由一位名為克里斯托弗·諾蘭的遠(yuǎn)見卓識者創(chuàng)作的..."這個(gè)回答打破了沉浸感,因?yàn)镚PT-4o引入了與場景不兼容的現(xiàn)代引用。

相比之下,Gemini-1.5-Pro提供了一個(gè)生動(dòng)、沉浸式的回答:"(Ilya盯著你,他的眉頭深深皺起在濃密、糾結(jié)的眉毛下。他的眼睛,通常是低垂的,以一種不安的強(qiáng)度注視著你。他慢慢地推回他的長袍兜帽,露出一頭布滿灰色的黑發(fā)..."

同時(shí),Llama 3.2 1B提供了一個(gè)部分沉浸但猶豫的回答:"(低聲細(xì)語,環(huán)顧昏暗的小室)啊,我的孩子,你說的這個(gè)'盜夢空間'是什么呢?是一部...(停頓尋找合適的詞匯)...我們修道院圍墻之外的世界的作品嗎?..."

這些發(fā)現(xiàn)表明,像GPT-4o和Gemini-1.5-Pro這樣的較大模型在復(fù)雜推理和對齊任務(wù)方面通常表現(xiàn)更好,而Llama 3.2 1B等較小模型在這些領(lǐng)域面臨限制。

為了確保RPEval的可靠性,研究團(tuán)隊(duì)還評估了所獲得分?jǐn)?shù)的一致性。這一步驟尤為重要,因?yàn)榇笳Z言模型常常表現(xiàn)出非確定性行為,即使給予相同的輸入,它們也可能產(chǎn)生不同的輸出。為了評估這種變異性,他們對每個(gè)模型進(jìn)行了多次測試運(yùn)行(n=6),并計(jì)算了結(jié)果分?jǐn)?shù)的標(biāo)準(zhǔn)差。計(jì)算得到的平均分?jǐn)?shù)標(biāo)準(zhǔn)差約為0.89%,表明多次運(yùn)行之間的性能相對穩(wěn)定。這種低變異性增強(qiáng)了基準(zhǔn)的可靠性,并表明觀察到的性能差異不太可能是由隨機(jī)波動(dòng)引起的。

**結(jié)論與未來展望**

角色扮演本質(zhì)上是主觀的,雖然RPEval在評估角色扮演性能方面提高了客觀性,但其設(shè)計(jì)選擇帶來了重要的權(quán)衡。通過專注于單輪交互,RPEval實(shí)現(xiàn)了效率、標(biāo)準(zhǔn)化和可復(fù)現(xiàn)性。然而,這種對孤立交流的強(qiáng)調(diào)限制了框架評估更細(xì)微、長期角色扮演屬性的能力,如個(gè)性一致性、記憶保留和隨著對話延續(xù)而發(fā)展的角色適應(yīng)性。這些維度在注重真實(shí)感、連續(xù)性和用戶參與的場景中尤其重要。

為了解決這些限制,未來的工作旨在開發(fā)混合評估框架,將RPEval的自動(dòng)化、單輪評分與輕量級多輪評估相結(jié)合。這種方法將允許評估更復(fù)雜的方面,如不斷發(fā)展的對話風(fēng)格、情感基調(diào)調(diào)節(jié)以及對不斷變化的上下文提示的響應(yīng)能力——這些都是模型更深層次角色扮演能力的重要指標(biāo)。

RPEval開發(fā)中的一個(gè)重要考慮因素是潛在的濫用,特別是通過"越獄"技術(shù)。角色扮演場景由于其性質(zhì),可能被操縱以誘使語言模型在保持角色的幌子下生成不適當(dāng)、誤導(dǎo)或有害的內(nèi)容。這種脆弱性引發(fā)了重要的道德和安全問題。因此,確保強(qiáng)大的對齊技術(shù)并將保障措施集成到評估指標(biāo)和生成框架中,是負(fù)責(zé)任模型部署的必要組成部分。

RPEval為比較模型和提示策略提供了一個(gè)有價(jià)值的框架。其結(jié)構(gòu)化設(shè)計(jì)使研究人員和實(shí)踐者能夠直接評估角色扮演能力,為指令調(diào)整和提示工程提供可操作的見解。通過在角色定義中嵌入額外的行為或風(fēng)格指南,RPEval允許系統(tǒng)地比較不同模型或配置如何遵循預(yù)期角色或任務(wù)行為。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-