在人工智能快速發(fā)展的今天,大型語言模型(LLMs)已成為我們?nèi)粘I畹囊徊糠?。然而,這些模型如何做出選擇?它們偏好某些回答而非其他回答的原因是什么?以色列理工學(xué)院(Technion)的Nitay Calderon、IBM研究院的Liat Ein-Dor和Technion的Roi Reichart在2025年5月發(fā)布的一項開創(chuàng)性研究中,深入剖析了這個問題。他們的論文《Multi-Domain Explainability of Preferences》發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.20088v2)上,為我們揭開了語言模型偏好機制的神秘面紗。
一、研究背景:為什么要理解AI的"喜好"?
想象一下,你有兩位私人助理。當(dāng)你問他們同一個問題時,他們給出了不同的回答。你更喜歡其中一個回答,但你能解釋為什么嗎?這正是研究團(tuán)隊面臨的挑戰(zhàn),只不過他們的"助理"是復(fù)雜的AI系統(tǒng)。
在當(dāng)今的AI研究中,"偏好機制"扮演著至關(guān)重要的角色。所謂偏好機制,簡單來說就是在給定用戶提問的情況下,從多個可能的回答中選擇一個"最佳"回答的系統(tǒng)。這些機制主要有三種:人類偏好評估(真人判斷哪個回答更好)、LLM作為評判者(AI評判其他AI),以及獎勵模型(一種專門學(xué)習(xí)人類喜好的AI系統(tǒng))。
這些偏好機制不僅是評估AI系統(tǒng)的重要工具,更是訓(xùn)練和改進(jìn)它們的關(guān)鍵。比如,當(dāng)你使用ChatGPT時,它會努力生成你喜歡的回答,這背后就有一個獎勵模型在指導(dǎo)它。研究人員通過人類反饋強化學(xué)習(xí)(RLHF)和偏好對齊等技術(shù),不斷調(diào)整這些模型以更好地滿足人類期望。
然而,正如Calderon及其團(tuán)隊指出的,盡管偏好機制如此重要,我們對于驅(qū)動這些偏好的內(nèi)在概念(如語言清晰度、事實準(zhǔn)確性、共情能力等)卻知之甚少。就像我們知道人喜歡某種食物,卻不一定了解具體是因為它的香氣、口感還是溫度一樣。
現(xiàn)有的研究已經(jīng)發(fā)現(xiàn)一些有趣的線索。例如,回答的長度會影響偏好(人們往往偏好長度適中的回答),模型可能會表現(xiàn)出"阿諛奉承"的傾向(傾向于認(rèn)同用戶觀點),甚至某些寫作風(fēng)格也會影響評判。更有趣的是,AI評判可能會偏愛與自己風(fēng)格相似的回答。最近的研究還表明,人類評判者重視禮貌和觀點一致性,而AI評判者則更看重事實性和安全性。
但這些研究存在三個主要局限性:首先,它們依賴于研究者預(yù)先定義的概念,可能帶有主觀偏見;其次,它們通常需要人工標(biāo)注,難以大規(guī)模應(yīng)用;最后,它們往往局限于單一領(lǐng)域或數(shù)據(jù)集,無法反映不同場景下偏好的變化。
正是針對這些挑戰(zhàn),Calderon團(tuán)隊提出了一個全新的自動化方法,不僅能發(fā)現(xiàn)偏好背后的關(guān)鍵概念,還能跨多個領(lǐng)域解釋這些概念如何影響AI和人類的判斷。
二、破解AI思維的創(chuàng)新方法:從概念發(fā)現(xiàn)到多領(lǐng)域建模
想象你是一位偵探,試圖理解一系列復(fù)雜的決策背后的動機。你沒有預(yù)設(shè)的答案,而是讓證據(jù)自己"說話"。這正是Calderon團(tuán)隊的研究方法。
他們開發(fā)的方法如同一個四階段的偵探調(diào)查過程:
首先是"線索收集"階段。研究團(tuán)隊不預(yù)設(shè)任何概念,而是讓AI系統(tǒng)(在這項研究中使用的是Gemini 1.5 Pro)自己發(fā)現(xiàn)可能影響偏好的概念。例如,在分析法律建議類的問題時,AI可能會發(fā)現(xiàn)"避免自我推銷"是一個重要概念——這指的是回答是否客觀中立,而非試圖推銷自己的服務(wù)。
這一階段的細(xì)節(jié)非常巧妙。他們將不同領(lǐng)域的用戶問題按照任務(wù)類型(如問答、解釋、建議等)和子領(lǐng)域(如醫(yī)療、技術(shù)、Python編程等)分組。這樣分組有兩個好處:一方面可以發(fā)現(xiàn)適用于特定領(lǐng)域的概念,另一方面也便于識別跨領(lǐng)域的通用概念。
第二階段是"概念表征"。一旦發(fā)現(xiàn)了潛在概念,團(tuán)隊就使用AI為每個問題-回答組合創(chuàng)建"概念向量"。這有點像給每個回答打分:這個回答在"清晰度"方面得幾分?在"準(zhǔn)確性"方面得幾分?研究者使用了兩種表征方法:Comp-rep(比較表征)和Score-rep(評分表征)。
Comp-rep就像是直接比較兩個回答,判斷哪個在某個概念上更勝一籌。例如,回答A在"清晰度"上是否優(yōu)于回答B(yǎng)?而Score-rep則像是給每個回答單獨打分,然后比較分?jǐn)?shù)差異。
第三階段是"建立解釋模型"。這是研究的核心創(chuàng)新。研究團(tuán)隊意識到,偏好不僅因領(lǐng)域而異,而且某些概念可能在所有領(lǐng)域都很重要,而其他概念則可能只在特定領(lǐng)域起作用。例如,"隱瞞"這個概念在安全相關(guān)的問題中可能至關(guān)重要,但在烹飪食譜中則幾乎無關(guān)緊要。
為此,他們設(shè)計了一個叫做"層次多領(lǐng)域回歸"(HMDR)的模型。這個模型就像是一個有兩層判斷機制的法官:第一層考慮對所有領(lǐng)域都重要的通用因素(如清晰度、準(zhǔn)確性),第二層則考慮特定領(lǐng)域的特殊因素(如在烹飪領(lǐng)域中的"口味描述"或在技術(shù)領(lǐng)域中的"代碼質(zhì)量")。
最后一階段是"從模型到解釋"。模型訓(xùn)練完成后,研究者分析模型權(quán)重,識別出對偏好影響最大的概念。這些概念的重要性被量化為"提升百分比",直觀顯示每個概念對最終決策的貢獻(xiàn)。
整個方法的獨特之處在于,它能自動發(fā)現(xiàn)概念,無需人工預(yù)定義;能跨多個領(lǐng)域工作,識別通用和特定概念;最重要的是,它產(chǎn)生的結(jié)果是可解釋的——我們可以清楚地看到每個概念如何影響最終決策。
三、跨越八大領(lǐng)域:數(shù)據(jù)與研究設(shè)計
要評估一個解釋偏好的方法,你需要多樣化的數(shù)據(jù)。Calderon團(tuán)隊精心策劃了八個具有挑戰(zhàn)性的不同領(lǐng)域數(shù)據(jù)集,每個領(lǐng)域包含800個例子(400個用于概念發(fā)現(xiàn),400個用于訓(xùn)練和測試模型)。
這些領(lǐng)域包括:
一般性問答(General):來自Reddit的各類常見問題,涵蓋社會、物理、歷史等廣泛話題。
旅行(Travel):關(guān)于旅行計劃、目的地推薦和戶外裝備的問題。
食物(Food):烹飪技巧、食譜調(diào)整和飲食建議等問題。
法律(Legal):涉及住房、家庭、財務(wù)和就業(yè)等方面的法律咨詢。
影視推薦(Picks):關(guān)于書籍、電影和音樂推薦的討論。
軟件(Software):來自StackOverflow的編程和軟件相關(guān)問題。
PKU:一個聚焦安全的偏好數(shù)據(jù)集,包含倫理和風(fēng)險評估問題。
UltraFeedback(UFB):一個通用RLAIF(基于AI反饋的強化學(xué)習(xí))數(shù)據(jù)集,包含各種問題類型。
對于Reddit和StackOverflow的數(shù)據(jù),研究團(tuán)隊使用了一種巧妙的方法來確定哪個回答更好:被選中的回答必須有至少15個贊,至少是被拒絕回答贊數(shù)的兩倍,出現(xiàn)在帖子靠后位置,并且與被拒絕的回答長度相似。這確保了偏好判斷的可靠性。
研究團(tuán)隊分析了12種不同的偏好機制,包括: - 人類偏好(從數(shù)據(jù)集中提取) - 兩種獎勵模型(QRM和Skywork) - 九種LLM評判者(涵蓋GPT-4o、Gemini-1.5-Pro、Gemini-1.5-Flash和Llama-3.1等模型,以及鏈?zhǔn)剿伎肌⑸贅颖緦W(xué)習(xí)和LLM集成等不同提示技術(shù))
這種多樣化的設(shè)計使得研究結(jié)果具有廣泛的適用性和代表性。
四、令人驚訝的發(fā)現(xiàn):AI和人類評判的深層差異
當(dāng)研究團(tuán)隊分析結(jié)果時,他們發(fā)現(xiàn)了一系列令人著迷的模式,揭示了人類和AI偏好機制的深層差異。
首先,研究團(tuán)隊驗證了他們的方法。他們邀請六名人類評估者標(biāo)注400個概念,并將這些標(biāo)注與AI系統(tǒng)的標(biāo)注進(jìn)行比較。結(jié)果表明,AI系統(tǒng)的標(biāo)注在85%的情況下與人類標(biāo)注一樣好或更好,這證明了使用AI進(jìn)行概念標(biāo)注的可行性。
在偏好預(yù)測方面,研究團(tuán)隊的可解釋模型表現(xiàn)出色,達(dá)到66%的準(zhǔn)確率,與最強大的LLM評判者(使用10個少樣本示例的Gemini-Flash集成)相當(dāng)。這一發(fā)現(xiàn)意義重大,表明簡單的基于概念的線性模型可以與復(fù)雜的大型語言模型媲美,同時還提供了清晰的解釋。
研究的核心發(fā)現(xiàn)來自對不同偏好機制的解釋分析。例如,人類評判者高度重視"權(quán)威性"、"清晰度"和"自信",而像GPT-4o這樣的AI評判者則更關(guān)注"準(zhǔn)確性"和"事實性"。這種差異反映了一個有趣的現(xiàn)象:非專業(yè)人類評判者(如Reddit用戶)傾向于選擇看起來專業(yè)和自信的回答,而可能缺乏驗證內(nèi)容準(zhǔn)確性的能力;相比之下,AI系統(tǒng)則更善于識別事實錯誤。
領(lǐng)域特定概念的分析更是揭示了偏好的復(fù)雜性。例如:
- 在法律領(lǐng)域,"避免自我推銷"是一個關(guān)鍵概念,指回答是否客觀而非試圖獲取業(yè)務(wù) - 在食品領(lǐng)域,"食譜修改"概念(調(diào)整烹飪方法的能力)顯著影響偏好 - 在旅行領(lǐng)域,"鼓勵"和"情感影響"等概念比在其他領(lǐng)域更為重要 - 在安全相關(guān)的PKU領(lǐng)域,"微妙性"和"隱瞞"等概念起著關(guān)鍵作用
研究團(tuán)隊還進(jìn)行了兩項應(yīng)用驅(qū)動的評估,進(jìn)一步驗證了他們解釋的質(zhì)量。在"黑客評判者"(Judge Hack)實驗中,他們使用從評判者解釋中提取的頂級概念來指導(dǎo)LLM生成回答。結(jié)果顯示,評判者一致偏好這些基于解釋引導(dǎo)的回答,勝率比隨機概念引導(dǎo)的回答高出10-20個百分點。
在"打破平局"(Tie Break)實驗中,研究者使用解釋來解決AI評判者給出不一致預(yù)測的情況(根據(jù)回答位置不同而改變判斷)。通過提示評判者考慮對人類重要的概念,他們改善了與人類偏好的一致性,提升幅度高達(dá)10%。
這些發(fā)現(xiàn)不僅增進(jìn)了我們對偏好機制的理解,還提供了實用的方法來改善AI系統(tǒng)與人類價值觀的一致性。
五、研究意義與未來展望
Calderon團(tuán)隊的研究為我們打開了一扇理解AI決策過程的窗口,其意義遠(yuǎn)超學(xué)術(shù)價值。
對于AI研究人員來說,這項研究提供了一種新的方法來理解和改進(jìn)偏好機制。通過識別驅(qū)動偏好的關(guān)鍵概念,研究人員可以更有針對性地改進(jìn)模型,使其更好地符合人類期望。例如,如果研究表明人類特別重視"共情能力",而當(dāng)前的AI模型忽視了這一點,那么研究人員可以專門設(shè)計訓(xùn)練方法來增強這一能力。
對于AI系統(tǒng)的使用者來說,這項研究也提供了有價值的洞見。了解AI是如何"思考"的,可以幫助我們更好地與之互動,更準(zhǔn)確地解釋其輸出,也更清楚地知道何時應(yīng)該質(zhì)疑它的判斷。
研究還揭示了一個重要事實:不同類型的偏好機制(人類、LLM評判者、獎勵模型)關(guān)注不同的概念。這意味著在設(shè)計AI系統(tǒng)時,我們需要謹(jǐn)慎選擇適當(dāng)?shù)脑u估和訓(xùn)練方法,以確保系統(tǒng)符合我們的價值觀和預(yù)期。
當(dāng)然,這項研究也有一些局限性。首先,使用的是線性模型,可能無法完全捕捉概念之間的復(fù)雜非線性關(guān)系。其次,研究沒有探討概念之間的因果關(guān)系,這限制了我們對偏好機制內(nèi)部工作原理的深入理解。最后,該方法計算成本較高,需要大量LLM調(diào)用,可能限制其在某些場景下的應(yīng)用。
展望未來,這項研究開辟了幾個有前景的研究方向:
一是因果關(guān)系分析。未來的研究可以探索概念之間的因果關(guān)系,構(gòu)建更完整的偏好機制工作模型。例如,"清晰度"是否會影響"有用性"的判斷?
二是跨文化偏好分析。不同文化背景的人可能有不同的偏好標(biāo)準(zhǔn),未來研究可以探索這些差異及其對AI系統(tǒng)設(shè)計的影響。
三是實時解釋系統(tǒng)。開發(fā)能夠?qū)崟r解釋AI決策的系統(tǒng),讓用戶了解為什么AI推薦了特定回答或內(nèi)容。
Calderon團(tuán)隊的工作為解釋AI偏好提供了一個強大的框架,它不僅是對當(dāng)前AI研究的重要貢獻(xiàn),也為未來的探索指明了方向。正如研究者所說,這項工作"為LLM時代的可解釋性建立了一個新范式"。
六、深入理解:為什么這項研究如此重要?
要理解這項研究的重要性,我們需要放在更廣闊的AI發(fā)展背景下考慮。當(dāng)前的大型語言模型如ChatGPT、Claude或Gemini正在迅速融入我們的日常生活和工作。然而,這些AI系統(tǒng)往往是"黑盒"——我們輸入問題,獲得回答,但很少了解AI為什么給出特定回答而非其他可能的回答。
這種不透明性帶來了多方面的問題。對用戶而言,難以判斷AI回答的可靠性和適當(dāng)性;對開發(fā)者而言,難以有針對性地改進(jìn)系統(tǒng);對社會而言,難以確保AI系統(tǒng)符合人類價值觀和倫理標(biāo)準(zhǔn)。
Calderon團(tuán)隊的研究正是針對這一核心挑戰(zhàn)。通過自動發(fā)現(xiàn)和量化影響偏好的概念,研究為AI系統(tǒng)的決策過程提供了一個可解釋的框架。這就像是在AI的"思考"過程中安裝了一個窗口,讓我們能夠看到內(nèi)部運作機制。
更重要的是,這項研究揭示了人類和AI評判標(biāo)準(zhǔn)的差異。例如,發(fā)現(xiàn)人類評判者重視"自信"和"權(quán)威性",而AI評判者更注重"準(zhǔn)確性"和"事實性",這指出了AI系統(tǒng)可能需要調(diào)整的方向:既要保持事實準(zhǔn)確性,又要學(xué)會以人類認(rèn)可的方式表達(dá)這些事實。
研究的多領(lǐng)域方法也是一個重要貢獻(xiàn)。通過在八個不同領(lǐng)域分析偏好,研究展示了某些概念(如"清晰度"和"專業(yè)知識")在所有領(lǐng)域都很重要,而其他概念則是領(lǐng)域特定的。這種理解可以指導(dǎo)開發(fā)更靈活、更適應(yīng)不同場景的AI系統(tǒng)。
從實際應(yīng)用角度看,研究提供的兩個應(yīng)用場景——"黑客評判者"和"打破平局"——展示了如何將理論發(fā)現(xiàn)轉(zhuǎn)化為實際工具。這些工具可以幫助改進(jìn)AI生成內(nèi)容的質(zhì)量,增強AI評判與人類價值觀的一致性。
最后,從方法論角度看,研究提出的自動化概念發(fā)現(xiàn)和表征方法,以及層次多領(lǐng)域回歸模型,為AI解釋性研究提供了新的思路和工具。這種方法不僅適用于偏好機制,還可能擴展到其他AI決策系統(tǒng)的解釋。
總的來說,Calderon團(tuán)隊的研究不僅增進(jìn)了我們對AI偏好機制的理解,還為構(gòu)建更透明、更符合人類價值觀的AI系統(tǒng)提供了實用工具和方法。在AI系統(tǒng)日益普及的今天,這樣的研究對于確保技術(shù)發(fā)展方向與人類福祉一致至關(guān)重要。
七、結(jié)語:透明AI的關(guān)鍵一步
回顧Calderon、Ein-Dor和Reichart的這項開創(chuàng)性研究,我們可以看到它在AI領(lǐng)域開辟了一條新路徑。就像給一個外語學(xué)習(xí)者提供了一本解釋為什么某些表達(dá)方式比其他更好的指南,這項研究幫助我們理解AI系統(tǒng)如何"思考"和"判斷"。
歸根結(jié)底,這項研究的核心貢獻(xiàn)在于它建立了一個橋梁——連接AI系統(tǒng)的內(nèi)部工作機制與人類可理解的概念。通過這座橋梁,我們不僅能更好地理解AI,還能更有效地指導(dǎo)和改進(jìn)AI。
對于普通用戶,這意味著未來的AI助手可能會更好地理解我們的價值觀和偏好;對于研究人員,這提供了一種新的方法來分析和改進(jìn)AI系統(tǒng);對于社會,這有助于確保AI技術(shù)的發(fā)展方向與人類福祉一致。
當(dāng)然,正如所有開創(chuàng)性研究一樣,這只是旅程的開始,而非終點。未來的研究可能會探索更復(fù)雜的非線性關(guān)系,分析概念間的因果聯(lián)系,或者將這種方法應(yīng)用到更廣泛的AI系統(tǒng)中。
如果你對這項研究感興趣,可以通過GitHub(https://github.com/nitaytech/PrefExplain)訪問研究代碼和數(shù)據(jù),或者通過arXiv(arXiv:2505.20088v2)閱讀完整論文。無論你是AI研究者、開發(fā)者還是對AI未來感興趣的普通人,這項研究都提供了寶貴的洞見,幫助我們走向更透明、更符合人類價值觀的AI未來。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。