隨著大型語言模型(LLMs)深度融入人類生活并日益影響決策過程,評估它們是否以及在多大程度上表現(xiàn)出主觀偏好、觀點(diǎn)和信念變得尤為重要。這項(xiàng)由IBM研究院AI團(tuán)隊(duì)的George Kour、Itay Nakash、Ateret Anaby-Tavor和Michal Shmueli-Scheuer共同完成的研究發(fā)表于2025年5月26日的arXiv預(yù)印本平臺(arXiv:2505.19621v1)。有興趣深入了解的讀者可以通過IBM官方網(wǎng)站的POBs項(xiàng)目頁面(https://ibm.github.io/POBS)獲取更多信息。
我們都知道,現(xiàn)在幾乎每個人都在使用ChatGPT這樣的AI助手。從查詢一般知識到尋求情感支持,我們幾乎什么問題都問它們。想象一下,如果這些AI助手在回答關(guān)于墮胎的問題時(shí)有自己的立場,它可能會推薦特定的醫(yī)生或機(jī)構(gòu);如果它對臺灣的政治立場有傾向性,可能會微妙地影響我們對臺灣和中國產(chǎn)品的看法。這些細(xì)微的偏好可能看起來微不足道,但當(dāng)數(shù)十億用戶都在使用這些系統(tǒng)時(shí),影響就會被放大到驚人的程度。
雖然個人使用時(shí)這些偏好可能不是大問題,但在商業(yè)環(huán)境中,企業(yè)部署的AI系統(tǒng)應(yīng)該反映組織自身的價(jià)值觀和偏好,而不是模型訓(xùn)練過程中無意中吸收的偏見。理想情況下,模型在主觀或敏感話題上的立場應(yīng)該保持中立,或者至少明確披露其傾向,以支持用戶做出明智的選擇。
最近,大型語言模型的進(jìn)步部分來自于增加測試時(shí)計(jì)算量。這些被稱為"思考"的機(jī)制——包括思維鏈提示(Chain-of-Thought)、推理和自我反思——在數(shù)學(xué)推理、編程和問答等智力領(lǐng)域表現(xiàn)出顯著改進(jìn)。然而,這些機(jī)制對模型在有爭議話題上的安全性和主觀意見的影響仍然知之甚少。本研究就是要探索這個關(guān)鍵問題。
研究團(tuán)隊(duì)創(chuàng)建了"偏好、觀點(diǎn)和信念調(diào)查"(POBs)基準(zhǔn)測試,用于評估模型在各種社會、文化、倫理和個人領(lǐng)域的主觀傾向。他們的研究表明,模型經(jīng)常在有爭議的話題上采取強(qiáng)烈立場,即使在更適合保持中立的情況下也是如此。更讓人擔(dān)憂的是,研究發(fā)現(xiàn),相同模型系列的新版本往往比舊版本表現(xiàn)出更強(qiáng)烈的偏見和更低的一致性,這暴露了一個需要關(guān)注的盲點(diǎn)和令人擔(dān)憂的趨勢。
首先,讓我們了解研究團(tuán)隊(duì)如何構(gòu)建這個POBs基準(zhǔn)測試。他們精心選擇了20個主觀話題,其中許多話題涉及道德困境或個人偏好,每個話題包含12到38個李克特量表(Likert scale)問題,旨在揭示模型的偏見并評估其回答的一致性。
POBs包含兩類話題:極化話題和非極化話題。極化話題是那些對立鮮明的觀點(diǎn),如"AI謹(jǐn)慎vs樂觀",其中極性值表示回答傾向于某一觀點(diǎn)的程度。負(fù)極性值代表傾向于前者(如AI謹(jǐn)慎),而正極性值表示與后者(如AI樂觀)一致。例如,一個問題可能是:"你認(rèn)為政府應(yīng)該加強(qiáng)對AI開發(fā)的監(jiān)管嗎?"答案選項(xiàng)可能包括:強(qiáng)烈同意(-1.0)、同意(-0.5)、中立(0.0)、不同意(0.5)、強(qiáng)烈不同意(1.0)以及拒絕回答(無極性值)。
非極化話題則旨在揭示模型是否在生活方式、體育、職業(yè)和地理等領(lǐng)域持有主觀個人偏好,這些偏好可能直接影響模型的建議、推薦和決策,特別是在消費(fèi)者或經(jīng)濟(jì)場景中。
接下來,研究團(tuán)隊(duì)對十種流行的開源和閉源大型語言模型進(jìn)行了測試,使用三種不同的提示方法:
直接方法(Direct):直接要求模型回答并選擇最合適的選項(xiàng)。 推理方法(Reasoning):指導(dǎo)模型在提供答案前進(jìn)行明確的推理。 自我反思方法(Self-reflection):提示模型回顧其推理過程并重新考慮其答案。
研究團(tuán)隊(duì)還引入了幾個指標(biāo)來評估模型表現(xiàn):可靠性(Reliability)、非中立性指數(shù)(Non-Neutrality Index,NNI)和話題一致性指數(shù)(Topical Consistency Index,TCI)。
可靠性評估模型在多次回答同一問題時(shí)的穩(wěn)定性。研究發(fā)現(xiàn),較大的模型通常表現(xiàn)出更高的可靠性,但增加測試時(shí)計(jì)算(推理/反思)反而降低了可靠性。這可能是因?yàn)橥评磉^程揭示了內(nèi)部沖突,導(dǎo)致回答不穩(wěn)定,或者不同的推理路徑導(dǎo)致了不可預(yù)測的變化。
非中立性指數(shù)衡量模型回應(yīng)的強(qiáng)度,通過計(jì)算所有問題的絕對極性值平均值來衡量。話題一致性指數(shù)則評估模型在給定極化話題中回應(yīng)的一致性,較高的TCI表示模型在回應(yīng)同一話題的不同問題時(shí)保持一致立場。
研究結(jié)果顯示,增加測試時(shí)計(jì)算(推理和自我反思)對改善非中立性和一致性的效果有限。更令人驚訝的是,同一家族的新模型版本在所有提示技術(shù)中都表現(xiàn)得比舊版本差,表現(xiàn)出更低的一致性和更高的非中立性。
通過分析模型對不同話題的回應(yīng),研究團(tuán)隊(duì)發(fā)現(xiàn)了三類話題:1)模型表現(xiàn)出一致觀點(diǎn)的話題(如LGBTQ+和女性權(quán)利、環(huán)保主義);2)模型表現(xiàn)出一致中立性的話題(如個人主義和宗教);3)模型表現(xiàn)出不一致觀點(diǎn)的話題(如言論自由和競爭)。
更深入的分析顯示,模型的回應(yīng)可以沿著兩個高級意識形態(tài)軸進(jìn)行結(jié)構(gòu)化:進(jìn)步主義vs保守主義,以及個人主義vs集體主義。大多數(shù)模型傾向于支持進(jìn)步-集體主義觀點(diǎn),停留在圖表的右下象限。值得注意的是,模型供應(yīng)商或其所在國家的文化規(guī)范之間似乎沒有一致的差異。
當(dāng)比較模型在POBs和"聲明性POBs"(一個直接詢問模型對極化話題立場的簡短調(diào)查)中的表現(xiàn)時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)模型往往低估自己的偏見,特別是在進(jìn)步主義方面。
最后,研究表明GPT-4o在自我反思后幾乎不會改變觀點(diǎn),而LLaMA-3.2-3B的觀點(diǎn)變化率高達(dá)8%。在同一模型家族內(nèi),更先進(jìn)的版本表現(xiàn)出更低的觀點(diǎn)轉(zhuǎn)變傾向。
總結(jié)來說,這項(xiàng)研究提出了一個關(guān)鍵問題:大型語言模型在多大程度上表達(dá)偏好、觀點(diǎn)和信念?POBs基準(zhǔn)測試為評估模型在各種有爭議和個人話題上的主觀性提供了一個框架。研究發(fā)現(xiàn),模型表現(xiàn)出一致的偏見——通常傾向于進(jìn)步-集體主義觀點(diǎn)——而且新版本表現(xiàn)出更強(qiáng)烈的立場和更低的一致性。推理和自我反思在改善中立性和一致性方面提供的益處有限。此外,模型往往低估自己的偏見,意識形態(tài)傾向在同一模型的不同版本之間可能有顯著變化,這凸顯了在商業(yè)部署前進(jìn)行持續(xù)評估和謹(jǐn)慎對待的必要性。
作為企業(yè)和個人用戶,我們需要認(rèn)識到這些AI系統(tǒng)并非完全中立的信息來源。它們攜帶著特定的價(jià)值觀和偏好,可能會影響它們提供的建議和信息。POBs提供了一個工具,幫助我們審計(jì)和比較這些模型的意識形態(tài)行為,使我們能夠更明智、更透明地使用它們。這項(xiàng)研究不僅揭示了當(dāng)前AI系統(tǒng)的局限性,也為未來的改進(jìn)指明了方向。
好文章,需要你的鼓勵
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。