這項由以色列理工學(xué)院的葉納坦·貝林科夫教授和希伯來大學(xué)的加布里埃爾·斯坦諾夫斯基教授領(lǐng)導(dǎo)的研究團隊,經(jīng)過深入實驗發(fā)現(xiàn)了一個令人意外的真相:那些看起來聰明伶俐的大語言模型,實際上也會像人類一樣產(chǎn)生各種認(rèn)知偏見。這項發(fā)表于2025年COLM會議的研究論文,首次通過嚴(yán)格的實驗方法揭示了這些AI"思維誤區(qū)"的真正來源。有興趣深入了解的讀者可以通過論文的GitHub頁面(https://itay1itzhak.github.io/planted-in-pretraining)訪問完整的研究代碼和數(shù)據(jù)。
認(rèn)知偏見就像是人類大腦中的"自動駕駛系統(tǒng)",它讓我們在面對復(fù)雜情況時能夠快速做出決定,但有時也會把我們帶向錯誤的方向。比如,當(dāng)醫(yī)生告訴你一個手術(shù)有"90%的成功率"時,你可能會比聽到"10%的失敗率"更愿意接受,盡管這兩個表述在數(shù)學(xué)上完全等價。這種現(xiàn)象被稱為"框架效應(yīng)",是認(rèn)知偏見的一個典型例子。
令人驚訝的是,研究團隊發(fā)現(xiàn),那些被訓(xùn)練來幫助人類的大語言模型竟然也會表現(xiàn)出類似的偏見行為。當(dāng)同樣的信息以不同方式呈現(xiàn)時,這些AI模型會給出不同的答案,就像人類一樣會被表達方式所影響。這個發(fā)現(xiàn)讓研究者們產(chǎn)生了一個更深層的疑問:這些AI模型的偏見到底是從哪里來的?
一、AI模型的"成長經(jīng)歷":從預(yù)訓(xùn)練到微調(diào)的完整過程
要理解AI模型的偏見來源,我們首先需要了解這些模型是如何"成長"的。這個過程就像是培養(yǎng)一個孩子,需要經(jīng)歷多個階段。
第一個階段叫做"預(yù)訓(xùn)練",這就像是讓孩子在圖書館里閱讀海量的書籍。在這個階段,AI模型會"閱讀"互聯(lián)網(wǎng)上的無數(shù)文本,從新聞報道到小說,從科學(xué)論文到社交媒體帖子,應(yīng)有盡有。通過這個過程,模型學(xué)會了語言的基本規(guī)律,理解了詞語之間的關(guān)系,掌握了各種知識和常識。
第二個階段叫做"微調(diào)"或"指令調(diào)優(yōu)",這就像是讓已經(jīng)博覽群書的孩子學(xué)習(xí)如何與人對話。在這個階段,研究人員會給模型展示大量的問答對話示例,教它如何理解人類的問題并給出有幫助的回答。經(jīng)過這個訓(xùn)練后,原本只會"讀書"的模型變成了能夠與人類自然對話的助手。
以往的研究發(fā)現(xiàn),經(jīng)過微調(diào)的模型比原始的預(yù)訓(xùn)練模型表現(xiàn)出更強的認(rèn)知偏見。這個發(fā)現(xiàn)就像是發(fā)現(xiàn)原本單純的孩子在學(xué)會社交技能后反而變得更加"世故"。這引發(fā)了研究者們的深思:是微調(diào)過程本身導(dǎo)致了偏見的產(chǎn)生,還是這些偏見早就存在于預(yù)訓(xùn)練階段,只是被微調(diào)過程激發(fā)了出來?
二、設(shè)計巧妙的實驗:用"對調(diào)訓(xùn)練"揭示偏見的真正來源
面對這個復(fù)雜的問題,研究團隊設(shè)計了一個極其巧妙的實驗方案。他們的思路就像是偵探破案,需要通過精心設(shè)計的實驗來找出真正的"罪魁禍?zhǔn)?。
研究團隊首先選擇了兩個完全開源的大語言模型:OLMo-7B和T5-11B。選擇這兩個模型是因為它們的訓(xùn)練數(shù)據(jù)和訓(xùn)練方法都完全公開,就像是有著完整成長記錄的孩子,研究者可以清楚地知道它們經(jīng)歷了什么。
更重要的是,研究團隊發(fā)現(xiàn)這兩個模型在某些認(rèn)知偏見上表現(xiàn)出了完全相反的趨勢。比如在"確定性效應(yīng)"這個偏見上,T5模型在微調(diào)后偏見變得更強,而OLMo模型在微調(diào)后偏見反而變?nèi)趿?。這種對比就像是找到了兩個性格截然不同的孩子,為后續(xù)的實驗提供了理想的對照條件。
實驗的核心設(shè)計被稱為"對調(diào)訓(xùn)練"。研究團隊將兩個模型的訓(xùn)練數(shù)據(jù)進行了"交換":用原本訓(xùn)練T5的數(shù)據(jù)來訓(xùn)練OLMo,用原本訓(xùn)練OLMo的數(shù)據(jù)來訓(xùn)練T5。這就像是讓兩個孩子交換成長環(huán)境,看看他們的性格特征會發(fā)生怎樣的變化。
如果認(rèn)知偏見主要來自于微調(diào)階段的訓(xùn)練數(shù)據(jù),那么經(jīng)過對調(diào)訓(xùn)練后,兩個模型的偏見模式應(yīng)該會發(fā)生明顯的變化。反之,如果偏見主要來自于預(yù)訓(xùn)練階段,那么即使交換了微調(diào)數(shù)據(jù),每個模型仍然會保持其原有的偏見特征。
三、排除隨機干擾:訓(xùn)練過程中的"運氣成分"
在進行主要實驗之前,研究團隊還需要解決一個重要問題:訓(xùn)練過程中的隨機性。就像是同一個老師用相同的方法教兩個學(xué)生,由于各種偶然因素,學(xué)生的表現(xiàn)可能會有所不同。
在AI模型的訓(xùn)練過程中,也存在類似的隨機性。比如訓(xùn)練數(shù)據(jù)的呈現(xiàn)順序、模型參數(shù)的初始化值等都可能影響最終結(jié)果。為了排除這種隨機性的干擾,研究團隊對每個實驗都進行了多次重復(fù),使用不同的"隨機種子"來控制這些偶然因素。
通過這種方法,研究團隊發(fā)現(xiàn)訓(xùn)練過程中的隨機性確實會對模型的偏見程度產(chǎn)生一定影響,但這種影響相對較小。更重要的是,他們發(fā)現(xiàn)通過對多次實驗結(jié)果進行平均,可以有效地消除隨機性的干擾,揭示出模型偏見的真正模式。
這個發(fā)現(xiàn)就像是發(fā)現(xiàn)雖然每次考試的成績可能有所波動,但學(xué)生的真實水平是相對穩(wěn)定的。通過多次測試的平均結(jié)果,我們可以更準(zhǔn)確地評估學(xué)生的真實能力。
四、令人意外的發(fā)現(xiàn):偏見的"遺傳性"
經(jīng)過大量的實驗和分析,研究團隊得出了一個令人意外的結(jié)論:大語言模型的認(rèn)知偏見主要來自于預(yù)訓(xùn)練階段,而不是微調(diào)階段。
這個發(fā)現(xiàn)就像是發(fā)現(xiàn)孩子的性格特征更多地受到遺傳因素影響,而不是后天的教育環(huán)境。具體來說,研究團隊發(fā)現(xiàn),即使兩個模型使用了完全相同的微調(diào)數(shù)據(jù),它們的偏見模式仍然更像是使用了相同預(yù)訓(xùn)練數(shù)據(jù)的模型,而不是使用了相同微調(diào)數(shù)據(jù)的模型。
為了驗證這個發(fā)現(xiàn),研究團隊使用了一種叫做"聚類分析"的方法。他們將每個模型在32種不同認(rèn)知偏見上的表現(xiàn)記錄下來,形成一個"偏見指紋"。然后,他們檢查這些"指紋"是否更容易按照預(yù)訓(xùn)練模型來分組,還是按照微調(diào)數(shù)據(jù)來分組。
結(jié)果非常清晰:使用相同預(yù)訓(xùn)練數(shù)據(jù)的模型聚集在一起,而使用相同微調(diào)數(shù)據(jù)的模型則分散在不同的組中。這就像是發(fā)現(xiàn)同卵雙胞胎即使在不同家庭長大,性格特征仍然比在同一家庭長大的非血緣兄弟姐妹更相似。
五、深入分析:32種認(rèn)知偏見的全面考察
為了確保研究結(jié)果的全面性和可靠性,研究團隊對32種不同類型的認(rèn)知偏見進行了詳細(xì)分析。這些偏見涵蓋了人類思維中的各個方面,從決策制定到社交判斷,從記憶回憶到風(fēng)險評估。
比如"錨定偏見",當(dāng)人們被要求估計一個數(shù)值時,往往會被之前聽到的任何數(shù)字所影響,即使這個數(shù)字完全不相關(guān)。研究團隊發(fā)現(xiàn),AI模型同樣表現(xiàn)出這種偏見:當(dāng)問題中包含一個看似不相關(guān)的數(shù)字時,模型的回答會明顯偏向這個數(shù)字。
又比如"損失厭惡",人們往往更害怕失去已有的東西,而不是獲得同等價值的新東西。AI模型也表現(xiàn)出類似的傾向:當(dāng)同樣的選擇以"避免損失"的方式呈現(xiàn)時,模型更傾向于選擇它,而不是以"獲得收益"的方式呈現(xiàn)。
通過對這32種偏見的全面分析,研究團隊發(fā)現(xiàn)了一個一致的模式:無論是哪種類型的偏見,模型的表現(xiàn)都更多地受到預(yù)訓(xùn)練階段的影響,而不是微調(diào)階段。
六、外部驗證:在其他模型上的重復(fù)實驗
為了確保研究結(jié)果的普遍性,研究團隊還在其他模型上進行了驗證實驗。他們選擇了社區(qū)中已經(jīng)訓(xùn)練好的Llama2-7B和Mistral-7B模型,這些模型使用了不同的訓(xùn)練數(shù)據(jù)和方法。
令人欣慰的是,在這些不同的模型上,研究團隊觀察到了完全相同的模式。即使是在不同的模型架構(gòu)、不同的訓(xùn)練數(shù)據(jù)、不同的訓(xùn)練方法下,預(yù)訓(xùn)練階段對認(rèn)知偏見的決定性影響仍然存在。
這個發(fā)現(xiàn)就像是在不同的城市、不同的學(xué)校中都觀察到了同樣的教育現(xiàn)象,證明了這個發(fā)現(xiàn)的普遍性和可靠性。
七、技術(shù)細(xì)節(jié):如何準(zhǔn)確測量AI的"思維偏見"
為了準(zhǔn)確測量AI模型的認(rèn)知偏見,研究團隊采用了一種精巧的對比實驗方法。他們?yōu)槊糠N偏見設(shè)計了兩個版本的問題:一個是"中性版本",不包含任何可能引起偏見的元素;另一個是"誘導(dǎo)版本",包含了可能引起偏見的特定元素。
比如在測試"框架效應(yīng)"時,中性版本可能會問:"這個治療方案的效果如何?"而誘導(dǎo)版本則會說:"這個治療方案有90%的成功率"或"這個治療方案有10%的失敗率"。雖然兩種表述在邏輯上完全等價,但如果模型存在框架效應(yīng)偏見,它對這兩種表述的反應(yīng)會有所不同。
研究團隊通過比較模型對這兩種版本問題的不同反應(yīng),計算出一個偏見分?jǐn)?shù)。這個分?jǐn)?shù)介于-1到1之間,接近0表示沒有偏見,偏向1或-1表示存在明顯的偏見。
八、數(shù)據(jù)分析:用數(shù)字說話的科學(xué)證據(jù)
通過大量的數(shù)據(jù)分析,研究團隊用數(shù)字證明了他們的發(fā)現(xiàn)。在聚類分析中,按照預(yù)訓(xùn)練模型進行分組的效果明顯優(yōu)于按照微調(diào)數(shù)據(jù)進行分組。具體來說,使用預(yù)訓(xùn)練模型分組的Silhouette分?jǐn)?shù)(一個衡量聚類質(zhì)量的指標(biāo))達到了0.104,而使用微調(diào)數(shù)據(jù)分組的分?jǐn)?shù)只有0.028。
這種差異就像是發(fā)現(xiàn)按照血型分組的準(zhǔn)確率遠(yuǎn)高于按照星座分組的準(zhǔn)確率,清楚地表明了哪個因素更重要。
更令人印象深刻的是,在主成分分析中,研究團隊發(fā)現(xiàn)第一主成分幾乎完全按照預(yù)訓(xùn)練模型來分離不同的樣本。這意味著在所有影響模型偏見的因素中,預(yù)訓(xùn)練是最重要的那個。
九、實際影響:這項研究對AI發(fā)展的深遠(yuǎn)意義
這項研究的發(fā)現(xiàn)對AI的發(fā)展具有深遠(yuǎn)的影響。首先,它告訴我們,如果想要減少AI模型的認(rèn)知偏見,僅僅在微調(diào)階段下功夫是不夠的,必須從預(yù)訓(xùn)練階段就開始關(guān)注這個問題。
這就像是發(fā)現(xiàn)要培養(yǎng)一個品格優(yōu)良的孩子,不能只在青春期才開始關(guān)注品德教育,而應(yīng)該從幼兒期就開始重視。對于AI模型來說,這意味著我們需要更加仔細(xì)地選擇和處理預(yù)訓(xùn)練數(shù)據(jù),確保這些數(shù)據(jù)不會引入過多的偏見。
其次,這項研究也為我們理解AI模型的行為提供了新的視角。以前,人們往往認(rèn)為AI模型的最終表現(xiàn)主要由微調(diào)階段決定,但現(xiàn)在我們知道,預(yù)訓(xùn)練階段的影響可能更加根本和持久。
十、未來展望:如何打造更公正的AI系統(tǒng)
基于這項研究的發(fā)現(xiàn),研究團隊提出了幾個改進AI系統(tǒng)的方向。首先,在預(yù)訓(xùn)練階段,我們需要更加仔細(xì)地篩選和處理訓(xùn)練數(shù)據(jù),識別并減少可能導(dǎo)致偏見的內(nèi)容。
這就像是為孩子選擇更好的閱讀材料,避免讓他們接觸到有害或偏頗的信息。對于AI模型來說,這可能意味著開發(fā)更好的數(shù)據(jù)過濾技術(shù),或者設(shè)計新的訓(xùn)練方法來減少偏見的形成。
其次,雖然微調(diào)階段的影響相對較小,但仍然可以用來調(diào)整和改善模型的行為。研究團隊發(fā)現(xiàn),通過精心設(shè)計的指令和對話示例,可以在一定程度上減少某些類型的偏見。
最后,這項研究也提醒我們,在評估AI系統(tǒng)的公正性時,需要使用更全面和深入的方法。僅僅測試模型在特定任務(wù)上的表現(xiàn)是不夠的,我們需要系統(tǒng)地評估模型在各種情況下的偏見表現(xiàn)。
這項由以色列理工學(xué)院和希伯來大學(xué)聯(lián)合開展的研究,為我們理解AI模型的認(rèn)知偏見提供了前所未有的深入洞察。通過巧妙的實驗設(shè)計和嚴(yán)格的數(shù)據(jù)分析,研究團隊不僅發(fā)現(xiàn)了偏見的真正來源,還為未來開發(fā)更公正、更可靠的AI系統(tǒng)指明了方向。
說到底,這項研究告訴我們一個重要的道理:AI模型就像人類一樣,它們的"性格"和"思維習(xí)慣"很大程度上是在早期的"成長經(jīng)歷"中形成的。如果我們想要培養(yǎng)出更加公正和可靠的AI助手,就必須從最開始的訓(xùn)練階段就給予足夠的重視和關(guān)注。這不僅是技術(shù)發(fā)展的需要,更是我們對未來智能社會的責(zé)任。
Q&A
Q1:什么是認(rèn)知偏見?AI模型為什么會有認(rèn)知偏見? A:認(rèn)知偏見是指在做決定時偏離理性判斷的心理傾向,比如同樣的信息用不同方式表達會影響我們的選擇。AI模型之所以會有認(rèn)知偏見,是因為它們是通過學(xué)習(xí)人類創(chuàng)造的大量文本數(shù)據(jù)來訓(xùn)練的,這些數(shù)據(jù)本身就包含了人類的各種偏見和思維習(xí)慣。
Q2:這項研究發(fā)現(xiàn)AI的偏見主要來自哪個階段? A:研究發(fā)現(xiàn)AI模型的認(rèn)知偏見主要來自預(yù)訓(xùn)練階段,而不是后續(xù)的微調(diào)階段。這就像是孩子的性格特征更多受到遺傳因素影響,而不是后天教育環(huán)境。即使使用相同的微調(diào)數(shù)據(jù),不同預(yù)訓(xùn)練模型的偏見模式仍然保持各自的特征。
Q3:如何減少AI模型的認(rèn)知偏見? A:基于這項研究的發(fā)現(xiàn),減少AI偏見需要從預(yù)訓(xùn)練階段就開始重視。具體包括:更仔細(xì)地篩選和處理訓(xùn)練數(shù)據(jù),開發(fā)更好的數(shù)據(jù)過濾技術(shù),設(shè)計新的訓(xùn)練方法來減少偏見形成。同時,在微調(diào)階段通過精心設(shè)計的指令和對話示例也能在一定程度上改善模型行為。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。