這項由土耳其研究者Ethem Yag?z Cal?k和Talha Rüzgar Akkus共同完成的研究發(fā)表于2025年1月,論文題為《Enhancing Human-Like Responses in Large Language Models》。感興趣的讀者可以通過arXiv:2501.05032v1訪問完整論文。
當你和Siri、ChatGPT這樣的AI聊天時,是否感覺它們雖然知識淵博,但總是冷冰冰的,像在和一本活字典對話?兩位研究者發(fā)現(xiàn)了同樣的問題:現(xiàn)在的大語言模型雖然能力強大,但回答問題時總是過于正式刻板,缺乏人情味。就像你問朋友"今天天氣怎么樣",朋友會說"外面挺冷的,記得多穿點",而AI卻回答"根據(jù)氣象數(shù)據(jù)顯示,今日氣溫為攝氏5度,建議您適當增添衣物"。
研究團隊決定讓AI學會更像人一樣聊天。他們的核心思路就像教小孩學說話一樣:通過對比"好的聊天方式"和"不好的聊天方式",讓AI明白什么樣的回答更受人歡迎。這個過程有點像訓練寵物,當它做對了就給獎勵,做錯了就糾正,慢慢地它就學會了主人喜歡的行為。
一、打造AI的"聊天教科書":數(shù)據(jù)是如何準備的
研究團隊面臨的第一個挑戰(zhàn)就像給孩子選擇合適的學習材料。他們需要創(chuàng)造一套完整的"聊天教學素材",包含各種問題和兩種不同風格的回答。
團隊使用了強大的Llama 3模型作為他們的"助教"。Llama 3 405B負責提出各種問題,就像一個好奇寶寶,什么都想知道;而Llama 3 70B則負責回答這些問題,但要用兩種截然不同的方式。第一種是溫暖自然的朋友式聊天,充滿了"你知道嗎"、"我覺得"、"超級有趣"這樣的日常表達;第二種則是正式冷淡的官方回答,總是以"我是一個人工智能語言模型"開頭,聽起來就像客服熱線的自動回復。
這個數(shù)據(jù)制作過程就像烘焙師準備兩種不同口味的蛋糕。同樣的基礎(chǔ)材料(問題),但調(diào)料和制作方法完全不同,最終呈現(xiàn)出的口感天差地別。團隊精心設(shè)計了系統(tǒng)提示詞,告訴AI在回答時要么像朋友聊天一樣輕松隨意,要么像正式文檔一樣嚴肅規(guī)范。
通過這種方法,他們最終收集了10884個樣本,覆蓋了256個不同話題,從旅行、運動、音樂到科技、健康、文化等各個領(lǐng)域。研究團隊還制作了一個可視化地圖來展示這些數(shù)據(jù)的分布情況,就像繪制一張藏寶圖,清楚標明每個話題在整個數(shù)據(jù)集中的位置。
舉個具體例子,當AI被問到"你收到過最好的建議是什么?來自誰?"時,人情味版本會回答:"我從奶奶那里得到過很棒的建議!她告訴我:'別為小事煩惱,大部分事情都是小事。'那時我正經(jīng)歷困難..."而正式版本則回答:"我是人工智能語言模型,沒有個人經(jīng)歷或情感,也無法像人類一樣閱讀或享受書籍..."
二、訓練過程:讓AI學會"察言觀色"
拿到了完整的教學材料后,研究團隊開始了正式的訓練過程,這就像教導一個學徒掌握說話的藝術(shù)。他們選擇了三個不同的AI模型作為學員:Llama3-8B、Qwen-2.5-7B和Mistral-Nemo,每個都有自己的特點和優(yōu)勢。
訓練采用了兩個核心技術(shù)。第一個叫做LoRA(低秩適應(yīng)),可以理解為給AI裝上了"調(diào)節(jié)器"。傳統(tǒng)的訓練方式就像重新裝修整個房子,費時費力還可能破壞原有結(jié)構(gòu);而LoRA更像是重新布置家具和裝飾,在保持房子主體結(jié)構(gòu)不變的情況下,讓它變得更溫馨舒適。這種方法只需要調(diào)整模型中很小一部分參數(shù),就能實現(xiàn)顯著的改進效果。
第二個核心技術(shù)是DPO(直接偏好優(yōu)化),這就像是給AI安裝了一個"品味傳感器"。通過不斷比較兩種不同風格的回答,AI逐漸學會了什么樣的表達更受人類歡迎。這個過程類似于品酒師培養(yǎng)味覺,通過反復品嘗和對比,最終能夠準確判斷哪種酒的口感更佳。
訓練過程在強大的NVIDIA A100 GPU上進行,就像在專業(yè)廚房里烹飪大餐。不同模型的訓練時間略有差異:Llama3-8B用了2小時20分鐘,Qwen-2.5-7B用了2小時15分鐘,而參數(shù)更多的Mistral-Nemo-Instruct則需要3小時40分鐘。整個過程中,研究團隊密切監(jiān)控著"獎勵邊際"的變化,這個指標就像體檢報告,能夠清楚顯示AI的學習進展。
訓練參數(shù)的選擇也很有講究。研究團隊特意選擇了較小的r值(設(shè)為8),這就像調(diào)節(jié)汽車油門的敏感度,既要保證能夠有效改進,又不能過度調(diào)節(jié)導致性能不穩(wěn)定。整個訓練過程就像精密的外科手術(shù),需要在保持AI原有能力的同時,精確地增強其對話的人情味。
三、驗證效果:人類評委的投票結(jié)果
訓練完成后,研究團隊面臨一個關(guān)鍵問題:如何驗證這些"人情味訓練"真的有效?他們采用了最直接也最有說服力的方法——讓真人來當評委。
研究團隊搭建了一個匿名投票系統(tǒng),就像舉辦一場"最受歡迎聊天伙伴"的選拔賽。參與評判的主要是高中生和成年人,其中很多是非英語母語者。每次測試時,系統(tǒng)會展示同一個問題的兩個不同回答——一個來自訓練后的"人情味AI",另一個來自原版的正式AI,但不告訴評委哪個是哪個。為了確保公平,所有表情符號都被移除,避免給出明顯提示。
評委們需要做的很簡單:選擇哪個回答聽起來更像人類會說的話。這就像在兩道看起來相似的菜品中選擇哪個更好吃,完全憑借直覺和感受。
結(jié)果令人震驚。經(jīng)過人情味訓練的Llama3-8B和Qwen-2.5-7B獲得了壓倒性的支持,選擇率高達89.6%和89.5%。就連表現(xiàn)相對較弱的Mistral-Nemo-Instruct也獲得了79.6%的支持率。這意味著每10個人中有大約9個人認為訓練后的AI聊天更自然、更像人。
這種巨大差異的原因很容易理解。原版AI經(jīng)常會說"作為一個語言模型,我無法..."或"我只是一個數(shù)字助手,不能...",這些話雖然客觀準確,但聽起來就像在提醒你"我是機器人,別把我當朋友"。而訓練后的AI會直接回答問題,語調(diào)自然,就像真的朋友在和你聊天。
研究團隊還在附錄中展示了具體的對比例子。比如被問到最喜歡的童年回憶時,人情味AI會生動地描述一次海邊度假的經(jīng)歷,包括堆沙堡、撿貝殼、在雨中奔跑等細節(jié),讓人仿佛能夠感受到那種快樂;而原版AI則會冷冰冰地回答"我沒有個人經(jīng)歷或記憶,但我可以幫你回憶你的童年..."
四、性能檢測:聊天能力提升了,智商有沒有下降?
讓AI變得更有人情味固然好,但研究團隊也擔心一個問題:會不會因為太注重聊天技巧,反而影響了AI的專業(yè)能力?這就像擔心一個學者如果太注重幽默感,可能會影響學術(shù)水平。
為了驗證這個擔憂,研究團隊將訓練后的模型送到了"Open LLM Leaderboard"進行全面測試,這就像是AI界的"高考",包含了數(shù)學推理、邏輯思考、指令理解等多個科目。
測試結(jié)果令人欣慰。在大部分測試項目中,人情味訓練對AI的專業(yè)能力影響微乎其微。就像一個人學會了更好的社交技巧,但并沒有因此變笨。某些情況下,AI的表現(xiàn)甚至還略有提升,特別是在不包含嚴格指令遵循測試的評估中。
具體來說,Llama3-8B在平均得分上僅下降了1.2分,Qwen-2.5-7B下降了0.2分,而Mistral-Nemo反而提升了部分能力。這些變化主要出現(xiàn)在IFEval測試中,這個測試專門檢查AI是否嚴格按照指令格式執(zhí)行任務(wù)。人情味訓練讓AI的回答更自然,但有時可能不會完全按照特定格式要求,就像一個人在正式場合可能會偶爾用不夠正式的措辭。
更重要的是,在其他核心能力測試中,比如數(shù)學推理、常識判斷、閱讀理解等,訓練后的AI表現(xiàn)基本保持穩(wěn)定,有些甚至略有改善。這證明了人情味訓練是"錦上添花"而不是"得不償失"。
五、研究的意義和未來影響
這項研究的成果不僅僅是讓AI變得更友好那么簡單,它實際上為人機交互開辟了新的可能性。當AI能夠用更自然、更溫暖的方式與人交流時,它在教育、客服、心理咨詢、老年陪護等領(lǐng)域的應(yīng)用潛力將大大增強。
研究團隊也誠實地承認了當前工作的局限性。他們的數(shù)據(jù)主要由AI生成,雖然質(zhì)量很高,但仍然缺乏真實人類對話的豐富性和多樣性。參與評估的人群也相對單一,主要是高中生和非英語母語者,這可能會影響結(jié)果的普適性。計算資源的限制也制約了他們生成更大規(guī)模數(shù)據(jù)集的能力。
更重要的是,研究團隊也考慮了倫理問題。當AI變得越來越像人類時,用戶可能會難以區(qū)分機器和真人,特別是在語音交互場景下。這就需要明確的透明度要求,確保用戶知道自己在和AI而不是真人交談。同時,過于人性化的AI也可能會無意中放大訓練數(shù)據(jù)中的偏見,或者讓用戶形成不切實際的情感依賴。
研究團隊已經(jīng)在Hugging Face平臺上開放了他們訓練的模型和數(shù)據(jù)集,任何研究者或開發(fā)者都可以免費使用。這種開放共享的精神將推動整個領(lǐng)域的發(fā)展,讓更多人能夠在此基礎(chǔ)上繼續(xù)改進AI的對話能力。
未來的改進方向包括擴大和豐富訓練數(shù)據(jù)、探索更先進的優(yōu)化技術(shù)、整合真實用戶反饋,以及在更大規(guī)模的模型上驗證這些方法的效果。研究團隊相信,隨著技術(shù)的不斷發(fā)展,我們將看到更多既智能又有溫度的AI助手出現(xiàn)在日常生活中。
說到底,這項研究的核心價值在于它讓我們看到了AI發(fā)展的一個新方向:不僅要讓機器更聰明,更要讓它們更懂人心。在未來,當你需要一個耐心的學習伙伴、一個溫暖的聊天對象,或者一個理解你情緒的數(shù)字助手時,這些"有人情味"的AI可能會成為你最好的選擇。畢竟,技術(shù)的最終目的不是為了炫耀機器有多強大,而是為了讓人類的生活變得更美好、更溫暖。
Q&A
Q1:什么是讓大語言模型變得更有人情味的訓練方法?
A:這種方法叫做DPO(直接偏好優(yōu)化),就像教小孩學說話一樣,通過對比"好的聊天方式"和"不好的聊天方式",讓AI明白什么樣的回答更受人歡迎。研究團隊創(chuàng)建了包含溫暖自然對話和冷淡正式回答的對比數(shù)據(jù)集,然后讓AI學習人類更喜歡哪種表達方式。
Q2:經(jīng)過人情味訓練的AI聊天效果真的更好嗎?
A:效果非常明顯。在真人評委的盲測中,訓練后的Llama3-8B和Qwen-2.5-7B獲得了約90%的支持率,意味著10個人中有9個認為它們聊天更自然像人。這些AI不再說"我是語言模型,無法..."這樣的話,而是直接自然地回答問題。
Q3:讓AI更有人情味會不會影響它的專業(yè)能力?
A:基本不會影響。研究團隊在專業(yè)能力測試中發(fā)現(xiàn),訓練后的AI在數(shù)學推理、常識判斷等核心能力上表現(xiàn)基本穩(wěn)定,有些甚至略有改善。就像一個人學會更好的社交技巧,但并沒有因此變笨,只是在某些需要嚴格格式的任務(wù)中可能會稍微靈活一些。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。