av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 俄勒岡大學(xué)研究團(tuán)隊推出mSCoRe:讓AI學(xué)會全球常識推理的"多語言考場"

俄勒岡大學(xué)研究團(tuán)隊推出mSCoRe:讓AI學(xué)會全球常識推理的"多語言考場"

2025-09-09 10:12
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-09 10:12 ? 科技行者

當(dāng)我們看到一個人在炎熱的夏日撐傘時,我們立刻知道這是為了遮陽避暑,而不是防雨。這種基于日常經(jīng)驗的快速判斷能力就是常識推理。然而,讓人工智能掌握這種看似簡單的能力卻異常困難,特別是在涉及不同語言和文化背景時,挑戰(zhàn)更是成倍增加。

這項由美國俄勒岡大學(xué)計算機(jī)科學(xué)系的Nguyen Trung Ngo和Thien Huu Nguyen教授,以及Adobe研究院的Franck Dernoncourt博士聯(lián)合完成的突破性研究,于2025年8月發(fā)表在計算機(jī)科學(xué)領(lǐng)域的重要學(xué)術(shù)會議上。研究團(tuán)隊開發(fā)了一個名為mSCoRe(多語言可擴(kuò)展技能導(dǎo)向常識推理基準(zhǔn))的全新測試系統(tǒng),專門用來評估大語言模型在不同語言和文化環(huán)境下的常識推理能力。感興趣的讀者可以通過arXiv:2508.10137訪問完整論文。

現(xiàn)有的AI常識推理測試系統(tǒng)就像只在英語國家舉辦的單語種考試,無法準(zhǔn)確衡量AI在全球化環(huán)境中的真實表現(xiàn)。研究團(tuán)隊發(fā)現(xiàn)了三個關(guān)鍵問題:首先,現(xiàn)有測試主要集中在英語或中文等單一語言上,即使有多語言版本,也只是簡單翻譯,無法捕捉文化特有的細(xì)微差別。其次,這些測試缺乏系統(tǒng)性的難度調(diào)節(jié)機(jī)制,無法跟上快速發(fā)展的AI能力。最后,它們無法深入分析AI的推理過程,就像只看考試分?jǐn)?shù)而不了解學(xué)生的解題思路。

mSCoRe系統(tǒng)的設(shè)計理念可以用"三位一體的智能測試工廠"來形容。首先是全面覆蓋性,這個系統(tǒng)涵蓋了英語、德語、法語、中文和日語五種語言的一般常識知識,同時包含豐富的跨文化社會常識內(nèi)容。這就像建造了一個多語言、多文化的綜合考場,確保AI能在不同語言環(huán)境中都接受公平的測試。

技能導(dǎo)向分析是該系統(tǒng)的核心創(chuàng)新之一。研究團(tuán)隊將人類推理過程細(xì)分為十種基本技能,分為三大類別。邏輯推理類包括歸納推理、演繹推理和溯因推理,就像我們從具體事例總結(jié)規(guī)律、從一般原則推導(dǎo)結(jié)論,或是尋找現(xiàn)象背后最可能的原因。情境推理類涵蓋了類比推理、反事實推理、概率推理、時間推理和空間推理,幫助我們在不同情況間找到相似之處、思考"如果當(dāng)時不這樣做會怎樣"、評估事件發(fā)生的可能性,以及理解時空關(guān)系。社會倫理推理類則包括社會推理和道德推理,用于理解人際互動和做出符合倫理的判斷。

可擴(kuò)展性是該系統(tǒng)的另一個重要特色。它采用了一種巧妙的"漸進(jìn)加難"機(jī)制,通過擴(kuò)展背景信息、調(diào)整答案選項和增加推理步驟來逐步提高題目難度。這就像游戲中的關(guān)卡設(shè)計,每個級別都在前一級的基礎(chǔ)上增加新的挑戰(zhàn)元素,確保能夠準(zhǔn)確測試不斷進(jìn)步的AI系統(tǒng)。

研究團(tuán)隊采用了一種獨特的"原子推理步驟"概念來分析AI的思維過程。每個原子推理步驟被定義為一個不可再分的推理單元,主要使用一種特定的推理技能。這就像把復(fù)雜的數(shù)學(xué)證明分解成一系列基本的邏輯步驟,每一步都清晰明了,不能進(jìn)一步簡化。最優(yōu)推理路徑要求使用最少的原子推理步驟數(shù)量,同時保持邏輯連貫性,確保每一步都對縮小答案范圍有實質(zhì)性貢獻(xiàn)。

在數(shù)據(jù)生成方面,研究團(tuán)隊設(shè)計了一個精心構(gòu)建的四步流程。第一步是數(shù)據(jù)篩選,使用AI評判系統(tǒng)根據(jù)常識性、復(fù)雜性和可擴(kuò)展性三個標(biāo)準(zhǔn)對候選題目進(jìn)行評分,優(yōu)先選擇既具有高度常識性又有適當(dāng)復(fù)雜性的題目,同時保持進(jìn)一步擴(kuò)展的靈活性。第二步是結(jié)構(gòu)化推理生成,為每個選定的問答對生成相關(guān)的常識背景和詳細(xì)的推理過程,每個推理步驟都明確標(biāo)注使用的推理技能、推理文本和排除的選項。

第三步是復(fù)雜性擴(kuò)展,這是系統(tǒng)的核心創(chuàng)新之一。研究團(tuán)隊通過三個子步驟實現(xiàn)難度升級:背景擴(kuò)展增加額外的情境細(xì)節(jié)以提高推理要求,選項調(diào)整確保正確答案在語義上與原答案相似,同時引入一個看似合理但實際錯誤的新選項,推理完善則在原有推理過程基礎(chǔ)上增加一個額外的推理步驟來排除新增的錯誤選項。第四步是常識隱含化,將明確的背景信息與問題融合,生成一個隱含背景的常識問題,要求AI依靠內(nèi)在的常識知識來確定正確答案。

mSCoRe系統(tǒng)包含兩個主要子集,分別針對不同類型的常識推理。mSCoRe-G專注于一般常識推理,以多語言常識問答數(shù)據(jù)集mCSQA為基礎(chǔ),評估對物理因果關(guān)系、時間關(guān)系和基本世界動態(tài)的理解,涵蓋五種語言。mSCoRe-S則專注于社會常識推理,基于CultureBank數(shù)據(jù)集,該數(shù)據(jù)集包含來自TikTok和Reddit的真實社會問題,專門測試對社會互動、文化規(guī)范和不同文化背景下行為期望的理解。

整個數(shù)據(jù)集包含5600個實例,其中4000個用于一般常識推理,1600個用于社會常識推理。每種語言創(chuàng)建200個示例,復(fù)雜度從0級(原始問答對)到3級(經(jīng)過三輪擴(kuò)展),確保了數(shù)據(jù)的豐富性和多樣性。每個實例都經(jīng)過精心設(shè)計,從簡單的常識判斷逐步發(fā)展為需要多步推理的復(fù)雜問題。

研究團(tuán)隊在八個最先進(jìn)的大語言模型上進(jìn)行了全面評估,這些模型代表了當(dāng)前AI發(fā)展的不同路徑。商業(yè)模型包括GPT-4o和OpenAI o1系列,其中o1是專門針對復(fù)雜推理任務(wù)優(yōu)化的推理增強(qiáng)模型。開源模型包括不同規(guī)模的LLaMA-3.3-70B和LLaMA-3.1-8B,以及基于LLaMA架構(gòu)的推理專用模型DeepSeek R1的蒸餾版本。多語言模型Aya-32B則代表了在200種語言上訓(xùn)練的通用多語言能力。

評估結(jié)果揭示了當(dāng)前AI系統(tǒng)在常識推理方面的多個重要特征。在一般常識推理方面,隨著復(fù)雜度級別提升,所有模型的性能都出現(xiàn)持續(xù)下降。GPT-4o在所有語言和復(fù)雜度級別上都表現(xiàn)最佳,平均準(zhǔn)確率從0級的79.2%下降到3級的69.5%。令人意外的是,開源模型LLaMA-3.3-70B的表現(xiàn)與GPT-4o非常接近,甚至在社會常識推理上表現(xiàn)更為突出,平均準(zhǔn)確率達(dá)到81.8%,比GPT-4o高出約5%。

多語言表現(xiàn)方面,在一般常識推理中,不同語言的性能相對均衡,這可能是因為種子數(shù)據(jù)集中的語言都是中高資源語言。然而,在社會常識推理中,大多數(shù)模型在Reddit來源的問題上比TikTok來源的問題表現(xiàn)更好,這表明AI可能在處理更個人化的日常生活問題時仍有困難。

模型規(guī)模的影響呈現(xiàn)出有趣的模式。從8B參數(shù)到70B參數(shù)的開源模型之間存在顯著性能差距,但從70B參數(shù)到數(shù)千億參數(shù)的閉源模型之間的改進(jìn)呈現(xiàn)遞減趨勢。這表明簡單的參數(shù)擴(kuò)展可能不足以解決常識推理問題,特別是在理解社會互動和文化規(guī)范方面。

推理增強(qiáng)訓(xùn)練的效果也值得深思。雖然最先進(jìn)的推理增強(qiáng)模型o1在英語上表現(xiàn)最佳,但在其他語言上卻落后于GPT-4o和LLaMA-3.3-70B等通用模型。這表明推理增強(qiáng)訓(xùn)練可能會降低常識推理能力,很可能是由于訓(xùn)練數(shù)據(jù)過分專注于編程和數(shù)學(xué)等技術(shù)任務(wù)。有趣的是,較小規(guī)模的模型確實能從推理增強(qiáng)訓(xùn)練中受益,8B參數(shù)的LLaMA-3.1模型在英語和日語上表現(xiàn)失常,但R1-8B卻表現(xiàn)正常。

復(fù)雜性擴(kuò)展分析顯示,當(dāng)研究團(tuán)隊將測試擴(kuò)展到6級復(fù)雜度時,每個模型的準(zhǔn)確率都持續(xù)下降。最顯著的性能下降出現(xiàn)在0級到2級之間,表明即使相對簡單的復(fù)雜性擴(kuò)展也會給大語言模型帶來實質(zhì)性挑戰(zhàn)。在更高難度級別(3級到6級),下降速度明顯放緩,這種平臺效應(yīng)表明當(dāng)前的復(fù)雜性擴(kuò)展方法可能已達(dá)到飽和點。

技能類型利用分析揭示了AI推理模式的重要局限性。在一般常識推理中,參考推理過程和模型生成的推理過程都主要使用邏輯推理技能,演繹推理最為常見。然而,參考分布在更高復(fù)雜度級別顯示出更大的技能多樣化,更多地融入情境推理,特別是類比推理和概率推理。相比之下,像o1這樣的模型在所有復(fù)雜度級別都過度依賴演繹推理。

在社會常識推理中,參考分布顯示出更平衡的技能利用,來自三個類別的技能都被使用,社會倫理推理在高級別問題中變得更加重要。雖然o1模型確實融入了一些社會推理技能,但它仍然過度依賴邏輯推理來處理更適合使用社會和情境推理的場景。這種僵化的推理模式很可能解釋了模型在更高復(fù)雜度問題上的性能下降。

推理分類法的比較實驗進(jìn)一步證實了細(xì)粒度技能分類的價值。研究團(tuán)隊測試了幾種不同的推理指導(dǎo)方式:標(biāo)準(zhǔn)思維鏈推理、僅使用邏輯推理技能的限制版本、使用三個一般類別的簡化版本。結(jié)果顯示,盡管需要模型區(qū)分更多技能類型,細(xì)粒度分類法卻產(chǎn)生了最佳結(jié)果。僅邏輯推理方法在一般常識任務(wù)上表現(xiàn)相對較好,但在社會任務(wù)上表現(xiàn)較差,而一般類別設(shè)置的表現(xiàn)也不如細(xì)粒度方法。

推理效率分析展現(xiàn)了另一個重要發(fā)現(xiàn)。參考推理過程顯示隨著任務(wù)復(fù)雜度增加,推理步驟數(shù)呈現(xiàn)清晰的線性增長,社會常識推理在每個級別都比一般常識推理需要更多步驟。GPT-4o的推理過程顯示出類似的上升趨勢但斜率更緩和,而o1的推理過程無論任務(wù)復(fù)雜度如何都保持近似恒定的步驟數(shù)(約3步)。這些發(fā)現(xiàn)表明,根據(jù)任務(wù)需求動態(tài)調(diào)整推理深度對于維持復(fù)雜度升級時的性能可能至關(guān)重要。

不同推理技能分類法的對比實驗證明了該研究方法的有效性。使用思維鏈提示而不要求技能識別的基線方法明顯劣于所有結(jié)構(gòu)化技能導(dǎo)向方法,特別是在更高復(fù)雜度的社會常識推理中。這表明沒有明確技能分類的推理可能不足以應(yīng)對更復(fù)雜的常識情況。

這項研究的意義遠(yuǎn)不止于提供了一個新的測試基準(zhǔn)。它為我們理解AI的推理局限性提供了前所未有的細(xì)粒度分析工具,揭示了當(dāng)前最先進(jìn)的大語言模型在處理需要靈活推理策略的復(fù)雜常識問題時的根本性缺陷。研究發(fā)現(xiàn),盡管這些模型在許多任務(wù)上表現(xiàn)優(yōu)異,但它們往往過度依賴單一的推理模式,缺乏人類在面對不同情境時靈活切換推理策略的能力。

更重要的是,這項研究強(qiáng)調(diào)了文化意識和多語言能力在AI發(fā)展中的重要性。在全球化的今天,AI系統(tǒng)需要理解不同文化背景下的社會規(guī)范和行為期望,而不僅僅是掌握語言翻譯能力。研究表明,即使是最先進(jìn)的多語言模型在處理文化特有的社會常識時仍顯不足,這為未來的AI訓(xùn)練方向提供了重要指導(dǎo)。

研究團(tuán)隊提出的原子推理步驟概念和技能導(dǎo)向分析方法也為AI系統(tǒng)的可解釋性研究開辟了新途徑。通過將復(fù)雜的推理過程分解為可理解和可分析的基本單元,研究者能夠更好地理解AI的決策過程,識別其推理錯誤,并針對性地改進(jìn)模型設(shè)計。

這項研究對AI訓(xùn)練方法學(xué)也提出了重要啟示。目前流行的推理增強(qiáng)訓(xùn)練主要集中在數(shù)學(xué)和編程等形式化領(lǐng)域,雖然在這些專業(yè)任務(wù)上效果顯著,但可能以犧牲常識推理能力為代價。研究結(jié)果表明,未來的AI訓(xùn)練需要在專業(yè)技能和常識推理之間找到更好的平衡,開發(fā)更全面的訓(xùn)練策略。

該基準(zhǔn)系統(tǒng)的可擴(kuò)展設(shè)計特別值得關(guān)注。隨著AI能力的快速提升,固定難度的測試很快就會變得過于簡單。mSCoRe的動態(tài)復(fù)雜性擴(kuò)展機(jī)制確保了它能夠跟上AI發(fā)展的步伐,為持續(xù)評估和改進(jìn)AI系統(tǒng)提供了有效工具。這種前瞻性設(shè)計對于長期的AI研究具有重要價值。

該研究也為跨學(xué)科合作提供了典型案例。通過結(jié)合計算機(jī)科學(xué)、認(rèn)知科學(xué)、語言學(xué)和文化研究的見解,研究團(tuán)隊創(chuàng)建了一個既技術(shù)先進(jìn)又文化敏感的評估系統(tǒng)。這種跨學(xué)科方法在AI研究中越來越重要,特別是在處理涉及人類認(rèn)知和社會行為的復(fù)雜問題時。

最后,這項研究為AI的實際應(yīng)用提供了重要參考。在智能客服、教育助手、文化交流平臺等需要深度理解人類常識和文化差異的應(yīng)用場景中,這種細(xì)粒度的常識推理評估能夠幫助開發(fā)者識別和改進(jìn)AI系統(tǒng)的局限性,確保它們能夠在真實世界中提供更可靠、更文化敏感的服務(wù)。

說到底,這項研究揭示了一個重要事實:盡管大語言模型在許多方面表現(xiàn)出了令人印象深刻的能力,但它們在常識推理方面仍有很長的路要走。特別是在需要靈活運用不同推理策略、理解文化差異和處理社會情境的任務(wù)上,現(xiàn)有的AI系統(tǒng)還遠(yuǎn)未達(dá)到人類水平。然而,正是這種誠實的評估和深入的分析為未來的改進(jìn)指明了方向,讓我們對AI真正理解和融入人類社會的那一天充滿期待。

Q&A

Q1:mSCoRe基準(zhǔn)系統(tǒng)相比現(xiàn)有的AI常識推理測試有什么獨特優(yōu)勢?

A:mSCoRe系統(tǒng)有三大獨特優(yōu)勢:首先是全面的多語言和跨文化覆蓋,不僅支持五種主要語言,還能捕捉文化特有的社會常識;其次是創(chuàng)新的技能導(dǎo)向分析,能夠深入分析AI使用了哪些具體的推理技能;最后是動態(tài)的復(fù)雜性擴(kuò)展機(jī)制,可以隨著AI能力提升而調(diào)整測試難度。

Q2:為什么推理增強(qiáng)訓(xùn)練的AI模型在常識推理上表現(xiàn)反而不如通用模型?

A:研究發(fā)現(xiàn)推理增強(qiáng)模型如OpenAI o1過度專注于數(shù)學(xué)和編程等技術(shù)領(lǐng)域的訓(xùn)練,導(dǎo)致在處理需要社會理解和文化敏感性的常識問題時能力下降。這些模型習(xí)慣于使用單一的演繹推理模式,缺乏人類在不同情境下靈活切換推理策略的能力。

Q3:普通人如何理解AI在常識推理方面還存在哪些不足?

A:AI目前就像一個只會按照固定公式解題的學(xué)生,雖然在專業(yè)領(lǐng)域很厲害,但面對需要生活經(jīng)驗和文化理解的問題時就顯得僵化。比如它們很難理解為什么在不同文化中同樣的手勢會有不同含義,或者無法像人類一樣根據(jù)具體情境靈活調(diào)整推理方式。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-