這項由LG AI研究院的洪石熙、金善京等研究團隊領導的研究發(fā)表于2025年1月的arXiv預印本平臺(論文編號:arXiv:2507.08924v1),有興趣深入了解的讀者可以通過該編號在arXiv平臺上訪問完整論文。
把AI大模型比作剛畢業(yè)的大學生,那么現在市面上的各種AI測試就像是學校里的期末考試。但問題是,這些"期末考試"能真正檢驗AI是否具備在現實社會中工作的能力嗎?就像一個學生可能在學校考試中拿高分,但到了實際工作中卻不知道該如何處理復雜的職場問題一樣。
LG AI研究院的研究團隊意識到了這個問題。他們發(fā)現,現有的AI測試主要集中在學術知識上,卻忽略了一個關鍵問題:AI是否真的具備處理專業(yè)工作所需的實際技能?當企業(yè)想要部署AI助手來處理法律咨詢、醫(yī)療診斷或者會計工作時,他們需要知道這個AI是否真的具備相關的專業(yè)資質,而不僅僅是在學術測試中表現良好。
基于這個洞察,研究團隊開發(fā)了兩個全新的測試基準:KMMLU-REDUX和KMMLU-PRO。如果把之前的AI測試比作學??荚嚕敲催@兩個新的測試就像是專業(yè)的職業(yè)資格考試。KMMLU-REDUX相當于技能認證考試,而KMMLU-PRO則是真正的職業(yè)資格證書考試。
整個研究過程就像是一場精心設計的偵探工作。研究團隊首先像偵探一樣仔細檢查了現有的韓國AI測試基準KMMLU,發(fā)現了許多問題。他們發(fā)現有些題目直接在問題中泄露了答案,就像考試時老師不小心把答案寫在了黑板上一樣。還有一些題目表述不清,讓人看了一頭霧水。更嚴重的是,有些題目在網絡上到處都是,AI在訓練時可能已經"見過"這些題目了,這就像學生提前拿到了考試答案一樣不公平。
為了解決這些問題,研究團隊采用了兩個策略。首先,他們對原有的測試進行了"大掃除",仔細篩選出了2587個高質量的題目,組成了KMMLU-REDUX。這些題目全部來自韓國國家技術資格考試,要求考生必須擁有學士學位或至少九年的相關工作經驗才能參加,確保了測試的專業(yè)性和挑戰(zhàn)性。
其次,他們創(chuàng)建了全新的KMMLU-PRO測試,這個測試包含了2822個來自韓國國家專業(yè)執(zhí)業(yè)資格考試的題目,涵蓋了14個不同的專業(yè)領域。這些考試可不是鬧著玩的——它們是真正的職業(yè)準入門檻,就像醫(yī)生需要通過醫(yī)師資格考試、律師需要通過司法考試一樣。通過這些考試,才能在相應的專業(yè)領域合法執(zhí)業(yè)。
研究團隊選擇的專業(yè)領域非常全面,包括了法律、醫(yī)學、會計、稅務等各個方面。在法律領域,他們納入了律師、專利代理人、勞動法律師等職業(yè)的考試題目。在醫(yī)學領域,包括了醫(yī)師、牙醫(yī)、藥劑師等專業(yè)的考試內容。在會計稅務領域,涵蓋了注冊會計師、稅務師、報關員等職業(yè)的考試題目。每個專業(yè)都有其獨特的知識要求和實踐技能,這確保了測試的全面性和實用性。
為了保證測試的權威性和準確性,研究團隊直接從韓國政府官方網站獲取了最新的考試題目,而不是從可能存在錯誤的第三方網站收集。他們還雇傭了23名專業(yè)標注員,花費了8個工作日對所有題目進行人工檢查和校對,確保每個題目都準確無誤。這個過程就像是對每道菜都要經過頂級廚師品嘗確認一樣嚴格。
在實際測試中,研究團隊使用了市面上最先進的AI大模型,包括OpenAI的o1模型、Anthropic的Claude 3.7 Sonnet、Google的Gemini系列、以及多個開源模型。測試結果令人眼前一亮,同時也暴露了一些有趣的現象。
在KMMLU-REDUX的測試中,各個AI模型的表現呈現出明顯的差異化特征。OpenAI的o1模型以81.14%的準確率排名第一,Claude 3.7 Sonnet緊隨其后,達到了79.36%。有趣的是,具備"思考"能力的推理模型普遍比傳統模型表現更好,這就像給學生更多時間思考確實能提高考試成績一樣。
然而,真正有趣的發(fā)現出現在KMMLU-PRO的測試中。研究團隊不僅看準確率,還看AI是否真的能"通過"這些職業(yè)資格考試。就像真正的職業(yè)考試一樣,僅僅總分高還不夠,還需要在每個科目上都達到最低分數線(通常是40%),并且總平均分達到60%以上。
結果發(fā)現,Claude 3.7 Sonnet在"職業(yè)資格證書"獲取方面表現最好,成功通過了14個專業(yè)中的12個,而準確率最高的o1模型卻只通過了10個專業(yè)的考試。這個現象就像是一個學霸可能在某些科目上分數很高,但在其他科目上卻可能不及格,導致無法獲得整體的職業(yè)資格認證。
更加有趣的是不同專業(yè)領域的通過率差異。在醫(yī)學相關的專業(yè)中,大多數AI模型都能達到執(zhí)業(yè)標準,有些甚至能在藥劑師考試中取得超過90%的分數。這表明AI在醫(yī)學知識的掌握上相對比較全面和準確。
但在法律和會計稅務領域,AI的表現就不那么樂觀了。幾乎所有的AI模型都無法通過司法書記員和注冊會計師的考試,這兩個職業(yè)的考試通過率為零。這個現象反映了一個重要問題:法律和會計工作需要對具體國家的法律法規(guī)和制度有深入的了解,而這些知識具有很強的地域性和時效性特征。
研究團隊還發(fā)現了一個值得注意的現象:當他們把醫(yī)學、會計、法律等專業(yè)的題目從簡單的英文翻譯版本換成真正的韓國本土專業(yè)考試題目時,AI的表現出現了顯著差異。在醫(yī)學領域,這種差異相對較小,因為醫(yī)學知識在全球范圍內相對統一。但在法律領域,差異就非常明顯了,因為每個國家的法律制度都有其獨特性。
這個發(fā)現具有重要的實踐意義。它提醒我們,簡單地將英文的AI測試翻譯成其他語言并不能真正評估AI在該地區(qū)的專業(yè)能力。就像一個熟悉美國法律的律師不能直接在中國執(zhí)業(yè)一樣,AI也需要針對具體地區(qū)的專業(yè)知識進行專門的訓練和評估。
研究團隊還測試了"推理預算"對AI性能的影響。所謂推理預算,就是給AI更多的時間和計算資源來"思考"問題,就像給學生更多時間來答題一樣。結果發(fā)現,在大多數專業(yè)領域,給AI更多思考時間確實能提高其表現,但在某些特定領域(如司法書記員考試)中,即使給再多時間,AI的表現也沒有明顯改善。
另一個有趣的發(fā)現是語言對AI性能的影響。研究團隊發(fā)現,有些AI模型在使用英文提示時表現更好,而在使用韓文提示時表現會下降。這就像是一個在英語環(huán)境中學習的學生,回到中文環(huán)境中反而可能表現不如預期。這個現象提醒我們,AI的多語言能力可能還需要進一步提升。
為了確保測試的長期有效性,研究團隊承諾每年更新KMMLU-PRO的題目,使用最新的職業(yè)資格考試內容。這種做法就像是每年更新駕照考試題目一樣,確保測試始終反映最新的專業(yè)標準和要求。
這項研究的意義遠超過了單純的AI測試。它為AI在專業(yè)領域的部署提供了重要的評估工具。當一家醫(yī)院想要使用AI助手來輔助診斷時,他們可以通過KMMLU-PRO中的醫(yī)師資格考試來評估AI的專業(yè)能力。當一家會計事務所想要使用AI來處理稅務工作時,他們也可以通過相應的專業(yè)考試來評估AI是否具備必要的專業(yè)知識。
研究結果也揭示了當前AI發(fā)展的一些局限性。雖然AI在某些領域表現出了令人印象深刻的能力,但在需要深入理解特定地區(qū)法律法規(guī)或復雜制度的領域,AI仍然面臨著挑戰(zhàn)。這提醒我們,AI的發(fā)展需要更加注重對具體應用場景的適應性。
從技術發(fā)展的角度來看,這項研究為AI的專業(yè)化訓練指明了方向。傳統的AI訓練主要關注通用知識,而這項研究表明,未來的AI發(fā)展可能需要更多地關注專業(yè)化和本地化。就像培養(yǎng)專業(yè)人才需要專門的教育和訓練一樣,開發(fā)專業(yè)AI也需要針對性的數據和方法。
研究團隊還發(fā)現,簡單地增加AI模型的規(guī)模和參數數量并不能自動提高其在專業(yè)領域的表現。相反,模型的架構設計、訓練方法、以及數據質量可能更加重要。這就像是培養(yǎng)一個專業(yè)人才不僅需要給他大量的書本知識,更需要提供高質量的實踐經驗和專業(yè)指導。
對于普通用戶來說,這項研究提供了一個重要的參考框架。當我們在選擇AI工具來處理專業(yè)工作時,不應該僅僅看AI在通用測試中的表現,而應該關注它在相關專業(yè)領域的具體能力。就像選擇醫(yī)生不僅要看他的學歷,更要看他的專業(yè)資格和臨床經驗一樣。
這項研究也為AI行業(yè)的發(fā)展提供了重要啟示。隨著AI技術的不斷成熟,單純的技術創(chuàng)新可能不再是競爭的唯一焦點。相反,如何讓AI更好地適應具體的專業(yè)需求,如何確保AI的專業(yè)能力得到權威認證,這些可能成為未來AI發(fā)展的關鍵問題。
從監(jiān)管的角度來看,這項研究為AI在專業(yè)領域的應用監(jiān)管提供了有價值的工具。監(jiān)管機構可以參考這種專業(yè)化測試的方法,建立相應的AI專業(yè)能力認證制度,確保AI在敏感專業(yè)領域的應用符合相關標準和要求。
研究團隊還公開了他們的測試數據集,讓其他研究者和開發(fā)者可以使用這些基準來評估自己的AI系統。這種開放共享的做法就像是建立了一個公共的"AI專業(yè)能力考試中心",為整個行業(yè)的發(fā)展提供了統一的評估標準。
展望未來,這項研究可能催生出更多針對不同地區(qū)、不同專業(yè)的AI評估基準。就像每個國家都有自己的職業(yè)資格考試制度一樣,未來可能會出現更多適合不同地區(qū)和專業(yè)的AI測試標準。這將有助于推動AI技術的全球化發(fā)展,同時保持對本地化需求的適應性。
歸根結底,這項研究提醒我們,AI的發(fā)展不應該僅僅追求在通用測試中的高分,而應該關注在實際專業(yè)工作中的實用性和可靠性。就像培養(yǎng)人才不僅要看考試成績,更要看實際工作能力一樣,評估AI也應該從實際應用的角度出發(fā)。LG AI研究院的這項工作為AI向專業(yè)化、實用化方向發(fā)展提供了重要的評估工具和發(fā)展方向,對于推動AI技術在各個專業(yè)領域的健康發(fā)展具有重要意義。有興趣深入了解技術細節(jié)的讀者可以通過arXiv:2507.08924v1訪問完整的研究論文。
Q&A
Q1:KMMLU-PRO測試和普通AI測試有什么不同? A:KMMLU-PRO就像真正的職業(yè)資格考試,使用的是韓國國家專業(yè)執(zhí)業(yè)資格考試的真實題目,測試AI是否具備在醫(yī)學、法律、會計等專業(yè)領域工作的實際能力。而普通AI測試更像學??荚嚕饕疾閷W術知識。
Q2:為什么AI在醫(yī)學領域表現好,但在法律領域表現差? A:醫(yī)學知識在全球相對統一,比如人體解剖學、藥理學等基礎知識差異不大。但法律具有強烈的地域性,每個國家的法律制度都不同,AI需要對具體國家的法律法規(guī)有深入了解才能勝任。
Q3:這個測試對普通人選擇AI工具有什么幫助? A:當你需要AI處理專業(yè)工作時,可以參考它在相關專業(yè)測試中的表現,而不是只看通用測試分數。比如選擇醫(yī)療AI助手時,要看它在醫(yī)師資格考試中的表現,選擇法律AI時要看它在律師考試中的成績。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯合研究團隊開發(fā)出Rolling Forcing技術,實現AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現,通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。