這項由浙江大學和螞蟻集團聯(lián)合實驗室的朱雨琪、張寧宇等研究人員開展的研究,發(fā)表于2025年6月的arXiv預印本平臺(論文編號:arXiv:2506.19794v1)。有興趣深入了解的讀者可以通過該編號在arXiv網(wǎng)站上訪問完整論文。
當我們談到人工智能分析數(shù)據(jù)時,經(jīng)常會發(fā)現(xiàn)一個令人困惑的現(xiàn)象:那些免費開源的AI模型在處理數(shù)據(jù)分析任務時,表現(xiàn)總是遠不如GPT-4、DeepSeek這樣的商業(yè)模型。這就像是同樣的食材,為什么有些廚師能做出米其林級別的料理,而有些廚師卻只能做出勉強能吃的家常菜?
這個問題不僅困擾著普通用戶,也讓研究人員感到好奇。畢竟,開源模型在很多其他任務上表現(xiàn)都不錯,為什么偏偏在數(shù)據(jù)分析這件事上就不行了呢?浙江大學和螞蟻集團的研究團隊決定深入探索這個問題的根源。
他們發(fā)現(xiàn),數(shù)據(jù)分析其實是一項非常復雜的"腦力活動"。不同于簡單的問答或翻譯,數(shù)據(jù)分析需要AI具備三種核心能力:理解數(shù)據(jù)(就像讀懂一張復雜的地圖)、編寫代碼(相當于制定詳細的行動計劃)、以及戰(zhàn)略規(guī)劃(類似于下棋時的整體布局思維)。研究團隊通過大量實驗發(fā)現(xiàn)了三個關(guān)鍵發(fā)現(xiàn)。
首先,在這三種能力中,戰(zhàn)略規(guī)劃能力是最關(guān)鍵的決定因素。這就好比做菜時,知道食材的特性和掌握刀工技巧固然重要,但最終決定菜品質(zhì)量的往往是廚師的整體烹飪思路和火候把控。其次,任務的復雜程度和交互方式的設(shè)計會顯著影響AI的推理能力,就像游戲的難度設(shè)置會直接影響玩家的表現(xiàn)一樣。最后,他們發(fā)現(xiàn)高質(zhì)量的訓練數(shù)據(jù)比數(shù)據(jù)的多樣性更重要,這類似于培養(yǎng)一個學生時,精心挑選的優(yōu)質(zhì)教材比海量的普通資料更有效。
基于這些發(fā)現(xiàn),研究團隊開發(fā)了一套數(shù)據(jù)合成方法,成功提升了開源模型的數(shù)據(jù)分析能力。他們的7B參數(shù)模型經(jīng)過優(yōu)化后,性能大幅提升,14B參數(shù)模型甚至能夠媲美或超越GPT-4的表現(xiàn)。這個結(jié)果證明了通過科學的方法,開源模型完全有可能在數(shù)據(jù)分析領(lǐng)域追上甚至超越商業(yè)模型。
一、數(shù)據(jù)分析為什么這么難?就像組裝一臺復雜機器
要理解為什么AI在數(shù)據(jù)分析上表現(xiàn)不佳,我們首先需要明白數(shù)據(jù)分析到底是一項什么樣的任務。研究團隊將其比作組裝一臺復雜的機器,這個過程需要多個步驟的緊密配合。
數(shù)據(jù)分析不像簡單的問答,它需要AI同時具備多種技能。以一個實際例子來說明:假設(shè)你想知道"奧巴馬實際獲得的選舉人票數(shù)和民調(diào)預測的差距是多少",AI需要先理解這個問題涉及哪些數(shù)據(jù)文件,然后找到相關(guān)的CSV文件,接著編寫代碼來讀取數(shù)據(jù)、篩選最新民調(diào)、計算平均值,最后比較實際結(jié)果和預測結(jié)果。
這個過程就像一個偵探破案:首先要理解案情(數(shù)據(jù)理解),然后制定調(diào)查計劃(戰(zhàn)略規(guī)劃),最后執(zhí)行具體的調(diào)查步驟(代碼生成)。每一個環(huán)節(jié)都不能出錯,否則就會得出錯誤的結(jié)論。
研究團隊通過形式化的數(shù)學表達來描述這個過程。他們將數(shù)據(jù)分析定義為一個函數(shù),輸入是結(jié)構(gòu)化數(shù)據(jù)D、分析目標Q和可用工具T,輸出是分析過程S和最終報告R。這就像一個廚師(AI)需要根據(jù)食材(數(shù)據(jù))、顧客需求(目標)和廚具(工具)來制作一道菜(分析結(jié)果)。
為了深入研究這個問題,團隊收集了一個專門的數(shù)據(jù)集。他們從多個來源收集了6443個不同的分析樣本,涵蓋了各種復雜程度的分析任務。這些樣本就像是不同難度的考試題目,用來測試AI的各項能力。
在數(shù)據(jù)收集過程中,研究團隊非常注重質(zhì)量控制。他們建立了兩階段的篩選機制:首先自動識別和刪除低質(zhì)量的樣本,比如那些代碼有錯誤、無法運行或者格式不規(guī)范的樣本;然后通過人工抽樣驗證的方式進一步優(yōu)化數(shù)據(jù)質(zhì)量。這就像是制作一本教科書,既要確保內(nèi)容的正確性,也要保證知識點的完整性和系統(tǒng)性。
通過這種嚴格的篩選過程,他們最終得到了5613個高質(zhì)量的樣本,為后續(xù)的實驗分析奠定了堅實基礎(chǔ)。這些樣本覆蓋了從簡單的數(shù)據(jù)查詢到復雜的統(tǒng)計分析等各種場景,能夠全面測試AI模型在數(shù)據(jù)分析方面的各項能力。
二、三大核心能力大解密:哪個最重要?
研究團隊將數(shù)據(jù)分析能力分解為三個核心組成部分,就像拆解一臺精密儀器來理解每個部件的作用。他們想要弄清楚:到底是哪個部分最影響AI的整體表現(xiàn)?
第一個能力是數(shù)據(jù)理解能力,相當于AI的"閱讀理解"水平。研究團隊設(shè)計了巧妙的實驗來測試這個能力。他們讓AI處理同樣的問題,但有時提供詳細的表格信息,有時不提供,看看這種差異會如何影響AI的表現(xiàn)。
結(jié)果令人意外:在簡單任務中,提供額外的表格信息確實能稍微提升AI的表現(xiàn),但改善幅度很有限。這說明AI已經(jīng)能夠從問題描述中獲得足夠的信息來進行推理。更有趣的是,在復雜任務中,額外的表格信息有時甚至會讓性能下降。這就像給一個人太多資料反而會分散注意力一樣。
為了進一步測試AI處理復雜數(shù)據(jù)的能力,研究團隊還故意加入了一些"干擾項"——與任務無關(guān)的額外數(shù)據(jù)表。這就像在一堆重要文件中混入一些無關(guān)緊要的紙張,看看AI能否準確識別和篩選有用信息。結(jié)果顯示,大部分AI模型都能夠相對穩(wěn)定地處理這種干擾,說明它們的數(shù)據(jù)篩選能力還算不錯。
第二個能力是代碼生成能力,這相當于AI的"動手實踐"水平。研究團隊比較了不同類型的模型:有些是專門針對編程任務優(yōu)化的"代碼專家",有些是通用型的"全才"模型。
令人驚訝的是,那些專門的代碼模型并沒有表現(xiàn)出明顯優(yōu)勢。這就像是專業(yè)廚師和家庭主婦在做同一道菜時,專業(yè)廚師并不一定做得更好。通過深入分析錯誤類型,研究團隊發(fā)現(xiàn)只有很小一部分錯誤是由代碼編寫問題造成的,大部分錯誤其實源于規(guī)劃和推理方面的不足。
這個發(fā)現(xiàn)很重要,因為它揭示了一個被忽視的真相:在數(shù)據(jù)分析任務中,能夠?qū)懗稣_的代碼并不是最大的障礙,真正的挑戰(zhàn)在于知道應該寫什么樣的代碼,以及如何組織整個分析流程。
第三個能力是戰(zhàn)略規(guī)劃能力,這是AI的"大局觀"和"統(tǒng)籌能力"。研究團隊發(fā)現(xiàn)這個能力最為關(guān)鍵,它決定了AI能否成功完成復雜的數(shù)據(jù)分析任務。
他們通過多個維度來研究這個能力。首先是交互輪次的影響。就像下棋一樣,有些棋手喜歡快速決戰(zhàn),有些則偏好慢慢布局。研究發(fā)現(xiàn),中等長度的交互(4-5輪對話)通常效果最好,既不會因為過于倉促而出錯,也不會因為過度復雜而迷失方向。
接著是推理鏈長度的影響。他們測試了不同長度的"思考過程"對AI表現(xiàn)的影響。結(jié)果發(fā)現(xiàn),過長的推理鏈并不總是更好,有時候簡潔明了的思考過程反而更有效。這就像解決問題時,冗長的分析可能會讓人陷入細節(jié)而忽略核心要點。
任務復雜度也是一個重要因素。研究團隊將任務按難度分為簡單、中等和困難三類,發(fā)現(xiàn)AI在中等難度的任務上訓練后,整體表現(xiàn)最好。這證明了"適度挑戰(zhàn)"的訓練原則:任務太簡單學不到東西,太難則容易挫敗學習積極性。
最后,他們還研究了問題多樣性的影響。通過對比不同領(lǐng)域問題的訓練效果,他們發(fā)現(xiàn)問題的質(zhì)量比多樣性更重要。這就像培養(yǎng)一個學生,與其讓他接觸各種類型的題目,不如精心挑選一些高質(zhì)量的典型題目進行深入練習。
通過這些全方位的測試,研究團隊得出了一個重要結(jié)論:戰(zhàn)略規(guī)劃能力是決定AI數(shù)據(jù)分析表現(xiàn)的最關(guān)鍵因素。這個發(fā)現(xiàn)為改進AI模型指明了方向——與其花大力氣提升數(shù)據(jù)理解或代碼生成能力,不如重點強化AI的整體規(guī)劃和推理能力。
三、破解之道:高質(zhì)量數(shù)據(jù)勝過海量數(shù)據(jù)
基于前面的發(fā)現(xiàn),研究團隊開發(fā)了一套系統(tǒng)性的改進方案。他們的核心理念很簡單:與其用海量的普通數(shù)據(jù)"喂飽"AI,不如精心準備一份"營養(yǎng)均衡的精品餐"。
這個改進方案包含三個關(guān)鍵步驟,就像制作一道精美料理的完整流程。
第一步是"多樣化答案生成"。研究團隊不滿足于為每個問題找到一個標準答案,而是讓AI生成多種不同的解決方案。這就像同一道菜可以有多種做法,每種做法都有其獨特的優(yōu)勢。通過這種方式,他們收集到了豐富多樣的問題解決思路,為后續(xù)的優(yōu)化提供了充足的原材料。
第二步是"精準篩選"。他們重點選擇那些中等長度的對話和中高難度的問題。這個選擇標準基于之前的實驗發(fā)現(xiàn):這類問題最有利于AI學習和提升。就像健身時選擇適當重量的器械一樣,既要有挑戰(zhàn)性,又不能超出承受范圍。
第三步是"推理增強"。這是最關(guān)鍵的一步。研究團隊為每個選中的樣本添加了簡潔的推理總結(jié),這些總結(jié)捕捉了解決問題的核心思路和關(guān)鍵步驟。這就像為每道菜配上精心編寫的制作要點,幫助學習者更好地理解和掌握烹飪技巧。
通過這套三步法,研究團隊構(gòu)建了一個包含2800個高質(zhì)量實例的精品數(shù)據(jù)集。雖然數(shù)量不算多,但每個實例都經(jīng)過精心設(shè)計和優(yōu)化,質(zhì)量遠超普通的訓練數(shù)據(jù)。
為了驗證這套方法的效果,研究團隊進行了全面的測試。他們使用兩個權(quán)威的評測基準:DiscoveryBench和QRData。前者包含264個來自不同領(lǐng)域的真實分析任務,后者專門針對統(tǒng)計和因果分析,包含411個問題。
測試結(jié)果令人振奮。經(jīng)過優(yōu)化的7B參數(shù)模型表現(xiàn)大幅提升:在QRData數(shù)據(jù)集上,準確率從39.71%躍升至53.77%;在DiscoveryBench上,準確率從14.64%提升到22.59%。這種提升幅度相當顯著,證明了方法的有效性。
更令人驚喜的是14B參數(shù)模型的表現(xiàn)。經(jīng)過優(yōu)化后,它在QRData上達到了58.15%的準確率,在DiscoveryBench上達到了36.82%的準確率,這個成績已經(jīng)能夠媲美甚至超越GPT-4等頂級商業(yè)模型。
這些結(jié)果證明了一個重要觀點:開源模型完全有潛力在數(shù)據(jù)分析領(lǐng)域達到世界一流水平,關(guān)鍵在于采用正確的訓練策略和高質(zhì)量的數(shù)據(jù)。
不過,研究團隊也誠實地指出了當前方法的局限性。他們發(fā)現(xiàn)性能提升在模型規(guī)模增大時會出現(xiàn)遞減效應,這可能是因為他們的篩選策略主要基于較小模型的特點設(shè)計的。另外,雖然數(shù)據(jù)集質(zhì)量很高,但在處理更復雜、更多樣化的現(xiàn)實世界任務時,仍然存在覆蓋不足的問題。
為了解決這些限制,研究團隊提出了未來的改進方向:構(gòu)建更大規(guī)模、更多樣化的合成數(shù)據(jù)集,并引入強化學習等先進技術(shù)來進一步優(yōu)化數(shù)據(jù)質(zhì)量和模型性能。他們相信,通過持續(xù)的努力和改進,開源模型在數(shù)據(jù)分析領(lǐng)域的表現(xiàn)還有很大的提升空間。
這項研究的意義不僅在于技術(shù)層面的突破,更在于它為整個AI社區(qū)指明了一個重要方向:在追求模型規(guī)模和數(shù)據(jù)量的同時,我們不應該忽視數(shù)據(jù)質(zhì)量和訓練策略的重要性。有時候,精心設(shè)計的小而美的解決方案比盲目追求大而全的方案更有效。
說到底,這項研究告訴我們一個樸素而深刻的道理:在AI的世界里,就像在現(xiàn)實生活中一樣,質(zhì)量往往比數(shù)量更重要。一個經(jīng)過精心訓練、具備良好規(guī)劃能力的AI模型,完全可以在復雜任務中表現(xiàn)出色,甚至超越那些規(guī)模更大但訓練方式粗放的模型。
這個發(fā)現(xiàn)對普通用戶來說也是個好消息。它意味著我們不必完全依賴昂貴的商業(yè)AI服務,開源模型同樣可以成為強大的數(shù)據(jù)分析助手。隨著這類研究的深入和方法的普及,我們有理由期待一個更加開放、更加普惠的AI時代的到來。
對于那些對技術(shù)細節(jié)感興趣的讀者,建議直接查閱原論文以獲得更深入的理解。這項研究不僅在技術(shù)方法上有所創(chuàng)新,在實驗設(shè)計和結(jié)果分析方面也展現(xiàn)了嚴謹?shù)目茖W態(tài)度,值得進一步學習和探討。
Q&A
Q1:開源AI模型在數(shù)據(jù)分析上為什么表現(xiàn)不如商業(yè)模型? A:主要原因是缺乏強大的戰(zhàn)略規(guī)劃能力。數(shù)據(jù)分析需要AI同時具備數(shù)據(jù)理解、代碼生成和戰(zhàn)略規(guī)劃三種能力,其中戰(zhàn)略規(guī)劃是最關(guān)鍵的,它決定了AI能否有效組織整個分析流程,而開源模型在這方面相對薄弱。
Q2:這個研究發(fā)現(xiàn)的改進方法真的有效嗎? A:非常有效。研究團隊通過精心設(shè)計的三步法優(yōu)化訓練數(shù)據(jù),讓7B參數(shù)的開源模型性能大幅提升,14B模型甚至能夠媲美GPT-4。關(guān)鍵在于使用高質(zhì)量的訓練數(shù)據(jù)和合適的交互策略,而不是簡單地增加數(shù)據(jù)量。
Q3:普通用戶能從這個研究中獲得什么好處? A:這意味著將來我們可能不需要完全依賴昂貴的商業(yè)AI服務來進行數(shù)據(jù)分析。經(jīng)過優(yōu)化的開源模型可以成為強大且免費的分析工具,讓更多人能夠享受到高質(zhì)量的AI數(shù)據(jù)分析服務,推動AI技術(shù)的普及和民主化。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。