av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<u id="nxe12"><optgroup id="nxe12"><tbody id="nxe12"></tbody></optgroup></u>

<del id="nxe12"></del>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

GSO：用于評估SWE-Agent的挑戰(zhàn)性軟件優(yōu)化任務(wù)基準(zhǔn)

軟件工程性能優(yōu)化大語言模型

GSO：用于評估SWE-Agent的挑戰(zhàn)性軟件優(yōu)化任務(wù)基準(zhǔn)

作者：科技行者

2025-06-04 12:56

分享至：

這篇論文介紹了GSO（Global Software Optimization），一個用于評估大語言模型在軟件性能優(yōu)化任務(wù)中能力的基準(zhǔn)測試。研究團(tuán)隊(duì)從真實(shí)代碼庫中提取了102個優(yōu)化任務(wù)，涵蓋10個代碼庫和多種編程語言。實(shí)驗(yàn)結(jié)果顯示，即使最先進(jìn)的AI編程助手在這些任務(wù)上的成功率也低于5%，表明軟件優(yōu)化對當(dāng)前模型仍是巨大挑戰(zhàn)。研究分析了失敗模式，包括低級語言處理困難、懶惰優(yōu)化策略和瓶頸定位不準(zhǔn)確等問題，為未來研究提供了明確方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-04 12:56 ? 科技行者

作為計算機(jī)程序員，我們總是希望編寫運(yùn)行得更快的軟件。就像我們希望車子開得更快、水燒得更快一樣，高性能軟件對現(xiàn)代計算系統(tǒng)至關(guān)重要。但開發(fā)高性能軟件是一項(xiàng)復(fù)雜的任務(wù)，需要專業(yè)知識和技巧?，F(xiàn)在，加州大學(xué)伯克利分校的研究團(tuán)隊(duì)創(chuàng)建了一個名為"GSO"（Global Software Optimization）的基準(zhǔn)測試，專門用來評估AI編程助手（SWE-Agent）在軟件優(yōu)化方面的能力。

這項(xiàng)研究由UC Berkeley的Manish Shetty、Naman Jain、Jinjian Liu、Vijay Kethanaboyina、Koushik Sen和Ion Stoica共同完成，發(fā)表于2025年5月29日的arXiv預(yù)印本平臺。他們的研究論文題為"GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents"，探討了當(dāng)前AI編程助手在處理真實(shí)世界軟件優(yōu)化任務(wù)時的表現(xiàn)。

想象一下，你有一個AI助手可以幫你編寫代碼。雖然它可能擅長修復(fù)簡單的bug或編寫基礎(chǔ)功能，但能否幫你優(yōu)化代碼讓程序運(yùn)行得更快呢？GSO基準(zhǔn)測試就是為了回答這個問題而設(shè)計的。

一、為什么需要GSO？

在人工智能和軟件工程的交匯處，我們看到了越來越多的AI編程助手，比如GitHub Copilot或類似工具。這些助手在編寫簡單代碼或修復(fù)基本bug方面表現(xiàn)不錯，但對于更復(fù)雜的任務(wù)，比如優(yōu)化代碼性能，它們的能力如何呢？

現(xiàn)有的基準(zhǔn)測試主要關(guān)注代碼正確性，而不是性能優(yōu)化。想象你請一個廚師不僅要做出美味的蛋糕（代碼功能正確），還要在最短時間內(nèi)完成（代碼高效運(yùn)行）。GSO就是專門測試這種"速度"方面的基準(zhǔn)測試。

傳統(tǒng)的基準(zhǔn)測試類似于讓AI解決小型編程謎題或修復(fù)簡單錯誤。而GSO則是讓AI面對真實(shí)世界的大型代碼庫，完成專業(yè)開發(fā)者在實(shí)際工作中遇到的性能優(yōu)化任務(wù)。這就像是從"在廚房做簡單的三明治"升級到"在繁忙的五星級餐廳準(zhǔn)備復(fù)雜的多道菜宴會"。

GSO的獨(dú)特之處在于： - 它使用性能測試作為精確規(guī)范，清晰定義了優(yōu)化目標(biāo) - 它涵蓋多種編程語言，包括Python、C和SIMD等 - 它基于真實(shí)世界的代碼庫，如NumPy、Pandas和LLaMA-CPP - 每個任務(wù)都有專業(yè)開發(fā)者的優(yōu)化提交作為參考標(biāo)準(zhǔn)

二、GSO是如何構(gòu)建的？

研究團(tuán)隊(duì)開發(fā)了一個自動化流程來收集和篩選優(yōu)化任務(wù)。這個過程就像淘金一樣——從大量的代碼變更歷史中篩選出真正有價值的性能優(yōu)化案例。

首先，他們掃描流行的開源GitHub倉庫，使用AI模型和代碼變更啟發(fā)式方法來識別與性能相關(guān)的提交。想象這就像是通過一個特殊的放大鏡檢查成千上萬的代碼變更，尋找那些專門提升軟件速度的改動。

接下來，他們?yōu)檫@些候選優(yōu)化生成性能測試。這些測試就像是一把尺子，用來準(zhǔn)確測量代碼運(yùn)行速度的提升。例如，對于LLaMA-CPP這樣的代碼庫，測試可能涉及使用特定模型生成文本完成并計時。

最后，通過這些性能測試，研究團(tuán)隊(duì)找出了在修改前后顯示顯著性能提升的代碼提交。他們經(jīng)過仔細(xì)篩選，最終選擇了10個代碼庫中的102個優(yōu)化任務(wù)，涵蓋了從科學(xué)計算到圖像處理、數(shù)據(jù)分析再到機(jī)器學(xué)習(xí)推理等多個領(lǐng)域。

每個GSO任務(wù)包含三個核心部分： 1. 一個初始代碼庫快照（優(yōu)化前的代碼） 2. 性能測試，用于衡量代碼速度和驗(yàn)證功能正確性 3. 一個目標(biāo)人類開發(fā)者的優(yōu)化提交，作為性能基準(zhǔn)

三、如何評估AI的優(yōu)化能力？

評估AI優(yōu)化代碼的能力并不像評估功能正確性那樣簡單。如果你請十個廚師煮同一道菜，可以通過味道判斷誰做得好；但如果是比較誰做得快，這就變得復(fù)雜了——不同的廚房設(shè)備會影響速度。

同樣，在不同計算機(jī)上測量代碼速度會產(chǎn)生不同結(jié)果。為解決這個問題，研究團(tuán)隊(duì)設(shè)計了一個名為"OPT@K"的指標(biāo)。這個指標(biāo)不是簡單比較絕對速度，而是評估AI生成的優(yōu)化是否能達(dá)到或超過人類開發(fā)者優(yōu)化的性能水平。

具體來說，如果AI生成的優(yōu)化在性能上能達(dá)到人類開發(fā)者優(yōu)化的95%或以上，并且保持功能正確性，那么這個優(yōu)化就被認(rèn)為是成功的。研究者還計算了"OPT@K"，即在K次嘗試中至少有一次成功的任務(wù)比例。

為了確保評估的穩(wěn)健性，他們使用調(diào)和平均數(shù)而非幾何平均數(shù)來計算整體加速比。這就像測量一群跑步者的平均速度時，不會讓一個超級跑者掩蓋其他人的表現(xiàn)。

四、當(dāng)前AI編程助手表現(xiàn)如何？

研究結(jié)果令人驚訝——即使是最先進(jìn)的AI編程助手在處理這些優(yōu)化任務(wù)時也遇到了顯著困難。

最好的模型CLAUDE-4.0在OPT@1（一次嘗試的成功率）評估中僅達(dá)到不到5%的成功率，而GPT-4O完全失敗，成功率為0%。即使增加推理時間和嘗試次數(shù)（OPT@10），成功率也仍然低于15%。

這表明，雖然這些AI助手可能在簡單的編程任務(wù)上表現(xiàn)不錯，但當(dāng)面對需要深入理解系統(tǒng)和算法優(yōu)化的復(fù)雜任務(wù)時，它們還有很長的路要走。這就像一個初級廚師可能會做簡單的家常菜，但還無法在高壓力的專業(yè)廚房環(huán)境中優(yōu)化復(fù)雜菜肴的制作流程。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，通過提供人類優(yōu)化策略的描述（稱為"反向翻譯計劃"）可以略微提高性能，但改善仍然有限。這表明，雖然戰(zhàn)略規(guī)劃和推理有所幫助，但實(shí)現(xiàn)低級系統(tǒng)更改仍然對當(dāng)前模型構(gòu)成挑戰(zhàn)。

五、為什么AI在優(yōu)化任務(wù)上表現(xiàn)不佳？

通過對AI行為的定性分析，研究人員發(fā)現(xiàn)了幾個關(guān)鍵的失敗模式：

首先，AI助手在處理低級語言（如C/C++）時表現(xiàn)不佳。就像一個只會說英語的人突然被要求用法語寫詩一樣，AI在處理這些需要精確內(nèi)存管理和硬件理解的語言時往往會避開或引入致命錯誤。數(shù)據(jù)顯示，在純Python任務(wù)上，O4-MINI模型取得了21.4%的成功率，但在非Python任務(wù)上僅為4.0%。

其次，AI傾向于"懶惰優(yōu)化"——尋找簡單但效果有限的改進(jìn)，而不是更深入、更全面的優(yōu)化。例如，有些AI僅僅通過添加編譯器標(biāo)志（如-O3）來嘗試優(yōu)化代碼，而不理解代碼本身的瓶頸。這就像試圖通過更換輪胎來讓一輛設(shè)計不良的汽車跑得更快，而不是重新設(shè)計發(fā)動機(jī)。

第三，AI常常無法準(zhǔn)確定位性能瓶頸。就像醫(yī)生需要正確診斷病因才能提供有效治療一樣，如果AI無法確定代碼中速度慢的真正原因，它就無法提供有效的優(yōu)化方案。

一個有趣的現(xiàn)象是，不同的模型表現(xiàn)出不同的行為模式。O4-MINI往往"探索過度"——花大量時間研究代碼庫，但不敢做出實(shí)質(zhì)性更改；而CLAUDE-3.5-V2則"開發(fā)過度"——急于做出大量代碼更改，但缺乏充分的探索和理解。這就像一個過于謹(jǐn)慎的廚師不敢嘗試新的烹飪方法，而另一個則在不完全了解食材的情況下就急于修改食譜。

六、AI也有成功的案例

盡管挑戰(zhàn)重重，研究人員也發(fā)現(xiàn)了一些AI成功優(yōu)化代碼的案例，表明這些模型確實(shí)具有一定的潛力。

在一些案例中，AI提供了簡單但有效的改進(jìn)。例如，O4-MINI在Tornado網(wǎng)絡(luò)庫中添加了一個快速路徑，避免在網(wǎng)絡(luò)流空閑時進(jìn)行不必要的緩沖，雖然人類開發(fā)者的解決方案更全面（重新設(shè)計整個緩沖系統(tǒng)），但AI的改進(jìn)也有效提升了性能。

更令人印象深刻的是，有時AI實(shí)現(xiàn)了超越人類開發(fā)者的優(yōu)化。O4-MINI完全重寫了Pillow圖像文件解析代碼，將算法復(fù)雜度從O(n?)降低到O(n)，通過只讀取必要的元數(shù)據(jù)而不是解壓整個幀，提供了根本性更優(yōu)的方法。而人類開發(fā)者只做了一個簡單的檢查。

CLAUDE-3.5-V2在Pandas的內(nèi)存管理優(yōu)化上也表現(xiàn)出色，通過預(yù)先計算精確的分配大小，完全消除了數(shù)組調(diào)整大小的需要，而人類方案仍使用動態(tài)調(diào)整大小，只是改進(jìn)了增長模式。

這些成功案例表明，雖然當(dāng)前模型在復(fù)雜優(yōu)化任務(wù)上整體表現(xiàn)不佳，但它們確實(shí)具有潛力，在某些情況下甚至可以提供超越人類開發(fā)者的創(chuàng)新解決方案。

七、GSO基準(zhǔn)測試的意義和未來展望

GSO基準(zhǔn)測試為評估AI在軟件優(yōu)化領(lǐng)域的能力提供了一個嚴(yán)格且真實(shí)的標(biāo)準(zhǔn)。與現(xiàn)有的專注于代碼正確性或簡單性能評估的基準(zhǔn)測試不同，GSO測試AI在處理真實(shí)世界優(yōu)化挑戰(zhàn)的能力，這些挑戰(zhàn)需要跨系統(tǒng)邊界的思考和深入的工程專業(yè)知識。

研究表明，盡管當(dāng)前AI編程助手在簡單任務(wù)上表現(xiàn)良好，但在復(fù)雜的優(yōu)化任務(wù)上仍面臨重大挑戰(zhàn)。這一發(fā)現(xiàn)為未來的研究提供了明確的方向：改進(jìn)AI模型在低級語言處理、性能瓶頸定位和算法優(yōu)化方面的能力。

隨著研究的進(jìn)展，我們可能會看到更強(qiáng)大的AI助手，它們不僅能編寫功能正確的代碼，還能優(yōu)化性能以滿足現(xiàn)代計算系統(tǒng)的需求。這將極大地提高軟件開發(fā)的效率，使開發(fā)人員能夠?qū)Ｗ⒂诟邔哟蔚脑O(shè)計和創(chuàng)新。

研究團(tuán)隊(duì)將GSO基準(zhǔn)測試的代碼和數(shù)據(jù)集開放給社區(qū)，希望它能促進(jìn)這一領(lǐng)域的進(jìn)一步研究和進(jìn)步。有興趣深入了解的讀者可以訪問項(xiàng)目網(wǎng)站：https://gso-bench.github.io/。

最終，GSO不僅是一個測試AI能力的工具，更是一個推動AI編程助手向更高水平發(fā)展的催化劑。就像體育比賽推動運(yùn)動員不斷突破自己的極限一樣，GSO將推動AI編程助手在軟件優(yōu)化這一關(guān)鍵領(lǐng)域不斷進(jìn)步。

軟件工程性能優(yōu)化大語言模型

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時"動態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時"動態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時"動態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn