av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ruby id="x7tt8"></ruby>

<sub id="x7tt8"></sub>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

共同進(jìn)化的魔法：讓AI既會(huì)寫代碼又會(huì)檢驗(yàn)代碼，一個(gè)團(tuán)隊(duì)讓計(jì)算機(jī)學(xué)會(huì)自我完善的故事

人工智能強(qiáng)化學(xué)習(xí)代碼生成

共同進(jìn)化的魔法：讓AI既會(huì)寫代碼又會(huì)檢驗(yàn)代碼，一個(gè)團(tuán)隊(duì)讓計(jì)算機(jī)學(xué)會(huì)自我完善的故事

作者：科技行者

2025-06-06 14:15

分享至：

這項(xiàng)研究提出了CURE框架，通過強(qiáng)化學(xué)習(xí)讓大語言模型同時(shí)學(xué)習(xí)編寫代碼和生成單元測(cè)試兩種能力，無需使用標(biāo)準(zhǔn)代碼作為監(jiān)督。團(tuán)隊(duì)開發(fā)的ReasonFlux-Coder模型在僅用4.5K編程問題訓(xùn)練后，便在多個(gè)基準(zhǔn)測(cè)試中超越了同類模型，代碼生成準(zhǔn)確率提高5.3%，最佳N選1準(zhǔn)確率提高9.0%。該方法不僅提升了模型性能，還提高了推理效率，同時(shí)為降低API調(diào)用成本和無標(biāo)簽強(qiáng)化學(xué)習(xí)提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 14:15 ? 科技行者

2024年6月初，來自芝加哥大學(xué)和普林斯頓大學(xué)的研究團(tuán)隊(duì)發(fā)表了一篇引人注目的研究論文，題為《通過強(qiáng)化學(xué)習(xí)共同進(jìn)化LLM代碼生成器和單元測(cè)試生成器》（Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning）。這項(xiàng)由王寅杰、楊凌（兩位為共同第一作者）、田野、沈可和王夢(mèng)迪主導(dǎo)的研究發(fā)表于arXiv預(yù)印本平臺(tái)（arXiv:2506.03136v1），論文代碼已在GitHub（https://github.com/Gen-Verse/CURE）上開源，模型權(quán)重也已在HuggingFace（https://huggingface.co/Gen-Verse/ReasonFlux-Coder）上公開。

當(dāng)今世界，人工智能編程助手正迅速發(fā)展，但它們?nèi)匀幻媾R一個(gè)基本問題：如何確保生成的代碼真正正確？這就像一個(gè)廚師不僅需要會(huì)做菜，還需要能品嘗自己做的菜是否美味。傳統(tǒng)方法往往需要人類提供大量已知正確答案的代碼作為訓(xùn)練材料，這非常耗時(shí)且昂貴，就像需要大量專業(yè)廚師來評(píng)判每一道菜一樣。

研究團(tuán)隊(duì)提出了一個(gè)名為CURE的創(chuàng)新解決方案，它的獨(dú)特之處在于不需要任何已知正確的代碼作為監(jiān)督。相反，它通過讓AI同時(shí)扮演"代碼編寫者"和"代碼測(cè)試者"兩個(gè)角色，并讓這兩個(gè)角色相互學(xué)習(xí)、共同進(jìn)步。這就像一個(gè)人通過不斷練習(xí)烹飪并嘗試自己的菜肴，逐漸改進(jìn)自己的烹飪技巧，同時(shí)也提高了自己的品味能力。

這種方法不僅大大節(jié)省了收集標(biāo)準(zhǔn)答案的成本，而且培養(yǎng)了AI更全面的編程能力。研究團(tuán)隊(duì)的ReasonFlux-Coder模型在各種標(biāo)準(zhǔn)測(cè)試中表現(xiàn)出色，比現(xiàn)有類似大小的模型性能更好，特別是在生成代碼和生成單元測(cè)試（用于檢驗(yàn)代碼是否正確的測(cè)試程序）這兩項(xiàng)任務(wù)上都取得了顯著進(jìn)步。

一、什么是單元測(cè)試，為什么它如此重要？

想象一下，你正在建造一座高樓。你不會(huì)等整個(gè)建筑完工后才檢查它是否安全，而是會(huì)在每一個(gè)階段進(jìn)行測(cè)試——檢查地基是否穩(wěn)固，鋼筋是否牢固，等等。在編程世界中，單元測(cè)試就扮演著這樣的角色。

單元測(cè)試是小型、專注的測(cè)試程序，用于驗(yàn)證代碼的各個(gè)部分是否按預(yù)期工作。就像品酒師會(huì)品嘗葡萄酒的各種特性（如酸度、單寧、果香等）來評(píng)判一瓶酒的品質(zhì)，單元測(cè)試會(huì)檢查代碼的各個(gè)方面是否正確。

研究團(tuán)隊(duì)發(fā)現(xiàn)，生成好的單元測(cè)試其實(shí)比寫出完整的代碼解決方案要簡單得多。例如，如圖2(a)所示，對(duì)于一個(gè)尋找最短路徑的問題，設(shè)計(jì)一個(gè)簡單的測(cè)試場(chǎng)景（比如驗(yàn)證特定輸入的預(yù)期輸出）要比編寫整個(gè)尋路算法容易得多。這就像在烹飪比賽中，評(píng)判一道菜是否成功可能比實(shí)際制作這道復(fù)雜的菜要簡單。

單元測(cè)試的價(jià)值不僅在于驗(yàn)證代碼正確性，還在于它們可以重復(fù)使用。一旦生成了一組好的單元測(cè)試，它們可以用來評(píng)估多個(gè)代碼候選方案，就像同一個(gè)品酒標(biāo)準(zhǔn)可以用來評(píng)價(jià)多瓶不同的葡萄酒。

二、CURE：讓代碼生成器和測(cè)試生成器一起成長的創(chuàng)新方法

CURE（代碼與單元測(cè)試共同進(jìn)化的強(qiáng)化學(xué)習(xí)框架）的核心思想非常聰明：讓一個(gè)AI系統(tǒng)同時(shí)學(xué)習(xí)兩項(xiàng)技能——編寫代碼和創(chuàng)建測(cè)試代碼。這兩項(xiàng)技能相互促進(jìn)，形成一個(gè)良性循環(huán)。

想象一對(duì)雙胞胎，一個(gè)擅長烹飪（代碼生成器），另一個(gè)擅長品嘗（測(cè)試生成器）。起初，他們的技能都很一般。隨著時(shí)間推移，廚師烹飪的菜肴會(huì)被品嘗者評(píng)價(jià)，這些評(píng)價(jià)幫助廚師改進(jìn)烹飪技巧；同時(shí)，廚師做出的各種菜肴（無論好壞）也幫助品嘗者訓(xùn)練自己的味蕾，學(xué)會(huì)區(qū)分優(yōu)質(zhì)和劣質(zhì)的食物。這就是CURE的工作原理。

具體來說，CURE框架包含以下步驟：

首先，對(duì)于每個(gè)編程任務(wù)，模型會(huì)生成多個(gè)代碼解決方案和多個(gè)單元測(cè)試。就像廚師準(zhǔn)備多個(gè)菜品樣本，品嘗者提出多個(gè)評(píng)判標(biāo)準(zhǔn)。

然后，系統(tǒng)會(huì)執(zhí)行每個(gè)代碼解決方案，檢查它是否通過了各種單元測(cè)試，形成一個(gè)"執(zhí)行表"——記錄哪些代碼通過了哪些測(cè)試。這就像記錄每道菜在各種品嘗標(biāo)準(zhǔn)下的表現(xiàn)。

接著，研究團(tuán)隊(duì)設(shè)計(jì)了一種特殊的評(píng)分機(jī)制。對(duì)于代碼生成器，代碼通過的標(biāo)準(zhǔn)測(cè)試越多，得分越高。對(duì)于測(cè)試生成器，能夠正確區(qū)分好代碼和壞代碼的測(cè)試會(huì)獲得高分。這就像評(píng)價(jià)一個(gè)品嘗者的標(biāo)準(zhǔn)是：能否準(zhǔn)確區(qū)分出一道真正美味的菜和一道看似相似但有缺陷的菜。

最后，系統(tǒng)使用這些評(píng)分來指導(dǎo)兩個(gè)組件的改進(jìn)。就像廚師和品嘗者根據(jù)反饋不斷調(diào)整自己的技能。

研究團(tuán)隊(duì)在理論上證明了這種方法的有效性。他們展示了隨著生成的單元測(cè)試數(shù)量增加，系統(tǒng)區(qū)分好代碼和壞代碼的準(zhǔn)確率會(huì)穩(wěn)步提高，從而使整個(gè)訓(xùn)練過程更加可靠。

三、ReasonFlux-Coder：CURE框架訓(xùn)練出的高性能模型

通過CURE框架的訓(xùn)練，研究團(tuán)隊(duì)開發(fā)了三個(gè)不同規(guī)模的模型：ReasonFlux-Coder-4B、7B和14B，分別基于Qwen3-4B和Qwen2.5-7B/14B基礎(chǔ)模型。這些模型在代碼生成和單元測(cè)試生成兩方面都表現(xiàn)出色。

值得注意的是，ReasonFlux-Coder-7B模型僅使用了4.5K個(gè)編程問題進(jìn)行訓(xùn)練，卻在多項(xiàng)基準(zhǔn)測(cè)試中超過了專門針對(duì)大規(guī)模編碼數(shù)據(jù)進(jìn)行微調(diào)的模型，如圖1所示。這就像一個(gè)通過特殊訓(xùn)練方法培養(yǎng)出的廚師，即使只學(xué)習(xí)了少量菜譜，卻能勝過那些死記硬背大量食譜的廚師。

在五個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試（LiveBench、MBPP、LiveCodeBench、CodeContests和CodeForces）上，ReasonFlux-Coder模型在單元測(cè)試準(zhǔn)確率、代碼生成準(zhǔn)確率和最佳N選1（Best-of-N）三個(gè)指標(biāo)上都顯著超越了基礎(chǔ)模型：

單元測(cè)試準(zhǔn)確率平均提高了37.8%，就像品嘗者變得更加精準(zhǔn)地評(píng)判菜肴的品質(zhì)。一次性代碼生成準(zhǔn)確率平均提高了5.3%，就像廚師的基本烹飪技能提升。最佳N選1準(zhǔn)確率（從多個(gè)生成的代碼中選擇最佳方案）平均提高了9.0%，就像廚師能夠從多次嘗試中挑選出最成功的菜品。

特別值得一提的是，ReasonFlux-Coder-4B是一個(gè)"長鏈思考"（long-CoT）模型，它不僅在性能上超越了同樣大小的Qwen3-4B模型，而且在單元測(cè)試生成時(shí)的效率提高了35.2%（平均輸出長度減少至原來的64.8%）。這就像一個(gè)品嘗者不僅變得更準(zhǔn)確，而且能夠更簡潔地表達(dá)自己的評(píng)價(jià)，不再啰嗦。

四、更廣泛的應(yīng)用與實(shí)際價(jià)值

ReasonFlux-Coder模型的價(jià)值不僅限于基礎(chǔ)的代碼生成和測(cè)試生成，它還在多種實(shí)際應(yīng)用場(chǎng)景中表現(xiàn)出色：

1. 測(cè)試時(shí)擴(kuò)展和智能編碼：研究團(tuán)隊(duì)將ReasonFlux-Coder-14B應(yīng)用于多種測(cè)試時(shí)擴(kuò)展和智能編碼方法（如MPSC、AlphaCodium和S*），平均提升了8.1%的性能。這就像將訓(xùn)練有素的品嘗者加入一個(gè)烹飪比賽，顯著提高了整體的菜品質(zhì)量。

2. 智能單元測(cè)試生成：在智能單元測(cè)試生成任務(wù)中，模型的單元測(cè)試準(zhǔn)確率平均提高了25.1%。這就像品嘗者不僅能夠評(píng)判菜肴，還能夠提出改進(jìn)建議，幫助廚師進(jìn)一步完善菜品。

3. 降低API調(diào)用成本：將ReasonFlux-Coder-4B作為單元測(cè)試生成器與GPT模型（如GPT-4o-mini和GPT-4.1-mini）配合使用，不僅提高了性能，還顯著降低了API調(diào)用成本。這就像聘請(qǐng)一位高效的品嘗顧問，既提高了菜品質(zhì)量，又降低了成本。

4. 無標(biāo)簽強(qiáng)化學(xué)習(xí)：研究發(fā)現(xiàn)，使用ReasonFlux-Coder-4B生成的單元測(cè)試作為獎(jiǎng)勵(lì)信號(hào)來指導(dǎo)基礎(chǔ)模型的強(qiáng)化學(xué)習(xí)訓(xùn)練，其效果與使用人工標(biāo)注的單元測(cè)試相當(dāng)。這意味著不再需要昂貴的人工標(biāo)注數(shù)據(jù)，就像一個(gè)自學(xué)成才的品嘗者能夠替代專業(yè)評(píng)委的角色。

五、CURE框架的工作原理深度解析

CURE框架的核心在于它的理論基礎(chǔ)和巧妙的獎(jiǎng)勵(lì)設(shè)計(jì)。研究團(tuán)隊(duì)從理論上分析了什么樣的獎(jiǎng)勵(lì)機(jī)制能夠有效指導(dǎo)單元測(cè)試生成器的改進(jìn)。

他們定義了"獎(jiǎng)勵(lì)精度"概念：單元測(cè)試能夠正確區(qū)分好代碼和壞代碼的能力。通過數(shù)學(xué)推導(dǎo)，他們證明了隨著單元測(cè)試數(shù)量的增加，系統(tǒng)區(qū)分好壞代碼的準(zhǔn)確率會(huì)趨近于1（即100%正確），前提是單元測(cè)試的準(zhǔn)確率（pu）、誤報(bào)率（p01）和漏報(bào)率（p00）滿足特定條件。

基于這一理論，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)獎(jiǎng)勵(lì)函數(shù)，它會(huì)獎(jiǎng)勵(lì)那些通過所有正確代碼同時(shí)拒絕大部分錯(cuò)誤代碼的單元測(cè)試，懲罰那些拒絕正確代碼或大量通過錯(cuò)誤代碼的單元測(cè)試。這就像評(píng)價(jià)品嘗者的標(biāo)準(zhǔn)：既能認(rèn)可真正的好菜，又不會(huì)被表面華麗但實(shí)際有缺陷的菜所迷惑。

對(duì)于長鏈思考模型，研究團(tuán)隊(duì)還引入了一個(gè)響應(yīng)長度引導(dǎo)的獎(jiǎng)勵(lì)轉(zhuǎn)換機(jī)制，鼓勵(lì)模型生成更簡潔高效的單元測(cè)試，如圖2(e-f)所示。這就像訓(xùn)練品嘗者不僅要準(zhǔn)確，還要能用簡潔的語言表達(dá)自己的判斷。

六、與現(xiàn)有方法的比較與創(chuàng)新點(diǎn)

傳統(tǒng)的單元測(cè)試生成方法主要依賴軟件分析技術(shù)或神經(jīng)機(jī)器翻譯方法。近期的研究表明，大型語言模型在單元測(cè)試生成上表現(xiàn)出色，但它們通常需要大量標(biāo)注數(shù)據(jù)（即已知正確的代碼解決方案）進(jìn)行訓(xùn)練。

CURE框架的創(chuàng)新之處在于它不需要任何已知正確的代碼作為監(jiān)督。相反，它利用代碼生成器和單元測(cè)試生成器之間的相互作用來驅(qū)動(dòng)兩者的共同進(jìn)步。這極大地提高了訓(xùn)練的靈活性和可擴(kuò)展性，就像兩個(gè)人通過相互學(xué)習(xí)可以比單獨(dú)學(xué)習(xí)達(dá)到更高的水平。

在消融研究中，研究團(tuán)隊(duì)比較了幾種不同的優(yōu)化策略和獎(jiǎng)勵(lì)設(shè)計(jì)，證明了CURE框架的有效性。例如，僅優(yōu)化代碼生成器而不優(yōu)化單元測(cè)試生成器，或使用簡化的獎(jiǎng)勵(lì)設(shè)計(jì)，都無法達(dá)到CURE框架的性能水平。

七、未來展望與潛在影響

研究團(tuán)隊(duì)的工作為編程助手的發(fā)展開辟了新方向。通過讓AI同時(shí)學(xué)習(xí)編寫代碼和測(cè)試代碼兩種能力，他們展示了一種更加全面和自然的學(xué)習(xí)路徑。

這項(xiàng)研究的潛在影響是深遠(yuǎn)的。它不僅提高了AI編程助手的性能，還降低了訓(xùn)練成本，使得這些技術(shù)更容易被廣泛應(yīng)用。更重要的是，它展示了一種新的訓(xùn)練范式，可能適用于其他領(lǐng)域——讓AI同時(shí)學(xué)習(xí)創(chuàng)造和評(píng)判的能力，從而達(dá)到更全面的理解。

研究團(tuán)隊(duì)指出，給出這些令人振奮的結(jié)果，未來的研究方向可能包括擴(kuò)大CURE優(yōu)化規(guī)模，通過自監(jiān)督方式實(shí)現(xiàn)完全不需要任何標(biāo)注數(shù)據(jù)的訓(xùn)練。這就像讓雙胞胎廚師和品嘗者完全自學(xué)成才，不再需要任何外部指導(dǎo)。

總結(jié)來說，這項(xiàng)研究不僅推動(dòng)了AI編程助手的技術(shù)進(jìn)步，還展示了一種更加自然、高效的學(xué)習(xí)方式：通過同時(shí)培養(yǎng)創(chuàng)造和評(píng)判的能力，達(dá)到兩者的共同提高。這種方法不僅適用于編程領(lǐng)域，也可能為其他AI應(yīng)用提供新的思路。

人工智能強(qiáng)化學(xué)習(xí)代碼生成

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<sub id="1wejs"></sub>