av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="xcat1"><th id="xcat1"></th></pre>

<abbr id="xcat1"></abbr>

<strong id="xcat1"></strong>

<thead id="xcat1"></thead>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

ByteDance Seed和南京大學(xué)聯(lián)手破解AI訓(xùn)練難題：無(wú)需人工標(biāo)注的"雙向?qū)W習(xí)"讓機(jī)器自己當(dāng)老師

人工智能雙向?qū)W習(xí)偏好優(yōu)化

ByteDance Seed和南京大學(xué)聯(lián)手破解AI訓(xùn)練難題：無(wú)需人工標(biāo)注的"雙向?qū)W習(xí)"讓機(jī)器自己當(dāng)老師

作者：科技行者

2025-09-09 10:22

分享至：

ByteDance Seed和南京大學(xué)研究團(tuán)隊(duì)提出DuPO雙向?qū)W習(xí)訓(xùn)練法，讓AI模型通過(guò)"出題-驗(yàn)證"的方式自我提升，無(wú)需人工標(biāo)注。該方法在多語(yǔ)言翻譯和數(shù)學(xué)推理上效果顯著，讓7B模型達(dá)到GPT-4o水平，數(shù)學(xué)推理提升6.4個(gè)百分點(diǎn)。這一突破為AI自主學(xué)習(xí)開(kāi)辟新路徑，大幅降低訓(xùn)練成本。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-09 10:22 ? 科技行者

這項(xiàng)由ByteDance Seed和南京大學(xué)的研究團(tuán)隊(duì)共同完成的突破性研究發(fā)表于2025年8月，論文名為《DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization》。這項(xiàng)研究提出了一種全新的AI訓(xùn)練方法，讓大型語(yǔ)言模型能夠像學(xué)生互相檢查作業(yè)一樣自我提升，完全不需要昂貴的人工標(biāo)注。有興趣深入了解的讀者可以通過(guò)arXiv:2508.14460v1訪問(wèn)完整論文。

當(dāng)前訓(xùn)練大型AI模型就像培養(yǎng)一個(gè)學(xué)生，傳統(tǒng)方法需要大量老師（人工標(biāo)注員）不斷糾正和指導(dǎo)，這不僅成本高昂，而且質(zhì)量難以保證。正如一個(gè)班級(jí)如果只有一位老師要管理幾十個(gè)學(xué)生會(huì)力不從心一樣，現(xiàn)有的AI訓(xùn)練方法面臨著相似的困境。更糟糕的是，對(duì)于翻譯、數(shù)學(xué)推理這樣的復(fù)雜任務(wù)，即使是專(zhuān)業(yè)的標(biāo)注員也可能給出不一致甚至錯(cuò)誤的答案。

研究團(tuán)隊(duì)巧妙地提出了一種"雙向?qū)W習(xí)"的訓(xùn)練方法，稱(chēng)為DuPO（Dual Learning-based Preference Optimization）。這種方法的核心思想就像讓學(xué)生A出題給學(xué)生B做，然后B再根據(jù)A的答案反向出題給A驗(yàn)證。如果A能夠正確回答B(yǎng)的反向問(wèn)題，說(shuō)明A的原始答案質(zhì)量很高；如果答不出來(lái)，說(shuō)明原答案有問(wèn)題。這樣，兩個(gè)"學(xué)生"就能在沒(méi)有老師直接指導(dǎo)的情況下相互提升。

具體來(lái)說(shuō)，當(dāng)AI模型處理一個(gè)數(shù)學(xué)問(wèn)題時(shí)，比如"一個(gè)盒子里有3個(gè)紅球和5個(gè)藍(lán)球，總共多少個(gè)球？"，傳統(tǒng)方法需要人工檢查答案"8"是否正確。而DuPO方法會(huì)讓模型自己構(gòu)造一個(gè)反向問(wèn)題："如果答案是8，且已知有3個(gè)紅球，那么藍(lán)球有多少個(gè)？"如果模型能正確回答"5個(gè)藍(lán)球"，說(shuō)明它對(duì)原問(wèn)題的理解是準(zhǔn)確的；如果答不出或答錯(cuò)，說(shuō)明原答案可能有問(wèn)題。

這種方法的巧妙之處在于解決了傳統(tǒng)"雙向?qū)W習(xí)"的兩大難題。第一個(gè)難題就像拼圖游戲中缺失的拼片無(wú)法還原完整圖案一樣，AI的輸出往往不包含足夠信息來(lái)重構(gòu)輸入。比如數(shù)學(xué)題的答案"8"可能對(duì)應(yīng)無(wú)數(shù)不同的問(wèn)題，無(wú)法唯一確定原題。研究團(tuán)隊(duì)通過(guò)"已知-未知分解"巧妙解決了這個(gè)問(wèn)題，就像在拼圖時(shí)保留一些關(guān)鍵拼片作為線索，只讓模型重構(gòu)缺失的部分。

第二個(gè)難題是"能力不對(duì)稱(chēng)"問(wèn)題，就像一個(gè)學(xué)生擅長(zhǎng)解題但不擅長(zhǎng)出題一樣，AI在正向和反向任務(wù)上的表現(xiàn)可能差異很大。研究團(tuán)隊(duì)通過(guò)降低反向任務(wù)的復(fù)雜度，讓它變得更容易完成，確保了訓(xùn)練信號(hào)的可靠性。

在多語(yǔ)言翻譯實(shí)驗(yàn)中，DuPO方法將Seed-X-7B-Instruct模型的表現(xiàn)提升了顯著的幅度。在覆蓋28種語(yǔ)言、756個(gè)翻譯方向的大規(guī)模測(cè)試中，該方法平均提升了2.13個(gè)COMET分?jǐn)?shù)點(diǎn)。更令人印象深刻的是，經(jīng)過(guò)DuPO訓(xùn)練的7B參數(shù)模型在人工評(píng)估中達(dá)到了與GPT-4o和DeepSeek-R1這樣的超大型模型相當(dāng)?shù)乃?，同時(shí)顯著超越了Google翻譯這樣的商業(yè)系統(tǒng)。

在數(shù)學(xué)推理任務(wù)上，DuPO的效果同樣令人驚喜。當(dāng)應(yīng)用到不同規(guī)模的模型時(shí)，從1.5B到7B參數(shù)，都獲得了穩(wěn)定的性能提升。特別值得一提的是，Qwen3-4B模型在三個(gè)挑戰(zhàn)性數(shù)學(xué)基準(zhǔn)測(cè)試中的平均得分提升了6.4個(gè)百分點(diǎn)，甚至超越了更大的DeepSeek-R1-0120模型。對(duì)于OpenReasoning-Nemotron-7B這樣的強(qiáng)力模型，DuPO將其平均分?jǐn)?shù)從83.9%提升到90.3%，達(dá)到了新的性能巔峰。

更有趣的是，DuPO不僅可以用于訓(xùn)練，還能在推理時(shí)作為"智能評(píng)委"發(fā)揮作用。就像考試時(shí)讓學(xué)生做多道題然后選擇最好的答案一樣，DuPO可以讓模型生成多個(gè)候選答案，然后通過(guò)反向驗(yàn)證選出最優(yōu)解。這種方法在AIME數(shù)學(xué)競(jìng)賽基準(zhǔn)上將Qwen3-4B的表現(xiàn)提升了9.3個(gè)百分點(diǎn)，讓這個(gè)相對(duì)較小的模型在某些任務(wù)上甚至超越了DeepSeek-R1和Claude-Sonnet4-Thinking這樣的超大型模型。

研究團(tuán)隊(duì)還驗(yàn)證了DuPO在不同模型架構(gòu)上的通用性。無(wú)論是LlaMA-3.1-8B還是OctoThinker-8B-Hybrid-Base，都在DuPO的幫助下獲得了顯著提升。特別是LlaMA-3.1-8B在數(shù)學(xué)推理任務(wù)上的平均得分從8.1%躍升到32.1%，提升幅度達(dá)到24個(gè)百分點(diǎn)，甚至超越了依賴(lài)標(biāo)準(zhǔn)答案訓(xùn)練的SimpleRL-Zoo方法。

最令人興奮的發(fā)現(xiàn)是，DuPO甚至能夠直接從基礎(chǔ)模型中"喚醒"推理能力。研究團(tuán)隊(duì)將DuPO應(yīng)用到?jīng)]有經(jīng)過(guò)任何數(shù)學(xué)推理訓(xùn)練的Qwen3-4B基礎(chǔ)模型上，觀察到模型的推理能力從初始的15.2%穩(wěn)步提升到56.5%，在未見(jiàn)過(guò)的測(cè)試集上也展現(xiàn)出了強(qiáng)大的泛化能力。這就像一個(gè)從未學(xué)過(guò)數(shù)學(xué)的學(xué)生，僅僅通過(guò)自我練習(xí)和驗(yàn)證就掌握了復(fù)雜的數(shù)學(xué)推理技能。

為了驗(yàn)證方法的有效性，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。他們發(fā)現(xiàn)，如果去除"未知成分選擇"這一關(guān)鍵策略，模型性能會(huì)顯著下降。這進(jìn)一步證明了他們提出的"廣義對(duì)偶框架"確實(shí)是性能提升的關(guān)鍵所在，而不是其他偶然因素。

DuPO方法的成功為AI訓(xùn)練開(kāi)辟了新的道路。它不僅大大降低了訓(xùn)練成本，擺脫了對(duì)昂貴人工標(biāo)注的依賴(lài)，還展現(xiàn)出了優(yōu)秀的跨任務(wù)泛化能力。無(wú)論是語(yǔ)言翻譯這樣的開(kāi)放性任務(wù)，還是數(shù)學(xué)推理這樣的邏輯性任務(wù)，DuPO都能提供可靠的性能提升。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)創(chuàng)新。它為AI模型的自主學(xué)習(xí)和持續(xù)改進(jìn)提供了新的可能性，讓我們看到了AI系統(tǒng)未來(lái)可能實(shí)現(xiàn)真正自主學(xué)習(xí)的曙光。正如研究團(tuán)隊(duì)所展示的那樣，通過(guò)巧妙的"雙向驗(yàn)證"機(jī)制，AI模型能夠在沒(méi)有外部監(jiān)督的情況下不斷提升自己的能力。這種方法不僅適用于當(dāng)前的大型語(yǔ)言模型，還為未來(lái)更強(qiáng)大、更智能的AI系統(tǒng)奠定了重要基礎(chǔ)。

當(dāng)然，這項(xiàng)研究也有一些局限性。目前的實(shí)驗(yàn)主要集中在中等規(guī)模的模型上，對(duì)于更大規(guī)模模型的效果還有待進(jìn)一步驗(yàn)證。此外，雖然DuPO在翻譯和數(shù)學(xué)推理上表現(xiàn)出色，但在更開(kāi)放、更具創(chuàng)造性的任務(wù)上的應(yīng)用還需要更多探索。研究團(tuán)隊(duì)也坦率地指出，數(shù)學(xué)推理中的"未知成分選擇"步驟會(huì)帶來(lái)一定的計(jì)算開(kāi)銷(xiāo)，未來(lái)需要開(kāi)發(fā)更高效的篩選機(jī)制。

說(shuō)到底，DuPO為我們描繪了一個(gè)令人興奮的未來(lái)圖景：AI系統(tǒng)能夠像人類(lèi)學(xué)習(xí)者一樣，通過(guò)自我反思和驗(yàn)證不斷提升能力，而不再完全依賴(lài)外部的"老師"。這種自主學(xué)習(xí)的能力不僅能大大降低AI開(kāi)發(fā)和部署的成本，還可能讓AI系統(tǒng)在面對(duì)新任務(wù)時(shí)展現(xiàn)出更強(qiáng)的適應(yīng)性和創(chuàng)造力。對(duì)于普通用戶(hù)而言，這意味著未來(lái)的AI助手將變得更加智能、更加可靠，同時(shí)使用成本也會(huì)更加親民。

Q&A

Q1：DuPO雙向?qū)W習(xí)方法是什么原理？它如何讓AI自己訓(xùn)練自己？

A：DuPO就像讓學(xué)生A出題給學(xué)生B做，然后B根據(jù)A的答案反向出題來(lái)驗(yàn)證A。比如AI解答"3個(gè)紅球+5個(gè)藍(lán)球=8個(gè)球"后，系統(tǒng)會(huì)反向提問(wèn)"答案是8且有3個(gè)紅球，藍(lán)球有幾個(gè)？"如果AI能正確回答"5個(gè)"，說(shuō)明原答案質(zhì)量高；答錯(cuò)則說(shuō)明有問(wèn)題。這樣AI就能在沒(méi)有人工標(biāo)注的情況下自我改進(jìn)。

Q2：DuPO方法在哪些任務(wù)上效果最好？具體提升有多大？

A：DuPO在多語(yǔ)言翻譯和數(shù)學(xué)推理任務(wù)上效果顯著。在翻譯方面，讓7B模型達(dá)到了與GPT-4o相當(dāng)?shù)乃?，?56個(gè)翻譯方向上平均提升2.13個(gè)COMET分?jǐn)?shù)。在數(shù)學(xué)推理上，Qwen3-4B模型平均提升6.4個(gè)百分點(diǎn)，OpenReasoning-Nemotron-7B從83.9%提升到90.3%。甚至作為推理時(shí)的評(píng)判工具也能帶來(lái)9.3個(gè)百分點(diǎn)的提升。

Q3：DuPO方法相比傳統(tǒng)AI訓(xùn)練方式有什么優(yōu)勢(shì)？普通人能用上嗎？

A：DuPO最大優(yōu)勢(shì)是完全不需要昂貴的人工標(biāo)注，大大降低了訓(xùn)練成本，同時(shí)避免了人工標(biāo)注不一致的問(wèn)題。它能讓AI系統(tǒng)自主學(xué)習(xí)和持續(xù)改進(jìn)，適用于各種不同規(guī)模和架構(gòu)的模型。雖然目前還是研究階段，但這種技術(shù)將讓未來(lái)的AI助手變得更智能、更可靠，使用成本也更親民。

人工智能雙向?qū)W習(xí)偏好優(yōu)化

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專(zhuān)家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專(zhuān)線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn

<cite id="8lbwl"><track id="8lbwl"></track></cite>