av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<s id="qn0xb"><li id="qn0xb"></li></s>

<abbr id="qn0xb"><rp id="qn0xb"></rp></abbr>

<abbr id="qn0xb"><button id="qn0xb"></button></abbr>

<style id="qn0xb"></style>

<sub id="qn0xb"><p id="qn0xb"></p></sub>

<sub id="qn0xb"></sub>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

M-A-P團(tuán)隊(duì)發(fā)布COIG-P：首個(gè)百萬(wàn)級(jí)中文人工智能偏好訓(xùn)練數(shù)據(jù)集，重新定義AI中文對(duì)話能力

中文人工智能偏好數(shù)據(jù)集大語(yǔ)言模型訓(xùn)練AI協(xié)作評(píng)分系統(tǒng)

M-A-P團(tuán)隊(duì)發(fā)布COIG-P：首個(gè)百萬(wàn)級(jí)中文人工智能偏好訓(xùn)練數(shù)據(jù)集，重新定義AI中文對(duì)話能力

作者：科技行者

2025-07-15 09:59

分享至：

M-A-P團(tuán)隊(duì)發(fā)布的COIG-P數(shù)據(jù)集包含100萬(wàn)個(gè)高質(zhì)量中文偏好樣本對(duì)，通過15個(gè)AI模型協(xié)作生成和8個(gè)AI評(píng)委評(píng)分構(gòu)建。該數(shù)據(jù)集覆蓋對(duì)話、編程、數(shù)學(xué)等六大領(lǐng)域，顯著提升了中文AI模型性能，相關(guān)模型在AlignBench評(píng)測(cè)中獲得2%-12%的性能提升。團(tuán)隊(duì)還開源了中文獎(jiǎng)勵(lì)模型CRM和評(píng)估基準(zhǔn)CRBench，為中文AI社區(qū)提供了重要的開源基礎(chǔ)設(shè)施。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-15 09:59 ? 科技行者

這項(xiàng)由M-A-P（多模態(tài)藝術(shù)投影）社區(qū)和2077AI公司聯(lián)合推出的研究成果，于2025年4月發(fā)表在arXiv平臺(tái)上，論文編號(hào)為arXiv:2504.05535v1。有興趣深入了解的讀者可以通過https://github.com/multimodal-art-projection/COIG-P訪問完整的代碼和數(shù)據(jù)。

當(dāng)你跟AI聊天時(shí)，有沒有發(fā)現(xiàn)中文AI總是沒有英文AI那么"聰明"？明明問的是同樣的問題，英文AI回答得頭頭是道，換成中文就顯得磕磕絆絆。這個(gè)現(xiàn)象背后隱藏著一個(gè)重要問題：缺乏高質(zhì)量的中文訓(xùn)練數(shù)據(jù)。

想象一下，如果你想訓(xùn)練一個(gè)會(huì)說中文的外國(guó)朋友，但手頭只有幾本破舊的中文教材，而且內(nèi)容質(zhì)量參差不齊，那這個(gè)朋友學(xué)出來的中文肯定是半吊子水平。這正是目前中文AI面臨的困境。雖然中文是世界上使用人數(shù)最多的語(yǔ)言之一，但在AI訓(xùn)練領(lǐng)域，高質(zhì)量的中文偏好數(shù)據(jù)卻極度稀缺。

M-A-P團(tuán)隊(duì)注意到了這個(gè)問題的嚴(yán)重性。他們發(fā)現(xiàn)，現(xiàn)有的中文偏好數(shù)據(jù)集不僅數(shù)量少得可憐，質(zhì)量也令人擔(dān)憂。更糟糕的是，許多數(shù)據(jù)集都來自單一來源，就像只讀一家報(bào)紙就想了解整個(gè)世界一樣，這樣的數(shù)據(jù)根本無(wú)法支撐AI全面理解中文的復(fù)雜性和豐富性。

傳統(tǒng)的解決方案是雇傭大量人工標(biāo)注員，讓他們判斷哪些AI回答更好，哪些更差。但這種方法成本高昂，效率低下，而且人工標(biāo)注的一致性很難保證。就好比讓一千個(gè)人評(píng)價(jià)同一道菜，每個(gè)人的口味不同，給出的評(píng)分自然千差萬(wàn)別。

面對(duì)這個(gè)挑戰(zhàn)，M-A-P團(tuán)隊(duì)提出了一個(gè)革命性的解決方案：既然人工標(biāo)注有這么多問題，為什么不讓AI來幫AI打分呢？他們?cè)O(shè)計(jì)了一套完全基于大語(yǔ)言模型的中文偏好數(shù)據(jù)標(biāo)注流程，就像組織了一場(chǎng)AI之間的"品鑒大會(huì)"。

這個(gè)創(chuàng)新的流程是這樣工作的。研究團(tuán)隊(duì)首先精心收集了92,784個(gè)高質(zhì)量的中文問題，這些問題涵蓋了日常對(duì)話、編程、數(shù)學(xué)、邏輯推理、小說續(xù)寫和角色扮演六個(gè)不同領(lǐng)域。接著，他們召集了15個(gè)不同的大語(yǔ)言模型，包括GPT-4、Claude、Qwen等知名模型，讓它們針對(duì)每個(gè)問題生成各種各樣的回答。

有趣的是，為了確保評(píng)分的公正性，研究團(tuán)隊(duì)又從這15個(gè)模型中挑選了8個(gè)作為"評(píng)委"，讓它們對(duì)所有回答進(jìn)行打分。這就像一場(chǎng)烹飪比賽，既有廚師參賽，也有廚師當(dāng)評(píng)委，通過專業(yè)人士的眼光來判斷哪道菜更美味。

通過這種方法，研究團(tuán)隊(duì)最終構(gòu)建了COIG-P數(shù)據(jù)集，這個(gè)數(shù)據(jù)集包含了超過100萬(wàn)個(gè)中文偏好樣本對(duì)。每個(gè)樣本對(duì)都包含一個(gè)問題和兩個(gè)回答：一個(gè)被AI評(píng)委們認(rèn)為更好的"優(yōu)選回答"，以及一個(gè)相對(duì)較差的"非優(yōu)選回答"。

一、數(shù)據(jù)收集：像偵探一樣搜尋高質(zhì)量線索

構(gòu)建高質(zhì)量數(shù)據(jù)集的第一步，就像一個(gè)偵探收集線索一樣關(guān)鍵。M-A-P團(tuán)隊(duì)深知，垃圾進(jìn)垃圾出的道理在AI訓(xùn)練中尤其明顯。如果用低質(zhì)量的問題訓(xùn)練AI，最終得到的也只能是一個(gè)"糊涂"的AI助手。

研究團(tuán)隊(duì)采用了多管齊下的策略來收集中文問題。他們首先從中國(guó)最受歡迎的問答平臺(tái)入手，包括百度知道、知乎和百度貼吧等，這些平臺(tái)就像一個(gè)巨大的問題寶庫(kù)，記錄著中國(guó)網(wǎng)民在日常生活中遇到的各種疑問。從法律咨詢到技術(shù)討論，從生活小貼士到學(xué)術(shù)問題，應(yīng)有盡有。

除了從這些平臺(tái)收集問題，團(tuán)隊(duì)還從中國(guó)的公務(wù)員考試題庫(kù)中提取了邏輯推理類問題。這些題目經(jīng)過嚴(yán)格設(shè)計(jì)，邏輯性強(qiáng)，正好可以測(cè)試AI的推理能力。同時(shí)，他們也將一些優(yōu)秀的英文數(shù)據(jù)集翻譯成中文，比如HotpotQA和角色扮演數(shù)據(jù)集，確保問題的多樣性和國(guó)際化視野。

但是，僅僅收集問題還不夠，質(zhì)量控制才是關(guān)鍵。研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的篩選流程，就像篩選優(yōu)質(zhì)大米一樣，要把那些有問題的"壞米粒"挑出來。

首先是去重處理。他們使用了先進(jìn)的語(yǔ)義相似度計(jì)算方法，確保收集到的問題不會(huì)重復(fù)。這就像清理衣櫥時(shí)要把相同的衣服挑出來一樣，避免數(shù)據(jù)集中出現(xiàn)大量重復(fù)內(nèi)容。

接著是質(zhì)量評(píng)估。團(tuán)隊(duì)使用Qwen2-72B這個(gè)強(qiáng)大的AI模型來給每個(gè)問題打分，標(biāo)準(zhǔn)很簡(jiǎn)單：這個(gè)問題是不是一個(gè)普通用戶可能會(huì)問的？那些表述不清楚、包含敏感內(nèi)容或者過于奇怪的問題都被篩掉了。

經(jīng)過這道道關(guān)卡的篩選，最終有92,784個(gè)高質(zhì)量問題脫穎而出。這些問題被精心分配到六個(gè)不同的領(lǐng)域：對(duì)話類問題最多，占了37,323個(gè)，這反映了人們?cè)谌粘Ｉ钪凶畛Ｓ肁I來進(jìn)行對(duì)話交流；數(shù)學(xué)問題有27,259個(gè)，說明學(xué)習(xí)和教育是AI應(yīng)用的重要場(chǎng)景；其他領(lǐng)域如邏輯推理、角色扮演、編程和小說續(xù)寫也都有數(shù)千個(gè)問題，確保了數(shù)據(jù)集的全面性。

這種精心設(shè)計(jì)的收集策略確保了COIG-P數(shù)據(jù)集不僅規(guī)模龐大，而且質(zhì)量上乘。就像一位經(jīng)驗(yàn)豐富的偵探收集到的線索一樣，每一條都經(jīng)過仔細(xì)驗(yàn)證，為后續(xù)的AI訓(xùn)練打下了堅(jiān)實(shí)的基礎(chǔ)。

二、多模型協(xié)作：組織一場(chǎng)AI之間的智慧競(jìng)賽

收集到高質(zhì)量問題后，接下來就是讓不同的AI模型來"過招"了。M-A-P團(tuán)隊(duì)的策略非常巧妙：既然每個(gè)AI模型都有自己的特色和強(qiáng)項(xiàng)，為什么不讓它們各顯神通，然后再?gòu)闹羞x出最好的回答呢？

研究團(tuán)隊(duì)召集了15個(gè)來自不同公司、具有不同特色的大語(yǔ)言模型。這個(gè)陣容可以說是AI界的"全明星隊(duì)"：有來自O(shè)penAI的GPT系列，包括GPT-3.5、GPT-4和最新的GPT-4o；有谷歌的Gemini 1.5-Pro；有Anthropic的Claude3.5；還有中國(guó)本土的優(yōu)秀模型，如阿里的Qwen系列、百度的文心一言、智譜的GLM-4等等。

這些模型就像不同專業(yè)背景的專家，有的擅長(zhǎng)邏輯推理，有的在創(chuàng)意寫作方面表現(xiàn)出色，有的則在編程任務(wù)上游刃有余。讓它們針對(duì)同一個(gè)問題生成回答，就像邀請(qǐng)不同領(lǐng)域的專家參加一場(chǎng)學(xué)術(shù)研討會(huì)，每個(gè)人都會(huì)從自己的角度給出獨(dú)特的見解。

比如，當(dāng)面對(duì)一個(gè)數(shù)學(xué)問題時(shí)，有些模型可能會(huì)給出嚴(yán)謹(jǐn)?shù)闹鸩酵茖?dǎo)過程，而另一些模型可能會(huì)提供更直觀的解釋方法。當(dāng)遇到創(chuàng)意寫作任務(wù)時(shí)，不同模型生成的文本風(fēng)格、情節(jié)設(shè)計(jì)和文學(xué)表現(xiàn)力也會(huì)截然不同。這種多樣性正是構(gòu)建高質(zhì)量偏好數(shù)據(jù)集所需要的。

但是，如何從這么多回答中判斷哪個(gè)更好呢？這就需要一群"AI評(píng)委"來發(fā)揮作用了。研究團(tuán)隊(duì)從15個(gè)生成模型中挑選了8個(gè)表現(xiàn)最穩(wěn)定、判斷力最強(qiáng)的模型作為評(píng)委，包括Claude3.5、DeepSeek-V2、Doubao-Pro、GLM-4、GPT-4o、GPT-4-Turbo、Qwen2-72B-Instruct和Moonshot。

這8個(gè)評(píng)委模型的工作方式很像奧運(yùn)會(huì)的評(píng)分制度。針對(duì)每個(gè)領(lǐng)域，研究團(tuán)隊(duì)都設(shè)計(jì)了專門的評(píng)分標(biāo)準(zhǔn)和提示詞。比如，在評(píng)價(jià)編程代碼時(shí)，評(píng)委會(huì)從代碼的正確性、可執(zhí)行性、完整性和代碼質(zhì)量四個(gè)維度進(jìn)行打分；在評(píng)價(jià)數(shù)學(xué)解答時(shí)，則會(huì)重點(diǎn)關(guān)注解題思路的正確性、步驟的完整性、表述的清晰性和教學(xué)價(jià)值。

有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)，使用多個(gè)AI模型作為評(píng)委比依賴單一模型要可靠得多。就像法庭上需要多名陪審員一樣，多個(gè)評(píng)委可以減少個(gè)體偏見，提高判斷的準(zhǔn)確性。通過大量測(cè)試，他們發(fā)現(xiàn)當(dāng)8個(gè)評(píng)委的平均分差達(dá)到2分以上時(shí)，選出的"優(yōu)選"和"非優(yōu)選"回答對(duì)比就非常明顯了。

這種多模型協(xié)作的方式不僅提高了數(shù)據(jù)質(zhì)量，還大大降低了成本。如果用人工標(biāo)注，100萬(wàn)個(gè)樣本對(duì)至少需要幾百名專業(yè)標(biāo)注員工作數(shù)月，成本高達(dá)數(shù)百萬(wàn)元。而使用AI評(píng)委，不僅效率高，而且標(biāo)準(zhǔn)一致，避免了人工標(biāo)注中常見的主觀性和不一致性問題。

通過這種"AI選AI"的創(chuàng)新方式，COIG-P數(shù)據(jù)集中的每個(gè)樣本對(duì)都經(jīng)過了嚴(yán)格的質(zhì)量把關(guān)，確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。

三、領(lǐng)域?qū)I(yè)化：為不同任務(wù)量身定制評(píng)分標(biāo)準(zhǔn)

就像評(píng)價(jià)一道川菜和一道粵菜需要不同標(biāo)準(zhǔn)一樣，評(píng)價(jià)AI在不同領(lǐng)域的表現(xiàn)也需要專門的評(píng)分體系。M-A-P團(tuán)隊(duì)深知這個(gè)道理，因此為六個(gè)不同領(lǐng)域分別設(shè)計(jì)了專門的評(píng)分提示詞和標(biāo)準(zhǔn)。

在日常對(duì)話領(lǐng)域，評(píng)分標(biāo)準(zhǔn)就像評(píng)價(jià)一個(gè)朋友的談話質(zhì)量。首先看安全性，確?；卮鸩话魏斡泻虿划?dāng)內(nèi)容；然后看有用性，回答是否真正幫助到了提問者；最后看正確性和完整性，回答是否基于事實(shí)，是否完整回應(yīng)了問題的所有方面。評(píng)分從1分到10分，就像給朋友的聊天水平打分一樣。

數(shù)學(xué)領(lǐng)域的評(píng)分則更像批改學(xué)生作業(yè)。重點(diǎn)關(guān)注四個(gè)方面：解題思路是否正確，如果最終答案錯(cuò)誤，最高只能給5分；解題過程是否完整，包括關(guān)鍵步驟和推導(dǎo)過程；表述是否清晰，公式符號(hào)使用是否規(guī)范；是否有教學(xué)價(jià)值，能否幫助讀者理解重要概念。

編程任務(wù)的評(píng)分標(biāo)準(zhǔn)就像評(píng)價(jià)一個(gè)程序員的代碼質(zhì)量。安全性依然是第一位的，代碼不能包含任何惡意內(nèi)容；然后看正確性，代碼邏輯是否正確，能否實(shí)現(xiàn)預(yù)期功能；可執(zhí)行性也很重要，代碼能否在合理環(huán)境中正常運(yùn)行；最后看代碼質(zhì)量，包括結(jié)構(gòu)是否清晰、命名是否規(guī)范、是否有明顯的冗余或重復(fù)。

邏輯推理任務(wù)的評(píng)分更像評(píng)價(jià)一個(gè)律師的論證能力。推理過程是否嚴(yán)密，結(jié)論是否正確，是否存在邏輯漏洞或跳躍，是否覆蓋了所有關(guān)鍵前提條件，這些都是重要的評(píng)分標(biāo)準(zhǔn)。

小說續(xù)寫的評(píng)分則像文學(xué)評(píng)論家的工作。首先確保內(nèi)容安全無(wú)害，然后看連貫性，續(xù)寫內(nèi)容是否與原文邏輯連貫、自然銜接；語(yǔ)言質(zhì)量也很重要，表達(dá)是否通順，是否具有一定的文學(xué)性；創(chuàng)意性同樣關(guān)鍵，內(nèi)容是否有吸引力，能否激發(fā)讀者興趣；最后看完整性，雖然是片段續(xù)寫，但應(yīng)該構(gòu)成相對(duì)完整的情節(jié)段落。

角色扮演任務(wù)的評(píng)分最有趣，就像評(píng)價(jià)一個(gè)演員的表演水平。設(shè)定一致性是核心，回答是否嚴(yán)格遵循角色身份、背景和行為邏輯；情境代入感也很重要，是否能維持良好的沉浸感和趣味性；語(yǔ)言表現(xiàn)力同樣關(guān)鍵，是否語(yǔ)言生動(dòng)，是否契合角色風(fēng)格和身份特征；最后看有用性，在保持角色設(shè)定的基礎(chǔ)上，是否能滿足用戶的互動(dòng)需求。

這種分領(lǐng)域的專業(yè)化評(píng)分確保了不同類型任務(wù)都能得到公正、準(zhǔn)確的評(píng)價(jià)。就像奧運(yùn)會(huì)中體操和游泳有不同的評(píng)分標(biāo)準(zhǔn)一樣，這種針對(duì)性的評(píng)分體系讓COIG-P數(shù)據(jù)集的質(zhì)量控制更加精準(zhǔn)和可靠。

四、質(zhì)量驗(yàn)證：用人工檢驗(yàn)AI的判斷力

雖然AI評(píng)委的效率很高，但它們的判斷究竟靠不靠譜呢？M-A-P團(tuán)隊(duì)當(dāng)然不會(huì)盲目相信機(jī)器的判斷，他們?cè)O(shè)計(jì)了一套人工驗(yàn)證流程來檢驗(yàn)AI評(píng)委的準(zhǔn)確性。

研究團(tuán)隊(duì)招募了兩名自然語(yǔ)言處理領(lǐng)域的研究生作為人工評(píng)審員。這兩位評(píng)審員就像"質(zhì)檢員"一樣，從數(shù)據(jù)集中隨機(jī)抽取了240個(gè)樣本進(jìn)行人工評(píng)估，每個(gè)領(lǐng)域40個(gè)樣本，確保覆蓋所有任務(wù)類型。

評(píng)審標(biāo)準(zhǔn)很直接：AI選出的"優(yōu)選回答"是否真的比"非優(yōu)選回答"更好？這個(gè)問題的答案決定了整個(gè)數(shù)據(jù)集的可信度。同時(shí)，評(píng)審員還要檢查"優(yōu)選回答"本身是否正確，畢竟一個(gè)錯(cuò)誤的答案即使相對(duì)更好，也不應(yīng)該被當(dāng)作標(biāo)準(zhǔn)答案。

驗(yàn)證結(jié)果令人振奮。整體來說，AI評(píng)委的判斷準(zhǔn)確率達(dá)到了90.83%，這意味著在10個(gè)判斷中，有超過9個(gè)是正確的。具體到各個(gè)領(lǐng)域，編程和對(duì)話領(lǐng)域的準(zhǔn)確率最高，都達(dá)到了95%；邏輯推理、小說續(xù)寫和角色扮演領(lǐng)域的準(zhǔn)確率為90%；數(shù)學(xué)領(lǐng)域稍低一些，但也達(dá)到了85%。

這個(gè)結(jié)果說明了什么？首先，AI評(píng)委在大多數(shù)情況下都能做出正確的判斷，它們的"審美"和人類專家基本一致。其次，不同領(lǐng)域的難度確實(shí)不同，編程和對(duì)話這類相對(duì)客觀的任務(wù)更容易評(píng)判，而數(shù)學(xué)這類需要嚴(yán)格邏輯推理的任務(wù)稍微困難一些。

更重要的是，這個(gè)90%以上的準(zhǔn)確率已經(jīng)超過了許多人工標(biāo)注項(xiàng)目的一致性水平。在實(shí)際的人工標(biāo)注工作中，不同標(biāo)注員之間的一致性往往只有80-85%，因?yàn)槊總€(gè)人的判斷標(biāo)準(zhǔn)和偏好都不完全相同。AI評(píng)委的優(yōu)勢(shì)在于標(biāo)準(zhǔn)統(tǒng)一、不受情緒影響，而且可以24小時(shí)不間斷工作。

為了進(jìn)一步驗(yàn)證數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的對(duì)比實(shí)驗(yàn)。他們讓自己訓(xùn)練的中文獎(jiǎng)勵(lì)模型（CRM）和GPT-4o分別對(duì)同一批測(cè)試數(shù)據(jù)進(jìn)行篩選，結(jié)果發(fā)現(xiàn)兩者的選擇高度一致，這進(jìn)一步證明了COIG-P數(shù)據(jù)集的高質(zhì)量。

這種嚴(yán)格的質(zhì)量驗(yàn)證機(jī)制確保了COIG-P不是一個(gè)"紙面上的成功"，而是真正經(jīng)得起實(shí)戰(zhàn)檢驗(yàn)的高質(zhì)量數(shù)據(jù)集。

五、實(shí)戰(zhàn)效果：讓數(shù)字說話的訓(xùn)練成果

一個(gè)數(shù)據(jù)集好不好，最終還是要看訓(xùn)練出來的AI表現(xiàn)如何。M-A-P團(tuán)隊(duì)選擇了目前最權(quán)威的中文AI能力評(píng)測(cè)基準(zhǔn)AlignBench來驗(yàn)證COIG-P的實(shí)際效果。這就像用高考來檢驗(yàn)教學(xué)質(zhì)量一樣，AlignBench能夠全面評(píng)估AI在中文環(huán)境下的對(duì)話能力、推理能力和語(yǔ)言理解能力。

研究團(tuán)隊(duì)選擇了幾個(gè)代表性的模型進(jìn)行測(cè)試，包括阿里的Qwen2和Qwen2.5系列，以及專門優(yōu)化過的Infinity-Instruct-3M-0625系列模型。這些模型都是7-8B參數(shù)規(guī)模，在性能和計(jì)算成本之間取得了很好的平衡。

測(cè)試結(jié)果可以說是相當(dāng)驚艷。使用COIG-P數(shù)據(jù)集訓(xùn)練后，所有模型的性能都得到了顯著提升。其中最令人印象深刻的是Infinity-Instruct-3M-0625-Llama3-8B模型，性能提升幅度達(dá)到了12.27%，這在AI訓(xùn)練領(lǐng)域是非常罕見的大幅改進(jìn)。

即使是本身就很強(qiáng)大的Qwen2.5-7B-Instruct模型，使用COIG-P訓(xùn)練后整體性能也提升了2.03%。別小看這2%的提升，對(duì)于已經(jīng)高度優(yōu)化的先進(jìn)模型來說，哪怕1%的改進(jìn)都需要巨大的努力。這就像奧運(yùn)會(huì)百米賽跑，要把9.80秒提升到9.78秒，難度是極大的。

更有趣的是，COIG-P的效果在不同任務(wù)類型上表現(xiàn)出了不同的特點(diǎn)。對(duì)于相對(duì)較弱的模型，COIG-P能夠幫助它們?cè)诟鱾€(gè)子任務(wù)上都獲得全面提升，就像一個(gè)全科補(bǔ)習(xí)班，讓偏科學(xué)生變成全面發(fā)展的好學(xué)生。而對(duì)于已經(jīng)很強(qiáng)的模型，COIG-P主要提升了它們的推理能力，雖然在某些基礎(chǔ)語(yǔ)言任務(wù)上可能會(huì)有微小的下降，但總體效果是正向的。

研究團(tuán)隊(duì)還進(jìn)行了一個(gè)重要的對(duì)比實(shí)驗(yàn)，將COIG-P與其他現(xiàn)有的中文偏好數(shù)據(jù)集進(jìn)行比較。結(jié)果顯示，大多數(shù)現(xiàn)有數(shù)據(jù)集不僅沒有提升模型性能，反而讓模型表現(xiàn)變差了。只有COIG-P和另一個(gè)叫ZAKE的數(shù)據(jù)集能夠帶來正面效果，而COIG-P的效果明顯更好。

這個(gè)對(duì)比結(jié)果揭示了一個(gè)重要問題：不是所有的數(shù)據(jù)都是好數(shù)據(jù)，低質(zhì)量的訓(xùn)練數(shù)據(jù)甚至?xí)p害AI的能力。這就像給學(xué)生提供錯(cuò)誤的教材，不僅學(xué)不到正確知識(shí)，還會(huì)形成錯(cuò)誤的認(rèn)知。COIG-P的成功恰恰證明了高質(zhì)量數(shù)據(jù)的重要性。

為了確保實(shí)驗(yàn)結(jié)果的可靠性，研究團(tuán)隊(duì)使用了嚴(yán)格的實(shí)驗(yàn)設(shè)置。每個(gè)模型都在相同的硬件環(huán)境下訓(xùn)練一個(gè)完整的周期，總計(jì)使用了約2000個(gè)GPU小時(shí)。超參數(shù)設(shè)置也經(jīng)過了仔細(xì)調(diào)優(yōu)，確保每個(gè)模型都能發(fā)揮出最佳性能。

這些實(shí)驗(yàn)結(jié)果不僅驗(yàn)證了COIG-P數(shù)據(jù)集的優(yōu)秀質(zhì)量，也為中文AI發(fā)展提供了重要的技術(shù)路徑。

六、創(chuàng)新獎(jiǎng)勵(lì)模型：培養(yǎng)專業(yè)的AI"品鑒師"

雖然使用大型AI模型作為評(píng)委效果很好，但成本也相當(dāng)高昂。每次評(píng)分都需要調(diào)用GPT-4或Claude這樣的頂級(jí)模型，就像每次做菜都請(qǐng)米其林三星大廚來品嘗一樣，雖然專業(yè)但代價(jià)不菲。為了解決這個(gè)問題，M-A-P團(tuán)隊(duì)決定培養(yǎng)自己的AI"品鑒師"。

他們基于Llama3.1-8B-Instruct模型，使用COIG-P數(shù)據(jù)集的一半樣本，訓(xùn)練出了一個(gè)專門的中文獎(jiǎng)勵(lì)模型（CRM）。這個(gè)過程就像培養(yǎng)一個(gè)專業(yè)的品酒師，通過大量的品嘗和對(duì)比訓(xùn)練，讓它能夠準(zhǔn)確判斷不同回答的質(zhì)量高低。

訓(xùn)練方法采用了經(jīng)典的Bradley-Terry模型，這是一種專門用于比較和排序的數(shù)學(xué)方法。簡(jiǎn)單來說，就是讓AI學(xué)會(huì)"比較"的藝術(shù)，不僅要知道一個(gè)回答是好是壞，更要能判斷兩個(gè)回答哪個(gè)更好。

為了全面評(píng)估這個(gè)中文獎(jiǎng)勵(lì)模型的能力，研究團(tuán)隊(duì)還專門構(gòu)建了一個(gè)中文獎(jiǎng)勵(lì)評(píng)估基準(zhǔn)（CRBench）。他們從數(shù)據(jù)集中隨機(jī)選擇了5000個(gè)樣本，然后招募了三名研究生進(jìn)行人工標(biāo)注。標(biāo)注標(biāo)準(zhǔn)很嚴(yán)格：?jiǎn)栴}必須表述清楚，不涉及敏感話題；優(yōu)選回答必須正確；優(yōu)選回答確實(shí)要比非優(yōu)選回答更符合人類偏好。經(jīng)過嚴(yán)格篩選，最終得到了1040個(gè)高質(zhì)量的評(píng)估樣本。

在CRBench上的測(cè)試結(jié)果令人驚喜。中文獎(jiǎng)勵(lì)模型CRM在所有開源的判別性獎(jiǎng)勵(lì)模型中表現(xiàn)最佳，總體準(zhǔn)確率達(dá)到69.71%。雖然與GPT-4o的86.73%還有差距，但已經(jīng)超過了許多知名的開源獎(jiǎng)勵(lì)模型，比如ArmoRM-Llama3-8B（44.13%）和Skywork-Reward-Llama-3.1-8B（54.13%）。

更重要的是，當(dāng)把CRM應(yīng)用到實(shí)際的數(shù)據(jù)篩選任務(wù)中時(shí)，它的表現(xiàn)與GPT-4o非常接近。使用CRM篩選的數(shù)據(jù)訓(xùn)練出來的模型在AlignBench上的得分為5.26，而使用GPT-4o篩選的數(shù)據(jù)訓(xùn)練出來的模型得分為5.28，差距微乎其微。

這個(gè)結(jié)果說明了什么？首先，雖然CRM在某些細(xì)節(jié)判斷上可能不如GPT-4o精準(zhǔn)，但在實(shí)際應(yīng)用中完全夠用。其次，CRM的效率優(yōu)勢(shì)明顯，使用CRM處理43萬(wàn)個(gè)樣本只需要40個(gè)A800 GPU小時(shí)，而調(diào)用GPT-4o處理同樣數(shù)量的樣本不僅成本高昂，還受到API調(diào)用限制。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：CRM在不同領(lǐng)域的表現(xiàn)差異很大。在編程和對(duì)話領(lǐng)域，CRM的準(zhǔn)確率能達(dá)到79%和92%，幾乎接近人類專家水平；但在角色扮演和小說續(xù)寫這類主觀性較強(qiáng)的任務(wù)上，準(zhǔn)確率只有43%和62%。這提醒我們，AI的能力發(fā)展并不是均勻的，在邏輯性強(qiáng)的任務(wù)上AI更容易達(dá)到人類水平，而在需要?jiǎng)?chuàng)意和主觀判斷的任務(wù)上還有很大提升空間。

這個(gè)中文獎(jiǎng)勵(lì)模型的成功，為中文AI社區(qū)提供了一個(gè)重要的工具。其他研究者可以使用CRM來構(gòu)建自己的偏好數(shù)據(jù)集，而不需要依賴昂貴的商業(yè)API，這大大降低了中文AI研究的門檻。

七、技術(shù)細(xì)節(jié)：揭秘訓(xùn)練過程的精妙設(shè)計(jì)

雖然COIG-P的核心思想聽起來簡(jiǎn)單，但要在實(shí)際中實(shí)現(xiàn)高質(zhì)量的結(jié)果，還需要許多精妙的技術(shù)設(shè)計(jì)。就像做一道看似簡(jiǎn)單的家常菜，真正做得美味需要掌握火候、調(diào)料配比等諸多細(xì)節(jié)。

首先是數(shù)據(jù)配對(duì)的技巧。研究團(tuán)隊(duì)發(fā)現(xiàn)，并不是所有的"優(yōu)選"和"非優(yōu)選"回答對(duì)都適合用于訓(xùn)練。如果兩個(gè)回答質(zhì)量相差太小，AI很難學(xué)到明確的偏好信號(hào)；如果相差太大，又可能學(xué)到過于極端的判斷標(biāo)準(zhǔn)。經(jīng)過大量實(shí)驗(yàn)，他們確定了最優(yōu)的分?jǐn)?shù)差閾值：只有當(dāng)兩個(gè)回答的評(píng)分差距超過2分時(shí)，這對(duì)數(shù)據(jù)才會(huì)被納入最終的數(shù)據(jù)集。

這個(gè)閾值的選擇非常關(guān)鍵。研究團(tuán)隊(duì)用不同的閾值訓(xùn)練了多個(gè)模型，發(fā)現(xiàn)閾值為2時(shí)效果最好。閾值太低（比如1分）會(huì)引入太多模糊的對(duì)比樣本，讓AI學(xué)不到清晰的偏好信號(hào)；閾值太高（比如3分或4分）又會(huì)讓可用的訓(xùn)練樣本大幅減少，影響訓(xùn)練效果。

訓(xùn)練方法的選擇也經(jīng)過了精心考慮。研究團(tuán)隊(duì)使用了目前最流行的DPO（Direct Preference Optimization）方法，這種方法可以直接從偏好數(shù)據(jù)中學(xué)習(xí)，避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的復(fù)雜性和不穩(wěn)定性。DPO就像一個(gè)高效的學(xué)習(xí)方法，讓AI能夠直接理解"什么樣的回答更好"，而不需要經(jīng)過復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。

超參數(shù)的調(diào)優(yōu)也花費(fèi)了大量精力。經(jīng)過反復(fù)實(shí)驗(yàn)，研究團(tuán)隊(duì)發(fā)現(xiàn)不同模型需要不同的學(xué)習(xí)率設(shè)置。對(duì)于Qwen2和Qwen2.5系列模型，最優(yōu)學(xué)習(xí)率是1e-6；而對(duì)于其他模型，1e-7的學(xué)習(xí)率效果更好。這看似微小的差別，實(shí)際上對(duì)最終效果有著重要影響。學(xué)習(xí)率就像控制學(xué)習(xí)速度的調(diào)節(jié)器，太快可能"囫圇吞棗"學(xué)不扎實(shí)，太慢又可能效率低下。

為了確保實(shí)驗(yàn)結(jié)果的可重復(fù)性，研究團(tuán)隊(duì)使用了統(tǒng)一的計(jì)算環(huán)境。所有模型都在A800 GPU上進(jìn)行全參數(shù)微調(diào)，每個(gè)模型訓(xùn)練一個(gè)完整的周期（epoch）。這種標(biāo)準(zhǔn)化的實(shí)驗(yàn)設(shè)置確保了不同模型之間的對(duì)比是公平的，也讓其他研究者能夠復(fù)現(xiàn)這些結(jié)果。

數(shù)據(jù)預(yù)處理也有許多巧思。除了基本的清洗和格式化，研究團(tuán)隊(duì)還對(duì)不同領(lǐng)域的數(shù)據(jù)進(jìn)行了均衡處理。雖然對(duì)話類數(shù)據(jù)數(shù)量最多，但在最終的訓(xùn)練集中，各個(gè)領(lǐng)域的比例被調(diào)整得相對(duì)均衡，避免模型過度偏向某一類任務(wù)。

另一個(gè)重要的技術(shù)細(xì)節(jié)是評(píng)分提示詞的設(shè)計(jì)。針對(duì)每個(gè)領(lǐng)域，研究團(tuán)隊(duì)都設(shè)計(jì)了專門的評(píng)分提示詞，詳細(xì)說明了評(píng)分標(biāo)準(zhǔn)和注意事項(xiàng)。這些提示詞經(jīng)過多輪迭代優(yōu)化，確保不同的AI評(píng)委能夠按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行評(píng)分。

這些看似繁瑣的技術(shù)細(xì)節(jié)，實(shí)際上是COIG-P成功的重要保障。正是這種對(duì)細(xì)節(jié)的精益求精，才讓COIG-P在眾多數(shù)據(jù)集中脫穎而出。

八、深入分析：探索不同領(lǐng)域的獨(dú)特表現(xiàn)

通過對(duì)COIG-P訓(xùn)練效果的深入分析，研究團(tuán)隊(duì)發(fā)現(xiàn)了許多有趣的現(xiàn)象，這些發(fā)現(xiàn)不僅驗(yàn)證了數(shù)據(jù)集的有效性，也為我們理解AI學(xué)習(xí)過程提供了新的洞察。

在領(lǐng)域分析實(shí)驗(yàn)中，研究團(tuán)隊(duì)進(jìn)行了一個(gè)巧妙的對(duì)比：分別用單個(gè)領(lǐng)域的數(shù)據(jù)和混合領(lǐng)域的數(shù)據(jù)訓(xùn)練模型，看看哪種方式效果更好。結(jié)果令人驚訝，混合訓(xùn)練的效果遠(yuǎn)遠(yuǎn)超過了單領(lǐng)域訓(xùn)練。這就像學(xué)習(xí)樂器時(shí)，只練習(xí)一種曲風(fēng)可能會(huì)讓你在那個(gè)領(lǐng)域很專業(yè)，但缺乏整體的音樂素養(yǎng)；而接觸多種曲風(fēng)的學(xué)習(xí)者往往能形成更全面的音樂理解能力。

更有趣的是，有些單領(lǐng)域訓(xùn)練甚至?xí)p害模型的整體性能。這個(gè)現(xiàn)象提醒我們，AI的學(xué)習(xí)過程比我們想象的更加復(fù)雜，過度專業(yè)化可能會(huì)導(dǎo)致能力的片面發(fā)展。

在各個(gè)領(lǐng)域中，小說續(xù)寫數(shù)據(jù)表現(xiàn)出了特殊的價(jià)值。單獨(dú)使用小說續(xù)寫數(shù)據(jù)訓(xùn)練的模型在基礎(chǔ)語(yǔ)言能力上有顯著提升，這說明文學(xué)創(chuàng)作任務(wù)能夠有效提升AI的語(yǔ)言運(yùn)用能力。這就像學(xué)習(xí)古典詩(shī)詞能夠提升整體的文學(xué)素養(yǎng)一樣，創(chuàng)意寫作訓(xùn)練對(duì)AI的語(yǔ)言能力有著深層次的促進(jìn)作用。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：對(duì)于不同能力水平的模型，COIG-P的作用方式不同。對(duì)于能力相對(duì)較弱的模型，COIG-P能夠帶來全方位的提升，就像給基礎(chǔ)薄弱的學(xué)生進(jìn)行全面補(bǔ)習(xí)；而對(duì)于已經(jīng)很強(qiáng)的模型，COIG-P主要提升推理能力，但可能在某些基礎(chǔ)任務(wù)上略有下降。這種現(xiàn)象被稱為"能力權(quán)衡"，在AI訓(xùn)練中很常見。

在中文AI能力的國(guó)際對(duì)比中，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人鼓舞的現(xiàn)象：使用COIG-P訓(xùn)練的開源中文模型與頂級(jí)的閉源模型（如GPT-4o、Claude3.5）在性能上的差距正在快速縮小。Qwen2.5-72B-Instruct在某些任務(wù)上甚至超過了Claude3.5-Sonnet。這說明中文AI生態(tài)正在快速發(fā)展，開源社區(qū)的努力正在縮小與商業(yè)巨頭的技術(shù)差距。

閾值選擇的詳細(xì)分析也揭示了有趣的規(guī)律。當(dāng)閾值從0增加到2時(shí)，模型性能穩(wěn)步提升；但當(dāng)閾值超過2時(shí)，性能開始下降。這個(gè)倒U型曲線反映了一個(gè)重要的平衡：既要確保訓(xùn)練數(shù)據(jù)的質(zhì)量差異明顯，又要保證有足夠的訓(xùn)練樣本。這就像調(diào)節(jié)音響的音量，太小聽不清，太大會(huì)失真，只有適中的音量才能獲得最佳的聽覺體驗(yàn)。

通過這些深入的分析，我們不僅看到了COIG-P的優(yōu)秀表現(xiàn)，也對(duì)AI學(xué)習(xí)過程有了更深刻的理解。這些發(fā)現(xiàn)為未來的AI訓(xùn)練提供了重要的指導(dǎo)原則。

九、開源貢獻(xiàn)：為中文AI社區(qū)搭建基礎(chǔ)設(shè)施

M-A-P團(tuán)隊(duì)的這項(xiàng)工作不僅僅是發(fā)布了一個(gè)數(shù)據(jù)集，更重要的是為整個(gè)中文AI開源社區(qū)搭建了重要的基礎(chǔ)設(shè)施。他們的開源策略非常全面，體現(xiàn)了真正的開源精神。

首先，COIG-P數(shù)據(jù)集完全開源，任何研究者和開發(fā)者都可以免費(fèi)下載使用。這打破了高質(zhì)量中文訓(xùn)練數(shù)據(jù)被少數(shù)大公司壟斷的局面，讓更多的研究者能夠平等地接觸到優(yōu)質(zhì)資源。這就像在知識(shí)的荒漠中建立了一個(gè)免費(fèi)的圖書館，讓所有求知者都能平等地獲取知識(shí)。

除了數(shù)據(jù)集本身，研究團(tuán)隊(duì)還開源了完整的數(shù)據(jù)構(gòu)建流程和代碼。這意味著其他研究者不僅可以使用COIG-P，還可以學(xué)習(xí)和改進(jìn)數(shù)據(jù)構(gòu)建方法，甚至構(gòu)建自己的專業(yè)數(shù)據(jù)集。這種知識(shí)分享的做法極大地推動(dòng)了整個(gè)社區(qū)的技術(shù)進(jìn)步。

中文獎(jiǎng)勵(lì)模型CRM的開源更是意義重大。之前，研究者們?nèi)绻胍?xùn)練自己的偏好模型，要么依賴昂貴的商業(yè)API，要么從零開始訓(xùn)練獎(jiǎng)勵(lì)模型。現(xiàn)在，他們可以直接使用CRM，或者在CRM的基礎(chǔ)上進(jìn)行進(jìn)一步優(yōu)化。這大大降低了中文AI研究的門檻。

研究團(tuán)隊(duì)還提供了詳細(xì)的技術(shù)文檔和使用指南，包括數(shù)據(jù)處理流程、模型訓(xùn)練參數(shù)、評(píng)估方法等。這些文檔就像一本詳細(xì)的操作手冊(cè)，讓其他研究者能夠快速上手，避免重復(fù)造輪子。

更令人贊賞的是，研究團(tuán)隊(duì)還提供了在線演示和API接口，讓普通開發(fā)者也能夠體驗(yàn)和使用這些技術(shù)。這種從研究到應(yīng)用的完整生態(tài)系統(tǒng)，為中文AI技術(shù)的普及奠定了堅(jiān)實(shí)基礎(chǔ)。

開源社區(qū)的反響也很熱烈。許多研究機(jī)構(gòu)和公司已經(jīng)開始使用COIG-P訓(xùn)練自己的模型，一些開發(fā)者也在GitHub上貢獻(xiàn)代碼改進(jìn)和使用經(jīng)驗(yàn)。這種社區(qū)協(xié)作的模式正在加速中文AI技術(shù)的發(fā)展。

從更宏觀的角度來看，COIG-P的開源對(duì)中文AI生態(tài)的意義是深遠(yuǎn)的。它不僅提供了高質(zhì)量的訓(xùn)練資源，更重要的是展示了一種可行的技術(shù)路徑：通過AI協(xié)作和開源共享，可以低成本地構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)。這種模式為其他語(yǔ)言和領(lǐng)域的AI發(fā)展提供了重要借鑒。

M-A-P作為一個(gè)非營(yíng)利開源AI研究社區(qū)，通過這項(xiàng)工作證明了開源社區(qū)在推動(dòng)AI技術(shù)發(fā)展方面的重要作用。他們的努力不僅推動(dòng)了技術(shù)進(jìn)步，也體現(xiàn)了科學(xué)研究的開放精神和社會(huì)責(zé)任感。

這項(xiàng)研究的影響力也得到了學(xué)術(shù)界的認(rèn)可。論文一經(jīng)發(fā)布就引起了廣泛關(guān)注，許多研究者開始基于COIG-P進(jìn)行進(jìn)一步的研究工作。這種學(xué)術(shù)影響力的擴(kuò)散，將進(jìn)一步推動(dòng)中文AI技術(shù)的發(fā)展。

說到底，科學(xué)技術(shù)的進(jìn)步需要開放合作，M-A-P團(tuán)隊(duì)的這項(xiàng)工作為中文AI社區(qū)樹立了一個(gè)優(yōu)秀的榜樣。通過他們的努力，中文AI不再是少數(shù)大公司的專利，而是成為了整個(gè)社區(qū)共同推進(jìn)的事業(yè)。

在人工智能技術(shù)日新月異的今天，COIG-P的出現(xiàn)為中文AI發(fā)展注入了強(qiáng)大動(dòng)力。這不僅僅是一個(gè)技術(shù)成果，更是開源精神和協(xié)作理念的勝利。通過這種方式，中文AI正在快速縮小與英文AI的差距，為全球AI技術(shù)的均衡發(fā)展做出了重要貢獻(xiàn)。

研究團(tuán)隊(duì)表示，他們將繼續(xù)擴(kuò)展COIG-P數(shù)據(jù)集，覆蓋更多領(lǐng)域和任務(wù)類型，同時(shí)也會(huì)持續(xù)優(yōu)化數(shù)據(jù)構(gòu)建流程和獎(jiǎng)勵(lì)模型。隨著越來越多的研究者加入這個(gè)開源生態(tài)，我們有理由相信，中文AI的未來將更加光明。有興趣的讀者可以通過https://github.com/multimodal-art-projection/COIG-P訪問完整的項(xiàng)目資源，加入到這個(gè)推動(dòng)中文AI發(fā)展的開源行列中來。

Q&A

Q1：COIG-P是什么？它解決了什么問題？ A：COIG-P是一個(gè)包含100萬(wàn)個(gè)中文偏好樣本對(duì)的大規(guī)模數(shù)據(jù)集，專門用于訓(xùn)練AI理解人類偏好。它解決了中文AI訓(xùn)練數(shù)據(jù)稀缺、質(zhì)量不高的問題，讓AI能更好地按照人類期望進(jìn)行中文對(duì)話和任務(wù)執(zhí)行。

Q2：COIG-P的數(shù)據(jù)是怎么制作的？質(zhì)量靠譜嗎？ A：研究團(tuán)隊(duì)使用15個(gè)不同的AI模型生成回答，再用8個(gè)AI模型作為評(píng)委打分，最后選出質(zhì)量差異明顯的樣本對(duì)。經(jīng)過人工驗(yàn)證，AI評(píng)委的判斷準(zhǔn)確率超過90%，證明數(shù)據(jù)質(zhì)量很高。

Q3：普通開發(fā)者能用COIG-P嗎？有什么要求？ A：完全可以！COIG-P完全開源免費(fèi)，任何人都可以通過GitHub下載使用。研究團(tuán)隊(duì)還提供了詳細(xì)的使用文檔和訓(xùn)練代碼，普通開發(fā)者也能輕松上手，用來訓(xùn)練自己的中文AI模型。

中文人工智能偏好數(shù)據(jù)集大語(yǔ)言模型訓(xùn)練AI協(xié)作評(píng)分系統(tǒng)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

^{<sub id="odqyz"></sub>}