這項(xiàng)由M-A-P(多模態(tài)藝術(shù)投影)社區(qū)和2077AI公司聯(lián)合推出的研究成果,于2025年4月發(fā)表在arXiv平臺(tái)上,論文編號(hào)為arXiv:2504.05535v1。有興趣深入了解的讀者可以通過https://github.com/multimodal-art-projection/COIG-P訪問完整的代碼和數(shù)據(jù)。
當(dāng)你跟AI聊天時(shí),有沒有發(fā)現(xiàn)中文AI總是沒有英文AI那么"聰明"?明明問的是同樣的問題,英文AI回答得頭頭是道,換成中文就顯得磕磕絆絆。這個(gè)現(xiàn)象背后隱藏著一個(gè)重要問題:缺乏高質(zhì)量的中文訓(xùn)練數(shù)據(jù)。
想象一下,如果你想訓(xùn)練一個(gè)會(huì)說中文的外國(guó)朋友,但手頭只有幾本破舊的中文教材,而且內(nèi)容質(zhì)量參差不齊,那這個(gè)朋友學(xué)出來的中文肯定是半吊子水平。這正是目前中文AI面臨的困境。雖然中文是世界上使用人數(shù)最多的語(yǔ)言之一,但在AI訓(xùn)練領(lǐng)域,高質(zhì)量的中文偏好數(shù)據(jù)卻極度稀缺。
M-A-P團(tuán)隊(duì)注意到了這個(gè)問題的嚴(yán)重性。他們發(fā)現(xiàn),現(xiàn)有的中文偏好數(shù)據(jù)集不僅數(shù)量少得可憐,質(zhì)量也令人擔(dān)憂。更糟糕的是,許多數(shù)據(jù)集都來自單一來源,就像只讀一家報(bào)紙就想了解整個(gè)世界一樣,這樣的數(shù)據(jù)根本無(wú)法支撐AI全面理解中文的復(fù)雜性和豐富性。
傳統(tǒng)的解決方案是雇傭大量人工標(biāo)注員,讓他們判斷哪些AI回答更好,哪些更差。但這種方法成本高昂,效率低下,而且人工標(biāo)注的一致性很難保證。就好比讓一千個(gè)人評(píng)價(jià)同一道菜,每個(gè)人的口味不同,給出的評(píng)分自然千差萬(wàn)別。
面對(duì)這個(gè)挑戰(zhàn),M-A-P團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:既然人工標(biāo)注有這么多問題,為什么不讓AI來幫AI打分呢?他們?cè)O(shè)計(jì)了一套完全基于大語(yǔ)言模型的中文偏好數(shù)據(jù)標(biāo)注流程,就像組織了一場(chǎng)AI之間的"品鑒大會(huì)"。
這個(gè)創(chuàng)新的流程是這樣工作的。研究團(tuán)隊(duì)首先精心收集了92,784個(gè)高質(zhì)量的中文問題,這些問題涵蓋了日常對(duì)話、編程、數(shù)學(xué)、邏輯推理、小說續(xù)寫和角色扮演六個(gè)不同領(lǐng)域。接著,他們召集了15個(gè)不同的大語(yǔ)言模型,包括GPT-4、Claude、Qwen等知名模型,讓它們針對(duì)每個(gè)問題生成各種各樣的回答。
有趣的是,為了確保評(píng)分的公正性,研究團(tuán)隊(duì)又從這15個(gè)模型中挑選了8個(gè)作為"評(píng)委",讓它們對(duì)所有回答進(jìn)行打分。這就像一場(chǎng)烹飪比賽,既有廚師參賽,也有廚師當(dāng)評(píng)委,通過專業(yè)人士的眼光來判斷哪道菜更美味。
通過這種方法,研究團(tuán)隊(duì)最終構(gòu)建了COIG-P數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了超過100萬(wàn)個(gè)中文偏好樣本對(duì)。每個(gè)樣本對(duì)都包含一個(gè)問題和兩個(gè)回答:一個(gè)被AI評(píng)委們認(rèn)為更好的"優(yōu)選回答",以及一個(gè)相對(duì)較差的"非優(yōu)選回答"。
一、數(shù)據(jù)收集:像偵探一樣搜尋高質(zhì)量線索
構(gòu)建高質(zhì)量數(shù)據(jù)集的第一步,就像一個(gè)偵探收集線索一樣關(guān)鍵。M-A-P團(tuán)隊(duì)深知,垃圾進(jìn)垃圾出的道理在AI訓(xùn)練中尤其明顯。如果用低質(zhì)量的問題訓(xùn)練AI,最終得到的也只能是一個(gè)"糊涂"的AI助手。
研究團(tuán)隊(duì)采用了多管齊下的策略來收集中文問題。他們首先從中國(guó)最受歡迎的問答平臺(tái)入手,包括百度知道、知乎和百度貼吧等,這些平臺(tái)就像一個(gè)巨大的問題寶庫(kù),記錄著中國(guó)網(wǎng)民在日常生活中遇到的各種疑問。從法律咨詢到技術(shù)討論,從生活小貼士到學(xué)術(shù)問題,應(yīng)有盡有。
除了從這些平臺(tái)收集問題,團(tuán)隊(duì)還從中國(guó)的公務(wù)員考試題庫(kù)中提取了邏輯推理類問題。這些題目經(jīng)過嚴(yán)格設(shè)計(jì),邏輯性強(qiáng),正好可以測(cè)試AI的推理能力。同時(shí),他們也將一些優(yōu)秀的英文數(shù)據(jù)集翻譯成中文,比如HotpotQA和角色扮演數(shù)據(jù)集,確保問題的多樣性和國(guó)際化視野。
但是,僅僅收集問題還不夠,質(zhì)量控制才是關(guān)鍵。研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的篩選流程,就像篩選優(yōu)質(zhì)大米一樣,要把那些有問題的"壞米粒"挑出來。
首先是去重處理。他們使用了先進(jìn)的語(yǔ)義相似度計(jì)算方法,確保收集到的問題不會(huì)重復(fù)。這就像清理衣櫥時(shí)要把相同的衣服挑出來一樣,避免數(shù)據(jù)集中出現(xiàn)大量重復(fù)內(nèi)容。
接著是質(zhì)量評(píng)估。團(tuán)隊(duì)使用Qwen2-72B這個(gè)強(qiáng)大的AI模型來給每個(gè)問題打分,標(biāo)準(zhǔn)很簡(jiǎn)單:這個(gè)問題是不是一個(gè)普通用戶可能會(huì)問的?那些表述不清楚、包含敏感內(nèi)容或者過于奇怪的問題都被篩掉了。
經(jīng)過這道道關(guān)卡的篩選,最終有92,784個(gè)高質(zhì)量問題脫穎而出。這些問題被精心分配到六個(gè)不同的領(lǐng)域:對(duì)話類問題最多,占了37,323個(gè),這反映了人們?cè)谌粘I钪凶畛S肁I來進(jìn)行對(duì)話交流;數(shù)學(xué)問題有27,259個(gè),說明學(xué)習(xí)和教育是AI應(yīng)用的重要場(chǎng)景;其他領(lǐng)域如邏輯推理、角色扮演、編程和小說續(xù)寫也都有數(shù)千個(gè)問題,確保了數(shù)據(jù)集的全面性。
這種精心設(shè)計(jì)的收集策略確保了COIG-P數(shù)據(jù)集不僅規(guī)模龐大,而且質(zhì)量上乘。就像一位經(jīng)驗(yàn)豐富的偵探收集到的線索一樣,每一條都經(jīng)過仔細(xì)驗(yàn)證,為后續(xù)的AI訓(xùn)練打下了堅(jiān)實(shí)的基礎(chǔ)。
二、多模型協(xié)作:組織一場(chǎng)AI之間的智慧競(jìng)賽
收集到高質(zhì)量問題后,接下來就是讓不同的AI模型來"過招"了。M-A-P團(tuán)隊(duì)的策略非常巧妙:既然每個(gè)AI模型都有自己的特色和強(qiáng)項(xiàng),為什么不讓它們各顯神通,然后再?gòu)闹羞x出最好的回答呢?
研究團(tuán)隊(duì)召集了15個(gè)來自不同公司、具有不同特色的大語(yǔ)言模型。這個(gè)陣容可以說是AI界的"全明星隊(duì)":有來自O(shè)penAI的GPT系列,包括GPT-3.5、GPT-4和最新的GPT-4o;有谷歌的Gemini 1.5-Pro;有Anthropic的Claude3.5;還有中國(guó)本土的優(yōu)秀模型,如阿里的Qwen系列、百度的文心一言、智譜的GLM-4等等。
這些模型就像不同專業(yè)背景的專家,有的擅長(zhǎng)邏輯推理,有的在創(chuàng)意寫作方面表現(xiàn)出色,有的則在編程任務(wù)上游刃有余。讓它們針對(duì)同一個(gè)問題生成回答,就像邀請(qǐng)不同領(lǐng)域的專家參加一場(chǎng)學(xué)術(shù)研討會(huì),每個(gè)人都會(huì)從自己的角度給出獨(dú)特的見解。
比如,當(dāng)面對(duì)一個(gè)數(shù)學(xué)問題時(shí),有些模型可能會(huì)給出嚴(yán)謹(jǐn)?shù)闹鸩酵茖?dǎo)過程,而另一些模型可能會(huì)提供更直觀的解釋方法。當(dāng)遇到創(chuàng)意寫作任務(wù)時(shí),不同模型生成的文本風(fēng)格、情節(jié)設(shè)計(jì)和文學(xué)表現(xiàn)力也會(huì)截然不同。這種多樣性正是構(gòu)建高質(zhì)量偏好數(shù)據(jù)集所需要的。
但是,如何從這么多回答中判斷哪個(gè)更好呢?這就需要一群"AI評(píng)委"來發(fā)揮作用了。研究團(tuán)隊(duì)從15個(gè)生成模型中挑選了8個(gè)表現(xiàn)最穩(wěn)定、判斷力最強(qiáng)的模型作為評(píng)委,包括Claude3.5、DeepSeek-V2、Doubao-Pro、GLM-4、GPT-4o、GPT-4-Turbo、Qwen2-72B-Instruct和Moonshot。
這8個(gè)評(píng)委模型的工作方式很像奧運(yùn)會(huì)的評(píng)分制度。針對(duì)每個(gè)領(lǐng)域,研究團(tuán)隊(duì)都設(shè)計(jì)了專門的評(píng)分標(biāo)準(zhǔn)和提示詞。比如,在評(píng)價(jià)編程代碼時(shí),評(píng)委會(huì)從代碼的正確性、可執(zhí)行性、完整性和代碼質(zhì)量四個(gè)維度進(jìn)行打分;在評(píng)價(jià)數(shù)學(xué)解答時(shí),則會(huì)重點(diǎn)關(guān)注解題思路的正確性、步驟的完整性、表述的清晰性和教學(xué)價(jià)值。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn),使用多個(gè)AI模型作為評(píng)委比依賴單一模型要可靠得多。就像法庭上需要多名陪審員一樣,多個(gè)評(píng)委可以減少個(gè)體偏見,提高判斷的準(zhǔn)確性。通過大量測(cè)試,他們發(fā)現(xiàn)當(dāng)8個(gè)評(píng)委的平均分差達(dá)到2分以上時(shí),選出的"優(yōu)選"和"非優(yōu)選"回答對(duì)比就非常明顯了。
這種多模型協(xié)作的方式不僅提高了數(shù)據(jù)質(zhì)量,還大大降低了成本。如果用人工標(biāo)注,100萬(wàn)個(gè)樣本對(duì)至少需要幾百名專業(yè)標(biāo)注員工作數(shù)月,成本高達(dá)數(shù)百萬(wàn)元。而使用AI評(píng)委,不僅效率高,而且標(biāo)準(zhǔn)一致,避免了人工標(biāo)注中常見的主觀性和不一致性問題。
通過這種"AI選AI"的創(chuàng)新方式,COIG-P數(shù)據(jù)集中的每個(gè)樣本對(duì)都經(jīng)過了嚴(yán)格的質(zhì)量把關(guān),確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量。
三、領(lǐng)域?qū)I(yè)化:為不同任務(wù)量身定制評(píng)分標(biāo)準(zhǔn)
就像評(píng)價(jià)一道川菜和一道粵菜需要不同標(biāo)準(zhǔn)一樣,評(píng)價(jià)AI在不同領(lǐng)域的表現(xiàn)也需要專門的評(píng)分體系。M-A-P團(tuán)隊(duì)深知這個(gè)道理,因此為六個(gè)不同領(lǐng)域分別設(shè)計(jì)了專門的評(píng)分提示詞和標(biāo)準(zhǔn)。
在日常對(duì)話領(lǐng)域,評(píng)分標(biāo)準(zhǔn)就像評(píng)價(jià)一個(gè)朋友的談話質(zhì)量。首先看安全性,確?;卮鸩话魏斡泻虿划?dāng)內(nèi)容;然后看有用性,回答是否真正幫助到了提問者;最后看正確性和完整性,回答是否基于事實(shí),是否完整回應(yīng)了問題的所有方面。評(píng)分從1分到10分,就像給朋友的聊天水平打分一樣。
數(shù)學(xué)領(lǐng)域的評(píng)分則更像批改學(xué)生作業(yè)。重點(diǎn)關(guān)注四個(gè)方面:解題思路是否正確,如果最終答案錯(cuò)誤,最高只能給5分;解題過程是否完整,包括關(guān)鍵步驟和推導(dǎo)過程;表述是否清晰,公式符號(hào)使用是否規(guī)范;是否有教學(xué)價(jià)值,能否幫助讀者理解重要概念。
編程任務(wù)的評(píng)分標(biāo)準(zhǔn)就像評(píng)價(jià)一個(gè)程序員的代碼質(zhì)量。安全性依然是第一位的,代碼不能包含任何惡意內(nèi)容;然后看正確性,代碼邏輯是否正確,能否實(shí)現(xiàn)預(yù)期功能;可執(zhí)行性也很重要,代碼能否在合理環(huán)境中正常運(yùn)行;最后看代碼質(zhì)量,包括結(jié)構(gòu)是否清晰、命名是否規(guī)范、是否有明顯的冗余或重復(fù)。
邏輯推理任務(wù)的評(píng)分更像評(píng)價(jià)一個(gè)律師的論證能力。推理過程是否嚴(yán)密,結(jié)論是否正確,是否存在邏輯漏洞或跳躍,是否覆蓋了所有關(guān)鍵前提條件,這些都是重要的評(píng)分標(biāo)準(zhǔn)。
小說續(xù)寫的評(píng)分則像文學(xué)評(píng)論家的工作。首先確保內(nèi)容安全無(wú)害,然后看連貫性,續(xù)寫內(nèi)容是否與原文邏輯連貫、自然銜接;語(yǔ)言質(zhì)量也很重要,表達(dá)是否通順,是否具有一定的文學(xué)性;創(chuàng)意性同樣關(guān)鍵,內(nèi)容是否有吸引力,能否激發(fā)讀者興趣;最后看完整性,雖然是片段續(xù)寫,但應(yīng)該構(gòu)成相對(duì)完整的情節(jié)段落。
角色扮演任務(wù)的評(píng)分最有趣,就像評(píng)價(jià)一個(gè)演員的表演水平。設(shè)定一致性是核心,回答是否嚴(yán)格遵循角色身份、背景和行為邏輯;情境代入感也很重要,是否能維持良好的沉浸感和趣味性;語(yǔ)言表現(xiàn)力同樣關(guān)鍵,是否語(yǔ)言生動(dòng),是否契合角色風(fēng)格和身份特征;最后看有用性,在保持角色設(shè)定的基礎(chǔ)上,是否能滿足用戶的互動(dòng)需求。
這種分領(lǐng)域的專業(yè)化評(píng)分確保了不同類型任務(wù)都能得到公正、準(zhǔn)確的評(píng)價(jià)。就像奧運(yùn)會(huì)中體操和游泳有不同的評(píng)分標(biāo)準(zhǔn)一樣,這種針對(duì)性的評(píng)分體系讓COIG-P數(shù)據(jù)集的質(zhì)量控制更加精準(zhǔn)和可靠。
四、質(zhì)量驗(yàn)證:用人工檢驗(yàn)AI的判斷力
雖然AI評(píng)委的效率很高,但它們的判斷究竟靠不靠譜呢?M-A-P團(tuán)隊(duì)當(dāng)然不會(huì)盲目相信機(jī)器的判斷,他們?cè)O(shè)計(jì)了一套人工驗(yàn)證流程來檢驗(yàn)AI評(píng)委的準(zhǔn)確性。
研究團(tuán)隊(duì)招募了兩名自然語(yǔ)言處理領(lǐng)域的研究生作為人工評(píng)審員。這兩位評(píng)審員就像"質(zhì)檢員"一樣,從數(shù)據(jù)集中隨機(jī)抽取了240個(gè)樣本進(jìn)行人工評(píng)估,每個(gè)領(lǐng)域40個(gè)樣本,確保覆蓋所有任務(wù)類型。
評(píng)審標(biāo)準(zhǔn)很直接:AI選出的"優(yōu)選回答"是否真的比"非優(yōu)選回答"更好?這個(gè)問題的答案決定了整個(gè)數(shù)據(jù)集的可信度。同時(shí),評(píng)審員還要檢查"優(yōu)選回答"本身是否正確,畢竟一個(gè)錯(cuò)誤的答案即使相對(duì)更好,也不應(yīng)該被當(dāng)作標(biāo)準(zhǔn)答案。
驗(yàn)證結(jié)果令人振奮。整體來說,AI評(píng)委的判斷準(zhǔn)確率達(dá)到了90.83%,這意味著在10個(gè)判斷中,有超過9個(gè)是正確的。具體到各個(gè)領(lǐng)域,編程和對(duì)話領(lǐng)域的準(zhǔn)確率最高,都達(dá)到了95%;邏輯推理、小說續(xù)寫和角色扮演領(lǐng)域的準(zhǔn)確率為90%;數(shù)學(xué)領(lǐng)域稍低一些,但也達(dá)到了85%。
這個(gè)結(jié)果說明了什么?首先,AI評(píng)委在大多數(shù)情況下都能做出正確的判斷,它們的"審美"和人類專家基本一致。其次,不同領(lǐng)域的難度確實(shí)不同,編程和對(duì)話這類相對(duì)客觀的任務(wù)更容易評(píng)判,而數(shù)學(xué)這類需要嚴(yán)格邏輯推理的任務(wù)稍微困難一些。
更重要的是,這個(gè)90%以上的準(zhǔn)確率已經(jīng)超過了許多人工標(biāo)注項(xiàng)目的一致性水平。在實(shí)際的人工標(biāo)注工作中,不同標(biāo)注員之間的一致性往往只有80-85%,因?yàn)槊總€(gè)人的判斷標(biāo)準(zhǔn)和偏好都不完全相同。AI評(píng)委的優(yōu)勢(shì)在于標(biāo)準(zhǔn)統(tǒng)一、不受情緒影響,而且可以24小時(shí)不間斷工作。
為了進(jìn)一步驗(yàn)證數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的對(duì)比實(shí)驗(yàn)。他們讓自己訓(xùn)練的中文獎(jiǎng)勵(lì)模型(CRM)和GPT-4o分別對(duì)同一批測(cè)試數(shù)據(jù)進(jìn)行篩選,結(jié)果發(fā)現(xiàn)兩者的選擇高度一致,這進(jìn)一步證明了COIG-P數(shù)據(jù)集的高質(zhì)量。
這種嚴(yán)格的質(zhì)量驗(yàn)證機(jī)制確保了COIG-P不是一個(gè)"紙面上的成功",而是真正經(jīng)得起實(shí)戰(zhàn)檢驗(yàn)的高質(zhì)量數(shù)據(jù)集。
五、實(shí)戰(zhàn)效果:讓數(shù)字說話的訓(xùn)練成果
一個(gè)數(shù)據(jù)集好不好,最終還是要看訓(xùn)練出來的AI表現(xiàn)如何。M-A-P團(tuán)隊(duì)選擇了目前最權(quán)威的中文AI能力評(píng)測(cè)基準(zhǔn)AlignBench來驗(yàn)證COIG-P的實(shí)際效果。這就像用高考來檢驗(yàn)教學(xué)質(zhì)量一樣,AlignBench能夠全面評(píng)估AI在中文環(huán)境下的對(duì)話能力、推理能力和語(yǔ)言理解能力。
研究團(tuán)隊(duì)選擇了幾個(gè)代表性的模型進(jìn)行測(cè)試,包括阿里的Qwen2和Qwen2.5系列,以及專門優(yōu)化過的Infinity-Instruct-3M-0625系列模型。這些模型都是7-8B參數(shù)規(guī)模,在性能和計(jì)算成本之間取得了很好的平衡。
測(cè)試結(jié)果可以說是相當(dāng)驚艷。使用COIG-P數(shù)據(jù)集訓(xùn)練后,所有模型的性能都得到了顯著提升。其中最令人印象深刻的是Infinity-Instruct-3M-0625-Llama3-8B模型,性能提升幅度達(dá)到了12.27%,這在AI訓(xùn)練領(lǐng)域是非常罕見的大幅改進(jìn)。
即使是本身就很強(qiáng)大的Qwen2.5-7B-Instruct模型,使用COIG-P訓(xùn)練后整體性能也提升了2.03%。別小看這2%的提升,對(duì)于已經(jīng)高度優(yōu)化的先進(jìn)模型來說,哪怕1%的改進(jìn)都需要巨大的努力。這就像奧運(yùn)會(huì)百米賽跑,要把9.80秒提升到9.78秒,難度是極大的。
更有趣的是,COIG-P的效果在不同任務(wù)類型上表現(xiàn)出了不同的特點(diǎn)。對(duì)于相對(duì)較弱的模型,COIG-P能夠幫助它們?cè)诟鱾€(gè)子任務(wù)上都獲得全面提升,就像一個(gè)全科補(bǔ)習(xí)班,讓偏科學(xué)生變成全面發(fā)展的好學(xué)生。而對(duì)于已經(jīng)很強(qiáng)的模型,COIG-P主要提升了它們的推理能力,雖然在某些基礎(chǔ)語(yǔ)言任務(wù)上可能會(huì)有微小的下降,但總體效果是正向的。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)重要的對(duì)比實(shí)驗(yàn),將COIG-P與其他現(xiàn)有的中文偏好數(shù)據(jù)集進(jìn)行比較。結(jié)果顯示,大多數(shù)現(xiàn)有數(shù)據(jù)集不僅沒有提升模型性能,反而讓模型表現(xiàn)變差了。只有COIG-P和另一個(gè)叫ZAKE的數(shù)據(jù)集能夠帶來正面效果,而COIG-P的效果明顯更好。
這個(gè)對(duì)比結(jié)果揭示了一個(gè)重要問題:不是所有的數(shù)據(jù)都是好數(shù)據(jù),低質(zhì)量的訓(xùn)練數(shù)據(jù)甚至?xí)p害AI的能力。這就像給學(xué)生提供錯(cuò)誤的教材,不僅學(xué)不到正確知識(shí),還會(huì)形成錯(cuò)誤的認(rèn)知。COIG-P的成功恰恰證明了高質(zhì)量數(shù)據(jù)的重要性。
為了確保實(shí)驗(yàn)結(jié)果的可靠性,研究團(tuán)隊(duì)使用了嚴(yán)格的實(shí)驗(yàn)設(shè)置。每個(gè)模型都在相同的硬件環(huán)境下訓(xùn)練一個(gè)完整的周期,總計(jì)使用了約2000個(gè)GPU小時(shí)。超參數(shù)設(shè)置也經(jīng)過了仔細(xì)調(diào)優(yōu),確保每個(gè)模型都能發(fā)揮出最佳性能。
這些實(shí)驗(yàn)結(jié)果不僅驗(yàn)證了COIG-P數(shù)據(jù)集的優(yōu)秀質(zhì)量,也為中文AI發(fā)展提供了重要的技術(shù)路徑。
六、創(chuàng)新獎(jiǎng)勵(lì)模型:培養(yǎng)專業(yè)的AI"品鑒師"
雖然使用大型AI模型作為評(píng)委效果很好,但成本也相當(dāng)高昂。每次評(píng)分都需要調(diào)用GPT-4或Claude這樣的頂級(jí)模型,就像每次做菜都請(qǐng)米其林三星大廚來品嘗一樣,雖然專業(yè)但代價(jià)不菲。為了解決這個(gè)問題,M-A-P團(tuán)隊(duì)決定培養(yǎng)自己的AI"品鑒師"。
他們基于Llama3.1-8B-Instruct模型,使用COIG-P數(shù)據(jù)集的一半樣本,訓(xùn)練出了一個(gè)專門的中文獎(jiǎng)勵(lì)模型(CRM)。這個(gè)過程就像培養(yǎng)一個(gè)專業(yè)的品酒師,通過大量的品嘗和對(duì)比訓(xùn)練,讓它能夠準(zhǔn)確判斷不同回答的質(zhì)量高低。
訓(xùn)練方法采用了經(jīng)典的Bradley-Terry模型,這是一種專門用于比較和排序的數(shù)學(xué)方法。簡(jiǎn)單來說,就是讓AI學(xué)會(huì)"比較"的藝術(shù),不僅要知道一個(gè)回答是好是壞,更要能判斷兩個(gè)回答哪個(gè)更好。
為了全面評(píng)估這個(gè)中文獎(jiǎng)勵(lì)模型的能力,研究團(tuán)隊(duì)還專門構(gòu)建了一個(gè)中文獎(jiǎng)勵(lì)評(píng)估基準(zhǔn)(CRBench)。他們從數(shù)據(jù)集中隨機(jī)選擇了5000個(gè)樣本,然后招募了三名研究生進(jìn)行人工標(biāo)注。標(biāo)注標(biāo)準(zhǔn)很嚴(yán)格:?jiǎn)栴}必須表述清楚,不涉及敏感話題;優(yōu)選回答必須正確;優(yōu)選回答確實(shí)要比非優(yōu)選回答更符合人類偏好。經(jīng)過嚴(yán)格篩選,最終得到了1040個(gè)高質(zhì)量的評(píng)估樣本。
在CRBench上的測(cè)試結(jié)果令人驚喜。中文獎(jiǎng)勵(lì)模型CRM在所有開源的判別性獎(jiǎng)勵(lì)模型中表現(xiàn)最佳,總體準(zhǔn)確率達(dá)到69.71%。雖然與GPT-4o的86.73%還有差距,但已經(jīng)超過了許多知名的開源獎(jiǎng)勵(lì)模型,比如ArmoRM-Llama3-8B(44.13%)和Skywork-Reward-Llama-3.1-8B(54.13%)。
更重要的是,當(dāng)把CRM應(yīng)用到實(shí)際的數(shù)據(jù)篩選任務(wù)中時(shí),它的表現(xiàn)與GPT-4o非常接近。使用CRM篩選的數(shù)據(jù)訓(xùn)練出來的模型在AlignBench上的得分為5.26,而使用GPT-4o篩選的數(shù)據(jù)訓(xùn)練出來的模型得分為5.28,差距微乎其微。
這個(gè)結(jié)果說明了什么?首先,雖然CRM在某些細(xì)節(jié)判斷上可能不如GPT-4o精準(zhǔn),但在實(shí)際應(yīng)用中完全夠用。其次,CRM的效率優(yōu)勢(shì)明顯,使用CRM處理43萬(wàn)個(gè)樣本只需要40個(gè)A800 GPU小時(shí),而調(diào)用GPT-4o處理同樣數(shù)量的樣本不僅成本高昂,還受到API調(diào)用限制。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:CRM在不同領(lǐng)域的表現(xiàn)差異很大。在編程和對(duì)話領(lǐng)域,CRM的準(zhǔn)確率能達(dá)到79%和92%,幾乎接近人類專家水平;但在角色扮演和小說續(xù)寫這類主觀性較強(qiáng)的任務(wù)上,準(zhǔn)確率只有43%和62%。這提醒我們,AI的能力發(fā)展并不是均勻的,在邏輯性強(qiáng)的任務(wù)上AI更容易達(dá)到人類水平,而在需要?jiǎng)?chuàng)意和主觀判斷的任務(wù)上還有很大提升空間。
這個(gè)中文獎(jiǎng)勵(lì)模型的成功,為中文AI社區(qū)提供了一個(gè)重要的工具。其他研究者可以使用CRM來構(gòu)建自己的偏好數(shù)據(jù)集,而不需要依賴昂貴的商業(yè)API,這大大降低了中文AI研究的門檻。
七、技術(shù)細(xì)節(jié):揭秘訓(xùn)練過程的精妙設(shè)計(jì)
雖然COIG-P的核心思想聽起來簡(jiǎn)單,但要在實(shí)際中實(shí)現(xiàn)高質(zhì)量的結(jié)果,還需要許多精妙的技術(shù)設(shè)計(jì)。就像做一道看似簡(jiǎn)單的家常菜,真正做得美味需要掌握火候、調(diào)料配比等諸多細(xì)節(jié)。
首先是數(shù)據(jù)配對(duì)的技巧。研究團(tuán)隊(duì)發(fā)現(xiàn),并不是所有的"優(yōu)選"和"非優(yōu)選"回答對(duì)都適合用于訓(xùn)練。如果兩個(gè)回答質(zhì)量相差太小,AI很難學(xué)到明確的偏好信號(hào);如果相差太大,又可能學(xué)到過于極端的判斷標(biāo)準(zhǔn)。經(jīng)過大量實(shí)驗(yàn),他們確定了最優(yōu)的分?jǐn)?shù)差閾值:只有當(dāng)兩個(gè)回答的評(píng)分差距超過2分時(shí),這對(duì)數(shù)據(jù)才會(huì)被納入最終的數(shù)據(jù)集。
這個(gè)閾值的選擇非常關(guān)鍵。研究團(tuán)隊(duì)用不同的閾值訓(xùn)練了多個(gè)模型,發(fā)現(xiàn)閾值為2時(shí)效果最好。閾值太低(比如1分)會(huì)引入太多模糊的對(duì)比樣本,讓AI學(xué)不到清晰的偏好信號(hào);閾值太高(比如3分或4分)又會(huì)讓可用的訓(xùn)練樣本大幅減少,影響訓(xùn)練效果。
訓(xùn)練方法的選擇也經(jīng)過了精心考慮。研究團(tuán)隊(duì)使用了目前最流行的DPO(Direct Preference Optimization)方法,這種方法可以直接從偏好數(shù)據(jù)中學(xué)習(xí),避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的復(fù)雜性和不穩(wěn)定性。DPO就像一個(gè)高效的學(xué)習(xí)方法,讓AI能夠直接理解"什么樣的回答更好",而不需要經(jīng)過復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。
超參數(shù)的調(diào)優(yōu)也花費(fèi)了大量精力。經(jīng)過反復(fù)實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)不同模型需要不同的學(xué)習(xí)率設(shè)置。對(duì)于Qwen2和Qwen2.5系列模型,最優(yōu)學(xué)習(xí)率是1e-6;而對(duì)于其他模型,1e-7的學(xué)習(xí)率效果更好。這看似微小的差別,實(shí)際上對(duì)最終效果有著重要影響。學(xué)習(xí)率就像控制學(xué)習(xí)速度的調(diào)節(jié)器,太快可能"囫圇吞棗"學(xué)不扎實(shí),太慢又可能效率低下。
為了確保實(shí)驗(yàn)結(jié)果的可重復(fù)性,研究團(tuán)隊(duì)使用了統(tǒng)一的計(jì)算環(huán)境。所有模型都在A800 GPU上進(jìn)行全參數(shù)微調(diào),每個(gè)模型訓(xùn)練一個(gè)完整的周期(epoch)。這種標(biāo)準(zhǔn)化的實(shí)驗(yàn)設(shè)置確保了不同模型之間的對(duì)比是公平的,也讓其他研究者能夠復(fù)現(xiàn)這些結(jié)果。
數(shù)據(jù)預(yù)處理也有許多巧思。除了基本的清洗和格式化,研究團(tuán)隊(duì)還對(duì)不同領(lǐng)域的數(shù)據(jù)進(jìn)行了均衡處理。雖然對(duì)話類數(shù)據(jù)數(shù)量最多,但在最終的訓(xùn)練集中,各個(gè)領(lǐng)域的比例被調(diào)整得相對(duì)均衡,避免模型過度偏向某一類任務(wù)。
另一個(gè)重要的技術(shù)細(xì)節(jié)是評(píng)分提示詞的設(shè)計(jì)。針對(duì)每個(gè)領(lǐng)域,研究團(tuán)隊(duì)都設(shè)計(jì)了專門的評(píng)分提示詞,詳細(xì)說明了評(píng)分標(biāo)準(zhǔn)和注意事項(xiàng)。這些提示詞經(jīng)過多輪迭代優(yōu)化,確保不同的AI評(píng)委能夠按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行評(píng)分。
這些看似繁瑣的技術(shù)細(xì)節(jié),實(shí)際上是COIG-P成功的重要保障。正是這種對(duì)細(xì)節(jié)的精益求精,才讓COIG-P在眾多數(shù)據(jù)集中脫穎而出。
八、深入分析:探索不同領(lǐng)域的獨(dú)特表現(xiàn)
通過對(duì)COIG-P訓(xùn)練效果的深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了許多有趣的現(xiàn)象,這些發(fā)現(xiàn)不僅驗(yàn)證了數(shù)據(jù)集的有效性,也為我們理解AI學(xué)習(xí)過程提供了新的洞察。
在領(lǐng)域分析實(shí)驗(yàn)中,研究團(tuán)隊(duì)進(jìn)行了一個(gè)巧妙的對(duì)比:分別用單個(gè)領(lǐng)域的數(shù)據(jù)和混合領(lǐng)域的數(shù)據(jù)訓(xùn)練模型,看看哪種方式效果更好。結(jié)果令人驚訝,混合訓(xùn)練的效果遠(yuǎn)遠(yuǎn)超過了單領(lǐng)域訓(xùn)練。這就像學(xué)習(xí)樂器時(shí),只練習(xí)一種曲風(fēng)可能會(huì)讓你在那個(gè)領(lǐng)域很專業(yè),但缺乏整體的音樂素養(yǎng);而接觸多種曲風(fēng)的學(xué)習(xí)者往往能形成更全面的音樂理解能力。
更有趣的是,有些單領(lǐng)域訓(xùn)練甚至?xí)p害模型的整體性能。這個(gè)現(xiàn)象提醒我們,AI的學(xué)習(xí)過程比我們想象的更加復(fù)雜,過度專業(yè)化可能會(huì)導(dǎo)致能力的片面發(fā)展。
在各個(gè)領(lǐng)域中,小說續(xù)寫數(shù)據(jù)表現(xiàn)出了特殊的價(jià)值。單獨(dú)使用小說續(xù)寫數(shù)據(jù)訓(xùn)練的模型在基礎(chǔ)語(yǔ)言能力上有顯著提升,這說明文學(xué)創(chuàng)作任務(wù)能夠有效提升AI的語(yǔ)言運(yùn)用能力。這就像學(xué)習(xí)古典詩(shī)詞能夠提升整體的文學(xué)素養(yǎng)一樣,創(chuàng)意寫作訓(xùn)練對(duì)AI的語(yǔ)言能力有著深層次的促進(jìn)作用。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:對(duì)于不同能力水平的模型,COIG-P的作用方式不同。對(duì)于能力相對(duì)較弱的模型,COIG-P能夠帶來全方位的提升,就像給基礎(chǔ)薄弱的學(xué)生進(jìn)行全面補(bǔ)習(xí);而對(duì)于已經(jīng)很強(qiáng)的模型,COIG-P主要提升推理能力,但可能在某些基礎(chǔ)任務(wù)上略有下降。這種現(xiàn)象被稱為"能力權(quán)衡",在AI訓(xùn)練中很常見。
在中文AI能力的國(guó)際對(duì)比中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人鼓舞的現(xiàn)象:使用COIG-P訓(xùn)練的開源中文模型與頂級(jí)的閉源模型(如GPT-4o、Claude3.5)在性能上的差距正在快速縮小。Qwen2.5-72B-Instruct在某些任務(wù)上甚至超過了Claude3.5-Sonnet。這說明中文AI生態(tài)正在快速發(fā)展,開源社區(qū)的努力正在縮小與商業(yè)巨頭的技術(shù)差距。
閾值選擇的詳細(xì)分析也揭示了有趣的規(guī)律。當(dāng)閾值從0增加到2時(shí),模型性能穩(wěn)步提升;但當(dāng)閾值超過2時(shí),性能開始下降。這個(gè)倒U型曲線反映了一個(gè)重要的平衡:既要確保訓(xùn)練數(shù)據(jù)的質(zhì)量差異明顯,又要保證有足夠的訓(xùn)練樣本。這就像調(diào)節(jié)音響的音量,太小聽不清,太大會(huì)失真,只有適中的音量才能獲得最佳的聽覺體驗(yàn)。
通過這些深入的分析,我們不僅看到了COIG-P的優(yōu)秀表現(xiàn),也對(duì)AI學(xué)習(xí)過程有了更深刻的理解。這些發(fā)現(xiàn)為未來的AI訓(xùn)練提供了重要的指導(dǎo)原則。
九、開源貢獻(xiàn):為中文AI社區(qū)搭建基礎(chǔ)設(shè)施
M-A-P團(tuán)隊(duì)的這項(xiàng)工作不僅僅是發(fā)布了一個(gè)數(shù)據(jù)集,更重要的是為整個(gè)中文AI開源社區(qū)搭建了重要的基礎(chǔ)設(shè)施。他們的開源策略非常全面,體現(xiàn)了真正的開源精神。
首先,COIG-P數(shù)據(jù)集完全開源,任何研究者和開發(fā)者都可以免費(fèi)下載使用。這打破了高質(zhì)量中文訓(xùn)練數(shù)據(jù)被少數(shù)大公司壟斷的局面,讓更多的研究者能夠平等地接觸到優(yōu)質(zhì)資源。這就像在知識(shí)的荒漠中建立了一個(gè)免費(fèi)的圖書館,讓所有求知者都能平等地獲取知識(shí)。
除了數(shù)據(jù)集本身,研究團(tuán)隊(duì)還開源了完整的數(shù)據(jù)構(gòu)建流程和代碼。這意味著其他研究者不僅可以使用COIG-P,還可以學(xué)習(xí)和改進(jìn)數(shù)據(jù)構(gòu)建方法,甚至構(gòu)建自己的專業(yè)數(shù)據(jù)集。這種知識(shí)分享的做法極大地推動(dòng)了整個(gè)社區(qū)的技術(shù)進(jìn)步。
中文獎(jiǎng)勵(lì)模型CRM的開源更是意義重大。之前,研究者們?nèi)绻胍?xùn)練自己的偏好模型,要么依賴昂貴的商業(yè)API,要么從零開始訓(xùn)練獎(jiǎng)勵(lì)模型。現(xiàn)在,他們可以直接使用CRM,或者在CRM的基礎(chǔ)上進(jìn)行進(jìn)一步優(yōu)化。這大大降低了中文AI研究的門檻。
研究團(tuán)隊(duì)還提供了詳細(xì)的技術(shù)文檔和使用指南,包括數(shù)據(jù)處理流程、模型訓(xùn)練參數(shù)、評(píng)估方法等。這些文檔就像一本詳細(xì)的操作手冊(cè),讓其他研究者能夠快速上手,避免重復(fù)造輪子。
更令人贊賞的是,研究團(tuán)隊(duì)還提供了在線演示和API接口,讓普通開發(fā)者也能夠體驗(yàn)和使用這些技術(shù)。這種從研究到應(yīng)用的完整生態(tài)系統(tǒng),為中文AI技術(shù)的普及奠定了堅(jiān)實(shí)基礎(chǔ)。
開源社區(qū)的反響也很熱烈。許多研究機(jī)構(gòu)和公司已經(jīng)開始使用COIG-P訓(xùn)練自己的模型,一些開發(fā)者也在GitHub上貢獻(xiàn)代碼改進(jìn)和使用經(jīng)驗(yàn)。這種社區(qū)協(xié)作的模式正在加速中文AI技術(shù)的發(fā)展。
從更宏觀的角度來看,COIG-P的開源對(duì)中文AI生態(tài)的意義是深遠(yuǎn)的。它不僅提供了高質(zhì)量的訓(xùn)練資源,更重要的是展示了一種可行的技術(shù)路徑:通過AI協(xié)作和開源共享,可以低成本地構(gòu)建高質(zhì)量的訓(xùn)練數(shù)據(jù)。這種模式為其他語(yǔ)言和領(lǐng)域的AI發(fā)展提供了重要借鑒。
M-A-P作為一個(gè)非營(yíng)利開源AI研究社區(qū),通過這項(xiàng)工作證明了開源社區(qū)在推動(dòng)AI技術(shù)發(fā)展方面的重要作用。他們的努力不僅推動(dòng)了技術(shù)進(jìn)步,也體現(xiàn)了科學(xué)研究的開放精神和社會(huì)責(zé)任感。
這項(xiàng)研究的影響力也得到了學(xué)術(shù)界的認(rèn)可。論文一經(jīng)發(fā)布就引起了廣泛關(guān)注,許多研究者開始基于COIG-P進(jìn)行進(jìn)一步的研究工作。這種學(xué)術(shù)影響力的擴(kuò)散,將進(jìn)一步推動(dòng)中文AI技術(shù)的發(fā)展。
說到底,科學(xué)技術(shù)的進(jìn)步需要開放合作,M-A-P團(tuán)隊(duì)的這項(xiàng)工作為中文AI社區(qū)樹立了一個(gè)優(yōu)秀的榜樣。通過他們的努力,中文AI不再是少數(shù)大公司的專利,而是成為了整個(gè)社區(qū)共同推進(jìn)的事業(yè)。
在人工智能技術(shù)日新月異的今天,COIG-P的出現(xiàn)為中文AI發(fā)展注入了強(qiáng)大動(dòng)力。這不僅僅是一個(gè)技術(shù)成果,更是開源精神和協(xié)作理念的勝利。通過這種方式,中文AI正在快速縮小與英文AI的差距,為全球AI技術(shù)的均衡發(fā)展做出了重要貢獻(xiàn)。
研究團(tuán)隊(duì)表示,他們將繼續(xù)擴(kuò)展COIG-P數(shù)據(jù)集,覆蓋更多領(lǐng)域和任務(wù)類型,同時(shí)也會(huì)持續(xù)優(yōu)化數(shù)據(jù)構(gòu)建流程和獎(jiǎng)勵(lì)模型。隨著越來越多的研究者加入這個(gè)開源生態(tài),我們有理由相信,中文AI的未來將更加光明。有興趣的讀者可以通過https://github.com/multimodal-art-projection/COIG-P訪問完整的項(xiàng)目資源,加入到這個(gè)推動(dòng)中文AI發(fā)展的開源行列中來。
Q&A
Q1:COIG-P是什么?它解決了什么問題? A:COIG-P是一個(gè)包含100萬(wàn)個(gè)中文偏好樣本對(duì)的大規(guī)模數(shù)據(jù)集,專門用于訓(xùn)練AI理解人類偏好。它解決了中文AI訓(xùn)練數(shù)據(jù)稀缺、質(zhì)量不高的問題,讓AI能更好地按照人類期望進(jìn)行中文對(duì)話和任務(wù)執(zhí)行。
Q2:COIG-P的數(shù)據(jù)是怎么制作的?質(zhì)量靠譜嗎? A:研究團(tuán)隊(duì)使用15個(gè)不同的AI模型生成回答,再用8個(gè)AI模型作為評(píng)委打分,最后選出質(zhì)量差異明顯的樣本對(duì)。經(jīng)過人工驗(yàn)證,AI評(píng)委的判斷準(zhǔn)確率超過90%,證明數(shù)據(jù)質(zhì)量很高。
Q3:普通開發(fā)者能用COIG-P嗎?有什么要求? A:完全可以!COIG-P完全開源免費(fèi),任何人都可以通過GitHub下載使用。研究團(tuán)隊(duì)還提供了詳細(xì)的使用文檔和訓(xùn)練代碼,普通開發(fā)者也能輕松上手,用來訓(xùn)練自己的中文AI模型。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。