
這項(xiàng)由中央民族大學(xué)民族語(yǔ)言智能分析與安全治理教育部重點(diǎn)實(shí)驗(yàn)室的徐桂先團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2509.09990v1。有興趣深入了解的讀者可以通過(guò)https://huggingface.co/KEVVVV/CMHG訪(fǎng)問(wèn)完整數(shù)據(jù)集,或在arXiv平臺(tái)查閱原始論文。
當(dāng)今世界,人工智能技術(shù)飛速發(fā)展,各種智能應(yīng)用如雨后春筍般涌現(xiàn)。然而,這場(chǎng)技術(shù)革命主要惠及了英語(yǔ)、中文等資源豐富的語(yǔ)言,而許多擁有龐大使用人群的語(yǔ)言卻被遺忘在角落。就像一場(chǎng)盛大宴會(huì)中,主桌上觥籌交錯(cuò),而角落里的客人卻無(wú)人問(wèn)津。中國(guó)的藏語(yǔ)、維吾爾語(yǔ)和蒙古語(yǔ)正面臨著這樣的困境。
這三種語(yǔ)言承載著深厚的文化底蘊(yùn),擁有數(shù)百萬(wàn)使用者,但在人工智能的世界里卻嚴(yán)重缺乏"食糧"——高質(zhì)量的語(yǔ)言數(shù)據(jù)。研究人員發(fā)現(xiàn),雖然這些語(yǔ)言在一些國(guó)際數(shù)據(jù)庫(kù)中有所體現(xiàn),但數(shù)量與其使用人群規(guī)模嚴(yán)重不匹配,就像用小茶杯為大象準(zhǔn)備飲水一樣杯水車(chē)薪。更令人擔(dān)憂(yōu)的是,現(xiàn)有數(shù)據(jù)質(zhì)量堪憂(yōu),比如維吾爾語(yǔ)數(shù)據(jù)中竟然有34%是哈薩克語(yǔ)或阿拉伯語(yǔ)內(nèi)容,這就像在中文課本里摻雜了大量英文段落一樣讓人困惑。
為了改變這種狀況,中央民族大學(xué)的徐桂先團(tuán)隊(duì)決定從零開(kāi)始,為這三種語(yǔ)言量身打造一套專(zhuān)門(mén)用于新聞標(biāo)題生成的數(shù)據(jù)庫(kù)。他們將這個(gè)項(xiàng)目命名為CMHG(Chinese Minority Headline Generation),寓意為中國(guó)少數(shù)民族語(yǔ)言的標(biāo)題生成資源庫(kù)。這就像為三種語(yǔ)言分別建造了一座專(zhuān)屬的圖書(shū)館,里面收藏著精心挑選的"書(shū)籍"。
研究團(tuán)隊(duì)面臨的挑戰(zhàn)可謂艱巨。他們需要收集足夠多的高質(zhì)量數(shù)據(jù),還要確保數(shù)據(jù)的準(zhǔn)確性和實(shí)用性。這個(gè)過(guò)程就像淘金一樣,需要從海量的原始材料中篩選出真正有價(jià)值的內(nèi)容。最終,他們?yōu)椴卣Z(yǔ)收集了10萬(wàn)條數(shù)據(jù),為維吾爾語(yǔ)和蒙古語(yǔ)各收集了5萬(wàn)條數(shù)據(jù),形成了一個(gè)總計(jì)20萬(wàn)條記錄的龐大數(shù)據(jù)庫(kù)。
數(shù)據(jù)收集完成后,研究團(tuán)隊(duì)并未止步于此。他們深知質(zhì)量比數(shù)量更重要,于是邀請(qǐng)了這三種語(yǔ)言的母語(yǔ)使用者作為"質(zhì)檢員",對(duì)數(shù)據(jù)進(jìn)行精細(xì)化評(píng)估。每種語(yǔ)言都有專(zhuān)門(mén)的評(píng)估團(tuán)隊(duì),他們像嚴(yán)格的編輯一樣,逐一檢查每條數(shù)據(jù)中標(biāo)題與內(nèi)容的匹配程度。這個(gè)過(guò)程就像制作高檔手表一樣精密,每個(gè)零件都必須完美契合。
一、數(shù)據(jù)來(lái)源的精心選擇
研究團(tuán)隊(duì)在數(shù)據(jù)收集方面采用了極其謹(jǐn)慎的策略。他們沒(méi)有盲目地從互聯(lián)網(wǎng)上抓取信息,而是像挑選食材的大廚一樣,精心選擇數(shù)據(jù)源頭。他們主要從政府官方網(wǎng)站和權(quán)威新聞機(jī)構(gòu)獲取內(nèi)容,這樣做的好處是確保了數(shù)據(jù)的權(quán)威性和準(zhǔn)確性。
對(duì)于藏語(yǔ),研究團(tuán)隊(duì)選擇了青海湖網(wǎng)站、中國(guó)西藏新聞網(wǎng)、苯教網(wǎng)站等具有代表性的平臺(tái)。這些網(wǎng)站就像藏語(yǔ)世界的主流媒體,內(nèi)容涵蓋了新聞、文化、宗教等多個(gè)領(lǐng)域。蒙古語(yǔ)的數(shù)據(jù)則主要來(lái)自?xún)?nèi)蒙古自治區(qū)政府網(wǎng)站以及呼倫貝爾、錫林郭勒等地區(qū)的官方網(wǎng)站。維吾爾語(yǔ)的數(shù)據(jù)源包括阿克蘇新聞網(wǎng)、努爾網(wǎng)絡(luò)、天山網(wǎng)等新疆地區(qū)的重要媒體平臺(tái)。
數(shù)據(jù)收集過(guò)程就像考古學(xué)家挖掘文物一樣細(xì)致入微。研究團(tuán)隊(duì)使用專(zhuān)門(mén)的網(wǎng)絡(luò)爬蟲(chóng)技術(shù),將網(wǎng)頁(yè)標(biāo)題作為"標(biāo)題"樣本,將正文內(nèi)容作為"內(nèi)容"樣本,形成一對(duì)一的對(duì)應(yīng)關(guān)系。這種做法的巧妙之處在于,網(wǎng)頁(yè)標(biāo)題天然具備了新聞標(biāo)題的特征——簡(jiǎn)潔、準(zhǔn)確、吸引人。
為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)制定了嚴(yán)格的清洗標(biāo)準(zhǔn)。他們首先剔除了所有非文本內(nèi)容,如廣告、彈窗、導(dǎo)航欄等干擾信息,就像從珍珠中挑出雜質(zhì)一樣。接著,他們處理重復(fù)內(nèi)容問(wèn)題,確保每條數(shù)據(jù)都是獨(dú)一無(wú)二的,避免模型訓(xùn)練時(shí)出現(xiàn)"背書(shū)"現(xiàn)象。在文本標(biāo)準(zhǔn)化方面,他們統(tǒng)一了字符編碼,清理了多余的空格和格式錯(cuò)誤,讓所有數(shù)據(jù)呈現(xiàn)出整齊劃一的外觀。
最關(guān)鍵的是語(yǔ)言純度檢查。研究團(tuán)隊(duì)發(fā)現(xiàn),許多現(xiàn)有的語(yǔ)言識(shí)別工具在處理這三種少數(shù)民族語(yǔ)言時(shí)存在較高的誤判率,就像色盲患者很難準(zhǔn)確區(qū)分相似顏色一樣。因此,他們采用了基于規(guī)則的過(guò)濾方法,并在訓(xùn)練數(shù)據(jù)中適度保留一些"噪音",這樣反而能提高模型的魯棒性,讓模型在面對(duì)真實(shí)世界的不完美數(shù)據(jù)時(shí)表現(xiàn)更好。
二、嚴(yán)格的質(zhì)量評(píng)估體系
收集到原始數(shù)據(jù)只是萬(wàn)里長(zhǎng)征的第一步,真正的挑戰(zhàn)在于質(zhì)量評(píng)估。研究團(tuán)隊(duì)為此建立了一套堪比國(guó)際標(biāo)準(zhǔn)的評(píng)估體系,每種語(yǔ)言都有專(zhuān)門(mén)的母語(yǔ)評(píng)估團(tuán)隊(duì),就像奧運(yùn)會(huì)需要各國(guó)裁判一樣確保公正性。
評(píng)估過(guò)程采用了7分制評(píng)分系統(tǒng),這個(gè)系統(tǒng)設(shè)計(jì)得非常人性化。1分代表標(biāo)題與內(nèi)容完全不匹配,就像給一篇講烹飪的文章配上了體育新聞的標(biāo)題。2分表示略有關(guān)聯(lián)但主題不符,類(lèi)似于給一篇講中餐的文章配上了講西餐的標(biāo)題。3分意味著有一定關(guān)聯(lián)但不夠準(zhǔn)確,4分表示關(guān)系模糊不清,5分代表有較強(qiáng)關(guān)聯(lián)但存在小問(wèn)題,6分表示匹配良好僅有輕微瑕疵,7分則是完美匹配。
為了保證評(píng)估質(zhì)量,研究團(tuán)隊(duì)設(shè)立了嚴(yán)格的一致性檢查機(jī)制。如果某個(gè)評(píng)估員給出的分?jǐn)?shù)與其他人相差超過(guò)2分,這個(gè)評(píng)分就會(huì)被視為無(wú)效,需要重新評(píng)估。這就像跳水比賽中,如果某個(gè)裁判的打分明顯偏離其他裁判,這個(gè)分?jǐn)?shù)就會(huì)被剔除。
研究團(tuán)隊(duì)還設(shè)計(jì)了巧妙的激勵(lì)機(jī)制來(lái)確保評(píng)估質(zhì)量。他們將評(píng)分分為兩個(gè)趨向:4分以下表示不匹配趨向,4分及以上表示匹配趨向。如果評(píng)估員的判斷與大多數(shù)人一致,就能獲得0.25元人民幣的獎(jiǎng)勵(lì)。如果不僅趨向一致,而且分?jǐn)?shù)與平均分的差距在1.5分以?xún)?nèi),還能額外獲得0.25元獎(jiǎng)勵(lì)。這種設(shè)計(jì)既鼓勵(lì)了準(zhǔn)確評(píng)估,又避免了盲目跟風(fēng)。
經(jīng)過(guò)嚴(yán)格篩選,最終保留的高質(zhì)量樣本表現(xiàn)令人滿(mǎn)意。藏語(yǔ)保留了2901條樣本,蒙古語(yǔ)保留了2931條,維吾爾語(yǔ)保留了2950條。這些樣本的平均得分高達(dá)6.9分(滿(mǎn)分7分),大部分樣本都獲得了滿(mǎn)分,充分證明了評(píng)估體系的有效性。
從語(yǔ)言特征來(lái)看,三種語(yǔ)言呈現(xiàn)出有趣的差異。藏語(yǔ)的標(biāo)題和內(nèi)容相對(duì)較短,平均標(biāo)題長(zhǎng)度為12.3個(gè)詞匯單元,內(nèi)容長(zhǎng)度為376.7個(gè)詞匯單元。相比之下,蒙古語(yǔ)和維吾爾語(yǔ)的文本明顯更長(zhǎng),蒙古語(yǔ)標(biāo)題平均27.2個(gè)詞匯單元,內(nèi)容429.8個(gè)詞匯單元;維吾爾語(yǔ)標(biāo)題平均30.2個(gè)詞匯單元,內(nèi)容高達(dá)815.7個(gè)詞匯單元。這種差異反映了不同語(yǔ)言的表達(dá)習(xí)慣和文化特色。
三、評(píng)估團(tuán)隊(duì)協(xié)作的可靠性分析
為了驗(yàn)證評(píng)估結(jié)果的可靠性,研究團(tuán)隊(duì)采用了多種統(tǒng)計(jì)方法來(lái)分析評(píng)估員之間的一致性。這就像檢驗(yàn)多個(gè)醫(yī)生對(duì)同一病情診斷的一致性一樣重要。
研究人員使用了Cohen's κ系數(shù)和組內(nèi)相關(guān)系數(shù)(ICC)來(lái)衡量評(píng)估員之間的一致性水平。結(jié)果顯示,藏語(yǔ)的Cohen's κ系數(shù)為0.71,ICC為0.80,表明評(píng)估員之間具有很高的一致性。維吾爾語(yǔ)的表現(xiàn)也不錯(cuò),Cohen's κ為0.44,ICC為0.67。蒙古語(yǔ)的一致性相對(duì)較低,Cohen's κ為0.28,ICC為0.42,但這并不意味著評(píng)估質(zhì)量不佳。
更重要的是,研究團(tuán)隊(duì)引入了"相同趨向"這個(gè)指標(biāo),即評(píng)估員對(duì)于標(biāo)題內(nèi)容匹配程度的大方向判斷是否一致。結(jié)果顯示,藏語(yǔ)和維吾爾語(yǔ)的相同趨向率達(dá)到了100%,蒙古語(yǔ)也達(dá)到了85%。這說(shuō)明盡管在具體分?jǐn)?shù)上可能有細(xì)微差別,但評(píng)估員們?cè)诳傮w判斷上高度一致,就像不同的品酒師可能給出不同的具體分?jǐn)?shù),但都能準(zhǔn)確區(qū)分好酒和劣酒。
四、模型性能的全面測(cè)試
有了高質(zhì)量的數(shù)據(jù)集,研究團(tuán)隊(duì)接下來(lái)要驗(yàn)證這些數(shù)據(jù)是否真的有用。他們選擇了兩類(lèi)不同的模型進(jìn)行測(cè)試:小型專(zhuān)用模型和大型通用模型,就像同時(shí)測(cè)試專(zhuān)業(yè)跑車(chē)和越野車(chē)在不同賽道上的表現(xiàn)。
小型專(zhuān)用模型包括cino-cum和swcm兩種。cino-cum模型基于專(zhuān)門(mén)為中國(guó)少數(shù)民族語(yǔ)言?xún)?yōu)化的CINO編碼器,參數(shù)量為411M。swcm模型在相同架構(gòu)基礎(chǔ)上進(jìn)行了改進(jìn),通過(guò)編碼器和解碼器之間的權(quán)重共享優(yōu)化,參數(shù)量為457M。這兩個(gè)模型就像專(zhuān)門(mén)為某種特定任務(wù)訓(xùn)練的專(zhuān)業(yè)運(yùn)動(dòng)員。
大型通用模型則選擇了當(dāng)前最先進(jìn)的Qwen2.5-72B和LLaMA3.1-70B。這兩個(gè)模型就像全能型運(yùn)動(dòng)員,雖然參數(shù)量龐大(分別為720億和700億參數(shù)),但需要通過(guò)少樣本學(xué)習(xí)的方式來(lái)適應(yīng)特定任務(wù)。
實(shí)驗(yàn)結(jié)果令人鼓舞。在ROUGE-L F1評(píng)分(一種衡量文本生成質(zhì)量的標(biāo)準(zhǔn)指標(biāo))上,小型模型表現(xiàn)穩(wěn)定。cino-cum在藏語(yǔ)上得分0.20,蒙古語(yǔ)0.12,維吾爾語(yǔ)0.09。swcm的表現(xiàn)更好一些,三種語(yǔ)言的得分分別為0.23、0.18和0.15。
大型模型的表現(xiàn)更加出色。Qwen2.5-72B在三種語(yǔ)言上的得分分別為0.24、0.32、0.29,而LLaMA3.1-70B的表現(xiàn)最為突出,得分達(dá)到了0.34、0.30、0.35。這就像專(zhuān)業(yè)選手和業(yè)余選手的差距一樣明顯,但值得注意的是,專(zhuān)用的小型模型雖然參數(shù)量小得多,但在特定任務(wù)上仍能取得不錯(cuò)的效果。
為了進(jìn)一步驗(yàn)證數(shù)據(jù)質(zhì)量的影響,研究團(tuán)隊(duì)還專(zhuān)門(mén)測(cè)試了在高質(zhì)量子集上的表現(xiàn)。他們從每種語(yǔ)言的評(píng)估數(shù)據(jù)中選出得分最高的500個(gè)樣本,形成了一個(gè)精品數(shù)據(jù)集。在這個(gè)數(shù)據(jù)集上,所有模型的表現(xiàn)都有所提升,證明了高質(zhì)量數(shù)據(jù)對(duì)模型性能的積極影響。
五、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)方案
研究團(tuán)隊(duì)在技術(shù)實(shí)現(xiàn)方面展現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度。對(duì)于小型模型的訓(xùn)練,他們使用了NVIDIA A5000 GPU,配備24GB顯存,運(yùn)行環(huán)境為Ubuntu 20.04系統(tǒng),使用CUDA 11.7和PyTorch 2.3框架。這樣的配置在學(xué)術(shù)研究中算是相當(dāng)不錯(cuò)的水準(zhǔn)。
訓(xùn)練配置經(jīng)過(guò)精心調(diào)優(yōu)。本地批次大小設(shè)為20,梯度累積步驟為4,全局批次大小達(dá)到80,總共訓(xùn)練50個(gè)輪次。優(yōu)化器選擇AdamW,學(xué)習(xí)率設(shè)定為1e-4,并采用線(xiàn)性預(yù)熱策略,在第一個(gè)輪次中學(xué)習(xí)率從1e-5逐漸增加到1e-4。這種設(shè)置就像烹飪時(shí)的火候控制,需要在開(kāi)始時(shí)小火慢煨,然后逐漸升溫。
對(duì)于大型模型,研究團(tuán)隊(duì)采用了2-shot學(xué)習(xí)策略。這意味著模型在處理每個(gè)新樣本時(shí),會(huì)看到兩個(gè)相似的示例作為參考,就像學(xué)生在考試前看到樣題一樣。這種方法的優(yōu)勢(shì)在于不需要大量的訓(xùn)練數(shù)據(jù),但仍能取得不錯(cuò)的效果。
為了便于其他研究者使用,團(tuán)隊(duì)還設(shè)計(jì)了標(biāo)準(zhǔn)化的提示模板。模板的結(jié)構(gòu)簡(jiǎn)潔明了:首先提供任務(wù)描述,然后給出兩個(gè)示例,最后是待處理的內(nèi)容。這種設(shè)計(jì)遵循了人類(lèi)學(xué)習(xí)的自然規(guī)律——通過(guò)觀察示例來(lái)理解任務(wù)要求。
六、數(shù)據(jù)集的深層價(jià)值與影響
CMHG數(shù)據(jù)集的價(jià)值遠(yuǎn)不止于技術(shù)層面的突破。從語(yǔ)言保護(hù)的角度來(lái)看,這個(gè)數(shù)據(jù)集為藏語(yǔ)、維吾爾語(yǔ)和蒙古語(yǔ)在數(shù)字時(shí)代的傳承和發(fā)展提供了重要基礎(chǔ)。就像為瀕危物種建立基因庫(kù)一樣,這個(gè)數(shù)據(jù)集為這些語(yǔ)言的數(shù)字化保存做出了貢獻(xiàn)。
從社會(huì)公平性角度來(lái)看,CMHG數(shù)據(jù)集有助于縮小數(shù)字鴻溝。長(zhǎng)期以來(lái),人工智能技術(shù)主要服務(wù)于資源豐富的主流語(yǔ)言使用者,而少數(shù)民族語(yǔ)言使用者往往被邊緣化。這個(gè)數(shù)據(jù)集的出現(xiàn),就像在偏遠(yuǎn)山區(qū)建設(shè)了高速公路,讓當(dāng)?shù)鼐用褚材芟硎艿浆F(xiàn)代科技的便利。
在學(xué)術(shù)研究方面,CMHG為相關(guān)領(lǐng)域的研究者提供了寶貴的資源。過(guò)去,研究人員想要開(kāi)展中國(guó)少數(shù)民族語(yǔ)言的自然語(yǔ)言處理研究,往往面臨"巧婦難為無(wú)米之炊"的困境。現(xiàn)在有了這個(gè)數(shù)據(jù)集,就像給研究人員提供了充足的"原材料",可以開(kāi)展更多創(chuàng)新性的研究工作。
數(shù)據(jù)集的開(kāi)放性也值得稱(chēng)贊。研究團(tuán)隊(duì)將數(shù)據(jù)集托管在Hugging Face平臺(tái)上,任何研究者都可以免費(fèi)獲取和使用。這種開(kāi)放共享的精神體現(xiàn)了科學(xué)研究的本質(zhì)——知識(shí)應(yīng)該為全人類(lèi)所共享,而不是被少數(shù)人壟斷。
從技術(shù)標(biāo)準(zhǔn)化角度來(lái)看,CMHG為少數(shù)民族語(yǔ)言的自然語(yǔ)言處理任務(wù)建立了基準(zhǔn)。就像體育比賽需要標(biāo)準(zhǔn)的賽道和計(jì)時(shí)系統(tǒng)一樣,學(xué)術(shù)研究也需要標(biāo)準(zhǔn)化的數(shù)據(jù)集來(lái)衡量不同方法的效果。未來(lái)的研究者可以使用這個(gè)數(shù)據(jù)集來(lái)測(cè)試和比較不同的算法,推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。
研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前工作的局限性。雖然CMHG在資源稀缺的少數(shù)民族語(yǔ)言領(lǐng)域邁出了重要一步,但相比于英語(yǔ)、中文等資源豐富的語(yǔ)言,這些數(shù)據(jù)量仍然有限。此外,數(shù)據(jù)集目前主要專(zhuān)注于標(biāo)題生成任務(wù),對(duì)于其他自然語(yǔ)言處理任務(wù)的支持還有待擴(kuò)展。
說(shuō)到底,CMHG數(shù)據(jù)集的誕生標(biāo)志著中國(guó)少數(shù)民族語(yǔ)言在人工智能時(shí)代的一個(gè)重要里程碑。它不僅為技術(shù)發(fā)展提供了基礎(chǔ)設(shè)施,更重要的是體現(xiàn)了對(duì)語(yǔ)言多樣性的尊重和保護(hù)。在全球化日益加深的今天,保持語(yǔ)言的多樣性就像保護(hù)生物多樣性一樣重要。每種語(yǔ)言都承載著獨(dú)特的文化內(nèi)涵和思維方式,它們的消失將是人類(lèi)文明的重大損失。
這項(xiàng)研究也啟發(fā)我們思考技術(shù)發(fā)展的方向。真正有價(jià)值的技術(shù)進(jìn)步不應(yīng)該只惠及少數(shù)人,而應(yīng)該讓更多的群體受益。CMHG數(shù)據(jù)集的創(chuàng)建過(guò)程雖然艱辛,但為我們展示了一條可行的道路——通過(guò)科學(xué)的方法、嚴(yán)謹(jǐn)?shù)膽B(tài)度和開(kāi)放的精神,我們可以為資源稀缺的語(yǔ)言群體提供更好的技術(shù)支持。
未來(lái),研究團(tuán)隊(duì)計(jì)劃進(jìn)一步擴(kuò)展數(shù)據(jù)集的規(guī)模和覆蓋范圍,包括更多的少數(shù)民族語(yǔ)言和更多樣的自然語(yǔ)言處理任務(wù)。他們還希望與更多的母語(yǔ)使用者和語(yǔ)言學(xué)專(zhuān)家合作,不斷提升數(shù)據(jù)質(zhì)量。這種持續(xù)改進(jìn)的態(tài)度正是科學(xué)研究應(yīng)有的品格。
對(duì)于有興趣深入了解這項(xiàng)研究的讀者,可以訪(fǎng)問(wèn)Hugging Face平臺(tái)(https://huggingface.co/KEVVVV/CMHG)獲取完整數(shù)據(jù)集,或在arXiv平臺(tái)查閱原始論文(論文編號(hào):arXiv:2509.09990v1)。相信隨著更多研究者的參與,中國(guó)少數(shù)民族語(yǔ)言的數(shù)字化未來(lái)將更加光明。
Q&A
Q1:CMHG數(shù)據(jù)集包含哪些語(yǔ)言的數(shù)據(jù)?數(shù)據(jù)規(guī)模有多大?
A:CMHG數(shù)據(jù)集包含三種中國(guó)少數(shù)民族語(yǔ)言的數(shù)據(jù):藏語(yǔ)、維吾爾語(yǔ)和蒙古語(yǔ)。具體規(guī)模為藏語(yǔ)10萬(wàn)條數(shù)據(jù),維吾爾語(yǔ)和蒙古語(yǔ)各5萬(wàn)條數(shù)據(jù),總計(jì)20萬(wàn)條記錄。此外,每種語(yǔ)言還有約3000條經(jīng)過(guò)母語(yǔ)使用者精心評(píng)估的高質(zhì)量測(cè)試數(shù)據(jù)。
Q2:為什么要專(zhuān)門(mén)為少數(shù)民族語(yǔ)言創(chuàng)建這樣的數(shù)據(jù)集?
A:主要原因是現(xiàn)有的人工智能技術(shù)主要服務(wù)于英語(yǔ)、中文等資源豐富的語(yǔ)言,而藏語(yǔ)、維吾爾語(yǔ)、蒙古語(yǔ)等少數(shù)民族語(yǔ)言嚴(yán)重缺乏高質(zhì)量的語(yǔ)言數(shù)據(jù)資源。雖然這些語(yǔ)言有數(shù)百萬(wàn)使用者,但在現(xiàn)有國(guó)際數(shù)據(jù)庫(kù)中的數(shù)據(jù)量與使用人群規(guī)模嚴(yán)重不匹配,且質(zhì)量堪憂(yōu),這限制了相關(guān)技術(shù)的發(fā)展。
Q3:普通人可以如何使用CMHG數(shù)據(jù)集?
A:CMHG數(shù)據(jù)集已在Hugging Face平臺(tái)開(kāi)放共享,網(wǎng)址是https://huggingface.co/KEVVVV/CMHG,任何人都可以免費(fèi)下載使用。研究人員可以用它來(lái)訓(xùn)練和測(cè)試少數(shù)民族語(yǔ)言的文本生成模型,教育工作者可以用于語(yǔ)言教學(xué)研究,而對(duì)這些語(yǔ)言感興趣的普通人也可以通過(guò)數(shù)據(jù)集了解這些語(yǔ)言的表達(dá)特點(diǎn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。