11月16日,根據(jù)最新成績(jī),千億級(jí)參數(shù)的夸克大模型登頂C-Eval和CMMLU兩大權(quán)威評(píng)測(cè)榜單,多項(xiàng)性能優(yōu)于GPT-4。在國(guó)內(nèi)大模型賽道火熱的當(dāng)下,夸克自研大模型憑借過(guò)硬的研發(fā)能力及數(shù)據(jù)、行業(yè)、平臺(tái)等優(yōu)勢(shì)成為新晉“學(xué)霸”。
作為國(guó)內(nèi)最權(quán)威的兩個(gè)大語(yǔ)言模型測(cè)試榜單,C-Eval是由清華大學(xué)、上海交通大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的綜合性考試評(píng)測(cè)集,覆蓋52個(gè)學(xué)科,是目前權(quán)威的中文AI大模型評(píng)測(cè)榜單之一。CMMLU 是由MBZUAI、上海交通大學(xué)、微軟亞洲研究院共同推出,包含67個(gè)主題,專門(mén)用于評(píng)估語(yǔ)言模型在中文語(yǔ)境下的知識(shí)和推理能力。

評(píng)測(cè)過(guò)程中,夸克大模型經(jīng)過(guò)了上萬(wàn)道專業(yè)考題的檢驗(yàn),覆蓋幾十個(gè)學(xué)科和不同學(xué)段。無(wú)論是常識(shí)問(wèn)題還是社會(huì)科學(xué)知識(shí),夸克大模型都展現(xiàn)出了處理復(fù)雜、多層次問(wèn)題的能力?;诰{(diào)后的訓(xùn)練數(shù)據(jù),夸克大模型能夠更好地理解問(wèn)題的上下文、邏輯結(jié)構(gòu)和語(yǔ)義關(guān)系,從而更全面、深入地分析和解決問(wèn)題。
在CMMLU榜單評(píng)測(cè)中,夸克大模型以平均77.08分的成績(jī)位列總成績(jī)第一,并占據(jù)社會(huì)科學(xué)和其他兩個(gè)類目的首位。在C-Eval榜單中,夸克大模型平均分達(dá)到89分,穩(wěn)居行業(yè)第一,同時(shí)在社會(huì)科學(xué)、人文科學(xué)和其他三個(gè)類目中位列榜首。夸克大模型同時(shí)登頂兩大權(quán)威榜單,也進(jìn)一步證明夸克在數(shù)據(jù)增強(qiáng)、模型選擇、訓(xùn)練策略、模型融合以及模型評(píng)估上,處在行業(yè)領(lǐng)先地位。

同時(shí),在國(guó)內(nèi)專業(yè)考試測(cè)試中,夸克大模型的表現(xiàn)堪稱“學(xué)霸”。不僅在中考、高考、研究生考試中超過(guò)GPT-4,包括臨床執(zhí)業(yè)醫(yī)師資格考試、計(jì)算機(jī)等級(jí)考試、公務(wù)員考試、教師資格證考試等評(píng)測(cè)中均優(yōu)于GPT-4。具備超強(qiáng)解題能力的夸克大模型,應(yīng)用在日常學(xué)習(xí)、工作場(chǎng)景,有望給用戶帶來(lái)效率上的全面提升。
此外,夸克大模型還擁有強(qiáng)大的文學(xué)創(chuàng)作能力,能夠根據(jù)用戶提供的主題或關(guān)鍵詞,生成連貫、有邏輯、有深度的文本內(nèi)容,可以幫助用戶撰寫(xiě)文章、新聞、詩(shī)歌等各類文本,支持續(xù)寫(xiě)、潤(rùn)色、仿寫(xiě)、批改等多種不同寫(xiě)作需求,進(jìn)一步提高用戶的創(chuàng)作效率。
據(jù)介紹,憑借數(shù)據(jù)、行業(yè)、知識(shí)正確性、平臺(tái)等四大優(yōu)勢(shì),夸克大模型應(yīng)用會(huì)優(yōu)先落地在通識(shí)問(wèn)答、專業(yè)搜索等信息服務(wù)領(lǐng)域,滿足年輕人學(xué)習(xí)知識(shí)和提升自我的需求。夸克將借助自研大模型全面升級(jí),為年輕人工作、學(xué)習(xí)、生活提供更全面的服務(wù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。