在人工智能快速發(fā)展的今天,大語(yǔ)言模型(LLM)已成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠?,從回答?wèn)題到提供建議,它們似乎無(wú)所不知。但你是否曾好奇過(guò):這些模型到底是如何組織和存儲(chǔ)知識(shí)的?它們的"大腦"里的信息是隨機(jī)分布的,還是遵循某種特定的結(jié)構(gòu)模式?
來(lái)自俄勒岡大學(xué)、Adobe研究院、思科AI研究院、太平洋西北國(guó)家實(shí)驗(yàn)室和倫斯勒理工學(xué)院的研究團(tuán)隊(duì)聯(lián)合發(fā)表了一篇題為《圖視角探索大語(yǔ)言模型中的知識(shí)結(jié)構(gòu)模式》的研究論文。這篇發(fā)表于2025年5月的論文(arXiv:2505.19286v2)嘗試用一種全新的視角——圖論視角——來(lái)解密大語(yǔ)言模型的知識(shí)結(jié)構(gòu)。
研究團(tuán)隊(duì)受到認(rèn)知神經(jīng)科學(xué)的啟發(fā)。在人類大腦中,知識(shí)并非隨機(jī)存儲(chǔ),而是形成了精密的結(jié)構(gòu)模式——相關(guān)概念會(huì)聚集在一起形成語(yǔ)義網(wǎng)絡(luò),特定的腦區(qū)負(fù)責(zé)處理特定類型的信息,感官輸入則形成拓?fù)鋱D。研究者猜想:大語(yǔ)言模型或許也存在類似的結(jié)構(gòu)化知識(shí)組織模式?
這項(xiàng)研究就像是給大語(yǔ)言模型做了一次"腦部掃描"。研究團(tuán)隊(duì)設(shè)計(jì)了一種方法,不僅可以測(cè)量模型對(duì)單個(gè)事實(shí)的了解程度,還能評(píng)估它對(duì)特定實(shí)體(如人物、地點(diǎn)或概念)的整體認(rèn)知水平。更重要的是,他們發(fā)現(xiàn)了大語(yǔ)言模型知識(shí)中存在的結(jié)構(gòu)模式,特別是"知識(shí)同質(zhì)性"現(xiàn)象——在知識(shí)圖譜中拓?fù)湮恢孟嘟膶?shí)體往往具有相似的知識(shí)水平。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了圖機(jī)器學(xué)習(xí)模型,能夠基于實(shí)體在知識(shí)圖譜中的位置預(yù)測(cè)模型對(duì)該實(shí)體的了解程度。這不僅有助于我們理解大語(yǔ)言模型的內(nèi)部運(yùn)作機(jī)制,還能指導(dǎo)我們更有效地選擇信息來(lái)改進(jìn)這些模型。
讓我們一起深入探索這項(xiàng)研究,看看它如何揭示大語(yǔ)言模型的"思維"結(jié)構(gòu),以及這些發(fā)現(xiàn)對(duì)AI技術(shù)發(fā)展的重要意義。
一、研究方法:如何"掃描"大語(yǔ)言模型的知識(shí)結(jié)構(gòu)
研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是:如何評(píng)估大語(yǔ)言模型對(duì)知識(shí)的掌握程度?這就像是想要測(cè)試一個(gè)人的知識(shí)水平,但不能直接"看到"他的大腦活動(dòng)一樣。
研究人員采用了一種巧妙的方法。想象一下,你有一本百科全書(shū),里面包含了無(wú)數(shù)的知識(shí)陳述,比如"愛(ài)因斯坦發(fā)明了相對(duì)論"或"巴黎是法國(guó)的首都"。如果你想測(cè)試某人的知識(shí)水平,你可以隨機(jī)挑選一些陳述,問(wèn)他們這些陳述是對(duì)還是錯(cuò)。
研究團(tuán)隊(duì)正是采用了類似的方法。他們使用了幾個(gè)知識(shí)圖譜數(shù)據(jù)集,如MVPKG(政治科學(xué)知識(shí))、T-Rex(維基百科知識(shí))、PharmKG8K(藥物學(xué)知識(shí))等。這些知識(shí)圖譜就像是結(jié)構(gòu)化的百科全書(shū),其中包含了大量的"三元組"知識(shí)陳述,每個(gè)三元組由主體、關(guān)系和客體組成,例如(唐納德·特朗普,訪問(wèn)了,中國(guó))。
研究人員將這些三元組轉(zhuǎn)化為自然語(yǔ)言陳述,然后"詢問(wèn)"大語(yǔ)言模型(如GPT-3.5、GPT-4o、Gemini-2.5 Flash等)這些陳述是否正確。如果模型回答"True",就表示它認(rèn)識(shí)這個(gè)事實(shí);如果回答"False",則表示它不認(rèn)識(shí)。
這樣,研究者就能夠?yàn)槊總€(gè)三元組分配一個(gè)"知識(shí)得分"——1表示模型認(rèn)識(shí)這個(gè)事實(shí),0表示不認(rèn)識(shí)。進(jìn)一步,他們通過(guò)聚合與特定實(shí)體相關(guān)的所有三元組的知識(shí)得分,計(jì)算出了該實(shí)體的"知識(shí)水平得分"。
例如,如果一個(gè)知識(shí)圖譜中有關(guān)"巴拉克·奧巴馬"的10個(gè)事實(shí),而大語(yǔ)言模型能夠正確識(shí)別其中8個(gè),那么"巴拉克·奧巴馬"這個(gè)實(shí)體的知識(shí)水平得分就是0.8或80%。
這種方法不僅允許研究者評(píng)估模型對(duì)單個(gè)事實(shí)的認(rèn)識(shí)程度,還能夠評(píng)估模型對(duì)特定實(shí)體的整體認(rèn)知水平。這就像是既能測(cè)試學(xué)生對(duì)單個(gè)知識(shí)點(diǎn)的掌握,又能評(píng)估他們對(duì)整個(gè)學(xué)科的理解一樣。
有了這些知識(shí)水平得分,研究團(tuán)隊(duì)就能夠開(kāi)始探索大語(yǔ)言模型知識(shí)的結(jié)構(gòu)模式了。他們把這些得分映射到知識(shí)圖譜上,就像是給圖譜中的每個(gè)節(jié)點(diǎn)(實(shí)體)涂上不同深淺的顏色——知識(shí)水平高的實(shí)體顏色深,知識(shí)水平低的實(shí)體顏色淺。然后,他們分析這些"顏色"在圖譜中的分布模式,尋找可能存在的規(guī)律。
二、知識(shí)結(jié)構(gòu)的關(guān)鍵發(fā)現(xiàn):大模型的"大腦"如何組織知識(shí)
通過(guò)對(duì)大語(yǔ)言模型知識(shí)結(jié)構(gòu)的深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾個(gè)令人驚訝的模式,這些發(fā)現(xiàn)就像是窺探了大模型"大腦"的運(yùn)作方式。
首先,研究者發(fā)現(xiàn)大語(yǔ)言模型的知識(shí)水平呈現(xiàn)出三峰分布模式。想象一下,如果我們把所有實(shí)體按照知識(shí)水平得分(從0到1)排列在一條線上,會(huì)發(fā)現(xiàn)實(shí)體主要集中在三個(gè)位置:得分為0的地方(表示模型對(duì)這些實(shí)體幾乎一無(wú)所知)、得分為0.5的地方(表示模型對(duì)這些實(shí)體知道一半左右的相關(guān)事實(shí))和得分為1的地方(表示模型對(duì)這些實(shí)體了如指掌)。這就像是學(xué)生的考試成績(jī)分布,有完全不會(huì)的、一半一半的和滿分的三組人。
更有趣的是,這種分布模式會(huì)因知識(shí)領(lǐng)域而異。對(duì)于一般性知識(shí)(如來(lái)自維基百科的T-Rex數(shù)據(jù)集),大語(yǔ)言模型表現(xiàn)出右偏分布——大多數(shù)實(shí)體的知識(shí)水平得分接近1,說(shuō)明模型對(duì)這類常見(jiàn)知識(shí)掌握得很好。而對(duì)于專業(yè)領(lǐng)域知識(shí)(如藥物學(xué)PharmKG8K或政治科學(xué)MVPKG),則呈現(xiàn)左偏分布——大多數(shù)實(shí)體的知識(shí)水平得分接近0,表明模型對(duì)這些專業(yè)知識(shí)了解有限。
第二個(gè)重要發(fā)現(xiàn)是"節(jié)點(diǎn)度數(shù)與知識(shí)水平的正相關(guān)"。在圖論中,節(jié)點(diǎn)的度數(shù)表示它與多少其他節(jié)點(diǎn)直接相連。研究發(fā)現(xiàn),度數(shù)高的實(shí)體(即與許多其他實(shí)體有關(guān)聯(lián)的"流行"實(shí)體)通常具有更高的知識(shí)水平得分。這就像是社交網(wǎng)絡(luò)中的"名人效應(yīng)"——越是廣為人知的人物,大語(yǔ)言模型對(duì)它們的了解就越全面。
這個(gè)發(fā)現(xiàn)很有意義:高度數(shù)的實(shí)體通常在預(yù)訓(xùn)練語(yǔ)料庫(kù)中出現(xiàn)頻率更高,模型有更多機(jī)會(huì)學(xué)習(xí)關(guān)于它們的信息。舉個(gè)例子,像"美國(guó)"或"巴拉克·奧巴馬"這樣的熱門實(shí)體會(huì)在各種文本中反復(fù)出現(xiàn),模型自然能夠積累大量相關(guān)知識(shí)。相比之下,小眾或?qū)I(yè)領(lǐng)域的實(shí)體出現(xiàn)頻率較低,模型對(duì)它們的了解就相對(duì)有限。
第三個(gè)關(guān)鍵發(fā)現(xiàn)是"知識(shí)同質(zhì)性"(knowledge homophily)。研究團(tuán)隊(duì)發(fā)現(xiàn),在知識(shí)圖譜中相互連接的實(shí)體往往具有相似的知識(shí)水平得分。這就像是"物以類聚,人以群分"——知識(shí)圖譜中彼此相近的實(shí)體,大語(yǔ)言模型對(duì)它們的了解程度往往相似。
具體來(lái)說(shuō),如果計(jì)算每個(gè)實(shí)體與其鄰居實(shí)體之間知識(shí)水平得分的平均差異,會(huì)發(fā)現(xiàn)這個(gè)差異通常很?。ㄍ|(zhì)性得分大多集中在0.8左右,表示高度相似)。這一發(fā)現(xiàn)表明,大語(yǔ)言模型的知識(shí)并非隨機(jī)分布在知識(shí)圖譜中,而是呈現(xiàn)出清晰的結(jié)構(gòu)模式——知識(shí)在圖譜中形成了"知識(shí)島嶼"或"知識(shí)社區(qū)"。
值得注意的是,當(dāng)研究者考慮時(shí)間信息時(shí)(例如"唐納德·特朗普于2017年11月8日訪問(wèn)中國(guó)"這種帶時(shí)間戳的事實(shí)),知識(shí)同質(zhì)性會(huì)略有下降。這表明時(shí)間維度為知識(shí)增加了復(fù)雜性,使得鄰近實(shí)體之間的知識(shí)水平差異增大。
這些發(fā)現(xiàn)共同揭示了大語(yǔ)言模型知識(shí)的結(jié)構(gòu)化特性,表明模型的知識(shí)并非隨機(jī)存儲(chǔ),而是呈現(xiàn)出與人類認(rèn)知系統(tǒng)類似的組織模式。這不僅幫助我們理解大語(yǔ)言模型如何"思考",還為如何更有效地利用和改進(jìn)這些模型提供了重要線索。
三、知識(shí)預(yù)測(cè)與模型改進(jìn):從發(fā)現(xiàn)到應(yīng)用
研究團(tuán)隊(duì)的發(fā)現(xiàn)不僅僅是理論上的有趣,它們還具有實(shí)際應(yīng)用價(jià)值。基于他們發(fā)現(xiàn)的"知識(shí)同質(zhì)性"現(xiàn)象——圖譜中相互連接的實(shí)體往往具有相似的知識(shí)水平——研究者開(kāi)發(fā)了一種基于圖神經(jīng)網(wǎng)絡(luò)的方法,可以預(yù)測(cè)大語(yǔ)言模型對(duì)特定實(shí)體的知識(shí)水平。
想象一下,你有一張巨大的知識(shí)地圖,上面有成千上萬(wàn)的實(shí)體(人物、地點(diǎn)、概念等),但你只知道其中一小部分實(shí)體的"知識(shí)得分"(即大語(yǔ)言模型對(duì)它們的了解程度)?;谝阎倪@部分信息,你能否預(yù)測(cè)模型對(duì)其他未測(cè)試實(shí)體的了解程度?這就是研究團(tuán)隊(duì)嘗試解決的問(wèn)題。
他們使用了圖神經(jīng)網(wǎng)絡(luò)(GNN)來(lái)完成這個(gè)任務(wù)。簡(jiǎn)單來(lái)說(shuō),圖神經(jīng)網(wǎng)絡(luò)是一種專門處理圖數(shù)據(jù)的深度學(xué)習(xí)模型,它能夠利用節(jié)點(diǎn)之間的連接關(guān)系提取信息。在這項(xiàng)研究中,GNN通過(guò)分析已知實(shí)體的知識(shí)得分和它們?cè)趫D譜中的位置關(guān)系,學(xué)習(xí)預(yù)測(cè)未知實(shí)體的知識(shí)得分。
研究結(jié)果表明,這種方法非常有效。模型預(yù)測(cè)的知識(shí)水平與實(shí)際測(cè)量結(jié)果之間的平均絕對(duì)誤差僅為0.15-0.25,這意味著預(yù)測(cè)準(zhǔn)確率達(dá)到了75%-85%。更有趣的是,基于文本嵌入(將實(shí)體名稱轉(zhuǎn)換為數(shù)值向量)的GNN并沒(méi)有顯著優(yōu)于使用簡(jiǎn)單的獨(dú)熱編碼(one-hot encoding),這表明實(shí)體之間的文本相似性并不能可靠地反映知識(shí)水平的相似性。相比之下,圖神經(jīng)網(wǎng)絡(luò)明顯優(yōu)于多層感知器(MLP),這強(qiáng)調(diào)了利用鄰域信息對(duì)知識(shí)水平預(yù)測(cè)的重要性。
這種預(yù)測(cè)能力有什么實(shí)際用途呢?研究團(tuán)隊(duì)展示了一個(gè)極具價(jià)值的應(yīng)用:知識(shí)檢查和模型微調(diào)的信息性三元組選擇。
傳統(tǒng)上,當(dāng)我們想要通過(guò)微調(diào)來(lái)改進(jìn)大語(yǔ)言模型的知識(shí)時(shí),通常是隨機(jī)選擇一批三元組進(jìn)行訓(xùn)練。但這種方法可能會(huì)浪費(fèi)資源——如果選中的大多是模型已經(jīng)掌握的知識(shí),那么微調(diào)的效果就會(huì)很有限。
研究團(tuán)隊(duì)提出了一種更智能的方法:首先隨機(jī)選擇20%的三元組測(cè)試模型的知識(shí)水平,然后基于這些測(cè)試結(jié)果訓(xùn)練GNN模型預(yù)測(cè)所有實(shí)體的知識(shí)水平。接著,優(yōu)先選擇那些預(yù)測(cè)知識(shí)水平較低的實(shí)體相關(guān)的三元組進(jìn)行微調(diào)。這就像是針對(duì)性補(bǔ)習(xí)——重點(diǎn)教學(xué)生不懂的知識(shí)點(diǎn),而不是重復(fù)他們已經(jīng)掌握的內(nèi)容。
實(shí)驗(yàn)結(jié)果證明,這種基于圖的微調(diào)方法(Graph-FT)明顯優(yōu)于隨機(jī)選擇三元組的方法(Random-FT)。平均而言,基于圖的方法在測(cè)試集上的準(zhǔn)確率提高了約7個(gè)百分點(diǎn)(從62.09%提升到69.04%)。這一成功表明,利用知識(shí)圖譜的結(jié)構(gòu)信息可以更有效地改進(jìn)大語(yǔ)言模型的知識(shí)。
值得注意的是,這種改進(jìn)在專業(yè)領(lǐng)域知識(shí)(如政治科學(xué)MVPKG和藥物學(xué)PharmKG8K)上尤為顯著,這正是大語(yǔ)言模型通常表現(xiàn)較弱的領(lǐng)域。例如,在MVPKG數(shù)據(jù)集上,使用基于圖的方法微調(diào)Mistral 7B模型,準(zhǔn)確率從65.10%提升到了76.70%,提高了11.6個(gè)百分點(diǎn)。
這些應(yīng)用表明,理解大語(yǔ)言模型的知識(shí)結(jié)構(gòu)不僅具有理論意義,還能夠指導(dǎo)我們更高效地改進(jìn)這些模型,特別是在專業(yè)領(lǐng)域知識(shí)方面。
四、研究意義與未來(lái)展望:大語(yǔ)言模型知識(shí)結(jié)構(gòu)研究的新篇章
這項(xiàng)研究的重要性遠(yuǎn)超出了對(duì)大語(yǔ)言模型知識(shí)結(jié)構(gòu)的簡(jiǎn)單描述。它開(kāi)創(chuàng)了一種全新的視角來(lái)理解和改進(jìn)大語(yǔ)言模型,為未來(lái)的研究和應(yīng)用打開(kāi)了多個(gè)方向。
首先,從理論角度看,這項(xiàng)研究證實(shí)了大語(yǔ)言模型的知識(shí)并非隨機(jī)分布,而是呈現(xiàn)出結(jié)構(gòu)化的模式,這與人類認(rèn)知系統(tǒng)有某種相似之處。人類大腦中的知識(shí)也是結(jié)構(gòu)化組織的——相關(guān)概念聚集在一起,形成語(yǔ)義網(wǎng)絡(luò);特定的腦區(qū)負(fù)責(zé)處理特定類型的信息;感官輸入形成拓?fù)鋱D等。大語(yǔ)言模型似乎也"自然地"發(fā)展出了類似的組織模式,這提示我們,知識(shí)的結(jié)構(gòu)化組織可能是高效信息處理系統(tǒng)的普遍特性,無(wú)論是生物的還是人工的。
其次,從方法論角度看,這項(xiàng)研究引入了圖論視角來(lái)分析大語(yǔ)言模型的知識(shí),這是一種創(chuàng)新的跨學(xué)科方法。圖論提供了一套強(qiáng)大的工具來(lái)分析復(fù)雜系統(tǒng)中的關(guān)系和模式,而這正是理解大語(yǔ)言模型內(nèi)部知識(shí)組織所需要的。研究團(tuán)隊(duì)開(kāi)發(fā)的知識(shí)水平評(píng)估方法和基于圖的知識(shí)預(yù)測(cè)模型,為未來(lái)的研究提供了有價(jià)值的工具和思路。
從應(yīng)用角度看,研究的發(fā)現(xiàn)對(duì)改進(jìn)大語(yǔ)言模型有直接的實(shí)用價(jià)值?;趫D的三元組選擇方法證明可以顯著提高微調(diào)效率,特別是在專業(yè)領(lǐng)域知識(shí)方面。這對(duì)于開(kāi)發(fā)面向特定領(lǐng)域的大語(yǔ)言模型應(yīng)用具有重要意義。例如,要開(kāi)發(fā)一個(gè)醫(yī)學(xué)領(lǐng)域的AI助手,可以利用這種方法更有效地向模型教授醫(yī)學(xué)知識(shí),而不是盲目地灌輸大量可能已知或不相關(guān)的信息。
此外,研究中發(fā)現(xiàn)的知識(shí)同質(zhì)性現(xiàn)象也為知識(shí)圖譜檢索提供了新思路。當(dāng)我們需要從外部知識(shí)庫(kù)檢索信息來(lái)輔助大語(yǔ)言模型時(shí),可以優(yōu)先選擇模型知識(shí)水平較低的區(qū)域,這樣能夠最大化檢索的價(jià)值。同樣,這一發(fā)現(xiàn)也可以用于高效識(shí)別知識(shí)缺陷——如果我們知道模型對(duì)某些實(shí)體的知識(shí)水平低,那么很可能與這些實(shí)體相關(guān)的其他實(shí)體也存在知識(shí)缺陷。
當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,目前的方法僅適用于具有明確定義的實(shí)體和關(guān)系的知識(shí)圖譜,而現(xiàn)實(shí)世界的網(wǎng)絡(luò)通常更復(fù)雜,包含豐富的文本信息。未來(lái)的研究可以嘗試將這種分析擴(kuò)展到文本屬性圖等更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。其次,當(dāng)前的應(yīng)用主要集中在微調(diào)三元組選擇上,而研究發(fā)現(xiàn)的結(jié)構(gòu)模式還有更廣泛的應(yīng)用潛力,如指導(dǎo)知識(shí)圖譜檢索和知識(shí)缺陷識(shí)別等。
未來(lái)的研究方向可能包括:探索其他類型的結(jié)構(gòu)模式,如知識(shí)的層次結(jié)構(gòu)或時(shí)間演化模式;研究不同大語(yǔ)言模型之間知識(shí)結(jié)構(gòu)的差異和共性;開(kāi)發(fā)更復(fù)雜的基于圖的模型來(lái)預(yù)測(cè)和改進(jìn)大語(yǔ)言模型的知識(shí);探索這些發(fā)現(xiàn)在實(shí)際應(yīng)用中的更廣泛用途,如對(duì)話系統(tǒng)、信息檢索和事實(shí)核查等。
總的來(lái)說(shuō),這項(xiàng)研究不僅揭示了大語(yǔ)言模型知識(shí)的結(jié)構(gòu)模式,還為如何更有效地理解和改進(jìn)這些模型提供了新的視角和方法。它標(biāo)志著大語(yǔ)言模型知識(shí)結(jié)構(gòu)研究的一個(gè)重要里程碑,為未來(lái)的研究和應(yīng)用開(kāi)辟了新的可能性。
歸根結(jié)底,這項(xiàng)研究告訴我們,大語(yǔ)言模型不僅僅是文字的簡(jiǎn)單處理器,它們內(nèi)部蘊(yùn)含著復(fù)雜的知識(shí)結(jié)構(gòu),這些結(jié)構(gòu)影響著模型如何獲取、存儲(chǔ)和使用知識(shí)。通過(guò)理解這些結(jié)構(gòu),我們可以更好地利用這些強(qiáng)大的工具,使它們更好地服務(wù)于我們的需求。
對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)的AI助手可能會(huì)更加智能,特別是在專業(yè)領(lǐng)域的知識(shí)方面;對(duì)于研究者和開(kāi)發(fā)者來(lái)說(shuō),這提供了一種更有效的方法來(lái)改進(jìn)和定制大語(yǔ)言模型;對(duì)于整個(gè)AI領(lǐng)域來(lái)說(shuō),這是向理解人工智能"思維"結(jié)構(gòu)邁出的重要一步。
如果你對(duì)這項(xiàng)研究感興趣,可以訪問(wèn)arXiv:2505.19286v2查閱完整論文,了解更多技術(shù)細(xì)節(jié)和研究發(fā)現(xiàn)。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。