這項(xiàng)由希伯來大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的Jonathan Kahana、Or Nathan、Eliahu Horwitz和Yedid Hoshen共同完成的研究發(fā)表于2025年2月,論文題目為"Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights"。有興趣深入了解的讀者可以通過arXiv:2502.09619v1訪問完整論文,項(xiàng)目主頁為https://jonkahana.github.io/probelog。
現(xiàn)在的AI世界就像一個(gè)巨大的工具商店,貨架上擺滿了各種各樣的AI模型。據(jù)統(tǒng)計(jì),僅僅是Hugging Face這一個(gè)平臺(tái)就托管著超過100萬個(gè)模型,每個(gè)月還會(huì)新增10萬多個(gè)。這些模型就像不同的專業(yè)工具,有的擅長識(shí)別動(dòng)物,有的專門處理醫(yī)學(xué)圖像,有的能分辨各種食物。問題是,當(dāng)你需要找一個(gè)能識(shí)別狗的模型時(shí),你該怎么辦?
傳統(tǒng)的方法就像在沒有標(biāo)簽的工具箱里翻找工具一樣令人頭疼。你只能依靠模型的文字描述來猜測它能做什么,但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人震驚的事實(shí):在120萬個(gè)Hugging Face模型中,超過30%的模型完全沒有任何說明文檔,另外28.9%的模型要么文檔是空白的,要么只有自動(dòng)生成的無用模板。這意味著將近60%的模型都是"啞巴",你根本不知道它們能干什么。
這就好比你走進(jìn)一家巨大的五金店,但大部分工具都沒有標(biāo)簽,你想找一把能擰特定螺絲的螺絲刀,卻只能一個(gè)個(gè)拿起來試。這種情況下,能不能有一個(gè)"萬能試驗(yàn)臺(tái)",讓你快速測試每個(gè)工具的功能呢?
希伯來大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案,他們稱之為ProbeLog。這個(gè)方法就像給每個(gè)AI模型安排了一場標(biāo)準(zhǔn)化考試。
一、AI模型的"標(biāo)準(zhǔn)化考試":ProbeLog如何工作
設(shè)想一下,你是一位考官,需要測試一堆學(xué)生是否認(rèn)識(shí)狗。你不能直接問他們"你認(rèn)識(shí)狗嗎?",因?yàn)橛行W(xué)生可能撒謊或者理解有偏差。相反,你準(zhǔn)備了4000張不同的圖片作為"考題"——這些圖片包含各種各樣的場景:公園里的人、桌子上的蘋果、海邊的帆船、草地上的狗等等。
ProbeLog的工作原理與此類似。研究團(tuán)隊(duì)首先從COCO數(shù)據(jù)集中挑選了一組固定的圖像作為"考題"。這些圖像就像標(biāo)準(zhǔn)化考試中的題目,包含了豐富多樣的場景和物體。然后,他們讓每個(gè)AI模型"參加考試"——把這些圖像輸入模型,觀察模型的每個(gè)輸出維度(專業(yè)術(shù)語叫"logit",可以理解為模型對(duì)每個(gè)可能答案的信心程度)如何響應(yīng)。
關(guān)鍵的創(chuàng)新在于,ProbeLog不是給整個(gè)模型打一個(gè)總分,而是給模型的每個(gè)"專業(yè)技能"單獨(dú)評(píng)分。就像一個(gè)多才多藝的學(xué)生,可能既會(huì)數(shù)學(xué)又會(huì)英語還會(huì)體育,ProbeLog會(huì)分別測試這個(gè)學(xué)生在每個(gè)科目上的表現(xiàn)。對(duì)于AI模型來說,一個(gè)模型可能同時(shí)能識(shí)別狗、貓、汽車等多種物體,ProbeLog會(huì)為每種識(shí)別能力創(chuàng)建一個(gè)獨(dú)特的"成績單"。
這個(gè)成績單是一個(gè)數(shù)字序列,記錄了模型在面對(duì)4000張測試圖片時(shí),對(duì)某個(gè)特定概念(比如"狗")的反應(yīng)強(qiáng)度。當(dāng)遇到包含狗的圖片時(shí),擅長識(shí)別狗的模型輸出會(huì)比較高;遇到不包含狗的圖片時(shí),輸出會(huì)比較低。這樣,每個(gè)模型的每種識(shí)別能力都有了自己獨(dú)特的"指紋"。
二、找到最相似的"指紋":智能匹配算法
有了每個(gè)模型能力的"指紋"后,下一個(gè)挑戰(zhàn)是如何比較這些指紋的相似性。就像比較兩個(gè)人的真實(shí)指紋一樣,你不能簡單地看整體圖案是否一致,而要關(guān)注那些最清晰、最可靠的特征。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:AI模型只有在它確信自己的判斷時(shí),輸出的結(jié)果才是可靠的。這就好比一個(gè)學(xué)生在考試中,對(duì)于自己非常確定的題目會(huì)給出明確答案,而對(duì)于不確定的題目可能會(huì)胡亂猜測。因此,ProbeLog在比較兩個(gè)模型時(shí),只關(guān)注查詢模型最有把握的那些"考題"。
具體來說,當(dāng)你用一個(gè)已知能識(shí)別狗的模型作為"參考標(biāo)準(zhǔn)"時(shí),系統(tǒng)會(huì)首先找出這個(gè)參考模型對(duì)哪些圖片反應(yīng)最強(qiáng)烈(也就是最確信這些圖片包含狗)。然后,系統(tǒng)只在這些"高置信度"的圖片上比較其他模型的表現(xiàn)。這種方法大大提高了匹配的準(zhǔn)確性,因?yàn)樗^濾掉了那些可能產(chǎn)生噪音的不確定判斷。
為了進(jìn)一步驗(yàn)證這種方法的有效性,研究團(tuán)隊(duì)做了一個(gè)巧妙的實(shí)驗(yàn)。他們用10個(gè)不同的ViT基礎(chǔ)模型,通過不同的訓(xùn)練方法,都訓(xùn)練成能識(shí)別CIFAR10數(shù)據(jù)集中10個(gè)類別的分類器。然后用1000張ImageNet圖片作為探測器,計(jì)算每個(gè)模型每個(gè)輸出維度的ProbeLog描述符,并分析它們之間的相關(guān)性。
結(jié)果令人振奮:那些負(fù)責(zé)識(shí)別相同概念的輸出維度表現(xiàn)出了強(qiáng)烈的相關(guān)性,而不同概念之間的相關(guān)性很弱。這就像你發(fā)現(xiàn)所有擅長識(shí)別蘋果的學(xué)生在面對(duì)蘋果圖片時(shí)都會(huì)有相似的興奮反應(yīng),而面對(duì)汽車圖片時(shí)則相對(duì)平靜。更重要的是,這種相似性不是基于模型來自同一個(gè)"班級(jí)"(相同的基礎(chǔ)架構(gòu)),而是基于功能上的相似性。
三、從"樣本匹配"到"文字搜索":零樣本檢索的突破
ProbeLog的第一個(gè)版本解決了"找更多像這個(gè)一樣的模型"的問題,但用戶往往沒有現(xiàn)成的參考模型。他們真正想要的是能夠直接用文字描述來搜索,比如輸入"狗"就能找到所有能識(shí)別狗的模型。這就需要一個(gè)從文字到模型能力的"翻譯器"。
研究團(tuán)隊(duì)的解決方案頗具巧思。他們利用了CLIP這樣的多模態(tài)模型,這種模型既能理解圖像也能理解文字?;氐娇荚嚨谋扔?,這就像是找到了一位既懂中文又懂英語的翻譯,能夠在兩種語言之間建立對(duì)應(yīng)關(guān)系。
具體過程是這樣的:首先,系統(tǒng)用CLIP模型分別對(duì)4000張測試圖片和用戶輸入的文字(比如"狗")進(jìn)行編碼,得到它們在同一個(gè)"語義空間"中的表示。然后,系統(tǒng)計(jì)算每張圖片與目標(biāo)文字的相似度,這樣就得到了一個(gè)"虛擬的ProbeLog描述符"——就好像有一個(gè)專門識(shí)別用戶所描述概念的理想模型參加了同樣的考試。
但是,這個(gè)虛擬描述符和真實(shí)模型的描述符存在"量綱不同"的問題,就像用攝氏度和華氏度測溫度一樣,數(shù)值范圍完全不同。為了解決這個(gè)問題,研究團(tuán)隊(duì)對(duì)每個(gè)描述符進(jìn)行了標(biāo)準(zhǔn)化處理,將它們轉(zhuǎn)換到相同的數(shù)值范圍內(nèi),這樣就能直接比較虛擬描述符和真實(shí)模型描述符的相似性了。
四、降低成本的"協(xié)作探測":讓計(jì)算更高效
雖然ProbeLog的想法很棒,但面對(duì)百萬級(jí)別的模型庫時(shí),給每個(gè)模型都跑4000張圖片的計(jì)算成本是驚人的。這就像要給一個(gè)擁有百萬學(xué)生的學(xué)校都安排完整的標(biāo)準(zhǔn)化考試,成本和時(shí)間都難以承受。
研究團(tuán)隊(duì)提出了"協(xié)作探測"(Collaborative Probing)這一創(chuàng)新解決方案。這個(gè)想法借鑒了推薦系統(tǒng)中的協(xié)同過濾技術(shù),就像Netflix如何根據(jù)你看過的少數(shù)幾部電影推薦你可能喜歡的其他電影一樣。
協(xié)作探測的核心思路是:不需要讓每個(gè)模型都做完整的4000道題考試,而是讓每個(gè)模型只做其中隨機(jī)選擇的一小部分題目。比如,模型A做第1、15、33、78...這些題目,模型B做第3、22、41、92...這些題目,模型C做第7、28、45、99...這些題目。雖然每個(gè)模型只做了部分題目,但通過巧妙的數(shù)學(xué)方法,可以推算出每個(gè)模型在所有題目上的表現(xiàn)。
這種方法利用了一個(gè)重要假設(shè):相似功能的模型在面對(duì)相同問題時(shí)會(huì)有相似的反應(yīng)模式。就像如果你知道兩個(gè)學(xué)生在數(shù)學(xué)上表現(xiàn)相似,那么當(dāng)你知道其中一個(gè)學(xué)生的物理成績時(shí),你就能比較準(zhǔn)確地估算另一個(gè)學(xué)生的物理成績。
具體實(shí)現(xiàn)使用了截?cái)嗥娈愔捣纸猓⊿VD)算法,這是一種矩陣分解技術(shù)。簡單來說,就是找到隱藏在不完整數(shù)據(jù)背后的規(guī)律,然后用這些規(guī)律填補(bǔ)缺失的信息。實(shí)驗(yàn)結(jié)果表明,使用協(xié)作探測技術(shù),每個(gè)模型只需要做15%的題目就能達(dá)到與完整測試相近的效果,大大降低了計(jì)算成本。
五、真實(shí)世界的驗(yàn)證:從實(shí)驗(yàn)室到實(shí)用
為了驗(yàn)證ProbeLog在真實(shí)環(huán)境中的表現(xiàn),研究團(tuán)隊(duì)構(gòu)建了兩個(gè)測試數(shù)據(jù)集。第一個(gè)叫INet-Hub,包含1500個(gè)在ImageNet子集上訓(xùn)練的模型,總共超過85000個(gè)輸出維度,涵蓋1000個(gè)細(xì)粒度概念。這就像創(chuàng)建了一個(gè)標(biāo)準(zhǔn)化的"實(shí)驗(yàn)班",所有學(xué)生都接受過相似的訓(xùn)練,但專業(yè)方向各不相同。
第二個(gè)數(shù)據(jù)集更具挑戰(zhàn)性,叫HF-Hub,包含71個(gè)從Hugging Face平臺(tái)手工收集的真實(shí)用戶上傳模型,總共400個(gè)輸出維度。這些模型就像來自不同學(xué)校、不同背景的學(xué)生,訓(xùn)練數(shù)據(jù)、命名規(guī)范都各不相同。比如,有的模型把蘋果標(biāo)記為"Apple",有的標(biāo)記為"Apples",有的可能用更具體的描述如"Red Apple"。
研究團(tuán)隊(duì)設(shè)計(jì)了多種測試場景。在同分布測試中(INet到INet),ProbeLog達(dá)到了72.8%的top-1準(zhǔn)確率,這意味著超過七成的查詢都能在第一個(gè)結(jié)果中找到正確答案??紤]到隨機(jī)猜測的準(zhǔn)確率只有0.1%(因?yàn)橛?000個(gè)可能的類別),這個(gè)結(jié)果相當(dāng)出色。
更令人印象深刻的是跨分布測試的結(jié)果。當(dāng)用HF-Hub的真實(shí)模型搜索INet-Hub時(shí),ProbeLog達(dá)到了40.6%的top-1準(zhǔn)確率。這就像讓一個(gè)在中式教育體系下成長的學(xué)生去適應(yīng)美式教育的評(píng)估標(biāo)準(zhǔn),難度可想而知,但ProbeLog依然表現(xiàn)良好。
在零樣本文字搜索測試中,用戶直接輸入"狗"這樣的文字描述,ProbeLog能夠在INet-Hub中達(dá)到43.8%的top-1準(zhǔn)確率,在HF-Hub中達(dá)到34.0%的準(zhǔn)確率。這意味著用戶有很大概率在第一個(gè)搜索結(jié)果中就找到能識(shí)別目標(biāo)概念的模型。
六、深入分析:影響效果的關(guān)鍵因素
研究團(tuán)隊(duì)還深入分析了影響ProbeLog性能的各種因素,這些發(fā)現(xiàn)為實(shí)際應(yīng)用提供了重要指導(dǎo)。
關(guān)于探測圖像的選擇,研究團(tuán)隊(duì)測試了四種不同的圖像來源:完全人工生成的Dead-Leaves圖像、用Stable Diffusion生成的合成圖像、ImageNet數(shù)據(jù)集圖像,以及COCO數(shù)據(jù)集圖像。結(jié)果顯示,越接近目標(biāo)模型訓(xùn)練數(shù)據(jù)分布的探測圖像效果越好。ImageNet圖像作為探測器時(shí)效果最佳,因?yàn)榇蟛糠譁y試模型都是在ImageNet相關(guān)數(shù)據(jù)上訓(xùn)練的。但令人驚喜的是,即使是相對(duì)"不匹配"的COCO場景圖像也能達(dá)到不錯(cuò)的效果,這說明ProbeLog具有良好的泛化能力。
在比較策略方面,研究團(tuán)隊(duì)驗(yàn)證了只關(guān)注高置信度探測結(jié)果的重要性。他們比較了多種策略:使用置信度最低的探測結(jié)果、隨機(jī)選擇、均勻分位數(shù)采樣、使用所有探測結(jié)果等。結(jié)果證實(shí),只有關(guān)注查詢模型最有把握的探測結(jié)果才能獲得最佳性能。這就像在嘈雜的環(huán)境中,你要專注聽那些說話最清楚的人的聲音,而忽略那些模糊不清的雜音。
探測圖像數(shù)量的影響也很有趣。研究發(fā)現(xiàn),使用4000張COCO圖像就能獲得43.8%的top-1準(zhǔn)確率,而使用8000張圖像能提升到47.8%。這表明存在收益遞減效應(yīng):初期增加探測圖像數(shù)量能顯著提升性能,但到了一定程度后,繼續(xù)增加圖像的邊際收益就很小了。
七、協(xié)作探測的威力:少量數(shù)據(jù)實(shí)現(xiàn)大效果
協(xié)作探測技術(shù)的表現(xiàn)令人矚目。在文字到INet-Hub的檢索任務(wù)中,即使每個(gè)模型只使用15%的探測圖像,協(xié)作探測也能達(dá)到與使用全部數(shù)據(jù)相近的效果。更令人驚訝的是,當(dāng)每個(gè)模型只使用4%的探測圖像時(shí),協(xié)作探測的效果竟然等同于傳統(tǒng)方法使用15%的探測圖像的效果。這意味著在相同的計(jì)算成本下,協(xié)作探測能提供近3倍的性能提升。
這種效果的原理在于,不同模型之間存在功能上的相關(guān)性,而協(xié)作探測能夠巧妙地利用這種相關(guān)性。就像在一個(gè)班級(jí)里,如果你知道數(shù)學(xué)好的學(xué)生物理通常也不錯(cuò),那么即使你只看到某個(gè)學(xué)生的部分成績,也能比較準(zhǔn)確地推測他在其他科目上的表現(xiàn)。
八、方法的局限性與未來方向
盡管ProbeLog表現(xiàn)出色,但研究團(tuán)隊(duì)也誠實(shí)地指出了方法的局限性。首先,這種方法目前主要針對(duì)分類模型設(shè)計(jì),對(duì)于生成模型(如GPT、Stable Diffusion等)的適用性還需要進(jìn)一步研究。生成模型的輸出不像分類模型那樣有明確的類別對(duì)應(yīng)關(guān)系,因此需要開發(fā)新的探測和比較策略。
其次,當(dāng)目標(biāo)概念與探測圖像的分布差異很大時(shí),效果會(huì)明顯下降。比如,如果要搜索能識(shí)別醫(yī)學(xué)影像中病理特征的模型,而探測圖像都是日常生活場景,那么效果就會(huì)打折扣。這提示我們在實(shí)際應(yīng)用中可能需要針對(duì)特定領(lǐng)域準(zhǔn)備專門的探測圖像集。
另外,雖然協(xié)作探測大大降低了計(jì)算成本,但對(duì)于真正大規(guī)模的模型庫(比如百萬個(gè)模型),計(jì)算和存儲(chǔ)開銷仍然是需要考慮的問題。研究團(tuán)隊(duì)提到,他們的INet-Hub模型需要400GB存儲(chǔ)空間,而對(duì)應(yīng)的ProbeLog描述符只需要1.4GB,壓縮比相當(dāng)可觀,但擴(kuò)展到百萬模型規(guī)模時(shí)仍需要進(jìn)一步優(yōu)化。
研究團(tuán)隊(duì)還指出了幾個(gè)有前景的改進(jìn)方向。一是開發(fā)更智能的探測圖像選擇策略,比如根據(jù)前幾張圖像的結(jié)果自適應(yīng)地選擇后續(xù)圖像,或者使用主動(dòng)學(xué)習(xí)的思想來選擇最有信息量的探測圖像。二是改進(jìn)協(xié)作過濾算法,考慮模型輸出值的統(tǒng)計(jì)特性,而不僅僅是簡單的矩陣分解。
九、對(duì)AI生態(tài)的深遠(yuǎn)影響
ProbeLog的意義遠(yuǎn)超技術(shù)本身,它可能會(huì)改變整個(gè)AI模型生態(tài)系統(tǒng)的運(yùn)作方式。目前,大量優(yōu)秀的AI模型因?yàn)槿狈玫奈臋n而被埋沒,就像圖書館里沒有索引的珍貴藏書。ProbeLog提供了一種自動(dòng)化的"編目"方法,能夠讓這些"沉睡"的模型重新煥發(fā)價(jià)值。
這種技術(shù)還能促進(jìn)AI模型的重用和共享。研究人員和開發(fā)者不再需要為每個(gè)新任務(wù)從頭訓(xùn)練模型,而是可以在現(xiàn)有的巨大模型庫中找到最適合的工具。這不僅能節(jié)省計(jì)算資源和時(shí)間,還能降低AI應(yīng)用的門檻,讓更多沒有大規(guī)模計(jì)算資源的研究者和開發(fā)者也能獲得高質(zhì)量的模型。
從環(huán)境保護(hù)的角度看,這種技術(shù)也具有積極意義。AI模型的訓(xùn)練需要消耗大量電力,產(chǎn)生可觀的碳排放。如果能通過更好的模型搜索和重用減少重復(fù)訓(xùn)練,就能在一定程度上緩解AI發(fā)展對(duì)環(huán)境的壓力。
ProbeLog還可能催生新的商業(yè)模式。模型提供者可以更容易地展示自己模型的能力,用戶也能更精準(zhǔn)地找到所需的模型。這可能會(huì)促進(jìn)AI模型市場的發(fā)展,讓優(yōu)秀的模型獲得應(yīng)有的回報(bào),從而激勵(lì)更多高質(zhì)量模型的產(chǎn)生。
十、技術(shù)實(shí)現(xiàn)的精妙之處
從技術(shù)角度看,ProbeLog的設(shè)計(jì)體現(xiàn)了多個(gè)巧妙的工程思考。首先是logit級(jí)別表示的選擇。傳統(tǒng)方法通常試圖用一個(gè)向量表示整個(gè)模型,但這樣做會(huì)丟失模型多功能的特性。ProbeLog選擇為每個(gè)輸出維度單獨(dú)建模,這樣一個(gè)既能識(shí)別狗又能識(shí)別貓的模型就能在搜索"狗"時(shí)和搜索"貓"時(shí)都被正確找到。
其次是探測圖像的標(biāo)準(zhǔn)化處理。通過使用固定的、有序的圖像集合,ProbeLog確保了不同模型之間的可比性。這就像標(biāo)準(zhǔn)化考試必須使用相同的題目才能公平比較不同考生的能力一樣。
標(biāo)準(zhǔn)化處理也是一個(gè)重要?jiǎng)?chuàng)新。原始的模型輸出和基于CLIP的文字描述在數(shù)值范圍上可能相差很大,就像用不同單位測量同一個(gè)物理量。通過將每個(gè)描述符標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的分布,系統(tǒng)消除了這種數(shù)值范圍的差異,使得跨模態(tài)比較成為可能。
不對(duì)稱的相似度度量也值得注意。傳統(tǒng)的相似度計(jì)算通常是對(duì)稱的,即A與B的相似度等于B與A的相似度。但ProbeLog采用了不對(duì)稱度量,只關(guān)注查詢模型最有把握的探測結(jié)果。這種設(shè)計(jì)反映了對(duì)模型不確定性的深刻理解:模型在不確定的情況下可能給出噪音很大的輸出,而只有在確定的情況下輸出才是可靠的。
說到底,ProbeLog這項(xiàng)研究為我們展現(xiàn)了AI模型搜索的一種全新可能性。在AI模型數(shù)量爆炸式增長的今天,如何有效利用這些模型資源成為了一個(gè)關(guān)鍵挑戰(zhàn)。ProbeLog通過巧妙的"標(biāo)準(zhǔn)化考試"思路,不僅解決了模型搜索的技術(shù)難題,還為整個(gè)AI生態(tài)系統(tǒng)的發(fā)展提供了新的思路。
這項(xiàng)工作的價(jià)值不僅在于提出了一個(gè)有效的技術(shù)方案,更在于它揭示了一個(gè)重要趨勢:隨著AI模型數(shù)量的持續(xù)增長,如何管理、搜索和重用這些模型將成為AI發(fā)展的重要議題。ProbeLog為我們提供了一個(gè)很好的起點(diǎn),但這個(gè)領(lǐng)域還有很大的發(fā)展空間。未來,我們可能會(huì)看到更多類似的技術(shù)出現(xiàn),讓AI模型的使用變得更加便捷和高效。
對(duì)于普通開發(fā)者和研究者來說,ProbeLog意味著他們不再需要在茫茫模型海洋中盲目尋找,而是可以通過簡單的文字描述快速找到最適合自己需求的模型。這不僅能提高工作效率,還能讓更多人享受到AI技術(shù)發(fā)展的成果。畢竟,技術(shù)的最終目標(biāo)是為人類服務(wù),而ProbeLog正是朝著這個(gè)目標(biāo)邁出的重要一步。
Q&A
Q1:ProbeLog是什么?它是如何工作的?
A:ProbeLog是希伯來大學(xué)開發(fā)的AI模型搜索技術(shù),就像給AI模型安排標(biāo)準(zhǔn)化考試一樣。它用4000張固定圖片測試每個(gè)模型,記錄模型對(duì)每種概念的反應(yīng)模式,形成獨(dú)特的"能力指紋"。當(dāng)用戶想找能識(shí)別某個(gè)物體的模型時(shí),系統(tǒng)就比較這些指紋找到最匹配的模型。
Q2:ProbeLog能解決什么實(shí)際問題?
A:主要解決AI模型庫中"找不到合適模型"的問題?,F(xiàn)在像Hugging Face這樣的平臺(tái)有超過100萬個(gè)模型,但近60%都沒有說明文檔,用戶根本不知道哪個(gè)模型能做什么。ProbeLog讓用戶直接輸入"狗"、"汽車"等關(guān)鍵詞就能找到相應(yīng)的識(shí)別模型。
Q3:這項(xiàng)技術(shù)的準(zhǔn)確率如何?普通人能使用嗎?
A:在實(shí)驗(yàn)中,ProbeLog達(dá)到了40-70%的準(zhǔn)確率,遠(yuǎn)超隨機(jī)猜測的0.1%。雖然目前還是研究階段的技術(shù),但已經(jīng)展現(xiàn)出很好的實(shí)用潛力。未來如果集成到模型平臺(tái)中,普通開發(fā)者就能像搜索網(wǎng)頁一樣輕松找到需要的AI模型了。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。