av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<sub id="v8m5c"><p id="v8m5c"><li id="v8m5c"></li></p></sub>

<tfoot id="v8m5c"><rp id="v8m5c"></rp></tfoot>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

上海AI實驗室推出游戲編程界的"智能教練"：V-GameGym如何讓AI學(xué)會寫游戲代碼？

視覺游戲生成多模態(tài)評估AI編程能力

上海AI實驗室推出游戲編程界的"智能教練"：V-GameGym如何讓AI學(xué)會寫游戲代碼？

作者：科技行者

2025-10-16 17:30

分享至：

上海AI實驗室推出V-GameGym測試平臺，首次全面評估AI模型的游戲開發(fā)能力。該平臺包含2219個高質(zhì)量游戲樣本，采用代碼、視覺、動態(tài)三維評估體系。測試70個AI模型發(fā)現(xiàn)，即使最優(yōu)秀的GPT-5也只能成功開發(fā)45%的游戲，AI在編程邏輯方面表現(xiàn)良好但視覺設(shè)計能力不足，為AI輔助游戲開發(fā)指明了改進(jìn)方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-16 17:30 ? 科技行者

這項由上海AI實驗室的張偉、楊杰克、陶任帥等研究人員與阿里巴巴集團(tuán)、北京交通大學(xué)、AIStrong等機(jī)構(gòu)合作完成的研究，發(fā)表于2025年9月的arXiv預(yù)印本平臺（論文編號：arXiv:2509.20136v1），為我們帶來了一個令人興奮的發(fā)現(xiàn)：AI現(xiàn)在不僅能寫代碼，還能創(chuàng)造出真正可以玩的游戲。

想象一下，你告訴一個朋友"幫我做個飛鳥游戲，小鳥要能飛過管道"，然后幾分鐘后，你的朋友就真的給你做出了一個完整的游戲。這聽起來像科幻電影，但這正是研究團(tuán)隊想要實現(xiàn)的目標(biāo)。他們發(fā)現(xiàn)，雖然現(xiàn)在的AI大模型在編程方面已經(jīng)相當(dāng)厲害，但在制作游戲這件事上，它們還有很多不足之處。

過去，我們評估AI編程能力的方式就像只看學(xué)生會不會解數(shù)學(xué)題，而不看他們能不能用數(shù)學(xué)知識建造一座橋。研究團(tuán)隊意識到，游戲開發(fā)是一個更加綜合性的挑戰(zhàn)——它不僅要求代碼能夠運(yùn)行，還要求游戲好玩、好看，用戶體驗要流暢。這就好比評判一個廚師，不能只看他會不會切菜，還要看他能不能做出一道色香味俱全的菜肴。

為了解決這個問題，研究團(tuán)隊構(gòu)建了一個名為V-GameGym的全新測試平臺。這個平臺就像是一個專門為AI設(shè)計的"游戲開發(fā)訓(xùn)練營"，包含了2219個精心挑選的高質(zhì)量游戲樣本，涵蓋了100個不同的游戲類型。這些樣本都來自真實的開源項目，確保了測試的真實性和實用性。

研究團(tuán)隊采用了一種非常巧妙的數(shù)據(jù)收集策略。他們首先從兩個大型代碼庫——OpenCoder和The Stack v2中篩選出所有包含"pygame"關(guān)鍵詞的Python代碼文件。Pygame是Python語言中最流行的游戲開發(fā)框架，就像是游戲開發(fā)者的"瑞士軍刀"。然后，他們使用了一種叫做"聚類篩選"的方法，這個過程就像是把所有的游戲按照功能特點(diǎn)分成100個不同的組，然后從每組中挑選出質(zhì)量最高的那個作為代表。

這種篩選方法的精妙之處在于，它確保了數(shù)據(jù)集既有多樣性又有高質(zhì)量。研究團(tuán)隊為每個代碼樣本計算了一個"質(zhì)量分?jǐn)?shù)"，這個分?jǐn)?shù)考慮了代碼的結(jié)構(gòu)完整性、功能復(fù)雜度和實現(xiàn)質(zhì)量等多個維度。最終選出的2219個樣本平均代碼長度為257行，需求描述平均包含178個單詞，每個樣本都能正常運(yùn)行并生成完整的游戲視頻。

更有趣的是，研究團(tuán)隊還開發(fā)了一套自動化的"游戲制作流水線"。這個流水線使用Claude-Sonnet-4這樣的先進(jìn)AI模型，能夠自動分析原始游戲代碼的意圖，將交互式的游戲轉(zhuǎn)換成可以自動演示的版本，在沙盒環(huán)境中驗證代碼的正確性，并且自動生成自然語言的游戲需求說明。整個過程就像是有一個非常細(xì)心的助手，不僅幫你整理游戲代碼，還幫你寫出了完整的使用說明書。

在評估AI模型的表現(xiàn)時，研究團(tuán)隊設(shè)計了一套全方位的評分系統(tǒng)。這套系統(tǒng)不僅看AI生成的代碼能不能運(yùn)行，還會評估游戲畫面是否美觀、游戲動態(tài)效果是否流暢。具體來說，評分包括三個維度：代碼質(zhì)量（占1/3權(quán)重）、截圖質(zhì)量（占1/3權(quán)重）和視頻質(zhì)量（占1/3權(quán)重）。這就像是給廚師打分，不僅要看菜譜寫得對不對，還要看做出來的菜好不好看、好不好吃。

為了確保評估結(jié)果的可靠性，研究團(tuán)隊還邀請了8名研究生對近2219個游戲樣本進(jìn)行人工驗證。這些驗證者使用完整的UI沙盒環(huán)境，配合AI輔助工具，確保每個游戲都能正常運(yùn)行并達(dá)到預(yù)期效果。這個驗證過程就像是有一群專業(yè)的"游戲測試員"，確保每個游戲都符合質(zhì)量標(biāo)準(zhǔn)。

研究團(tuán)隊在V-GameGym平臺上測試了70個不同的AI模型，包括最新的GPT-5、Claude-4、Gemini-2.5等知名模型。測試結(jié)果顯示了一些非常有趣的現(xiàn)象。首先，模型的規(guī)模確實很重要——參數(shù)量更大的模型通常表現(xiàn)更好，但這種關(guān)系呈現(xiàn)對數(shù)增長特征，意味著隨著模型變大，性能提升的邊際效應(yīng)會遞減。研究團(tuán)隊甚至推導(dǎo)出了一個數(shù)學(xué)公式：M = 127.2 × log(N) + 135.6，其中M是解決的問題數(shù)量，N是模型參數(shù)數(shù)量。

更令人驚訝的是，即使是表現(xiàn)最好的GPT-5模型，也只能成功生成45%的高質(zhì)量游戲。這個結(jié)果就像是告訴我們，即使是最優(yōu)秀的AI"廚師"，也只能做好不到一半的菜肴。這說明在游戲開發(fā)這個復(fù)雜任務(wù)上，AI還有很大的改進(jìn)空間。

在不同能力維度的表現(xiàn)上，AI模型呈現(xiàn)出明顯的不平衡現(xiàn)象。大多數(shù)模型在代碼生成方面表現(xiàn)不錯，分?jǐn)?shù)普遍在70分以上，這說明它們已經(jīng)掌握了基本的編程語法和邏輯。然而，在視覺評估任務(wù)上，包括圖像質(zhì)量和視頻效果評估，所有模型的表現(xiàn)都相當(dāng)糟糕，分?jǐn)?shù)大多在25分以下。這種差異就像是一個學(xué)生數(shù)學(xué)很好，但美術(shù)課成績很差——AI擅長邏輯思維，但在視覺美學(xué)和用戶體驗方面還需要大幅提升。

研究團(tuán)隊還發(fā)現(xiàn)了一些有趣的規(guī)律。比如，來自同一技術(shù)路線的模型往往表現(xiàn)相似，這說明底層架構(gòu)和訓(xùn)練方法對最終性能有重要影響。同時，一些開源模型如gpt-oss-120b的表現(xiàn)已經(jīng)能夠與商業(yè)模型相媲美，這為游戲開發(fā)領(lǐng)域的AI應(yīng)用提供了更多選擇。

在游戲難度分析方面，研究團(tuán)隊發(fā)現(xiàn)大多數(shù)游戲?qū)I來說都是挑戰(zhàn)。數(shù)據(jù)顯示，游戲解決率呈現(xiàn)典型的右偏分布，大部分游戲只有少數(shù)幾個模型能夠成功處理，而能被大多數(shù)模型輕松解決的簡單游戲數(shù)量很少。這種分布特征很好地驗證了測試集的挑戰(zhàn)性和區(qū)分度。

有趣的是，即使是在最難的游戲上，頂級模型之間的相對排名仍然保持穩(wěn)定。這說明V-GameGym測試平臺具有良好的區(qū)分能力，能夠可靠地評估不同AI模型的真實水平。這就像是一場馬拉松比賽，無論賽道多難，跑得快的選手始終能保持領(lǐng)先。

研究團(tuán)隊還進(jìn)行了深入的相關(guān)性分析。他們發(fā)現(xiàn)，代碼生成、圖像評估和視頻評估三個維度之間存在中等到強(qiáng)的正相關(guān)關(guān)系。這意味著在代碼方面表現(xiàn)優(yōu)秀的AI模型，通常在視覺評估方面也相對較好。這說明游戲開發(fā)需要的是綜合性的多模態(tài)理解能力，而不是孤立的技術(shù)技能。

在具體的技術(shù)分析中，研究團(tuán)隊發(fā)現(xiàn)了一些令人深思的現(xiàn)象。雖然整體上存在正相關(guān)關(guān)系，但在頂級模型中出現(xiàn)了"能力權(quán)衡"現(xiàn)象。比如GPT-5在代碼生成方面接近完美（96.6分），但在視覺任務(wù)上表現(xiàn)相對較弱（17.6/20.7分）。相比之下，o3模型雖然代碼能力稍弱，但在視覺理解方面表現(xiàn)更加均衡。這種現(xiàn)象提示我們，不同的AI模型可能采用了不同的"推理策略"，就像有些學(xué)生偏科嚴(yán)重，有些學(xué)生各科均衡。

為了驗證評估方法的可靠性，研究團(tuán)隊進(jìn)行了敏感性分析。他們發(fā)現(xiàn)，即使改變評分閾值，不同模型的相對排名仍然保持穩(wěn)定。這種穩(wěn)定性驗證了評估方法的科學(xué)性，表明觀察到的性能差異反映的是真實的能力差距，而不是評估偏差。

研究團(tuán)隊還分析了數(shù)據(jù)集的統(tǒng)計特征。需求描述的長度分布呈現(xiàn)明顯的右偏特征，平均570個字符，中位數(shù)297個字符，80%的文本長度在1000字符以下。這種分布特征反映了真實游戲開發(fā)中需求的復(fù)雜度變化。參考代碼的長度分布也很有趣，平均8533個字符，中位數(shù)8488個字符，分布相對對稱，說明選出的游戲樣本在復(fù)雜度上比較均衡。

在游戲類型分布方面，街機(jī)游戲占據(jù)最大比例（47.3%），其次是射擊游戲（17.7%），這種分布反映了Pygame社區(qū)中不同游戲類型的自然流行程度。研究團(tuán)隊還分析了Pygame模塊的使用頻率，發(fā)現(xiàn)pygame.display（91.5%）和pygame.event（68.3%）幾乎是通用模塊，而pygame.sprite（21.3%）和pygame.mixer（19.2%）等高級功能的使用頻率相對較低，這為理解游戲開發(fā)的技術(shù)要求提供了有價值的洞察。

更深入地看，研究團(tuán)隊還開發(fā)了質(zhì)量預(yù)測模型來理解什么因素影響游戲代碼的質(zhì)量。通過隨機(jī)森林回歸分析，他們發(fā)現(xiàn)代碼字符數(shù)量和單詞數(shù)量是最重要的質(zhì)量預(yù)測指標(biāo)。這個發(fā)現(xiàn)雖然看起來簡單，但實際上揭示了一個重要規(guī)律：在游戲開發(fā)中，代碼的規(guī)模往往與其完整性和質(zhì)量正相關(guān)。

在源代碼來源分析中，研究團(tuán)隊發(fā)現(xiàn)了一個有趣的現(xiàn)象：貢獻(xiàn)樣本的倉庫分布極其分散，大多數(shù)倉庫只貢獻(xiàn)了1-3個樣本。這種"長尾分布"實際上是一個優(yōu)勢，因為它確保了數(shù)據(jù)集的多樣性，避免了少數(shù)熱門倉庫的編程風(fēng)格對整個數(shù)據(jù)集造成偏倚。這就像是從全世界不同的廚師那里收集菜譜，而不是只從幾個著名餐廳收集，確保了"口味"的多樣性。

研究團(tuán)隊還發(fā)現(xiàn)了模型相似性的有趣模式。通過分析哪些游戲被哪些模型成功解決，他們發(fā)現(xiàn)同一架構(gòu)族群的模型（如Qwen系列、DeepSeek系列）往往表現(xiàn)出相似的問題解決模式。這種聚類現(xiàn)象表明，底層的架構(gòu)設(shè)計和訓(xùn)練方法學(xué)對AI的能力特征有深遠(yuǎn)影響。同時，一些跨家族的聚類現(xiàn)象也很有趣，暗示參數(shù)規(guī)模這樣的因素可能比具體的架構(gòu)設(shè)計更加重要。

在實際應(yīng)用層面，V-GameGym平臺的技術(shù)架構(gòu)也值得關(guān)注。整個系統(tǒng)采用了高度優(yōu)化的并行處理架構(gòu)，包括異步文件操作、批量處理優(yōu)化、可配置的工作線程池等。這種設(shè)計使得系統(tǒng)能夠處理1000+游戲的并發(fā)評估，同時保持超過80%的端到端成功率。這種工程優(yōu)化對于實際部署AI評估系統(tǒng)具有重要的參考價值。

從評估流程的角度來看，研究團(tuán)隊設(shè)計的多模態(tài)評估框架特別值得稱道。代碼生成、游戲錄制和多維度評估形成了一個完整的閉環(huán)。代碼生成階段使用OpenAI API進(jìn)行并行處理，平均每個游戲的生成時間為2.3秒。游戲錄制階段優(yōu)化了pygame執(zhí)行環(huán)境，能夠同時生成10張截圖和1個游戲視頻，平均處理時間1.2秒。多模態(tài)評估階段使用專門的判斷模型進(jìn)行代碼、圖像和視頻的三維評分，支持最多10次重試機(jī)制以確保結(jié)果可靠性。

特別有趣的是，研究團(tuán)隊在游戲代碼的自動化改造方面做了大量工作。原始的游戲代碼通常需要用戶交互才能運(yùn)行，但為了自動化評估，研究團(tuán)隊開發(fā)了一套智能改造流程。這個流程能夠自動分析游戲代碼的結(jié)構(gòu)，注入自主行為邏輯，添加定時退出機(jī)制，并且生成視覺計時器顯示。這種改造就像是給每個游戲安裝了"自動駕駛"功能，讓它們能夠獨(dú)立運(yùn)行和展示。

在具體的技術(shù)實現(xiàn)細(xì)節(jié)上，研究團(tuán)隊還解決了許多實際問題。比如，他們發(fā)現(xiàn)直接使用PNG格式保存截圖會影響性能，于是改用JPG格式并進(jìn)行了異步優(yōu)化。在視頻生成方面，他們使用mp4v編碼器進(jìn)行快速編碼，采用批量寫入幀的策略提高效率，還使用后臺線程進(jìn)行異步IO操作。這些看似細(xì)小的優(yōu)化累積起來，顯著提升了整個系統(tǒng)的處理能力。

研究結(jié)果還揭示了一些關(guān)于AI能力發(fā)展的深層洞察。比如，研究團(tuán)隊發(fā)現(xiàn)思維鏈增強(qiáng)的模型（如各種Thinking版本）通常表現(xiàn)更好，這說明在復(fù)雜的創(chuàng)造性任務(wù)中，推理過程的透明度和深度是關(guān)鍵因素。這個發(fā)現(xiàn)對于未來AI模型的設(shè)計和訓(xùn)練具有重要指導(dǎo)意義。

另一個重要發(fā)現(xiàn)是開源模型和閉源模型之間的差距正在縮小。雖然最頂級的性能仍然被商業(yè)模型占據(jù)，但一些開源模型如gpt-oss-120b已經(jīng)能夠在某些維度上與閉源模型競爭。這種趨勢對于整個AI生態(tài)系統(tǒng)的發(fā)展是非常積極的信號。

從實際應(yīng)用的角度來看，V-GameGym不僅僅是一個評估工具，更是一個能夠推動AI游戲開發(fā)能力進(jìn)步的平臺。通過提供標(biāo)準(zhǔn)化的評估流程和詳細(xì)的性能分析，它為AI研究者提供了改進(jìn)模型的明確方向。同時，這個平臺也為游戲開發(fā)者提供了一個了解AI輔助開發(fā)能力邊界的窗口。

研究團(tuán)隊在論文中特別強(qiáng)調(diào)了當(dāng)前AI模型在視覺理解和動態(tài)游戲體驗生成方面的不足。這種坦誠的評估為未來的研究指明了方向：如何讓AI不僅能寫出功能正確的代碼，還能創(chuàng)造出視覺吸引力強(qiáng)、用戶體驗佳的游戲。這個挑戰(zhàn)的解決將需要在多模態(tài)理解、美學(xué)評估、用戶體驗設(shè)計等多個方向上的突破。

值得注意的是，研究團(tuán)隊還為數(shù)據(jù)集質(zhì)量控制做了大量工作。他們使用8名研究生進(jìn)行人工驗證，每個樣本都經(jīng)過了嚴(yán)格的質(zhì)量檢查。驗證過程不僅確保代碼能夠正常運(yùn)行，還驗證了生成的需求描述與實際游戲功能的一致性。這種人工驗證雖然成本較高，但確保了數(shù)據(jù)集的高質(zhì)量，為后續(xù)的AI模型評估提供了可靠的基礎(chǔ)。

說到底，V-GameGym這項研究為我們展現(xiàn)了AI在創(chuàng)造性編程任務(wù)上的當(dāng)前水平和未來潛力。雖然目前的AI模型還不能完全勝任游戲開發(fā)的所有環(huán)節(jié)，但它們已經(jīng)在代碼邏輯方面展現(xiàn)出了相當(dāng)?shù)哪芰ΑｋS著技術(shù)的進(jìn)步，我們有理由期待AI能夠成為游戲開發(fā)者的得力助手，甚至在某些場景下獨(dú)立完成簡單游戲的開發(fā)任務(wù)。

這項研究的意義不僅僅局限于游戲開發(fā)領(lǐng)域。它提供的多模態(tài)評估框架和標(biāo)準(zhǔn)化測試方法，可以應(yīng)用到其他需要綜合能力評估的AI應(yīng)用場景中。比如，類似的方法可以用于評估AI在網(wǎng)頁設(shè)計、移動應(yīng)用開發(fā)、數(shù)據(jù)可視化等其他創(chuàng)造性編程任務(wù)上的能力。

對于普通開發(fā)者來說，V-GameGym的研究結(jié)果提供了一個重要的參考：當(dāng)前的AI編程助手在邏輯實現(xiàn)方面已經(jīng)相當(dāng)可靠，但在涉及視覺設(shè)計和用戶體驗的方面還需要人類的指導(dǎo)和校正。這種理解有助于開發(fā)者更好地利用AI工具，在合適的任務(wù)上發(fā)揮AI的優(yōu)勢，在AI能力不足的領(lǐng)域繼續(xù)依靠人類專業(yè)知識。

從更宏觀的角度來看，這項研究也反映了AI發(fā)展的一個重要趨勢：從單一任務(wù)的優(yōu)化轉(zhuǎn)向復(fù)合任務(wù)的綜合能力評估。游戲開發(fā)是一個典型的復(fù)合任務(wù)，需要邏輯思維、創(chuàng)意設(shè)計、用戶體驗考慮等多方面能力的協(xié)調(diào)。V-GameGym提供的評估框架為這類復(fù)合任務(wù)的AI能力評估樹立了一個標(biāo)桿，對整個AI評估方法學(xué)的發(fā)展具有重要價值。

最終，V-GameGym讓我們看到了AI輔助創(chuàng)造的巨大潛力，同時也清醒地認(rèn)識到了當(dāng)前技術(shù)的局限性。這種客觀的評估為AI技術(shù)的發(fā)展提供了明確的改進(jìn)方向，也為人類與AI協(xié)作的最佳實踐提供了有價值的洞察。有興趣深入了解這項研究技術(shù)細(xì)節(jié)的讀者，可以通過論文編號arXiv:2509.20136v1查詢完整論文。

Q&A

Q1：V-GameGym是什么？它能做什么？

A：V-GameGym是由上海AI實驗室開發(fā)的AI游戲編程能力測試平臺，包含2219個高質(zhì)量游戲樣本。它能夠全面評估AI模型生成游戲代碼的能力，不僅看代碼能否運(yùn)行，還評估游戲的視覺效果和用戶體驗。就像給AI當(dāng)"游戲開發(fā)考官"，從代碼、畫面、動畫三個維度進(jìn)行打分。

Q2：目前AI在游戲開發(fā)方面表現(xiàn)如何？

A：即使是最好的AI模型也只能成功開發(fā)45%的游戲。AI在編程邏輯方面表現(xiàn)不錯（70分以上），但在視覺設(shè)計和用戶體驗方面還很弱（25分以下）。這就像一個偏科嚴(yán)重的學(xué)生，數(shù)學(xué)很好但美術(shù)很差。

Q3：V-GameGym測試平臺如何保證評估的準(zhǔn)確性？

A：研究團(tuán)隊采用了多重保障措施：8名研究生對所有樣本進(jìn)行人工驗證，使用三維度評分系統(tǒng)（代碼、圖像、視頻），支持最多10次重試確保結(jié)果可靠性，還進(jìn)行了敏感性分析驗證評估方法的穩(wěn)定性。整個流程就像嚴(yán)格的質(zhì)量檢查生產(chǎn)線。

視覺游戲生成多模態(tài)評估AI編程能力

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<legend id="vwlfc"><track id="vwlfc"></track></legend>