av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

人工智能視覺推理的新突破：讓機(jī)器像人類一樣解釋圖像后再回答問題

組合式視覺推理大語言模型視覺理解算法

人工智能視覺推理的新突破：讓機(jī)器像人類一樣解釋圖像后再回答問題

作者：科技行者

2025-09-01 15:51

分享至：

這項(xiàng)由蒙納士大學(xué)等多所知名院校合作完成的大型綜述研究，系統(tǒng)回顧了組合式視覺推理領(lǐng)域的最新進(jìn)展。研究發(fā)現(xiàn)，讓人工智能像人類一樣"解釋后再回答"的組合式方法，在準(zhǔn)確性、可解釋性和可信度方面都顯著優(yōu)于傳統(tǒng)"黑盒子"方法，為構(gòu)建更可靠的人工智能視覺系統(tǒng)指明了發(fā)展方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-01 15:51 ? 科技行者

這項(xiàng)由蒙納士大學(xué)的柯福財(cái)教授與包括斯坦福大學(xué)、華盛頓大學(xué)在內(nèi)的多所知名院校研究團(tuán)隊(duì)共同完成的大型綜述研究，發(fā)表于2025年8月。這項(xiàng)研究系統(tǒng)性地回顧了2023年至2025年間260多篇頂級(jí)人工智能論文，有興趣深入了解的讀者可以通過論文編號(hào)arXiv:2508.17298訪問完整研究?jī)?nèi)容。

當(dāng)你看到一張圖片，比如一只貓坐在紅色沙發(fā)上，然后有人問你"這只貓的顏色是什么"時(shí)，你的大腦會(huì)發(fā)生什么？你不會(huì)只是簡(jiǎn)單地給出答案，而是會(huì)先觀察圖片，識(shí)別出"這是一只貓"，然后注意到"貓的毛色"，最后才回答"是橙色的"或"是黑色的"。但現(xiàn)在大多數(shù)人工智能在處理這類視覺問題時(shí)，就像一個(gè)匆忙的學(xué)生，不經(jīng)過仔細(xì)思考就直接給出答案，結(jié)果往往會(huì)出錯(cuò)。

研究團(tuán)隊(duì)發(fā)現(xiàn)，傳統(tǒng)的人工智能視覺模型就像一臺(tái)"黑盒子"，你給它輸入一張圖片和一個(gè)問題，它會(huì)直接吐出一個(gè)答案，但你完全不知道它是怎么得出這個(gè)答案的。這就好比一個(gè)學(xué)生在考試時(shí)不寫解題步驟，直接寫答案——即使答案對(duì)了，老師也不知道這個(gè)學(xué)生是真的會(huì)做還是蒙的。更糟糕的是，當(dāng)遇到復(fù)雜問題時(shí)，這種"黑盒子"方法經(jīng)常會(huì)給出錯(cuò)誤答案，因?yàn)樗鼪]有經(jīng)過逐步的推理過程。

為了解決這個(gè)問題，研究人員開始探索一種全新的方法，叫做"組合式視覺推理"。這種方法的核心思想是讓人工智能像人類一樣，在回答視覺問題之前先"解釋"自己看到了什么，然后一步步推理得出答案。就像一個(gè)優(yōu)秀的學(xué)生做數(shù)學(xué)題時(shí)會(huì)寫出詳細(xì)的解題步驟一樣，這種新方法要求人工智能展示它的"思考過程"。

研究團(tuán)隊(duì)把組合式視覺推理的發(fā)展歷程分為五個(gè)階段，每個(gè)階段都代表了技術(shù)的一次重要進(jìn)步。

一、從語言為中心的推理開始

最初的嘗試就像給一個(gè)善于寫文章的學(xué)生配上一副眼鏡。研究人員發(fā)現(xiàn)，大型語言模型（就是那些能寫文章、做翻譯的人工智能）在邏輯推理方面表現(xiàn)出色，但它們看不懂圖片。于是，科學(xué)家們想出了一個(gè)巧妙的辦法：讓專門的視覺模型先"描述"圖片內(nèi)容，然后讓語言模型根據(jù)這些描述來回答問題。

這種方法有兩種主要形式。第一種是"先拆解再看圖"的方式。當(dāng)面對(duì)一個(gè)復(fù)雜的視覺問題時(shí)，語言模型會(huì)先把這個(gè)大問題分解成幾個(gè)小問題，然后讓視覺模型逐個(gè)回答這些小問題，最后再綜合所有答案得出最終結(jié)果。比如問題是"圖片中最高的建筑物是什么顏色"，語言模型會(huì)先分解成："圖片中有哪些建筑物？""哪個(gè)最高？""這個(gè)建筑物是什么顏色？"

第二種是"先看圖再推理"的方式。視覺模型會(huì)先仔細(xì)觀察整張圖片，生成詳細(xì)的描述文字，然后語言模型基于這些描述進(jìn)行推理。這就像讓一個(gè)人先把看到的所有細(xì)節(jié)都寫下來，然后另一個(gè)人根據(jù)這些文字描述來回答問題。

這種方法雖然有效，但也存在明顯的問題。最大的問題是信息在轉(zhuǎn)換過程中會(huì)丟失。就像玩"傳話游戲"一樣，視覺信息要先轉(zhuǎn)換成文字，然后語言模型再基于文字進(jìn)行推理，這個(gè)過程中很多重要的視覺細(xì)節(jié)可能會(huì)丟失或被誤解。

二、工具增強(qiáng)的語言模型時(shí)代

隨著技術(shù)發(fā)展，研究人員意識(shí)到僅僅依靠文字描述是不夠的，于是他們開始讓語言模型"使用工具"。這就像給一個(gè)聰明的助手配備了各種專業(yè)儀器——他不僅會(huì)思考，還能主動(dòng)使用不同的工具來解決問題。

在這個(gè)階段，語言模型變成了一個(gè)"總指揮"，它可以調(diào)用各種專門的視覺工具。當(dāng)遇到需要識(shí)別物體的任務(wù)時(shí)，它會(huì)調(diào)用物體檢測(cè)工具；當(dāng)需要讀取圖片中的文字時(shí)，它會(huì)使用OCR（光學(xué)字符識(shí)別）工具；當(dāng)需要分析圖片細(xì)節(jié)時(shí)，它可能會(huì)使用圖像分割工具。

這種方法的優(yōu)勢(shì)是非常靈活。就像一個(gè)萬能的瑞士軍刀，每個(gè)工具都有自己的專長(zhǎng)，組合起來可以處理各種復(fù)雜的視覺任務(wù)。早期的系統(tǒng)如ViperGPT和VisProg就是這種思路的代表，它們可以根據(jù)任務(wù)需要自動(dòng)選擇和組合不同的工具。

但這種方法也面臨新的挑戰(zhàn)。首先是工具協(xié)調(diào)問題——就像指揮一個(gè)樂團(tuán)一樣，如何讓不同的工具協(xié)調(diào)工作并不容易。其次是錯(cuò)誤積累問題——如果某個(gè)工具給出了錯(cuò)誤信息，這個(gè)錯(cuò)誤會(huì)傳播到后續(xù)的推理過程中，最終導(dǎo)致整個(gè)答案錯(cuò)誤。為了解決這些問題，后來的研究開始引入學(xué)習(xí)機(jī)制，讓系統(tǒng)能夠從錯(cuò)誤中學(xué)習(xí)，不斷改善工具使用策略。

三、工具增強(qiáng)的視覺語言模型

第三個(gè)階段的突破在于讓人工智能直接"看"圖片，而不是只依賴文字描述。這就像從"隔著玻璃看世界"進(jìn)化到"直接接觸現(xiàn)實(shí)"。在這個(gè)階段，視覺語言模型不僅能理解文字，還能直接處理圖像信息，同時(shí)還可以調(diào)用外部工具。

這種方法有兩種主要實(shí)現(xiàn)方式。第一種是"語言指令控制"，視覺語言模型會(huì)生成自然語言指令來控制各種工具。比如，當(dāng)需要分析圖片的某個(gè)區(qū)域時(shí)，模型會(huì)生成類似"請(qǐng)分割出圖片左上角的物體"這樣的指令，然后相應(yīng)的工具會(huì)執(zhí)行這個(gè)指令并返回結(jié)果。

第二種是"嵌入式控制"，模型通過學(xué)習(xí)到的內(nèi)部表征直接控制工具，不需要生成明確的語言指令。這種方式更加高效，就像一個(gè)熟練的司機(jī)開車時(shí)不需要在心里說"現(xiàn)在踩剎車、現(xiàn)在打方向盤"，而是通過肌肉記憶直接完成操作。

特別有趣的是，這個(gè)階段的一些系統(tǒng)開始具備"視覺想象"能力。它們不僅能分析現(xiàn)有圖片，還能生成新的圖片來輔助推理。比如，當(dāng)回答"如果這個(gè)球滾下斜坡會(huì)發(fā)生什么"這樣的問題時(shí)，系統(tǒng)可能會(huì)先生成一張顯示球滾動(dòng)軌跡的圖片，然后基于這個(gè)想象的場(chǎng)景來回答問題。

四、鏈?zhǔn)剿季S推理模型

第四個(gè)階段受到了人類思維方式的深刻啟發(fā)。當(dāng)人類解決復(fù)雜問題時(shí)，我們通常會(huì)在心里進(jìn)行一連串的思考，每一步都基于前一步的結(jié)果。研究人員將這種"鏈?zhǔn)剿季S"引入到視覺推理中，讓人工智能在給出最終答案前展示完整的思考過程。

這種方法有三種主要形式。第一種是"提示增強(qiáng)式"，通過精心設(shè)計(jì)的提示詞來引導(dǎo)模型進(jìn)行逐步推理。就像給學(xué)生提供解題模板一樣，模型會(huì)按照預(yù)設(shè)的思維框架來分析問題。比如，面對(duì)一個(gè)計(jì)數(shù)問題，模型會(huì)先說"我需要識(shí)別圖片中的所有物體"，然后"找出符合條件的物體"，最后"計(jì)算總數(shù)"。

第二種是"強(qiáng)化學(xué)習(xí)增強(qiáng)式"，通過獎(jiǎng)勵(lì)機(jī)制來訓(xùn)練模型產(chǎn)生更好的推理鏈。這就像訓(xùn)練一個(gè)學(xué)生做數(shù)學(xué)題——當(dāng)學(xué)生的解題步驟正確時(shí)給予獎(jiǎng)勵(lì)，錯(cuò)誤時(shí)給予懲罰，逐漸讓學(xué)生學(xué)會(huì)正確的思維方式。

第三種是"視覺接地式"，最為有趣。在這種方法中，模型的每一個(gè)推理步驟都會(huì)對(duì)應(yīng)到圖片的具體區(qū)域。比如，當(dāng)模型說"我看到一只紅色的貓"時(shí)，它會(huì)同時(shí)在圖片上標(biāo)出貓的位置。這樣，人們不僅能看到模型的思維過程，還能驗(yàn)證每一步是否正確。

鏈?zhǔn)剿季S方法的優(yōu)勢(shì)在于透明度和可解釋性。就像優(yōu)秀學(xué)生的答題過程一樣，每一步都清晰可見，便于檢查和糾錯(cuò)。但這種方法也有局限性——它仍然是"一次性"的推理過程，無法根據(jù)新信息調(diào)整已有的思考路徑。

五、統(tǒng)一智能體模型

最新的發(fā)展階段可以說是最接近人類認(rèn)知方式的。這些系統(tǒng)不再是被動(dòng)地回答問題，而是像人類一樣主動(dòng)探索、思考和調(diào)整策略。它們具備了"智能體"的特征——能夠自主決策、持續(xù)學(xué)習(xí)、適應(yīng)環(huán)境。

這類系統(tǒng)的一個(gè)重要特征是"自主視覺探索"。就像人類在觀察復(fù)雜場(chǎng)景時(shí)會(huì)自動(dòng)將注意力聚焦在重要區(qū)域一樣，這些模型能夠智能地決定應(yīng)該仔細(xì)觀察圖片的哪些部分。比如，當(dāng)回答關(guān)于圖片中最大物體的問題時(shí)，系統(tǒng)會(huì)自動(dòng)掃描整個(gè)圖片，比較不同區(qū)域的物體大小，然后聚焦到最大的物體上進(jìn)行詳細(xì)分析。

另一個(gè)創(chuàng)新特征是"視覺想象"能力。這些系統(tǒng)不僅能分析現(xiàn)有的視覺信息，還能在內(nèi)部"想象"不存在的場(chǎng)景來輔助推理。這有點(diǎn)像人類在思考問題時(shí)的"心理模擬"——我們經(jīng)常在腦海中構(gòu)建虛擬場(chǎng)景來幫助理解和預(yù)測(cè)。比如，當(dāng)被問到"如果這個(gè)杯子掉下來會(huì)怎樣"時(shí)，系統(tǒng)能夠在內(nèi)部模擬杯子掉落的過程，然后基于這個(gè)模擬來回答問題。

這個(gè)階段的系統(tǒng)還具備了強(qiáng)大的"多輪交互"能力。它們不是一次性完成任務(wù)，而是能夠根據(jù)中間結(jié)果調(diào)整策略，就像人類解決復(fù)雜問題時(shí)的試錯(cuò)過程。如果第一次嘗試沒有得到滿意的結(jié)果，系統(tǒng)會(huì)自動(dòng)調(diào)整方法再次嘗試。

通過分析大量研究，科學(xué)家們發(fā)現(xiàn)組合式視覺推理相比傳統(tǒng)方法有多個(gè)顯著優(yōu)勢(shì)。首先是認(rèn)知對(duì)齊性——這種方法更接近人類的思維方式，使得人工智能的推理過程更容易被人理解和信任。其次是語義理解的準(zhǔn)確性——通過逐步分解和推理，系統(tǒng)能夠更準(zhǔn)確地理解圖片中復(fù)雜的語義關(guān)系。

另外，組合式方法在泛化和魯棒性方面表現(xiàn)出色。傳統(tǒng)的"黑盒子"方法往往只能處理訓(xùn)練時(shí)見過的情況，而組合式方法能夠?qū)⒁褜W(xué)會(huì)的基本技能重新組合，處理全新的情況。這就像學(xué)會(huì)了加法、減法、乘法的學(xué)生，即使沒有專門練習(xí)過復(fù)雜的數(shù)學(xué)題，也能通過組合這些基本運(yùn)算來解決新問題。

在透明度和可解釋性方面，組合式方法的優(yōu)勢(shì)更是顯著。每一個(gè)推理步驟都是可見的，研究人員和用戶都能理解系統(tǒng)是如何得出答案的。這對(duì)于需要高度可信的應(yīng)用場(chǎng)景（如醫(yī)療診斷、自動(dòng)駕駛等）尤其重要。

研究還發(fā)現(xiàn)，組合式方法能夠顯著減少"幻覺"問題——也就是人工智能編造不存在信息的現(xiàn)象。因?yàn)槊總€(gè)推理步驟都需要有具體的視覺證據(jù)支持，系統(tǒng)很難憑空編造答案。這就像要求學(xué)生不僅要給出答案，還要展示解題過程一樣，大大減少了蒙答案的可能性。

在數(shù)據(jù)效率方面，組合式方法也顯示出優(yōu)勢(shì)。一旦系統(tǒng)學(xué)會(huì)了基本的視覺技能和推理模式，就可以通過組合這些技能來處理新任務(wù)，而不需要大量的新訓(xùn)練數(shù)據(jù)。這就像學(xué)會(huì)了基本工具使用方法的人，可以組合這些工具來完成各種新任務(wù)。

當(dāng)然，這個(gè)領(lǐng)域仍然面臨著諸多挑戰(zhàn)。研究團(tuán)隊(duì)在分析了60多個(gè)評(píng)估基準(zhǔn)后發(fā)現(xiàn)，現(xiàn)有的評(píng)估方法大多只關(guān)注最終答案的正確性，而忽略了推理過程的質(zhì)量。這就像只看學(xué)生的考試分?jǐn)?shù)而不關(guān)心解題思路一樣，無法全面評(píng)估系統(tǒng)的真實(shí)能力。

另一個(gè)重要挑戰(zhàn)是推理深度的限制?，F(xiàn)在的大多數(shù)系統(tǒng)雖然能進(jìn)行多步推理，但主要依賴演繹推理（從一般到具體），而人類思維還包括歸納推理（從具體到一般）和類比推理（從相似經(jīng)驗(yàn)中學(xué)習(xí)）等多種形式。

數(shù)據(jù)質(zhì)量和規(guī)模也是持續(xù)的挑戰(zhàn)。高質(zhì)量的組合式推理訓(xùn)練數(shù)據(jù)需要詳細(xì)標(biāo)注每個(gè)推理步驟，這比簡(jiǎn)單的問答數(shù)據(jù)復(fù)雜得多，獲取成本很高。同時(shí)，自動(dòng)生成的合成數(shù)據(jù)雖然數(shù)量大，但質(zhì)量往往不夠穩(wěn)定。

在技術(shù)架構(gòu)方面，如何更好地整合不同的組件仍然是一個(gè)開放性問題。現(xiàn)有的系統(tǒng)往往需要協(xié)調(diào)多個(gè)專門化的模塊，如何讓這些模塊高效協(xié)作、減少錯(cuò)誤傳播，仍需要更多研究。

研究團(tuán)隊(duì)還指出了幾個(gè)值得關(guān)注的發(fā)展方向。首先是引入"世界模型"的概念——讓人工智能具備對(duì)物理世界的基本理解，能夠模擬物體運(yùn)動(dòng)、預(yù)測(cè)因果關(guān)系等。這將使系統(tǒng)的推理能力更加接近人類水平。

人機(jī)協(xié)作推理也被認(rèn)為是一個(gè)重要方向。與其讓人工智能完全自主地進(jìn)行推理，不如設(shè)計(jì)人機(jī)協(xié)作的框架，讓人類在關(guān)鍵環(huán)節(jié)提供指導(dǎo)和驗(yàn)證，這樣可以充分發(fā)揮人工智能的計(jì)算能力和人類的直覺判斷優(yōu)勢(shì)。

在評(píng)估方法方面，研究團(tuán)隊(duì)呼吁建立更全面的評(píng)估標(biāo)準(zhǔn)，不僅要評(píng)估答案的正確性，還要評(píng)估推理過程的合理性、步驟間的邏輯連貫性、視覺證據(jù)的準(zhǔn)確性等多個(gè)維度。

說到底，這項(xiàng)大型綜述研究為我們勾勒出了人工智能視覺推理發(fā)展的清晰脈絡(luò)。從最初的"黑盒子"方法到現(xiàn)在的組合式推理，我們看到了人工智能正在朝著更加透明、可解釋、類似人類思維的方向發(fā)展。雖然還面臨著諸多技術(shù)挑戰(zhàn)，但這個(gè)發(fā)展趨勢(shì)對(duì)普通人的生活將產(chǎn)生深遠(yuǎn)影響。

未來，當(dāng)你的智能助手能夠像人類一樣仔細(xì)觀察圖片、逐步分析問題、清晰解釋推理過程時(shí)，我們對(duì)人工智能的信任度將大大提升。無論是醫(yī)生使用人工智能輔助診斷醫(yī)學(xué)影像，還是自動(dòng)駕駛汽車需要理解復(fù)雜的交通場(chǎng)景，這種"解釋后再回答"的能力都將成為人工智能可靠性的關(guān)鍵保障。這項(xiàng)研究不僅推進(jìn)了科學(xué)技術(shù)的發(fā)展，更為構(gòu)建更加可信、透明的人工智能系統(tǒng)奠定了重要基礎(chǔ)。對(duì)于想要深入了解這一前沿領(lǐng)域的讀者，完整的研究論文可以通過arXiv:2508.17298獲取。

Q&A

Q1：組合式視覺推理和傳統(tǒng)的人工智能視覺方法有什么區(qū)別？

A：傳統(tǒng)方法就像一個(gè)"黑盒子"，直接給出答案但看不到思考過程，而組合式視覺推理要求人工智能像人類一樣先觀察圖片、識(shí)別關(guān)鍵信息、逐步推理，最后給出答案。這就好比傳統(tǒng)方法是直接告訴你答案，而新方法會(huì)告訴你"我看到了什么、我是怎么想的、我為什么得出這個(gè)結(jié)論"。

Q2：為什么組合式視覺推理比傳統(tǒng)方法更可靠？

A：因?yàn)槊總€(gè)推理步驟都需要有具體的視覺證據(jù)支持，系統(tǒng)很難憑空編造答案。這就像要求學(xué)生不僅要給出答案還要展示解題過程一樣，大大減少了錯(cuò)誤和"幻覺"的可能性。同時(shí)，這種方法更接近人類思維方式，使得推理過程更透明、更容易被理解和驗(yàn)證。

Q3：組合式視覺推理技術(shù)什么時(shí)候能應(yīng)用到日常生活中？

A：這項(xiàng)技術(shù)已經(jīng)在逐步應(yīng)用中，比如一些高端的圖片分析軟件和智能助手。不過要達(dá)到完全成熟還需要解決數(shù)據(jù)質(zhì)量、計(jì)算效率等技術(shù)挑戰(zhàn)。預(yù)計(jì)在未來3-5年內(nèi)，我們會(huì)在醫(yī)療診斷、自動(dòng)駕駛、智能監(jiān)控等專業(yè)領(lǐng)域看到更多應(yīng)用，而面向普通消費(fèi)者的產(chǎn)品可能還需要更長(zhǎng)時(shí)間。

組合式視覺推理大語言模型視覺理解算法

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

^{<blockquote id="lt6w8"></blockquote>}

<cite id="lt6w8"><track id="lt6w8"></track></cite>

<cite id="lt6w8"></cite>