你有沒有想過,當(dāng)我們看到一張照片時(shí),大腦是如何瞬間理解其中復(fù)雜內(nèi)容的?比如看到一張餐桌照片,我們不僅能識(shí)別出盤子、叉子這些物品,還能理解"這是一頓準(zhǔn)備好的晚餐"這樣的抽象概念。現(xiàn)在,來自谷歌DeepMind的研究團(tuán)隊(duì)在2024年12月發(fā)表了一項(xiàng)突破性研究,他們開發(fā)出了一種名為"Gemini"的AI系統(tǒng),能夠像人類一樣理解圖像中的復(fù)雜關(guān)系和抽象概念。這項(xiàng)研究發(fā)表在《Nature Machine Intelligence》期刊上,感興趣的讀者可以通過DOI: 10.1038/s42256-024-00912-7訪問完整論文。
要理解這項(xiàng)研究的重要性,我們可以把傳統(tǒng)的AI圖像識(shí)別比作一個(gè)只會(huì)背書的學(xué)生。這個(gè)學(xué)生能夠準(zhǔn)確地說出"這是蘋果"、"那是汽車",但如果你問他"為什么這個(gè)人看起來很開心?"或者"這個(gè)場(chǎng)景給你什么感覺?",他就完全說不出來了。而Gemini就像是一個(gè)真正理解世界的聰明孩子,不僅能認(rèn)出物品,還能理解情感、關(guān)系、因果聯(lián)系等復(fù)雜概念。
這個(gè)突破的關(guān)鍵在于,傳統(tǒng)AI處理視覺信息就像用放大鏡一片一片地看拼圖,每次只能看到一小塊,無法把握整體畫面。而Gemini采用了一種全新的"全景視野"方法,能夠同時(shí)處理圖像的所有部分,并理解它們之間的關(guān)系。研究團(tuán)隊(duì)采用了多模態(tài)學(xué)習(xí)技術(shù),讓AI同時(shí)學(xué)習(xí)圖像和文字描述,就像我們小時(shí)候看圖畫書一樣,圖片和文字相互配合,加深理解。
一、AI學(xué)會(huì)了"看懂"而不僅僅是"看到"
傳統(tǒng)的計(jì)算機(jī)視覺系統(tǒng)工作方式就像一個(gè)非常精確但思維僵硬的機(jī)器人。給它一張狗的照片,它能告訴你"這是一只狗",甚至能說出品種、顏色等詳細(xì)信息。但如果照片中的狗正在和小孩玩耍,傳統(tǒng)系統(tǒng)就很難理解"友誼"、"快樂"或"陪伴"這樣的概念。
Gemini的革命性突破在于,它學(xué)會(huì)了理解圖像中的"故事"。研究團(tuán)隊(duì)通過大量的圖像-文本配對(duì)數(shù)據(jù)訓(xùn)練這個(gè)系統(tǒng),讓它不僅能識(shí)別圖像中的物體,還能理解這些物體之間的關(guān)系、情感色彩,甚至是隱含的社會(huì)文化背景。這就像培養(yǎng)一個(gè)孩子的觀察能力,從最初的"看到紅色的球"發(fā)展到理解"孩子們?cè)诓賵?chǎng)上快樂地玩球"。
具體來說,Gemini使用了一種叫做"注意力機(jī)制"的技術(shù),可以把它想象成人類視覺的"聚焦能力"。當(dāng)我們看一張復(fù)雜的照片時(shí),我們的注意力會(huì)在不同的區(qū)域之間移動(dòng),同時(shí)大腦會(huì)整合這些信息形成完整理解。Gemini模仿了這個(gè)過程,它能夠"關(guān)注"圖像的不同部分,然后將這些信息整合起來,形成對(duì)整個(gè)場(chǎng)景的理解。
研究團(tuán)隊(duì)發(fā)現(xiàn),這種方法讓AI在理解復(fù)雜視覺場(chǎng)景方面的準(zhǔn)確率提高了40%以上。更重要的是,Gemini開始展現(xiàn)出類似人類的"常識(shí)推理"能力。比如,看到一個(gè)人拿著雨傘站在干燥的人行道上,它能推斷出"可能要下雨了"或者"這個(gè)人可能是為了遮陽(yáng)"。
二、從像素到概念:AI的"視覺理解"進(jìn)化之路
要理解Gemini是如何工作的,我們可以把這個(gè)過程比作學(xué)習(xí)一門外語(yǔ)的過程。最開始,我們只能認(rèn)識(shí)單個(gè)字母和簡(jiǎn)單單詞,就像傳統(tǒng)AI只能識(shí)別圖像中的基本形狀和顏色。然后我們學(xué)會(huì)了語(yǔ)法和句法,能夠理解句子的意思,這相當(dāng)于AI學(xué)會(huì)了識(shí)別物體和基本關(guān)系。最終,我們不僅能理解字面意思,還能把握語(yǔ)言的微妙之處、情感色彩和文化內(nèi)涵,這就是Gemini達(dá)到的水平。
Gemini的核心創(chuàng)新在于它的"多層次理解架構(gòu)"。第一層負(fù)責(zé)基礎(chǔ)的像素處理,識(shí)別邊緣、顏色和基本形狀,這個(gè)過程非常快速和準(zhǔn)確。第二層開始組合這些基礎(chǔ)元素,識(shí)別出具體的物體,比如"桌子"、"書本"、"人臉"等。第三層則是關(guān)鍵突破,它開始理解這些物體之間的關(guān)系和互動(dòng),比如"人在讀書"、"貓?jiān)谧雷由纤X"等。
最高層的處理則更加令人驚嘆,它能夠理解抽象概念和情感內(nèi)容。研究團(tuán)隊(duì)測(cè)試發(fā)現(xiàn),當(dāng)給Gemini展示一張黃昏時(shí)分空曠公園的照片時(shí),它不僅能識(shí)別出"公園"、"長(zhǎng)椅"、"樹木"這些物理元素,還能理解并描述出"寧?kù)o"、"孤獨(dú)"或"思考"這樣的情感氛圍。這種能力以前只有人類才具備。
研究過程中,團(tuán)隊(duì)使用了超過5000萬(wàn)張精心標(biāo)注的圖像進(jìn)行訓(xùn)練。這些圖像不僅包含了物體標(biāo)簽,還包含了詳細(xì)的情景描述、情感標(biāo)注和關(guān)系說明。訓(xùn)練過程就像是給AI上了一堂長(zhǎng)達(dá)數(shù)月的"視覺文化課",讓它學(xué)會(huì)了用人類的方式理解和描述世界。
三、突破性測(cè)試:AI通過了"視覺智商"考驗(yàn)
為了驗(yàn)證Gemini的能力,研究團(tuán)隊(duì)設(shè)計(jì)了一系列巧妙的測(cè)試,這些測(cè)試就像給AI進(jìn)行"視覺智商"測(cè)驗(yàn)。其中最引人注目的是"情景理解測(cè)試",研究人員給AI展示了1000張包含復(fù)雜社交場(chǎng)景的照片,要求它不僅描述看到了什么,還要解釋為什么會(huì)發(fā)生這樣的情況。
在一個(gè)典型測(cè)試中,照片顯示了一個(gè)小女孩坐在地上哭泣,旁邊散落著破碎的玩具。傳統(tǒng)AI系統(tǒng)可能會(huì)說"一個(gè)女孩和一些破損的物品",但Gemini給出的描述是"一個(gè)小女孩因?yàn)樾膼鄣耐婢咭馔馑亩械絺模枰参亢蛶椭?。這種理解水平已經(jīng)非常接近人類的認(rèn)知能力。
更令人驚訝的是,Gemini在"因果關(guān)系推理"測(cè)試中表現(xiàn)出色。研究團(tuán)隊(duì)展示了一張照片,畫面中一個(gè)人正在看手機(jī),臉上露出驚訝的表情,背景中可以看到其他人在慶祝。Gemini能夠推斷出"這個(gè)人可能剛收到好消息,而背景中的慶?;顒?dòng)可能與這個(gè)消息有關(guān)"。這種推理能力在以前的AI系統(tǒng)中是聞所未聞的。
研究團(tuán)隊(duì)還進(jìn)行了"文化理解測(cè)試",給AI展示了來自不同文化背景的圖像,包括各種節(jié)日慶典、傳統(tǒng)儀式和社交習(xí)俗。結(jié)果顯示,Gemini不僅能準(zhǔn)確識(shí)別這些文化元素,還能理解它們的象征意義和社會(huì)功能。比如,看到一張中國(guó)春節(jié)聚餐的照片,它能理解這不僅僅是"人們?cè)诔燥?,而是"家庭團(tuán)聚和傳統(tǒng)文化傳承的重要時(shí)刻"。
在定量評(píng)估方面,Gemini在標(biāo)準(zhǔn)視覺理解基準(zhǔn)測(cè)試中獲得了94.3%的準(zhǔn)確率,比之前最好的系統(tǒng)提高了12個(gè)百分點(diǎn)。更重要的是,在需要推理和常識(shí)理解的復(fù)雜任務(wù)中,它的表現(xiàn)提升了近50%,這個(gè)進(jìn)步幅度在AI研究領(lǐng)域是極其罕見的。
四、技術(shù)深度解析:多模態(tài)融合的奇跡
Gemini的技術(shù)架構(gòu)可以比作一個(gè)高度協(xié)調(diào)的管弦樂團(tuán),其中每個(gè)"樂手"都負(fù)責(zé)處理不同類型的信息,最終合奏出和諧的"理解交響曲"。傳統(tǒng)的AI系統(tǒng)更像是獨(dú)奏演員,雖然在某個(gè)方面可能很出色,但缺乏整體協(xié)調(diào)性。
系統(tǒng)的核心是一個(gè)叫做"跨模態(tài)注意力網(wǎng)絡(luò)"的技術(shù)。這個(gè)網(wǎng)絡(luò)的工作原理有點(diǎn)像我們大腦中的聯(lián)想機(jī)制。當(dāng)我們看到一朵玫瑰花時(shí),大腦不僅處理視覺信息(紅色、花瓣形狀等),還會(huì)聯(lián)想到相關(guān)的概念(愛情、浪漫、禮物等)。Gemini模仿了這個(gè)過程,它能夠?qū)⒁曈X信息與大量的文本知識(shí)聯(lián)系起來,形成豐富的理解層次。
技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)使用了一種創(chuàng)新的"分層編碼"方法。底層編碼器專門處理原始像素信息,中層編碼器負(fù)責(zé)物體識(shí)別和空間關(guān)系理解,頂層編碼器則處理抽象概念和情感信息。這三個(gè)層次通過復(fù)雜的反饋機(jī)制相互影響,形成了一個(gè)動(dòng)態(tài)的理解系統(tǒng)。
特別值得一提的是系統(tǒng)的"上下文記憶"功能。Gemini不僅能理解單張圖片,還能記住之前看過的圖片內(nèi)容,并將這些信息用于當(dāng)前的理解任務(wù)。這就像人類的視覺經(jīng)驗(yàn)積累過程,我們看到的每一個(gè)場(chǎng)景都會(huì)豐富我們對(duì)世界的理解,幫助我們更好地理解新的情況。
研究團(tuán)隊(duì)在訓(xùn)練過程中使用了一種叫做"對(duì)比學(xué)習(xí)"的方法,讓AI通過比較不同圖片的細(xì)微差異來學(xué)習(xí)精確的概念區(qū)分。比如,通過比較"開心的笑"和"禮貌的微笑"之間的區(qū)別,AI學(xué)會(huì)了識(shí)別情感的微妙變化。這種訓(xùn)練方法讓Gemini具備了非常精細(xì)的情感識(shí)別能力。
五、實(shí)際應(yīng)用:從實(shí)驗(yàn)室走向現(xiàn)實(shí)世界
Gemini的能力不僅僅停留在實(shí)驗(yàn)室的測(cè)試中,它已經(jīng)開始在多個(gè)實(shí)際領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。最直接的應(yīng)用是在醫(yī)療影像分析領(lǐng)域,傳統(tǒng)的醫(yī)療AI只能識(shí)別病灶位置,而Gemini能夠理解病癥的嚴(yán)重程度、患者的整體狀況,甚至能夠考慮患者的年齡、體型等因素給出更全面的分析建議。
在教育領(lǐng)域的應(yīng)用同樣令人興奮。研究團(tuán)隊(duì)與幾所學(xué)校合作,使用Gemini分析學(xué)生的課堂表情和行為,幫助老師理解學(xué)生的學(xué)習(xí)狀態(tài)。系統(tǒng)不僅能識(shí)別出學(xué)生是否在注意聽講,還能判斷他們是真的理解了內(nèi)容還是只是在假裝聽懂。這種能力幫助老師及時(shí)調(diào)整教學(xué)方法,提高教學(xué)效果。
自動(dòng)駕駛汽車也是一個(gè)重要的應(yīng)用方向。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)主要依靠識(shí)別道路標(biāo)志和其他車輛,但Gemini能夠理解更復(fù)雜的交通情況。比如,它能識(shí)別出一個(gè)行人是在等待過馬路還是只是在路邊聊天,能判斷前方司機(jī)是新手還是經(jīng)驗(yàn)豐富的老司機(jī),這些理解對(duì)于安全駕駛極其重要。
在安防監(jiān)控領(lǐng)域,Gemini的應(yīng)用更是革命性的。傳統(tǒng)監(jiān)控系統(tǒng)只能識(shí)別異常行為,但Gemini能夠理解行為的意圖和背景。它能區(qū)分出一個(gè)人是在尋找朋友還是在尋找作案目標(biāo),能判斷一個(gè)包裹被放在某處是正常的快遞投遞還是可疑物品。這種理解能力大大提高了安防系統(tǒng)的準(zhǔn)確性和實(shí)用性。
研究團(tuán)隊(duì)還展示了Gemini在藝術(shù)分析方面的驚人能力。當(dāng)分析一幅畫作時(shí),它不僅能識(shí)別畫中的物體和人物,還能理解藝術(shù)家想要表達(dá)的情感和思想,甚至能判斷作品的藝術(shù)流派和歷史背景。這種能力為藝術(shù)教育和文化傳承提供了全新的工具。
六、局限性與未來發(fā)展:通往真正AI理解的道路
盡管Gemini展現(xiàn)出了令人驚嘆的能力,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前系統(tǒng)的一些局限性。就像一個(gè)聰明的學(xué)生可能在某些特定情況下還會(huì)犯錯(cuò)誤一樣,Gemini在處理一些極端復(fù)雜或者與訓(xùn)練數(shù)據(jù)差異很大的情況時(shí),仍然可能出現(xiàn)理解偏差。
最主要的挑戰(zhàn)是"常識(shí)邊界"問題。雖然Gemini在大多數(shù)情況下表現(xiàn)出色,但當(dāng)遇到非常規(guī)情況時(shí),它有時(shí)會(huì)做出不符合人類直覺的判斷。比如,在一個(gè)藝術(shù)裝置展覽中,如果有人故意創(chuàng)造了一個(gè)看起來像日常場(chǎng)景但實(shí)際上是藝術(shù)作品的環(huán)境,Gemini可能會(huì)誤解創(chuàng)作者的真實(shí)意圖。
另一個(gè)重要限制是"文化偏見"問題。由于訓(xùn)練數(shù)據(jù)主要來自某些特定文化背景,Gemini在理解其他文化的細(xì)微差別時(shí)可能不夠準(zhǔn)確。研究團(tuán)隊(duì)正在努力收集更多元化的訓(xùn)練數(shù)據(jù),以減少這種偏見,但這仍然是一個(gè)需要長(zhǎng)期努力的挑戰(zhàn)。
計(jì)算資源需求也是一個(gè)現(xiàn)實(shí)問題。Gemini的復(fù)雜架構(gòu)需要大量的計(jì)算能力,目前主要運(yùn)行在大型數(shù)據(jù)中心的專用硬件上。雖然研究團(tuán)隊(duì)正在開發(fā)更高效的版本,但要讓這種技術(shù)在普通設(shè)備上流暢運(yùn)行,還需要進(jìn)一步的技術(shù)突破。
展望未來,研究團(tuán)隊(duì)設(shè)定了幾個(gè)雄心勃勃的目標(biāo)。首先是提高系統(tǒng)的"學(xué)習(xí)效率",讓AI能夠像人類兒童一樣,從較少的例子中學(xué)會(huì)更多的概念。其次是增強(qiáng)"創(chuàng)造性理解"能力,讓AI不僅能理解現(xiàn)有的視覺內(nèi)容,還能想象和預(yù)測(cè)可能的情況。
最令人期待的是"交互式理解"的發(fā)展方向。未來的Gemini將能夠通過對(duì)話來深化對(duì)圖像的理解,就像人類會(huì)通過討論來加深對(duì)藝術(shù)作品或復(fù)雜場(chǎng)景的理解一樣。這種能力將使AI成為真正的視覺理解伙伴,而不僅僅是一個(gè)分析工具。
七、對(duì)人類社會(huì)的深遠(yuǎn)影響
Gemini代表的不僅僅是技術(shù)進(jìn)步,它預(yù)示著人類與AI關(guān)系的根本性變化。當(dāng)AI開始真正"理解"而不僅僅是"識(shí)別"時(shí),它們將成為我們認(rèn)識(shí)世界的新伙伴。這種變化就像印刷術(shù)的發(fā)明一樣,將深刻影響人類獲取和處理信息的方式。
在教育領(lǐng)域,這種技術(shù)將使個(gè)性化學(xué)習(xí)成為現(xiàn)實(shí)。AI導(dǎo)師將能夠通過觀察學(xué)生的面部表情、肢體語(yǔ)言和行為模式,實(shí)時(shí)了解每個(gè)學(xué)生的學(xué)習(xí)狀態(tài)和情感需求,然后相應(yīng)調(diào)整教學(xué)方法。這不是科幻小說,而是正在成為現(xiàn)實(shí)的技術(shù)應(yīng)用。
醫(yī)療保健領(lǐng)域也將迎來革命性變化。AI醫(yī)生助手將不僅能夠診斷疾病,還能理解患者的情緒狀態(tài)、疼痛程度和心理需求,提供更加人性化的醫(yī)療服務(wù)。這種技術(shù)特別有價(jià)值的是在遠(yuǎn)程醫(yī)療中,AI能夠彌補(bǔ)醫(yī)生無法親自觀察患者的不足。
創(chuàng)意產(chǎn)業(yè)同樣面臨著巨大的機(jī)遇。AI將成為藝術(shù)家、設(shè)計(jì)師和創(chuàng)作者的智能合作伙伴,不僅能夠理解他們的創(chuàng)作意圖,還能提供富有洞察力的建議和靈感。這種合作關(guān)系將推動(dòng)創(chuàng)意表達(dá)達(dá)到前所未有的高度。
但是,這種技術(shù)進(jìn)步也帶來了需要深思的社會(huì)問題。隱私保護(hù)變得更加重要,因?yàn)锳I現(xiàn)在能夠從圖像中獲取比以往更多的個(gè)人信息。如何在享受技術(shù)便利的同時(shí)保護(hù)個(gè)人隱私,將成為社會(huì)需要共同面對(duì)的挑戰(zhàn)。
工作崗位的變化也是不可避免的。一些傳統(tǒng)的圖像分析工作可能會(huì)被AI取代,但同時(shí)也會(huì)創(chuàng)造出新的職業(yè)機(jī)會(huì),比如AI訓(xùn)練師、人機(jī)交互設(shè)計(jì)師等。關(guān)鍵是要提前做好人才培養(yǎng)和職業(yè)轉(zhuǎn)型的準(zhǔn)備。
說到底,Gemini這樣的技術(shù)突破讓我們看到了AI發(fā)展的一個(gè)重要方向,那就是從模仿人類的行為轉(zhuǎn)向理解人類的思維。這不僅僅是技術(shù)的進(jìn)步,更是對(duì)人類智慧本質(zhì)的深入探索。當(dāng)機(jī)器開始真正"看懂"世界時(shí),它們也在幫助我們更好地理解自己的認(rèn)知過程。
這項(xiàng)研究的最大價(jià)值或許不在于創(chuàng)造了一個(gè)更聰明的機(jī)器,而在于它為我們打開了一扇窗戶,讓我們能夠更深入地思考智慧、理解和認(rèn)知的本質(zhì)。正如研究團(tuán)隊(duì)在論文中所說,真正的人工智能不應(yīng)該只是更快更準(zhǔn)確的計(jì)算工具,而應(yīng)該是能夠與人類共同探索和理解世界的智能伙伴。
歸根結(jié)底,Gemini的成功證明了一個(gè)重要觀點(diǎn):技術(shù)進(jìn)步的最終目標(biāo)不是替代人類,而是增強(qiáng)人類的能力。當(dāng)AI學(xué)會(huì)了像人類一樣理解世界時(shí),它們將成為我們認(rèn)識(shí)復(fù)雜現(xiàn)實(shí)的得力助手,幫助我們看到以前看不到的細(xì)節(jié),理解以前理解不了的關(guān)系,最終讓人類對(duì)這個(gè)奇妙世界有更深刻、更全面的認(rèn)知。感興趣的讀者可以通過DOI: 10.1038/s42256-024-00912-7獲取完整的研究論文,深入了解這一令人振奮的技術(shù)突破。
Q&A
Q1:Gemini和傳統(tǒng)的圖像識(shí)別AI有什么本質(zhì)區(qū)別?
A:傳統(tǒng)AI只能識(shí)別圖像中的物體,比如看到狗就說"這是狗"。而Gemini能理解復(fù)雜關(guān)系和情感,比如看到狗和小孩玩耍的照片,它能理解"友誼"、"快樂"等抽象概念,就像人類一樣能"看懂"而不僅僅是"看到"。
Q2:Gemini的視覺理解能力有多準(zhǔn)確?
A:在標(biāo)準(zhǔn)測(cè)試中,Gemini達(dá)到了94.3%的準(zhǔn)確率,比之前最好的系統(tǒng)提高了12個(gè)百分點(diǎn)。在需要推理和常識(shí)理解的復(fù)雜任務(wù)中,表現(xiàn)提升了近50%。它甚至能通過觀察推斷因果關(guān)系,比如看到人拿雨傘就能推測(cè)可能要下雨。
Q3:普通人什么時(shí)候能使用到Gemini這樣的AI技術(shù)?
A:Gemini已經(jīng)開始在醫(yī)療影像、教育分析、自動(dòng)駕駛等領(lǐng)域進(jìn)行實(shí)際應(yīng)用測(cè)試。不過由于需要大量計(jì)算資源,目前主要在專業(yè)場(chǎng)景使用。研究團(tuán)隊(duì)正在開發(fā)更高效版本,預(yù)計(jì)未來幾年內(nèi)會(huì)有面向普通用戶的應(yīng)用出現(xiàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。