這項由耶魯大學的唐向茹、于卓云、陳家鵬等研究團隊與賓夕法尼亞大學、慕尼黑亥姆霍茲中心、斯坦福大學、谷歌DeepMind、哈佛大學聯(lián)合完成的突破性研究,發(fā)表于2025年8月的arXiv預印本(論文編號:arXiv:2508.02276v1),有興趣深入了解的讀者可以通過該編號查詢完整論文。
想象一下,如果你要研究一個細胞在受到不同"刺激"后會如何反應,比如給它添加某種藥物或者敲除某個基因,傳統(tǒng)做法就像是請一位經驗豐富的生物學家花費數月時間來設計實驗、分析數據、編寫代碼。但現(xiàn)在,研究團隊創(chuàng)造了一個名為CellForge的AI系統(tǒng),它就像一個擁有多個專家大腦的超級助手,能夠在幾個小時內獨立完成從分析數據到設計模型再到編寫代碼的全部工作。
這個AI助手的神奇之處在于,它不是單打獨斗的,而是由多個"專家角色"組成的團隊。當面對一個復雜的生物學問題時,這些AI專家會像真實的科研團隊一樣進行討論。數據分析專家負責理解實驗數據的特點,模型設計專家負責構建預測算法,生物學專家確保方案符合生物學原理,而訓練專家則負責優(yōu)化模型性能。更有趣的是,還有一個"批評家"專家不斷地質疑和改進其他專家的想法,確保最終方案的質量。
研究團隊在六個不同類型的單細胞擾動數據集上測試了CellForge的能力,涵蓋了基因敲除、藥物處理、細胞因子刺激等多種生物學場景。這些測試就像給AI助手出了六道不同難度的"考題"。結果令人驚喜:CellForge設計的模型不僅在預測準確性上全面超越了現(xiàn)有的專業(yè)方法,在某些任務中預測誤差降低了40%,相關性提高了20%,而且它生成的研究計劃在科學有效性、技術可行性等多個維度上都獲得了人類專家的高度認可。
更讓人印象深刻的是,當研究人員將CellForge與其他現(xiàn)有的AI研究助手進行對比時,發(fā)現(xiàn)只有CellForge能夠生成真正可執(zhí)行的代碼,而其他系統(tǒng)往往停留在理論分析階段。這就好比其他AI只會紙上談兵,而CellForge不僅能制定作戰(zhàn)計劃,還能真正上戰(zhàn)場打勝仗。
一、AI團隊如何像人類科研組一樣協(xié)作解決復雜問題
傳統(tǒng)的AI系統(tǒng)在處理復雜科學問題時,往往像是一個博學但孤獨的學者,雖然知識淵博,但缺乏團隊協(xié)作的智慧。CellForge的創(chuàng)新之處在于模擬了真實科研團隊的協(xié)作模式,將復雜的虛擬細胞建模任務分解給不同的AI專家來處理。
這個AI團隊的工作流程分為三個主要階段,每個階段都有其獨特的功能和價值。第一個階段是任務分析階段,就像科研項目的前期調研。在這個階段,數據分析專家會仔細"閱讀"實驗數據,了解細胞類型、擾動方式、數據質量等基本信息。同時,問題調查專家會將生物學問題轉化為具體的計算任務,而基準評估專家則會搜索相關文獻,了解現(xiàn)有方法的優(yōu)缺點。這三個專家的工作成果會被整合成一份詳細的分析報告,為后續(xù)工作奠定基礎。
第二個階段是方法設計階段,這里體現(xiàn)了CellForge最核心的創(chuàng)新。不同領域的專家會圍繞如何設計最佳模型進行"圖結構化討論"。數據專家關注數據預處理策略,模型架構專家設計神經網絡結構,訓練專家制定優(yōu)化方案,而單細胞生物學專家確保方案的生物學合理性。更重要的是,還有一個批評家專家不斷地挑戰(zhàn)其他專家的想法,提出改進建議。這種討論會持續(xù)多輪,每個專家都會根據其他人的反饋不斷完善自己的方案,直到團隊達成共識。
第三個階段是實驗執(zhí)行階段,AI團隊會將前面設計的抽象方案轉化為具體的可執(zhí)行代碼。代碼生成專家負責編寫程序,自動調試專家處理程序錯誤,驗證專家評估模型性能。如果發(fā)現(xiàn)問題,系統(tǒng)會自動進行修正,直到獲得滿意的結果。這個過程完全自動化,不需要人類介入。
這種多專家協(xié)作的設計哲學解決了單一AI系統(tǒng)的根本局限性。單個AI往往在某個方面表現(xiàn)出色,但在跨領域整合時容易出現(xiàn)偏差。通過讓不同專家各司其職又相互制衡,CellForge能夠在保持各領域專業(yè)性的同時,實現(xiàn)整體方案的科學性和可行性。
特別值得注意的是,這種協(xié)作不是簡單的任務分工,而是真正的智慧碰撞。每個專家都有自己的"信心分數",當信心不足時會主動尋求其他專家的建議。批評家專家的存在確保了方案不會因為某個專家的偏見而偏離正軌。這種設計讓AI團隊具備了類似人類科研團隊的自我糾錯和持續(xù)改進能力。
二、虛擬細胞建模:用計算機預測生命的反應
要理解CellForge解決的核心問題,我們需要先明白什么是虛擬細胞建模??梢园鸭毎胂蟪梢粋€極其復雜的化工廠,里面有成千上萬個工人(基因)在各自的崗位上工作。當我們給這個化工廠施加某種"干預"時,比如關閉某個車間(基因敲除)或者添加某種原料(藥物處理),整個工廠的運作模式都會發(fā)生連鎖反應。
虛擬細胞建模的目標就是建立一個數字化的工廠模型,能夠預測當我們做出各種干預時,工廠里每個工人的工作狀態(tài)會如何變化。這聽起來簡單,但實際上極其復雜,因為細胞內部的相互作用網絡比任何人造系統(tǒng)都要復雜得多。一個基因的變化可能會影響幾十個甚至幾百個其他基因,而這些影響又會產生新的連鎖反應。
傳統(tǒng)的研究方法需要科學家手動設計實驗,選擇合適的算法,編寫代碼,調試參數,這個過程往往需要數月甚至數年的時間。更困難的是,不同類型的擾動(比如基因敲除和藥物處理)可能需要完全不同的建模策略,這要求研究者既要有深厚的生物學知識,又要掌握復雜的機器學習技術。
CellForge的突破性在于它能夠自動化這整個過程。給定一個新的數據集和研究目標,它會自動分析數據特征,設計適合的模型架構,生成訓練代碼,并優(yōu)化模型性能。更重要的是,它不是簡單地從現(xiàn)有模型中選擇一個,而是能夠創(chuàng)造性地組合不同的技術,設計出針對特定問題的定制化解決方案。
這種能力的價值在于它大大降低了虛擬細胞建模的門檻。原本只有少數專家能夠勝任的工作,現(xiàn)在可以通過CellForge快速完成。這就像從需要熟練工匠手工制作,轉變?yōu)榭梢杂弥悄軝C器批量生產高質量產品。這種轉變不僅提高了效率,也讓更多研究者能夠探索以前無法觸及的生物學問題。
三、多重考驗:六個生物學場景下的卓越表現(xiàn)
為了驗證CellForge的實際能力,研究團隊設計了一套comprehensive的測試方案,涵蓋了單細胞生物學中最具挑戰(zhàn)性的六種場景。這些測試就像給一個全能運動員設計的六項全能比賽,每一項都考驗著不同的核心能力。
第一項測試使用的是Adamson數據集,這是一個基因敲除實驗的經典案例。研究者用CRISPR技術敲除K562細胞中的不同基因,觀察細胞的轉錄反應。這類似于在一個復雜的機器中移除不同的零件,看看機器的運行會發(fā)生什么變化。CellForge在這個測試中表現(xiàn)出色,設計的模型在預測準確性上全面超越了現(xiàn)有的專業(yè)方法,預測誤差降低了49%,相關性達到了0.9883。
第二項測試使用Norman數據集,涉及更復雜的組合基因擾動。這就像同時移除機器中的多個零件,觀察它們之間的相互作用如何影響整體性能。組合效應往往是非線性的,兩個基因同時敲除的效果可能完全不同于單獨敲除每個基因效果的簡單疊加。CellForge成功捕捉到了這些復雜的相互作用模式,在這個更具挑戰(zhàn)性的任務中仍然保持了優(yōu)異的性能。
第三項測試轉向了藥物擾動場景,使用Srivatsan數據集。這個測試模擬的是給細胞添加不同化學物質后的反應,就像給化工廠添加不同的催化劑或抑制劑。藥物的作用機制往往更加復雜和多樣化,因為它們可能同時影響多個生物學途徑。在這個測試中,CellForge設計的模型相比最佳基準方法ChemCPA,在相關性上提高了20%。
第四項測試探索了細胞因子刺激場景,使用Schiebinger數據集。細胞因子是細胞間通信的重要信號分子,它們的作用就像是細胞社會中的"短信"或"電話",傳遞各種指令和信息。這類擾動的特點是影響面廣且時間動態(tài)復雜,對建模方法提出了獨特的挑戰(zhàn)。CellForge在這個測試中同樣表現(xiàn)出色,證明了其在處理不同類型生物學問題時的適應性。
第五和第六項測試涉及多模態(tài)數據,包括CITE-seq和scATAC-seq數據。CITE-seq同時測量RNA和蛋白質水平,就像同時監(jiān)控工廠中原料清單和產品輸出。scATAC-seq測量的是染色質可及性,可以理解為監(jiān)控工廠中不同車間的"開放"狀態(tài)。這些數據類型極其稀疏且噪音較大,對傳統(tǒng)方法構成了巨大挑戰(zhàn)。令人驚訝的是,CellForge在scATAC-seq數據上的表現(xiàn)比第二名基準方法高出16倍,這個巨大的性能差距說明了其在處理復雜數據類型時的獨特優(yōu)勢。
更重要的是,研究團隊發(fā)現(xiàn)CellForge能夠根據不同的數據特征自動選擇合適的模型組件。對于基因表達數據,它傾向于使用Transformer架構來捕捉長程依賴關系。對于涉及基因調控網絡的任務,它會自動集成圖神經網絡來建模基因間的相互作用。對于極度稀疏的scATAC-seq數據,它甚至會選擇傳統(tǒng)的機器學習方法如XGBoost,因為這些方法在處理二進制稀疏數據時更加穩(wěn)健。
這種自適應能力的背后是CellForge的多專家協(xié)作機制。不同的專家基于對數據特征和任務需求的理解,會提出不同的建模策略,然后通過討論和辯論選擇最優(yōu)方案。這個過程類似于人類專家團隊在面對新問題時的思考過程,但速度更快,覆蓋面更廣。
四、超越現(xiàn)有AI助手:獨一無二的端到端能力
當研究團隊將CellForge與市面上其他AI研究助手進行對比時,差異之大令人震驚。這種對比就像是比較一個能夠從設計圖紙到成品制造全程負責的工廠,與那些只能提供咨詢建議的顧問公司。
在一項盲測評估中,研究團隊邀請了五個不同的大型語言模型作為評委,對各種AI系統(tǒng)生成的研究方案進行打分。評估維度包括科學有效性、技術可行性、實驗設計質量、生物學相關性、創(chuàng)新水平、影響潛力、資源效率和方法嚴謹性。CellForge在所有維度上都獲得了最高分,平均得分達到7.27分(滿分10分),而最接近的競爭對手只有2.27分。
更令人印象深刻的是,當研究團隊要求這些AI系統(tǒng)不僅要提供分析方案,還要生成可執(zhí)行的代碼時,只有CellForge成功完成了任務。其他系統(tǒng)雖然能夠生成看似專業(yè)的分析報告和方法描述,但在轉化為實際可用的程序時卻失敗了。這就像是一個建筑師不僅要能設計漂亮的圖紙,還要確保房子真的能按圖施工并且不會倒塌。
這種差異的根本原因在于CellForge采用了完全不同的設計哲學。其他AI助手本質上是"單打獨斗"的專家,雖然知識面很廣,但缺乏跨領域整合的能力。它們可能在理論分析上表現(xiàn)出色,但在面對需要多個專業(yè)知識融合的復雜任務時就顯得力不從心。
CellForge的多專家協(xié)作架構則不同,它真正模擬了人類科研團隊的工作模式。數據專家確保對實驗數據的理解準確無誤,模型專家設計技術上可行的算法架構,生物學專家保證方案的科學合理性,編程專家負責將抽象方案轉化為具體代碼。更重要的是,批評家專家的存在確保了整個過程的質量控制,就像科研團隊中的資深導師一樣,不斷挑戰(zhàn)和完善方案的每個細節(jié)。
研究團隊還進行了一項更加嚴格的測試:讓三位人類專家花費10小時時間,對各種AI系統(tǒng)的輸出進行盲評。結果顯示,專家評分與CellForge的內部信心評分高度相關(相關系數0.83),這說明CellForge不僅能產生高質量的方案,還能準確評估自己方案的可靠性。這種自我評估能力對于實際應用來說極其重要,因為它讓用戶能夠了解系統(tǒng)對自己建議的信心程度。
在代碼生成方面,CellForge展現(xiàn)了令人驚訝的魯棒性。它不僅能生成初始代碼,還能自動調試錯誤,優(yōu)化性能,甚至在遇到意外情況時自動調整策略。研究團隊分析了系統(tǒng)的失敗模式,發(fā)現(xiàn)41%的錯誤與計算執(zhí)行有關(如張量操作錯誤),23%與數據類型不匹配有關。有趣的是,CellForge開發(fā)了一套自適應調試機制,通過打印中間變量的形狀信息來幫助診斷和修復錯誤,這種方法將相關錯誤的修復成功率提高了48%。
五、經濟效益與普及前景:讓科研更加民主化
CellForge的商業(yè)價值和社會影響遠超其技術成就本身。從經濟角度來看,這個系統(tǒng)將原本需要數萬美元人工成本和數月時間的研究工作,壓縮到只需幾美元的計算成本和幾小時的處理時間。
傳統(tǒng)的虛擬細胞建模項目通常需要一個由生物信息學家、機器學習專家、生物學家組成的跨學科團隊協(xié)作數月。按照市場行情,這樣的團隊成本每小時在75-150美元之間,一個完整項目的人工成本往往在3000-12000美元。而CellForge將這個過程自動化后,每次任務的平均成本只有5.18美元,效率提升了數千倍。
更重要的是時間成本的節(jié)約。傳統(tǒng)方法從問題提出到得到可用模型,往往需要40-80個小時的專家工作時間,而CellForge只需要4-8小時的計算時間。這種速度提升不僅意味著研究效率的提高,更意味著研究者可以在同樣的時間內探索更多的假設和可能性。
這種效率革命的意義在于它大大降低了高質量科研的門檻。原本只有資源豐富的頂級實驗室才能承擔的復雜建模工作,現(xiàn)在中小型研究機構甚至個人研究者都可以輕松獲得。這就像是從需要昂貴專業(yè)設備的膠片攝影時代,進入了人人都能用手機拍出高質量照片的數字時代。
研究團隊的成本分析顯示,不同后端模型的使用成本差異很大。使用Claude 3.7的成本為每次請求4.68美元,而使用更先進但昂貴的OpenAI o1則需要18.90美元。即使選擇最昂貴的選項,成本仍然遠低于傳統(tǒng)人工方式。這種靈活的定價模式讓不同預算水平的用戶都能找到適合的使用方案。
從更廣闊的視角來看,CellForge代表了科研民主化的重要里程碑。它讓那些沒有深厚計算背景的生物學家也能進行復雜的建模分析,讓資源有限的發(fā)展中國家研究機構也能開展前沿研究,讓更多創(chuàng)新想法得以快速驗證和實現(xiàn)。這種變化可能會加速整個生命科學領域的發(fā)現(xiàn)速度,產生難以估量的社會價值。
當然,技術的普及也帶來了新的挑戰(zhàn)。研究團隊誠實地討論了系統(tǒng)的局限性和潛在風險。計算和經濟成本雖然大幅降低,但仍然存在。系統(tǒng)的41%錯誤來自執(zhí)行問題,需要不斷改進算法的穩(wěn)健性。更重要的是,雖然系統(tǒng)能夠生成科學上可行的方案,但這些方案仍然需要實驗驗證,自動化并不意味著可以跳過科學驗證的基本原則。
六、技術架構深度解析:AI協(xié)作的精妙設計
CellForge的技術架構可以比作一座精心設計的圖書館,不僅收藏了豐富的知識,更重要的是建立了高效的知識檢索、整合和應用機制。這個系統(tǒng)的核心創(chuàng)新在于它獨特的通信協(xié)議和知識管理體系。
系統(tǒng)采用了一種混合通信協(xié)議,結合了JSON-RPC數據交換和持久性記憶模塊。這就像是給每個AI專家配備了既能進行實時對話,又能查閱共享資料庫的雙重通信能力。JSON-RPC負責專家之間的即時信息交換,而記憶模塊則確保所有討論歷史、決策過程和知識積累都能被完整保存和隨時調用。
這種設計的巧妙之處在于它解決了多智能體系統(tǒng)中的一個根本難題:如何在保持個體專業(yè)性的同時實現(xiàn)有效的集體智慧。每個專家都有自己的專業(yè)知識域和推理方式,但它們又需要在一個共同的知識框架下協(xié)作。記憶模塊就像是團隊的"共同大腦",記錄著所有重要的科研實體、分析方法、評估指標和實證結果,以及它們之間的復雜關系。
系統(tǒng)的知識檢索機制也頗具創(chuàng)新性。不同于傳統(tǒng)的單向搜索,CellForge采用了交替的廣度優(yōu)先和深度優(yōu)先搜索策略。這種方法就像是一個熟練的研究者在文獻調研時的思維過程:先廣泛地掃描相關領域,找到重要的研究方向,然后深入挖掘最有價值的線索,再基于新發(fā)現(xiàn)擴展搜索范圍。
具體來說,系統(tǒng)從基礎查詢開始,比如"Norman Weissman 2019 Perturb-seq",然后通過文獻引用網絡逐步發(fā)現(xiàn)相關的技術術語,如"GEARS"、"scGPT"、"Transformer VAE GNN架構"等。這個過程是自我強化的,系統(tǒng)會從基本的關鍵詞搜索逐步演化為對復雜技術概念的深度探索,最終構建出對整個技術領域的全景式理解。
在多專家討論機制中,每個專家都有一個動態(tài)更新的信心分數。這個分數不是固定的,而是基于歷史表現(xiàn)、同行評價和批評家評估的加權組合。這種設計確保了討論過程中的質量控制,避免了某個專家的偏見主導整個決策過程。當專家的信心分數較低時,它會更多地尋求其他專家的建議;當信心分數較高時,它會更主動地提出建議。
批評家專家的角色特別值得關注。它不僅要評估其他專家的提案,還要識別潛在的邏輯漏洞、技術缺陷和生物學不合理之處。更重要的是,它會根據討論的進展動態(tài)調整批評的重點,確保團隊的注意力始終集中在最關鍵的問題上。這種設計讓AI團隊具備了類似人類科研團隊的自我糾錯和持續(xù)改進能力。
在代碼生成和調試方面,系統(tǒng)展現(xiàn)了令人印象深刻的自適應能力。它不僅能生成初始代碼,還能自動識別和修復各種類型的錯誤。研究團隊發(fā)現(xiàn),通過讓系統(tǒng)打印中間變量的形狀信息,可以顯著提高張量操作錯誤的修復成功率。這種方法看似簡單,但體現(xiàn)了系統(tǒng)對編程實踐的深度理解。
系統(tǒng)還具備了模塊化的架構選擇能力。根據數據特征和任務需求,它會自動選擇最適合的技術組件。對于需要捕捉長程依賴關系的任務,它偏向于使用Transformer架構。對于涉及基因調控網絡的問題,它會集成圖神經網絡。對于極度稀疏的數據,它甚至會選擇傳統(tǒng)機器學習方法,因為這些方法在特定場景下更加穩(wěn)健。
這種技術架構的設計哲學體現(xiàn)了對科研過程本質的深刻理解。真正的科研不是機械地應用現(xiàn)有方法,而是需要跨領域知識的創(chuàng)造性整合。CellForge通過模擬人類專家團隊的協(xié)作模式,實現(xiàn)了這種創(chuàng)造性整合的自動化,這可能代表了人工智能在科研領域應用的一個重要發(fā)展方向。
說到底,CellForge的成功不僅僅在于它解決了一個特定的技術問題,更在于它展示了AI系統(tǒng)如何能夠超越單純的工具角色,成為真正的科研合作伙伴。這個系統(tǒng)將原本需要跨學科專家團隊數月協(xié)作的復雜任務,壓縮到幾個小時內完成,同時還能保證結果的科學嚴謹性和技術可行性。
更令人興奮的是,這種技術可能會徹底改變科研的生態(tài)環(huán)境。當高質量的建模分析變得如此便捷和經濟時,研究者將有更多時間和精力投入到創(chuàng)造性思考和實驗驗證中。這種變化可能會加速整個生命科學領域的發(fā)現(xiàn)速度,讓我們更快地理解生命的奧秘,開發(fā)更有效的疾病治療方法。
當然,技術的發(fā)展也帶來了新的思考。隨著AI在科研中的作用越來越重要,我們需要重新定義科學家的角色和價值。也許未來的科學家更像是AI團隊的指揮家,負責提出重要問題、設計實驗策略、解釋結果意義,而繁重的技術實現(xiàn)工作則交給像CellForge這樣的AI助手。這種分工可能會讓科研變得更加高效和創(chuàng)新,但也要求科學家具備新的技能和思維方式。
研究團隊坦誠地承認了當前系統(tǒng)的局限性。雖然CellForge能夠生成科學上可行的分析方案,但這些方案仍然需要通過實際的生物學實驗來驗證。AI可以大大加速假設的生成和初步驗證,但不能替代嚴格的實驗驗證過程。同時,系統(tǒng)目前主要針對單細胞擾動分析進行了優(yōu)化,要擴展到其他生物學領域還需要進一步的開發(fā)和適配。
盡管如此,CellForge代表的技術方向無疑是令人振奮的。它讓我們看到了AI與人類科學家協(xié)作的美好前景,也為解決人類面臨的重大生物學和醫(yī)學挑戰(zhàn)提供了新的工具和可能性。有興趣深入了解這項研究技術細節(jié)的讀者,可以通過arXiv:2508.02276v1查詢完整論文,相關代碼也已在GitHub上開源供研究社區(qū)使用。
Q&A
Q1:CellForge是什么?它能做什么?
A:CellForge是由耶魯大學團隊開發(fā)的AI系統(tǒng),它能夠自動完成虛擬細胞建模的全過程,包括分析生物數據、設計預測模型、編寫可執(zhí)行代碼。簡單說就是一個能獨立完成復雜生物學研究項目的AI助手,將原本需要專家團隊數月完成的工作壓縮到幾小時內完成。
Q2:CellForge的多專家協(xié)作機制是如何工作的?
A:CellForge模擬了真實科研團隊的工作模式,由數據專家、模型專家、生物學專家、訓練專家和批評家專家組成AI團隊。這些專家會進行多輪討論,每個專家基于自己的專業(yè)知識提出建議,批評家專家負責質疑和改進方案,直到團隊達成共識并輸出最優(yōu)解決方案。
Q3:使用CellForge需要多少成本?普通研究者能負擔嗎?
A:CellForge的使用成本遠低于傳統(tǒng)方法。每次任務平均只需5.18美元,而傳統(tǒng)人工方式需要3000-12000美元。時間成本也從原來的40-80小時專家工作時間縮短到4-8小時計算時間。這大大降低了高質量科研的門檻,讓中小型研究機構和個人研究者也能承擔。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。