在科技和學(xué)術(shù)文檔中發(fā)現(xiàn)細(xì)微的技術(shù)錯(cuò)誤一直是個(gè)難題,尤其是那些需要多模態(tài)解讀的內(nèi)容(如圖像中的化學(xué)分子式)。2025年5月18日,來自下諾夫哥羅德洛巴切夫斯基國(guó)立大學(xué)的葉夫根尼·馬爾哈辛(Evgeny Markhasin)在他的最新研究中,探索了一種令人振奮的解決方案。這項(xiàng)概念驗(yàn)證研究發(fā)表在個(gè)人學(xué)術(shù)論文中,讀者可通過其ORCID(0000-0002-7419-3605)或LinkedIn主頁(yè)了解更多詳情。
馬爾哈辛教授注意到了一個(gè)有趣現(xiàn)象:當(dāng)今的大型語(yǔ)言模型(LLM)雖然功能強(qiáng)大,但它們有個(gè)與生俱來的"糾錯(cuò)傾向"。這就像是一個(gè)過于熱心的朋友,即使你故意說錯(cuò)話,他也會(huì)自動(dòng)理解你真正想表達(dá)的意思,而不是指出你的錯(cuò)誤。這種特性在日常交流中很有用,但在需要嚴(yán)格驗(yàn)證文檔中的技術(shù)錯(cuò)誤時(shí),卻成了一個(gè)障礙。
想象一下,你請(qǐng)一位專家審核一份重要文件,但這位專家不知不覺地修正了所有錯(cuò)誤,然后告訴你"一切都很完美"——這顯然不是你想要的結(jié)果!在科學(xué)領(lǐng)域,尤其是化學(xué)公式驗(yàn)證中,這種問題尤為嚴(yán)重。
為了解決這個(gè)問題,馬爾哈辛教授提出了一種巧妙的方法:通過"持續(xù)工作流程提示"(PWP)原則進(jìn)行"LLM情境調(diào)節(jié)"。這聽起來可能有些專業(yè),但其實(shí)很像是給AI設(shè)定一個(gè)特定的"思維模式",就像教導(dǎo)一個(gè)朋友:"今天我需要你戴上'挑錯(cuò)眼鏡',而不是你平常的'理解眼鏡'。"
這項(xiàng)研究的獨(dú)特之處在于,它不需要復(fù)雜的API訪問或模型修改,只利用了通用LLM(如Gemini 2.5 Pro和ChatGPT Plus o3)的標(biāo)準(zhǔn)聊天界面。研究者選擇了一篇包含已知文本和圖像錯(cuò)誤的復(fù)雜測(cè)試論文,并開發(fā)了幾種提示策略來測(cè)試這一方法。
最初的簡(jiǎn)單提示策略效果不佳,就像是模糊地告訴助手"找找有什么錯(cuò)誤",結(jié)果并不理想。但當(dāng)研究者使用適應(yīng)PWP結(jié)構(gòu)的方法,嚴(yán)格調(diào)節(jié)LLM的分析思維模式時(shí),情況發(fā)生了顯著變化。這種方法不僅提高了兩種模型識(shí)別文本錯(cuò)誤的能力,更有趣的是,Gemini 2.5 Pro甚至能夠反復(fù)識(shí)別出一個(gè)之前在人工審閱中被忽略的、隱藏在圖像中的分子式錯(cuò)誤。相比之下,ChatGPT Plus o3在同樣的測(cè)試中則未能發(fā)現(xiàn)這個(gè)圖像中的錯(cuò)誤。
這項(xiàng)研究的初步發(fā)現(xiàn)揭示了阻礙LLM進(jìn)行細(xì)致驗(yàn)證的特定運(yùn)行模式,并表明PWP信息的情境調(diào)節(jié)提供了一種有前途且高度易用的技術(shù),用于開發(fā)更強(qiáng)大的LLM驅(qū)動(dòng)分析工作流程,特別是那些需要在科學(xué)和技術(shù)文檔中進(jìn)行細(xì)致錯(cuò)誤檢測(cè)的任務(wù)。
一、研究背景:為什么我們需要更聰明的AI錯(cuò)誤檢測(cè)?
在科學(xué)研究領(lǐng)域,準(zhǔn)確性至關(guān)重要。想象一下,如果一篇化學(xué)論文中的分子式出現(xiàn)錯(cuò)誤,可能會(huì)導(dǎo)致其他研究人員在此基礎(chǔ)上設(shè)計(jì)實(shí)驗(yàn),結(jié)果耗費(fèi)大量時(shí)間和資源卻一無所獲。這就像是按照錯(cuò)誤的食譜烘焙一個(gè)蛋糕——無論你的廚藝多么精湛,結(jié)果都會(huì)令人失望。
傳統(tǒng)上,捕捉這類錯(cuò)誤依賴于同行評(píng)審——專業(yè)人士仔細(xì)閱讀文檔并找出問題。但隨著學(xué)術(shù)出版物數(shù)量的爆炸性增長(zhǎng),這種人工方法變得越來越不可行。這時(shí),人們自然而然地想到:為什么不利用人工智能來幫忙呢?
但這里存在一個(gè)微妙的障礙。當(dāng)今的大型語(yǔ)言模型,如谷歌的Gemini和OpenAI的ChatGPT,雖然處理信息能力驚人,但它們的設(shè)計(jì)初衷是理解并滿足用戶意圖,而不是吹毛求疵地找錯(cuò)。這些模型會(huì)自動(dòng)"糾正"或?qū)λ鼈冋J(rèn)為的輸入不完美之處做出合理推斷。這就像是一個(gè)過于熱心的助手,不僅會(huì)理解你說的話,還會(huì)自動(dòng)修正你的口誤,即使當(dāng)你特意想讓他指出這些口誤時(shí)。
舉個(gè)簡(jiǎn)單例子:如果你問ChatGPT"倫敦是大不列顛的首都嗎?"(雖然正確說法應(yīng)該是"英國(guó)"或"聯(lián)合王國(guó)"),它很可能直接回答"是的",而不是指出術(shù)語(yǔ)使用不當(dāng)。在日常交流中,這種特性很有用,但在科學(xué)文獻(xiàn)驗(yàn)證中,卻成了一個(gè)明顯的缺點(diǎn)。
馬爾哈辛教授受到了最近一篇預(yù)印本論文的啟發(fā),該論文提出了"持續(xù)工作流程提示"(PWP)作為一種方法,通過專家驅(qū)動(dòng)、基于提示的引導(dǎo)來指導(dǎo)通用大型語(yǔ)言模型。他決定將這一方法應(yīng)用于一個(gè)更具體的挑戰(zhàn):在一篇已知包含文本和圖像錯(cuò)誤的復(fù)雜測(cè)試論文中驗(yàn)證化學(xué)分子式。
二、研究方法:讓AI戴上"挑錯(cuò)眼鏡"
研究團(tuán)隊(duì)的方法就像是教導(dǎo)一個(gè)聰明但過于熱心的助手如何成為一名嚴(yán)格的科學(xué)編輯。他們使用了同一篇包含已知錯(cuò)誤的測(cè)試論文,這篇論文共有44頁(yè),其中隱藏著幾個(gè)微妙的化學(xué)分子式錯(cuò)誤。
具體來說,測(cè)試論文的第S-8頁(yè)將硫酸亞鐵銨的分子式錯(cuò)誤地寫成了Fe(NH?)?SO?,漏掉了一個(gè)硫酸根。正確的硫酸亞鐵銨(莫爾鹽)分子式應(yīng)該是(NH?)?Fe(SO?)?·6H?O或無水形式(NH?)?Fe(SO?)?。第二個(gè)已知錯(cuò)誤出現(xiàn)在第235頁(yè)的圖2(c)中,作為光譜標(biāo)簽的六甲基二硅氧烷被錯(cuò)誤地標(biāo)記為(CH?)?Si?O,而正確的分子式應(yīng)為((CH?)?Si)?O或(CH?)?Si?O。
這個(gè)測(cè)試文檔非常理想,因?yàn)樗劝宋谋拘问降腻e(cuò)誤,又包含了圖像中的錯(cuò)誤,使得研究團(tuán)隊(duì)可以測(cè)試模型的多模態(tài)分析能力。此外,考慮到測(cè)試論文的篇幅(44頁(yè)),這也相當(dāng)于在干草堆中尋找針——一個(gè)真實(shí)世界中的挑戰(zhàn)性任務(wù)。
研究者們嘗試了幾種不同的提示策略:
首先是最基礎(chǔ)的直接提示,就像簡(jiǎn)單地告訴助手:"找出化學(xué)分子式和名稱中的錯(cuò)誤。"這種方法特意提到了名稱,因?yàn)槊Q通??梢杂脕斫馕龇肿邮藉e(cuò)誤。
第二種策略是分解式提示,專注于提取公式與提取名稱的對(duì)比??紤]到在化學(xué)交流中,大多數(shù)分子式(可能除了最基本的)都應(yīng)該有相應(yīng)的化學(xué)名稱,研究者設(shè)計(jì)了一種策略,引導(dǎo)模型提取每個(gè)分子式的化學(xué)名稱,并通過比較這兩者來識(shí)別問題。
第三種策略也是分解式的,但采用了不同的錯(cuò)誤檢測(cè)工作流程。它讓模型從提取的分子式生成名稱,再?gòu)纳傻拿Q重新生成分子式,然后比較提取的和生成的分子式來識(shí)別潛在錯(cuò)誤。
最后,也是最復(fù)雜的一種方法,是基于PWP的提示與LLM情境調(diào)節(jié)。這種方法借鑒了先前工作中的情境調(diào)節(jié)原則,通過全面的情境設(shè)置來減輕輸入偏見。研究者們開發(fā)了一個(gè)名為"ChemicalFormulasValidationPrompt"的提示,與之前工作中的"PeerReviewPrompt"類似,但專門針對(duì)分子式驗(yàn)證進(jìn)行了調(diào)整。
這種PWP提示的結(jié)構(gòu)非常精心,包含了幾個(gè)關(guān)鍵部分:核心目標(biāo)、角色設(shè)定、批判性審查框架等。它還引入了一個(gè)專門針對(duì)分子式和名稱驗(yàn)證的"化學(xué)標(biāo)識(shí)符分析"子部分,提供了專門的工作流程,包括對(duì)文檔(包括文本和圖像)的仔細(xì)掃描,以及對(duì)公式和名稱的詳細(xì)錯(cuò)誤分類。
三、研究發(fā)現(xiàn):有效破解AI的"糾錯(cuò)習(xí)慣"
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)使用基本的直接提示時(shí),結(jié)果不一致且普遍不可靠。雖然基于文本的目標(biāo)錯(cuò)誤偶爾被識(shí)別出來,但響應(yīng)中經(jīng)常包含大量的"幻覺"——AI編造出的不存在的錯(cuò)誤。有趣的是,這些幻覺往往很具體,且看起來合理,與目標(biāo)文本設(shè)定的背景相匹配。
比如,LLM特別關(guān)注氧原子符號(hào)(大寫字母O)在化學(xué)分子式中被錯(cuò)誤地替換為碳原子符號(hào)(大寫字母C)、數(shù)字零,甚至偶爾是鈾符號(hào)等問題。雖然這些錯(cuò)誤在真實(shí)文檔中可能會(huì)出現(xiàn),但在測(cè)試案例中實(shí)際上并不存在。
兩種模型還表現(xiàn)出"懶惰"的特點(diǎn)。有時(shí)它們會(huì)產(chǎn)生大量輸出,充斥著幻覺問題;有時(shí)它們聲稱沒有發(fā)現(xiàn)任何問題;有時(shí)它們只報(bào)告了幾個(gè)候選問題。ChatGPT Plus o3甚至在其部分暴露的思考過程中表現(xiàn)出擬人化的抱怨,它推理說"手動(dòng)"瀏覽整個(gè)文件搜索候選公式會(huì)"永遠(yuǎn)"耗時(shí),因此需要考慮不同的策略。
通過分析Gemini的"展示思考"日志(一個(gè)提供模型處理步驟洞察的功能),研究者發(fā)現(xiàn)了一個(gè)一致的模式。使用分解提示時(shí),LLM通常能正確提取目標(biāo)公式(例如,"Fe(NH?)?SO?:硫酸亞鐵銨(莫爾鹽)")。然而,在后續(xù)的驗(yàn)證步驟中,它有時(shí)會(huì)錯(cuò)誤地將這對(duì)標(biāo)記為正確。
這種觀察到的行為可能源于LLM的核心優(yōu)勢(shì):它們固有的糾錯(cuò)能力和在輸入存在輕微不準(zhǔn)確的情況下理解意圖的能力。就像當(dāng)你問"英國(guó)的首都是什么?",盡管"英國(guó)"的正式名稱是"大不列顛及北愛爾蘭聯(lián)合王國(guó)",LLM仍會(huì)回答"倫敦",自動(dòng)糾正了你的不準(zhǔn)確表述。雖然這種特性通常很有用,但當(dāng)目標(biāo)是檢測(cè)此類錯(cuò)誤時(shí),卻成了一個(gè)障礙。
這就是情境調(diào)節(jié)發(fā)揮作用的地方。通過"ChemicalFormulasValidationPrompt"(化學(xué)分子式驗(yàn)證提示)創(chuàng)建的詳細(xì)情境,LLM似乎能夠暫時(shí)抑制其糾錯(cuò)傾向,采取更批判性的分析姿態(tài)。在使用這種PWP基礎(chǔ)的方法進(jìn)行測(cè)試時(shí),兩種模型都能一致地識(shí)別出基于文本的目標(biāo)錯(cuò)誤。
更令人驚訝的是,由于明確指示進(jìn)行多模態(tài)分析(特別是分析圖像),Gemini 2.5 Pro模型在多次試驗(yàn)中,還識(shí)別出了之前在人工審查中被忽略的基于圖像的錯(cuò)誤。這就像是一個(gè)非常細(xì)心的助手發(fā)現(xiàn)了一個(gè)連專業(yè)人士都漏掉的微小細(xì)節(jié)!相比之下,雖然ChatGPT Plus o3也被宣傳為具有多模態(tài)分析能力,但在這項(xiàng)特定研究中,它未能識(shí)別出圖像中的錯(cuò)誤。
四、Gemini不同接口的表現(xiàn)差異
研究中的一個(gè)有趣發(fā)現(xiàn)與Gemini 2.5 Pro模型通過不同Google接口訪問時(shí)的表現(xiàn)有關(guān)。雖然公眾可用的Gemini Advanced應(yīng)用程序(通過gemini.google.com)和面向開發(fā)者的Google AI Studio理論上提供對(duì)相同底層前沿模型的訪問,且AI Studio提供廣泛的定制選項(xiàng)(盡管本研究中使用了默認(rèn)設(shè)置),但研究者注意到行為上存在質(zhì)的差異。
雖然不是系統(tǒng)性的基準(zhǔn)測(cè)試,但觀察性評(píng)估表明,通過AI Studio(使用默認(rèn)參數(shù))訪問的Gemini 2.5 Pro模型在本研究的復(fù)雜分析任務(wù)中表現(xiàn)出更一致、更精確的行為,比通過Gemini Advanced應(yīng)用程序訪問的版本更勝一籌。這種感知到的增強(qiáng)性能表現(xiàn)為運(yùn)行之間可能更大的穩(wěn)定性,更緊密地遵循提示指令和用戶意圖,以及更準(zhǔn)確地提取細(xì)粒度細(xì)節(jié)。
這種差異在有限的多模態(tài)分析測(cè)試中尤為明顯。雖然兩個(gè)接口都使模型能夠識(shí)別測(cè)試論文中低分辨率圖像內(nèi)的基于圖像的公式錯(cuò)誤,但捕獲的細(xì)節(jié)水平各不相同。具體來說,通過Gemini Advanced應(yīng)用程序訪問的Gemini 2.5 Pro模型重復(fù)將圖像中的公式識(shí)別為(CH?)?SiO,省略了最后一個(gè)下標(biāo)。相比之下,通過AI Studio(默認(rèn)設(shè)置)訪問時(shí),相同的名義模型重復(fù)將有缺陷的公式更準(zhǔn)確地識(shí)別為(CH?)?Si?O,正確包含了最后一個(gè)下標(biāo)。
這些特定觀察結(jié)果,盡管基于有限的概念驗(yàn)證,表明訪問接口及其默認(rèn)配置可能會(huì)影響LLM在精細(xì)、面向細(xì)節(jié)的任務(wù)上的表現(xiàn)。這一觀察結(jié)果凸顯了研究人員在報(bào)告或嘗試復(fù)制使用通過不同平臺(tái)訪問的名義相同模型的發(fā)現(xiàn)時(shí)的一個(gè)實(shí)際考慮因素。
五、研究影響與未來展望
這項(xiàng)概念驗(yàn)證研究的觀察結(jié)果,特別是關(guān)于LLM情境調(diào)節(jié)在管理某些LLM行為(如錯(cuò)誤抑制和輸入偏見)方面的明顯有效性,指向其在化學(xué)分子式驗(yàn)證任務(wù)之外的潛在效用。雖然本文的發(fā)現(xiàn)是初步的,并且來自有限的測(cè)試范圍,但通過PWP信息技術(shù)引導(dǎo)LLM注意力和操作模式的原則可能對(duì)更廣泛的應(yīng)用有所幫助。
例如,類似的方法可能在醫(yī)學(xué)AI領(lǐng)域有價(jià)值,用于需要從患者記錄中精細(xì)處理和驗(yàn)證信息的工作流程,這些工作流程中精確性至關(guān)重要。另一個(gè)相關(guān)領(lǐng)域可能是從半結(jié)構(gòu)化或結(jié)構(gòu)不良的來源提取和驗(yàn)證數(shù)據(jù),這在制藥或技術(shù)文檔中很常見,在這些情況下,鼓勵(lì)LLM標(biāo)記差異而不是靜默"糾正"它們可能是非常理想的。
然而,重要的是要重申這項(xiàng)探索性工作中固有的限制。主要限制是依賴單一測(cè)試論文評(píng)估提示策略。因此,雖然所呈現(xiàn)的"ChemicalFormulasValidationPrompt"在這一特定上下文中看似有效,但沒有更廣泛的測(cè)試,這些觀察結(jié)果不能被概括。提示本身,特別是"化學(xué)標(biāo)識(shí)符分析"工作流程,仍然是需要進(jìn)一步完善的初步草案。
未來的研究應(yīng)該優(yōu)先在更廣泛的科學(xué)文檔范圍內(nèi)對(duì)這些PWP信息情境調(diào)節(jié)方法進(jìn)行嚴(yán)格測(cè)試,以定量評(píng)估它們的性能和通用性。這項(xiàng)工作還應(yīng)該包括對(duì)不同LLM的更系統(tǒng)比較。對(duì)提示架構(gòu)的進(jìn)一步完善和對(duì)特定調(diào)節(jié)指令如何影響不同LLM行為(例如,錯(cuò)誤抑制、不一致的努力、幻覺)的更受控調(diào)查也是增強(qiáng)這些技術(shù)在復(fù)雜科學(xué)內(nèi)容分析和驗(yàn)證中的準(zhǔn)確性和確保更廣泛適用性的基本后續(xù)步驟。
總的來說,雖然這項(xiàng)研究是初步的,基于對(duì)使用測(cè)試論文的觀察評(píng)估,但它為未來發(fā)展提供了有希望的方向,表明相對(duì)簡(jiǎn)單的情境調(diào)節(jié)可能有助于使通用LLM更適合精細(xì)的驗(yàn)證任務(wù),而無需復(fù)雜的模型修改或提示工程。
六、結(jié)論:通用AI的未來發(fā)展方向
這項(xiàng)探索性概念驗(yàn)證研究調(diào)查了基于LLM的復(fù)雜科學(xué)文檔中化學(xué)分子式驗(yàn)證,使用了一個(gè)包含已知錯(cuò)誤的單一測(cè)試案例。觀察表明,更簡(jiǎn)單的提示策略對(duì)目標(biāo)錯(cuò)誤產(chǎn)生了不可靠的結(jié)果,通常受到LLM糾錯(cuò)傾向和不一致分析努力的影響,盡管它們偶爾能識(shí)別出其他未針對(duì)的問題,如不平衡的化學(xué)方程式,這表明它們?cè)趶V泛探索性測(cè)試中的潛在效用。相比之下,具有情境調(diào)節(jié)的PWP基礎(chǔ)方法似乎改善了對(duì)目標(biāo)錯(cuò)誤類型的識(shí)別。
值得注意的是,盡管多模態(tài)分析指令主要是從先前工作改編而來,沒有專門針對(duì)此任務(wù)進(jìn)行優(yōu)化,但PWP信息提示引導(dǎo)Gemini 2.5 Pro重復(fù)識(shí)別出圖像中的一個(gè)微妙錯(cuò)誤——這個(gè)錯(cuò)誤先前在人工審查中被忽略。這一發(fā)現(xiàn)突顯了系統(tǒng)性開發(fā)、情境條件提示揭示甚至未針對(duì)或意外錯(cuò)誤的潛力。
這些初步觀察強(qiáng)調(diào)了LLM在面向細(xì)節(jié)的驗(yàn)證任務(wù)中面臨的顯著挑戰(zhàn),但也表明情境調(diào)節(jié)可能是增強(qiáng)其可靠性的寶貴技術(shù)。盡管相對(duì)未經(jīng)優(yōu)化,所呈現(xiàn)的"ChemicalFormulasValidationPrompt"促成了這些初步定性評(píng)估。超出這個(gè)有限概念驗(yàn)證范圍的進(jìn)一步研究需要驗(yàn)證這些發(fā)現(xiàn)并探索此類方法的全部潛力。
對(duì)于關(guān)心科學(xué)研究完整性的普通讀者來說,這項(xiàng)研究展示了AI不僅可以創(chuàng)造內(nèi)容,還可以幫助我們更準(zhǔn)確地驗(yàn)證內(nèi)容,但前提是我們提供正確的指導(dǎo)。就像一個(gè)朋友可以幫你檢查文章中的錯(cuò)誤,但前提是你明確告訴他們要尋找什么,以及如何以批判性的眼光閱讀你的作品。這種方法可能會(huì)對(duì)科學(xué)出版物中錯(cuò)誤的減少產(chǎn)生深遠(yuǎn)影響,讓科學(xué)知識(shí)更加可靠和值得信賴。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。