這項(xiàng)由澳大利亞堪培拉大學(xué)開源研究所的Muntasir Adnan和Carlos C. N. Kuhn進(jìn)行的開創(chuàng)性研究發(fā)表于2025年6月,論文編號(hào)為arXiv:2506.18403v1。感興趣的讀者可以通過該編號(hào)在arXiv平臺(tái)上訪問完整論文。這項(xiàng)研究首次揭示了一個(gè)令人意外的現(xiàn)象:AI在調(diào)試代碼時(shí)就像人類一樣會(huì)"累",而且這種疲勞遵循著可以預(yù)測(cè)的數(shù)學(xué)規(guī)律。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)AI模型嘗試修復(fù)代碼錯(cuò)誤時(shí),它們的調(diào)試能力會(huì)按照指數(shù)衰減的模式急劇下降。就好比一個(gè)廚師在連續(xù)做菜時(shí),最開始幾道菜做得很好,但隨著時(shí)間推移,手藝會(huì)越來越差,到了第三四道菜時(shí),可能連基本的調(diào)味都會(huì)出錯(cuò)。研究數(shù)據(jù)顯示,大多數(shù)AI模型在僅僅2到3次調(diào)試嘗試后,就會(huì)失去60%到80%的調(diào)試能力。
這個(gè)發(fā)現(xiàn)對(duì)于AI編程領(lǐng)域具有重要意義。目前,許多AI代碼生成系統(tǒng)都依賴于迭代調(diào)試,也就是讓AI不斷嘗試修復(fù)代碼直到成功。然而,研究表明這種"一直試到成功"的策略可能并不高效,因?yàn)锳I的調(diào)試能力會(huì)快速衰減。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了"調(diào)試衰減指數(shù)"(DDI)這一全新的評(píng)估框架。這個(gè)指數(shù)就像是給AI的調(diào)試能力裝上了一個(gè)"體力計(jì)",能夠精確預(yù)測(cè)AI什么時(shí)候會(huì)"累",什么時(shí)候應(yīng)該"休息"重新開始。更重要的是,他們還開發(fā)了一種"戰(zhàn)略性重新開始"的方法,在恰當(dāng)?shù)臅r(shí)機(jī)讓AI清空之前的嘗試記錄,重新思考問題,從而有效地恢復(fù)調(diào)試效果。
一、AI調(diào)試的"疲勞"現(xiàn)象
當(dāng)我們談?wù)揂I編程時(shí),很多人會(huì)認(rèn)為機(jī)器應(yīng)該能夠不知疲倦地工作,一遍遍地嘗試修復(fù)代碼直到成功。然而,堪培拉大學(xué)的研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),現(xiàn)實(shí)情況遠(yuǎn)比我們想象的復(fù)雜。
這種現(xiàn)象可以用做數(shù)學(xué)題來比喻。當(dāng)你第一次遇到一道難題時(shí),你會(huì)全神貫注地思考各種解法,思路清晰,方法多樣。但如果這道題一直做不對(duì),你開始反復(fù)修改答案時(shí),往往會(huì)陷入一種思維定式,越改越糟糕,甚至把原本正確的部分也改錯(cuò)了。AI在調(diào)試代碼時(shí)也會(huì)遇到類似的困境。
研究團(tuán)隊(duì)分析了十八個(gè)不同的先進(jìn)AI模型,包括我們熟悉的GPT-4、Claude-3.7-Sonnet等,發(fā)現(xiàn)它們?cè)谡{(diào)試過程中都呈現(xiàn)出相似的模式。最初的幾次調(diào)試嘗試往往效果最好,AI能夠識(shí)別問題并提出合理的解決方案。但隨著嘗試次數(shù)增加,AI開始犯一些低級(jí)錯(cuò)誤,甚至?xí)茐脑菊_的代碼部分。
更令人驚訝的是,這種衰減并不是隨機(jī)的,而是遵循著嚴(yán)格的數(shù)學(xué)規(guī)律。研究發(fā)現(xiàn),AI的調(diào)試效果按照指數(shù)衰減函數(shù)下降,就像放射性元素的衰變一樣可以精確預(yù)測(cè)。這意味著我們可以提前知道AI什么時(shí)候會(huì)"累",并在合適的時(shí)機(jī)采取干預(yù)措施。
以GPT-3.5-turbo為例,它的調(diào)試能力在第一次嘗試后就開始快速下降,到第二三次嘗試時(shí)就已經(jīng)失去了大部分效果。相比之下,一些專門為編程優(yōu)化的模型如Qwen2.5-coder表現(xiàn)得更有"耐力",能夠維持較長(zhǎng)時(shí)間的有效調(diào)試。
這個(gè)發(fā)現(xiàn)挑戰(zhàn)了我們對(duì)AI能力的傳統(tǒng)認(rèn)知。原來AI并不是萬能的機(jī)器,它們也有自己的局限性和"疲勞點(diǎn)"。更重要的是,這種疲勞是可以被量化和預(yù)測(cè)的,這為我們優(yōu)化AI的使用方式提供了科學(xué)依據(jù)。
二、調(diào)試衰減指數(shù):給AI裝上"體力計(jì)"
面對(duì)AI調(diào)試能力會(huì)衰減這一發(fā)現(xiàn),研究團(tuán)隊(duì)并沒有止步于觀察現(xiàn)象,而是開發(fā)了一套完整的數(shù)學(xué)框架來量化和預(yù)測(cè)這種衰減。他們將這個(gè)框架稱為"調(diào)試衰減指數(shù)"(DDI),這就像是給每個(gè)AI模型裝上了一個(gè)精確的"體力計(jì)"。
調(diào)試衰減指數(shù)的工作原理類似于醫(yī)生測(cè)量病人的心率和血壓。醫(yī)生通過這些指標(biāo)可以判斷病人的健康狀況,而DDI則通過四個(gè)關(guān)鍵指標(biāo)來全面評(píng)估AI的調(diào)試能力。
第一個(gè)指標(biāo)是"初始效果"(E0),這表示AI在第一次嘗試時(shí)的成功率。就像評(píng)估一個(gè)新廚師的能力,我們首先要看他做的第一道菜質(zhì)量如何。有些AI模型天生就有很強(qiáng)的代碼生成能力,第一次就能寫出正確的代碼,而有些則需要多次嘗試。
第二個(gè)關(guān)鍵指標(biāo)是"衰減速率"(λ),這個(gè)數(shù)值越大,說明AI的調(diào)試能力下降得越快。想象一個(gè)運(yùn)動(dòng)員的體力消耗,有些人能夠長(zhǎng)時(shí)間保持高水平表現(xiàn),而有些人則會(huì)快速疲勞。研究發(fā)現(xiàn),GPT-3.5-turbo的衰減速率高達(dá)1.33,意味著它的調(diào)試能力下降得非???,而像Codestral這樣的專業(yè)編程模型衰減速率只有0.34,表現(xiàn)出更好的持久性。
第三個(gè)指標(biāo)是"干預(yù)時(shí)機(jī)"(tθ),這告訴我們什么時(shí)候應(yīng)該讓AI"休息"并重新開始。就像馬拉松運(yùn)動(dòng)員需要在合適的時(shí)機(jī)補(bǔ)充水分一樣,AI也需要在合適的時(shí)機(jī)清空記憶,重新思考問題。研究團(tuán)隊(duì)可以根據(jù)設(shè)定的效果下降閾值(比如效果下降50%或80%時(shí)),精確計(jì)算出最佳的干預(yù)時(shí)機(jī)。
第四個(gè)指標(biāo)是"擬合質(zhì)量"(R?),這衡量數(shù)學(xué)模型對(duì)實(shí)際觀察結(jié)果的解釋程度。如果這個(gè)值很高(接近1),說明AI的行為確實(shí)遵循指數(shù)衰減規(guī)律,我們的預(yù)測(cè)就很可靠。如果這個(gè)值較低,則說明這個(gè)AI的行為比較復(fù)雜,可能需要用其他數(shù)學(xué)模型來描述。
通過這四個(gè)指標(biāo),DDI能夠?yàn)槊總€(gè)AI模型建立一個(gè)完整的"體力檔案"。研究團(tuán)隊(duì)發(fā)現(xiàn),不同的AI模型有著截然不同的調(diào)試特征。比如Claude-3.7-Sonnet表現(xiàn)得像一個(gè)"短跑冠軍",在前兩次嘗試中就能達(dá)到100%的成功率,根本不需要更多的調(diào)試。而Phi4-reasoning模型雖然起步較慢,但展現(xiàn)出了驚人的"馬拉松"能力,能夠通過持續(xù)的調(diào)試獲得顯著的改進(jìn)。
這套評(píng)估系統(tǒng)的價(jià)值在于它提供了一個(gè)標(biāo)準(zhǔn)化的方法來比較不同AI模型的調(diào)試能力。就像我們用跑步成績(jī)來比較運(yùn)動(dòng)員的水平一樣,DDI讓我們能夠客觀地評(píng)估哪些AI模型更適合需要大量調(diào)試的復(fù)雜編程任務(wù),哪些則更適合簡(jiǎn)單快速的代碼生成。
三、戰(zhàn)略性重啟:讓疲憊的AI重獲新生
發(fā)現(xiàn)了AI調(diào)試會(huì)疲勞的規(guī)律后,研究團(tuán)隊(duì)并沒有滿足于僅僅觀察和測(cè)量這種現(xiàn)象,而是進(jìn)一步探索如何幫助AI克服這種限制。他們提出了一個(gè)巧妙的解決方案:戰(zhàn)略性重啟。
這個(gè)方法的核心思想很簡(jiǎn)單,就像我們?cè)诮鉀Q復(fù)雜問題時(shí)會(huì)說"讓我重新想想"一樣。當(dāng)AI陷入調(diào)試的困境時(shí),與其讓它繼續(xù)在錯(cuò)誤的路徑上越走越遠(yuǎn),不如讓它完全忘記之前的嘗試,重新審視原始問題。
研究團(tuán)隊(duì)將這種策略比作重新洗牌。在玩紙牌游戲時(shí),如果手里的牌組合不好,最好的策略往往是放棄當(dāng)前這手牌,重新發(fā)牌。同樣,當(dāng)AI的調(diào)試效果下降到某個(gè)臨界點(diǎn)時(shí),清空它的"記憶"并重新開始往往比繼續(xù)修修補(bǔ)補(bǔ)更有效。
這種方法的關(guān)鍵在于時(shí)機(jī)的把握。研究團(tuán)隊(duì)利用DDI計(jì)算出的干預(yù)時(shí)機(jī),在AI調(diào)試能力下降到預(yù)設(shè)閾值時(shí)觸發(fā)重啟。比如,當(dāng)AI的效果下降到初始水平的50%時(shí),系統(tǒng)會(huì)自動(dòng)清空之前的對(duì)話歷史,只保留原始的編程任務(wù),讓AI重新思考解決方案。
實(shí)驗(yàn)結(jié)果令人印象深刻。以Llama3.1:8b模型為例,在傳統(tǒng)的連續(xù)調(diào)試模式下,它的最終成功率只有72.56%。但在應(yīng)用戰(zhàn)略性重啟后,成功率躍升至82.32%,提升了近10個(gè)百分點(diǎn)。更令人驚喜的是,這種改進(jìn)幾乎不需要額外的計(jì)算資源,因?yàn)橹貑⒅皇乔蹇樟藢?duì)話歷史,并沒有增加總的嘗試次數(shù)。
研究團(tuán)隊(duì)測(cè)試了六個(gè)不同的AI模型,結(jié)果顯示所有模型都從戰(zhàn)略性重啟中受益。這證明了這種方法的普適性,不管是哪種類型的AI,都會(huì)在調(diào)試過程中遇到類似的困境,也都能從適時(shí)的"重新開始"中獲得幫助。
更有趣的是,研究還發(fā)現(xiàn)不同的AI模型需要不同的重啟策略。一些模型在效果下降50%時(shí)重啟效果最好,而另一些則在下降80%時(shí)重啟更合適。這就像不同的人有不同的工作節(jié)奏,有些人需要頻繁的短暫休息,有些人則適合較長(zhǎng)時(shí)間的專注工作。
戰(zhàn)略性重啟的成功還帶來了一個(gè)重要啟示:AI的智能不僅體現(xiàn)在它能做什么,也體現(xiàn)在它知道什么時(shí)候應(yīng)該重新開始。這種"知難而退"的智慧,可能是未來AI系統(tǒng)的一個(gè)重要特征。
四、現(xiàn)實(shí)意義與應(yīng)用前景
這項(xiàng)研究的價(jià)值遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)界的討論范圍,它為我們?cè)谌粘I钪腥绾胃玫厥褂肁I工具提供了重要指導(dǎo)。
對(duì)于軟件開發(fā)者來說,這項(xiàng)研究提供了立即可用的實(shí)踐指導(dǎo)。當(dāng)你使用AI助手幫助調(diào)試代碼時(shí),不要期望它能無限次地改進(jìn)同一段代碼。相反,在AI嘗試了2-3次仍未成功后,最好的策略是重新開始對(duì)話,重新描述問題。這樣做往往比讓AI繼續(xù)在原有基礎(chǔ)上修改更有效。
對(duì)于AI工具的開發(fā)者而言,DDI提供了一個(gè)新的評(píng)估標(biāo)準(zhǔn)。傳統(tǒng)的AI評(píng)估往往只關(guān)注單次任務(wù)的成功率,就像只看運(yùn)動(dòng)員的百米成績(jī)而忽略他們的耐力表現(xiàn)。DDI則提供了一個(gè)更全面的視角,既考慮AI的初始能力,也評(píng)估其持續(xù)表現(xiàn)的穩(wěn)定性。
這種評(píng)估方式的改變可能會(huì)影響AI模型的設(shè)計(jì)和訓(xùn)練。開發(fā)者可能會(huì)更加重視模型的"調(diào)試耐力",而不僅僅是首次成功率。這就像培養(yǎng)運(yùn)動(dòng)員時(shí),既要提高他們的爆發(fā)力,也要增強(qiáng)他們的持久力。
從更廣泛的角度來看,這項(xiàng)研究揭示了AI系統(tǒng)的一個(gè)基本特征:它們并不是完美的推理機(jī)器,而是有著自己的局限性和疲勞模式的工具。這種認(rèn)識(shí)有助于我們建立更現(xiàn)實(shí)的期待,更合理地設(shè)計(jì)人機(jī)協(xié)作的工作流程。
在教育領(lǐng)域,這項(xiàng)研究也有重要意義。當(dāng)學(xué)生使用AI助手學(xué)習(xí)編程時(shí),了解AI的這種特性可以幫助他們更有效地與AI協(xié)作。他們會(huì)知道什么時(shí)候應(yīng)該信賴AI的建議,什么時(shí)候應(yīng)該重新開始,什么時(shí)候應(yīng)該尋求人類教師的幫助。
企業(yè)在部署AI系統(tǒng)時(shí)也可以從這項(xiàng)研究中受益。通過監(jiān)控AI系統(tǒng)的調(diào)試模式,企業(yè)可以設(shè)計(jì)更智能的工作流程,在合適的時(shí)機(jī)觸發(fā)重啟或切換到其他解決方案,從而提高整體的工作效率。
此外,這項(xiàng)研究還為我們理解人類智能提供了新的視角。人類在解決復(fù)雜問題時(shí)也會(huì)遇到類似的困境,有時(shí)候"從頭開始"確實(shí)比"繼續(xù)修補(bǔ)"更有效。AI調(diào)試能力的衰減模式可能反映了更普遍的認(rèn)知規(guī)律,這為認(rèn)知科學(xué)研究提供了新的思路。
五、研究的局限性與未來展望
任何優(yōu)秀的研究都會(huì)誠(chéng)實(shí)地面對(duì)自己的局限性,這項(xiàng)研究也不例外。研究團(tuán)隊(duì)坦率地承認(rèn)了他們工作中的幾個(gè)重要限制。
首先,DDI的參數(shù)具有明顯的數(shù)據(jù)集特異性。就像不同的考試會(huì)得出不同的學(xué)生排名一樣,在不同的編程任務(wù)集合上,同一個(gè)AI模型可能會(huì)表現(xiàn)出不同的衰減模式。目前的研究主要基于HumanEval數(shù)據(jù)集,雖然這是一個(gè)廣泛認(rèn)可的標(biāo)準(zhǔn)測(cè)試集,但它可能無法完全代表現(xiàn)實(shí)世界中編程任務(wù)的多樣性。
這意味著我們不能簡(jiǎn)單地將在一個(gè)數(shù)據(jù)集上測(cè)得的DDI參數(shù)直接應(yīng)用到其他場(chǎng)景中。就像一個(gè)在數(shù)學(xué)考試中表現(xiàn)優(yōu)秀的學(xué)生,在文科考試中可能就不那么出色。因此,在實(shí)際應(yīng)用中,可能需要針對(duì)特定的任務(wù)類型重新校準(zhǔn)DDI參數(shù)。
其次,研究團(tuán)隊(duì)發(fā)現(xiàn)最佳干預(yù)閾值的選擇仍然是一個(gè)未解決的問題。雖然他們證明了戰(zhàn)略性重啟的有效性,但究竟應(yīng)該在效果下降50%時(shí)重啟,還是在下降80%時(shí)重啟,很大程度上依賴于具體的應(yīng)用場(chǎng)景和性能要求。這就像決定什么時(shí)候休息一樣,最佳時(shí)機(jī)因人而異,也因任務(wù)而異。
另一個(gè)有趣的局限性是,研究主要關(guān)注了指數(shù)衰減模式,但有些AI模型的行為可能遵循其他數(shù)學(xué)規(guī)律。研究團(tuán)隊(duì)注意到,少數(shù)模型的調(diào)試效果下降模式無法用指數(shù)函數(shù)很好地描述,這提示我們可能需要更多樣化的數(shù)學(xué)模型來全面理解AI的調(diào)試行為。
盡管存在這些局限性,這項(xiàng)研究為未來的工作指明了許多有前景的方向。跨數(shù)據(jù)集驗(yàn)證是一個(gè)重要的下一步,研究團(tuán)隊(duì)建議在更多樣化的編程基準(zhǔn)測(cè)試上驗(yàn)證DDI框架,以建立更具普適性的參數(shù)范圍。
更令人興奮的是,研究團(tuán)隊(duì)提出了將人類調(diào)試模式與AI調(diào)試模式進(jìn)行比較的想法。如果發(fā)現(xiàn)人類程序員也遵循類似的衰減模式,這可能揭示出迭代問題解決的基本認(rèn)知規(guī)律,為認(rèn)知科學(xué)提供新的洞察。
自適應(yīng)閾值選擇是另一個(gè)重要的研究方向。未來的系統(tǒng)可能能夠根據(jù)任務(wù)復(fù)雜度、模型特性和實(shí)時(shí)表現(xiàn)動(dòng)態(tài)調(diào)整重啟時(shí)機(jī),就像一個(gè)智能的個(gè)人教練能夠根據(jù)運(yùn)動(dòng)員的實(shí)時(shí)狀態(tài)調(diào)整訓(xùn)練強(qiáng)度。
最后,DDI框架的靈活性為其擴(kuò)展應(yīng)用提供了可能。雖然目前主要用于代碼調(diào)試,但這種思路可能適用于其他需要迭代改進(jìn)的AI任務(wù),如文本編輯、圖像優(yōu)化或策略游戲等領(lǐng)域。
說到底,這項(xiàng)研究最大的貢獻(xiàn)可能不是提供了一個(gè)完美的解決方案,而是開啟了一個(gè)全新的研究領(lǐng)域。它讓我們開始以更科學(xué)的方式思考AI的局限性,以更精細(xì)的方法優(yōu)化人機(jī)協(xié)作。就像第一次發(fā)現(xiàn)細(xì)菌的顯微鏡一樣,DDI可能只是幫助我們看清AI內(nèi)在規(guī)律的第一個(gè)工具,未來還會(huì)有更多更精密的工具被開發(fā)出來。
歸根結(jié)底,這項(xiàng)研究提醒我們,即使是最先進(jìn)的AI系統(tǒng)也不是萬能的,它們有自己的"生物鐘"和"體力限制"。理解并尊重這些限制,可能是我們與AI更好協(xié)作的關(guān)鍵。正如研究團(tuán)隊(duì)在論文中所說,這不僅是一個(gè)技術(shù)問題,更是一個(gè)關(guān)于如何理解和利用智能系統(tǒng)的根本性問題。
Q&A
Q1:什么是調(diào)試衰減指數(shù)(DDI)?它有什么用? A:DDI是一個(gè)評(píng)估AI調(diào)試能力的新框架,就像給AI裝了個(gè)"體力計(jì)"。它通過四個(gè)指標(biāo)(初始效果、衰減速率、干預(yù)時(shí)機(jī)、擬合質(zhì)量)來預(yù)測(cè)AI什么時(shí)候會(huì)"累",幫助我們?cè)诤线m的時(shí)機(jī)讓AI重新開始,從而提高編程效率。
Q2:為什么AI調(diào)試幾次后效果會(huì)變差? A:研究發(fā)現(xiàn)AI在調(diào)試代碼時(shí)會(huì)像人一樣陷入思維定式。最初幾次嘗試時(shí)思路清晰,但隨著失敗次數(shù)增加,AI會(huì)在錯(cuò)誤的方向上越走越遠(yuǎn),甚至破壞原本正確的代碼。這種衰減遵循數(shù)學(xué)規(guī)律,大部分模型在2-3次嘗試后就失去60-80%的調(diào)試能力。
Q3:普通人使用AI編程工具時(shí)如何應(yīng)用這個(gè)發(fā)現(xiàn)? A:當(dāng)你讓AI幫忙調(diào)試代碼時(shí),如果AI嘗試了2-3次仍未成功,最好重新開始對(duì)話,重新描述問題,而不是讓它繼續(xù)在原有基礎(chǔ)上修改。這樣做通常比連續(xù)調(diào)試更有效,就像重新洗牌比繼續(xù)用壞牌更明智。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。