av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 馬里蘭大學(xué)揭秘:AI推理過(guò)程竟然和人類解題思路驚人相似

馬里蘭大學(xué)揭秘:AI推理過(guò)程竟然和人類解題思路驚人相似

2025-10-15 12:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-15 12:08 ? 科技行者

這項(xiàng)由馬里蘭大學(xué)的明李、張楠、范晨瑞、焦紅等研究團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2025年1月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2509.14662v1。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

當(dāng)下最先進(jìn)的AI推理模型,比如OpenAI的GPT-o1和開源的DeepSeek-R1,已經(jīng)能夠生成長(zhǎng)篇大論的思考過(guò)程來(lái)解決復(fù)雜問(wèn)題。這些模型就像是在紙上展示自己思考步驟的學(xué)生,會(huì)寫出詳細(xì)的推理鏈條。然而,我們一直缺乏一個(gè)科學(xué)的框架來(lái)理解這些AI"大腦"究竟是如何組織自己的思考過(guò)程的。

想象一下,如果我們能像心理學(xué)家觀察人類學(xué)生解題一樣,來(lái)觀察AI是如何思考的,那會(huì)是什么樣子?馬里蘭大學(xué)的研究團(tuán)隊(duì)做了一件極具開創(chuàng)性的事情——他們借用了一個(gè)在數(shù)學(xué)教育領(lǐng)域已經(jīng)驗(yàn)證了40年的經(jīng)典理論,來(lái)分析現(xiàn)代AI的推理過(guò)程。

這個(gè)理論叫做"舍恩菲爾德情節(jié)理論",是由數(shù)學(xué)教育專家艾倫·舍恩菲爾德在1985年提出的。當(dāng)年,舍恩菲爾德花費(fèi)了數(shù)百小時(shí)錄制學(xué)生解決數(shù)學(xué)難題的過(guò)程,讓學(xué)生大聲說(shuō)出自己的思考步驟,然后將這些思考過(guò)程分解成不同的"情節(jié)"或"階段"。就像把一部電影分成不同的場(chǎng)景一樣,他把解題過(guò)程分成了七個(gè)基本環(huán)節(jié):閱讀題目、分析問(wèn)題、制定計(jì)劃、執(zhí)行計(jì)算、探索新思路、驗(yàn)證答案,以及監(jiān)控整個(gè)過(guò)程。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚訝的現(xiàn)象:當(dāng)他們用同樣的框架來(lái)分析AI模型的推理過(guò)程時(shí),發(fā)現(xiàn)AI的思考模式與人類學(xué)生的解題過(guò)程驚人相似。AI也會(huì)先仔細(xì)"閱讀"問(wèn)題,然后"分析"相關(guān)的數(shù)學(xué)原理,接著"制定計(jì)劃",再"執(zhí)行"具體的計(jì)算步驟。當(dāng)遇到困難時(shí),AI還會(huì)"探索"不同的方法,最后"驗(yàn)證"自己的答案是否正確。

為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)做了一項(xiàng)大規(guī)模的標(biāo)注工作。他們收集了1385道SAT數(shù)學(xué)題目,讓DeepSeek-R1模型來(lái)解答,然后對(duì)模型生成的推理過(guò)程進(jìn)行了詳細(xì)的人工標(biāo)注。這就像是給AI的思考過(guò)程做"心理解剖",將每一句話、每一段推理都按照舍恩菲爾德的七個(gè)類別進(jìn)行分類。

整個(gè)標(biāo)注過(guò)程分為兩個(gè)層次。在段落層次,研究者將每個(gè)段落標(biāo)記為三大類:一般性解題(直接朝著答案前進(jìn)的思考)、探索性思考(嘗試不同方法的思考)、或驗(yàn)證性檢查(確認(rèn)答案正確性的思考)。在句子層次,則使用更細(xì)致的七個(gè)類別來(lái)標(biāo)注每一句話的功能。

這項(xiàng)工作的意義遠(yuǎn)不止是簡(jiǎn)單的分類。通過(guò)分析AI在不同思考階段之間的轉(zhuǎn)換模式,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的規(guī)律。比如,AI最常見的思考轉(zhuǎn)換是從"閱讀"到"分析",從"制定計(jì)劃"到"執(zhí)行計(jì)算",以及從"探索"到"分析"。這些轉(zhuǎn)換模式與人類學(xué)生的思考習(xí)慣高度一致。

一、AI思考的"情節(jié)劇本":七種基本思維模式

當(dāng)我們觀察AI解數(shù)學(xué)題的過(guò)程時(shí),就像在看一出精心編排的"情節(jié)劇"。研究團(tuán)隊(duì)發(fā)現(xiàn),AI的每一句推理都可以歸類為七種基本的思維模式,這些模式組成了AI解題的完整"劇本"。

首先是"閱讀"階段,這是AI理解題目的時(shí)刻。就像學(xué)生拿到考試卷時(shí)先仔細(xì)讀題一樣,AI也會(huì)重新表述問(wèn)題,確保自己真正理解了題目要求。比如AI會(huì)說(shuō):"這道題要求我們找到方程2x+5=10中x的值。"這看似簡(jiǎn)單,但實(shí)際上是AI在確認(rèn)自己對(duì)問(wèn)題的理解是準(zhǔn)確的。

接下來(lái)是"分析"階段,AI開始調(diào)動(dòng)相關(guān)的數(shù)學(xué)知識(shí)。這個(gè)階段就像是學(xué)生在腦海中搜索相關(guān)公式和定理的過(guò)程。AI會(huì)說(shuō)出類似"根據(jù)勾股定理,直角三角形斜邊的平方等于兩直角邊的平方和"這樣的話,表明它正在將抽象的數(shù)學(xué)知識(shí)與具體問(wèn)題聯(lián)系起來(lái)。

然后是"制定計(jì)劃"階段,AI明確宣布自己接下來(lái)要做什么。這就像是學(xué)生在草稿紙上寫下解題步驟一樣。AI會(huì)說(shuō):"接下來(lái),我們將對(duì)方程兩邊同時(shí)求導(dǎo)"或"下一步是將x=3代入方程驗(yàn)證"。這個(gè)階段體現(xiàn)了AI的策略性思維。

"執(zhí)行計(jì)算"階段是真正的動(dòng)手操作時(shí)刻。AI開始進(jìn)行具體的數(shù)學(xué)運(yùn)算,就像學(xué)生在草稿紙上一步步計(jì)算一樣。AI會(huì)展示詳細(xì)的計(jì)算過(guò)程:"將x=3代入方程,得到2(3)+5=6+5=11。"這個(gè)階段最能體現(xiàn)AI的計(jì)算能力。

有趣的是,AI還會(huì)進(jìn)入"探索"階段,就像學(xué)生遇到困難時(shí)會(huì)嘗試不同方法一樣。AI會(huì)說(shuō):"也許我們可以嘗試代入不同的x值來(lái)尋找規(guī)律"或"讓我們考慮另一種解法"。這種探索性思維表明AI具有一定的創(chuàng)造性和靈活性。

"驗(yàn)證"階段是AI的自我檢查時(shí)刻。就像謹(jǐn)慎的學(xué)生會(huì)驗(yàn)算自己的答案一樣,AI會(huì)說(shuō):"讓我再次檢查計(jì)算過(guò)程:2×3+5=11,這與之前的結(jié)果一致。"這種自我驗(yàn)證能力是高質(zhì)量推理的重要特征。

最后是"監(jiān)控"階段,這些通常是簡(jiǎn)短的自我反思表達(dá),比如"嗯..."、"等等..."、"讓我想想"。這些看似不起眼的表達(dá)實(shí)際上反映了AI的元認(rèn)知能力——對(duì)自己思考過(guò)程的覺察和調(diào)節(jié)。

研究團(tuán)隊(duì)通過(guò)對(duì)3087個(gè)句子的詳細(xì)分析,發(fā)現(xiàn)AI在這七種思維模式之間的切換是有規(guī)律的。最常見的轉(zhuǎn)換模式是從閱讀到分析,這說(shuō)明AI總是先理解問(wèn)題再調(diào)動(dòng)知識(shí);從制定計(jì)劃到執(zhí)行計(jì)算,這體現(xiàn)了AI的執(zhí)行力;以及從探索回到分析,這表明AI會(huì)在嘗試新方法后重新審視問(wèn)題。

二、分層解碼:從段落到句子的思維解剖

為了更好地理解AI的復(fù)雜思維過(guò)程,研究團(tuán)隊(duì)采用了一種"分層解碼"的方法,就像醫(yī)生做CT掃描時(shí)需要從不同角度觀察一樣。他們同時(shí)從段落層面和句子層面來(lái)分析AI的推理過(guò)程,這樣既能看到宏觀的思維流程,又能捕捉到微觀的思維細(xì)節(jié)。

在段落層面,研究者將AI的推理過(guò)程劃分為三大類型的"思維場(chǎng)景"。第一類是"一般性解題"場(chǎng)景,這是AI直接朝著問(wèn)題解答前進(jìn)的時(shí)候。就像學(xué)生按部就班地按照標(biāo)準(zhǔn)方法解題一樣,AI在這種場(chǎng)景下會(huì)有條不紊地分析問(wèn)題、制定計(jì)劃、執(zhí)行計(jì)算。這種場(chǎng)景通常出現(xiàn)在問(wèn)題相對(duì)簡(jiǎn)單、解題路徑清晰的時(shí)候。

第二類是"探索性思考"場(chǎng)景,當(dāng)AI遇到困難或者想要嘗試不同解法時(shí)就會(huì)進(jìn)入這種模式。這就像學(xué)生在做難題時(shí)需要"換個(gè)思路"一樣,AI會(huì)暫時(shí)偏離主要解題路徑,去嘗試各種可能的方法。在這種場(chǎng)景下,AI的語(yǔ)言會(huì)變得更加試探性,經(jīng)常使用"也許"、"或者"這樣的詞匯。

第三類是"驗(yàn)證性檢查"場(chǎng)景,AI專門用來(lái)確認(rèn)答案正確性的段落。這種場(chǎng)景就像學(xué)生做完題后的檢查過(guò)程,AI會(huì)重新審視自己的解答,或者用不同的方法來(lái)驗(yàn)證結(jié)果的正確性。

在句子層面,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:即使在同一個(gè)段落場(chǎng)景內(nèi),AI的每句話也可能承擔(dān)不同的思維功能。比如,在一個(gè)主要用于驗(yàn)證的段落中,AI仍然可能需要制定驗(yàn)證的具體計(jì)劃,或者分析驗(yàn)證的邏輯依據(jù)。這就像在一場(chǎng)主要用于防守的足球比賽中,球員仍然需要進(jìn)行傳球、跑位等不同的具體動(dòng)作一樣。

這種分層分析方法解決了一個(gè)重要的標(biāo)注難題。有時(shí)候,AI會(huì)說(shuō)出"在驗(yàn)證過(guò)程中制定計(jì)劃"這樣的復(fù)合行為,如果只用一個(gè)層面的分類系統(tǒng),就很難準(zhǔn)確描述這種復(fù)雜的思維狀態(tài)。通過(guò)分層標(biāo)注,研究者可以同時(shí)標(biāo)記段落層面的"驗(yàn)證"和句子層面的"制定計(jì)劃",完整地捕捉AI思維的多重屬性。

研究團(tuán)隊(duì)對(duì)38個(gè)數(shù)學(xué)問(wèn)題、915個(gè)段落和3087個(gè)句子進(jìn)行了詳細(xì)標(biāo)注。這個(gè)過(guò)程就像給AI的思維過(guò)程制作了一份詳細(xì)的"地圖",標(biāo)明了每一個(gè)思維節(jié)點(diǎn)的性質(zhì)和功能。標(biāo)注工作由經(jīng)過(guò)專業(yè)訓(xùn)練的人員完成,他們需要達(dá)到足夠高的一致性才能確保標(biāo)注結(jié)果的可靠性。

為了驗(yàn)證這套分析框架的實(shí)用性,研究團(tuán)隊(duì)還嘗試了自動(dòng)化標(biāo)注方法。他們測(cè)試了使用先進(jìn)的語(yǔ)言模型(如GPT-4.1)來(lái)自動(dòng)識(shí)別AI推理過(guò)程中的不同思維階段。結(jié)果顯示,當(dāng)提供了詳細(xì)的標(biāo)注指南后,自動(dòng)化方法能夠達(dá)到相當(dāng)高的準(zhǔn)確率,這為將來(lái)大規(guī)模分析AI推理過(guò)程提供了可能。

三、思維轉(zhuǎn)換的秘密:AI如何在不同思考模式間切換

研究團(tuán)隊(duì)制作了一個(gè)特殊的"思維轉(zhuǎn)換地圖",就像交通流量圖一樣,顯示了AI在七種不同思維模式之間切換的頻率和規(guī)律。這個(gè)發(fā)現(xiàn)揭示了AI思考過(guò)程中一些令人驚訝的模式。

最頻繁的思維轉(zhuǎn)換發(fā)生在"閱讀"到"分析"之間。這很好理解——AI總是先要理解問(wèn)題,然后才開始調(diào)動(dòng)相關(guān)知識(shí)。這種轉(zhuǎn)換占所有轉(zhuǎn)換的29%,就像人們拿到一道數(shù)學(xué)題后,總是先讀懂題目,然后開始思考需要用什么定理或公式一樣。

第二個(gè)高頻轉(zhuǎn)換是從"制定計(jì)劃"到"執(zhí)行計(jì)算",占所有轉(zhuǎn)換的40%。這個(gè)模式體現(xiàn)了AI良好的執(zhí)行力——一旦確定了解題策略,就會(huì)立即付諸行動(dòng)。這就像一個(gè)有條理的學(xué)生,在決定使用某種解題方法后,會(huì)馬上開始具體的計(jì)算步驟。

第三個(gè)有趣的模式是從"探索"回到"分析",占25%的轉(zhuǎn)換頻率。這說(shuō)明AI在嘗試新方法時(shí),往往需要重新分析問(wèn)題的本質(zhì)。就像學(xué)生在一種方法行不通時(shí),會(huì)重新審視題目,尋找其他的解題角度。

研究團(tuán)隊(duì)還發(fā)現(xiàn),AI具有很強(qiáng)的"自我持續(xù)性"——在每種思維模式內(nèi),AI都有相當(dāng)高的概率繼續(xù)保持在同一模式中。比如,當(dāng)AI進(jìn)入"執(zhí)行計(jì)算"模式后,有63%的概率會(huì)繼續(xù)進(jìn)行計(jì)算,這反映了AI在執(zhí)行具體任務(wù)時(shí)的專注性和連貫性。

更有趣的是,研究者發(fā)現(xiàn)AI的思維轉(zhuǎn)換模式與人類學(xué)生的模式高度相似。在以往的教育心理學(xué)研究中,成功的問(wèn)題解決者通常會(huì)表現(xiàn)出類似的轉(zhuǎn)換模式:先理解問(wèn)題,再分析相關(guān)知識(shí),然后制定計(jì)劃,接著執(zhí)行,在遇到困難時(shí)探索新方法,最后驗(yàn)證答案。AI幾乎完美地重現(xiàn)了這個(gè)過(guò)程。

然而,也有一些差異。AI在"驗(yàn)證"階段的行為與人類學(xué)生略有不同。人類學(xué)生往往在解題過(guò)程中就會(huì)進(jìn)行一些即時(shí)的檢查,而AI更傾向于在得出答案后進(jìn)行集中的驗(yàn)證。這可能反映了AI與人類在認(rèn)知負(fù)荷管理上的不同策略。

研究團(tuán)隊(duì)還注意到一個(gè)特殊現(xiàn)象:AI很少?gòu)?驗(yàn)證"直接跳轉(zhuǎn)到"探索"。這說(shuō)明當(dāng)AI進(jìn)入驗(yàn)證模式時(shí),通常是對(duì)自己的答案有一定信心的,不太會(huì)在驗(yàn)證過(guò)程中突然質(zhì)疑解題方向。相比之下,人類學(xué)生在檢查答案時(shí)如果發(fā)現(xiàn)問(wèn)題,更容易產(chǎn)生"要不要換個(gè)方法試試"的想法。

這些發(fā)現(xiàn)不僅讓我們更好地理解了AI的思維過(guò)程,也為改進(jìn)AI系統(tǒng)提供了重要線索。比如,如果我們希望AI更善于發(fā)現(xiàn)和糾正錯(cuò)誤,可能需要在驗(yàn)證階段增加更多的探索性思維元素。

四、自動(dòng)化分析的突破:讓機(jī)器理解機(jī)器的思考

在完成人工標(biāo)注后,研究團(tuán)隊(duì)面臨了一個(gè)新的挑戰(zhàn):如何讓計(jì)算機(jī)自動(dòng)識(shí)別AI的思維過(guò)程?這就像訓(xùn)練一個(gè)"思維翻譯員",能夠自動(dòng)解讀AI推理過(guò)程中每個(gè)步驟的含義。

研究團(tuán)隊(duì)測(cè)試了多種自動(dòng)化方法。首先是零樣本學(xué)習(xí)方法,就像讓一個(gè)從未見過(guò)數(shù)學(xué)解題過(guò)程的人直接去分析AI的推理步驟。他們使用了當(dāng)前最先進(jìn)的大語(yǔ)言模型,包括GPT-4.1、GPT-4o和Gemini-2.0,讓這些模型直接識(shí)別AI推理過(guò)程中的不同思維階段。

結(jié)果顯示,僅僅依靠模型本身的理解能力,準(zhǔn)確率并不理想。GPT-4.1在段落層面的準(zhǔn)確率只有44.4%,在句子層面更是只有59.5%。這就像讓一個(gè)外行人去分析專業(yè)的音樂(lè)演奏一樣,雖然能聽出一些端倪,但很難準(zhǔn)確把握每個(gè)細(xì)節(jié)的真正含義。

然后研究團(tuán)隊(duì)嘗試了提供示例的方法,就像給"思維翻譯員"看一些標(biāo)準(zhǔn)答案作為參考。這種方法明顯提升了性能,GPT-4.1的段落準(zhǔn)確率提高到55.9%,句子準(zhǔn)確率也達(dá)到了60.4%。這說(shuō)明具體的例子能夠幫助AI更好地理解標(biāo)注任務(wù)的要求。

最大的突破來(lái)自于提供詳細(xì)指導(dǎo)手冊(cè)的方法。研究團(tuán)隊(duì)編寫了一份詳盡的標(biāo)注指南,就像給"思維翻譯員"提供了一本完整的操作手冊(cè)。這份指南不僅包含了每個(gè)思維類別的定義,還提供了大量的例子、關(guān)鍵詞提示和判斷標(biāo)準(zhǔn)。

當(dāng)使用這份指導(dǎo)手冊(cè)后,效果立竿見影。GPT-4.1的段落準(zhǔn)確率躍升到74.0%,句子準(zhǔn)確率達(dá)到67.6%。如果同時(shí)提供示例和指導(dǎo)手冊(cè),準(zhǔn)確率還能進(jìn)一步提升到段落層面75.7%,句子層面68.1%。這個(gè)結(jié)果已經(jīng)相當(dāng)接近人類標(biāo)注員的水平。

研究團(tuán)隊(duì)還對(duì)比了傳統(tǒng)機(jī)器學(xué)習(xí)方法的表現(xiàn)。他們使用BERT等經(jīng)典模型,在標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練。有趣的是,傳統(tǒng)方法的表現(xiàn)雖然不如最先進(jìn)的大語(yǔ)言模型,但也達(dá)到了相當(dāng)可觀的準(zhǔn)確率。BERT在句子層面的準(zhǔn)確率達(dá)到73.2%,這說(shuō)明AI思維模式的識(shí)別確實(shí)是一個(gè)可以通過(guò)機(jī)器學(xué)習(xí)解決的問(wèn)題。

通過(guò)混淆矩陣分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的錯(cuò)誤模式。最容易混淆的類別是"分析"和"驗(yàn)證"、"執(zhí)行"和"驗(yàn)證",以及"驗(yàn)證"和"執(zhí)行"。這種混淆很好理解——這些思維活動(dòng)在表面形式上確實(shí)很相似,都涉及對(duì)數(shù)學(xué)內(nèi)容的處理,差別主要在于目的和上下文。

這些發(fā)現(xiàn)對(duì)于未來(lái)的AI系統(tǒng)開發(fā)具有重要意義。自動(dòng)化的思維分析工具可以幫助AI開發(fā)者更好地理解自己系統(tǒng)的推理過(guò)程,發(fā)現(xiàn)潛在的問(wèn)題和改進(jìn)空間。比如,如果發(fā)現(xiàn)某個(gè)AI系統(tǒng)很少使用"驗(yàn)證"思維,開發(fā)者就可以有針對(duì)性地加強(qiáng)這方面的訓(xùn)練。

更重要的是,這種自動(dòng)化分析能力使得大規(guī)模的AI思維研究成為可能。研究團(tuán)隊(duì)目前只分析了38個(gè)數(shù)學(xué)問(wèn)題的推理過(guò)程,但有了自動(dòng)化工具,就可以分析成千上萬(wàn)個(gè)推理過(guò)程,從而發(fā)現(xiàn)更加普遍和深入的規(guī)律。

五、研究局限與未來(lái)展望:探索的邊界在哪里

這項(xiàng)開創(chuàng)性研究雖然取得了重要突破,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前工作的局限性。就像任何科學(xué)探索一樣,每一個(gè)發(fā)現(xiàn)都會(huì)帶來(lái)新的問(wèn)題和挑戰(zhàn)。

首先是研究范圍的局限。目前的分析主要基于SAT數(shù)學(xué)題目,這些題目雖然涵蓋了高中數(shù)學(xué)的主要領(lǐng)域,但整體難度相對(duì)適中。SAT作為美國(guó)的大學(xué)入學(xué)考試,主要測(cè)試學(xué)生的數(shù)學(xué)基礎(chǔ)能力,而不是頂尖的數(shù)學(xué)思維。研究團(tuán)隊(duì)計(jì)劃在未來(lái)納入更具挑戰(zhàn)性的數(shù)學(xué)競(jìng)賽題目,比如數(shù)學(xué)奧林匹克競(jìng)賽的問(wèn)題,來(lái)測(cè)試這套分析框架在面對(duì)真正困難問(wèn)題時(shí)的適用性。

自動(dòng)化標(biāo)注的準(zhǔn)確率也有待進(jìn)一步提升。雖然當(dāng)前最好的方法已經(jīng)達(dá)到了80%左右的準(zhǔn)確率,但這意味著仍有20%的判斷是錯(cuò)誤的。對(duì)于需要大規(guī)模分析的研究來(lái)說(shuō),這個(gè)誤差率還是比較高的。研究團(tuán)隊(duì)正在探索更加精細(xì)的提示工程技術(shù)和多模型集成方法,希望能夠進(jìn)一步提高自動(dòng)化分析的準(zhǔn)確性。

另一個(gè)重要的局限是研究的深度。當(dāng)前的分析主要關(guān)注AI思維過(guò)程的表面結(jié)構(gòu),即AI說(shuō)了什么,按什么順序說(shuō)的。但對(duì)于AI為什么會(huì)產(chǎn)生這樣的思維過(guò)程,以及這種思維過(guò)程與最終解題質(zhì)量之間的關(guān)系,還需要更深入的研究。比如,是不是進(jìn)行更多驗(yàn)證步驟的AI就一定能得出更準(zhǔn)確的答案?不同的思維轉(zhuǎn)換模式是否會(huì)影響解題效率?

研究團(tuán)隊(duì)也承認(rèn),目前的分析主要集中在一個(gè)AI模型(DeepSeek-R1)上。不同的AI模型可能會(huì)表現(xiàn)出不同的思維模式,甚至同一個(gè)模型在不同版本或訓(xùn)練階段也可能有所差異。為了得出更加普遍的結(jié)論,需要在更多樣化的AI系統(tǒng)上進(jìn)行類似的分析。

此外,舍恩菲爾德的情節(jié)理論雖然在數(shù)學(xué)教育領(lǐng)域得到了廣泛驗(yàn)證,但它最初是為分析人類學(xué)生的行為而設(shè)計(jì)的。AI的思維過(guò)程雖然表面上與人類相似,但本質(zhì)機(jī)制可能存在根本差異。未來(lái)的研究需要更深入地探討這種相似性的真正含義,以及是否需要為AI開發(fā)專門的思維分析框架。

盡管存在這些局限,這項(xiàng)研究的價(jià)值和潛力是顯而易見的。它為理解AI的推理過(guò)程提供了一個(gè)科學(xué)的、系統(tǒng)的框架,這對(duì)于AI的可解釋性研究具有重要意義。在AI系統(tǒng)越來(lái)越復(fù)雜、越來(lái)越"黑盒化"的今天,能夠理解AI的思維過(guò)程對(duì)于建立人類對(duì)AI的信任至關(guān)重要。

未來(lái)的研究方向十分廣闊。除了擴(kuò)展到更多的數(shù)學(xué)問(wèn)題和AI模型外,研究團(tuán)隊(duì)還計(jì)劃將這套分析框架應(yīng)用到其他領(lǐng)域,比如科學(xué)推理、邏輯論證、創(chuàng)意寫作等。如果這套框架能夠在更廣泛的認(rèn)知任務(wù)中發(fā)揮作用,那么它就有可能成為理解AI認(rèn)知能力的通用工具。

另一個(gè)有趣的方向是反向應(yīng)用:利用對(duì)AI思維過(guò)程的理解來(lái)改進(jìn)AI系統(tǒng)本身。比如,如果發(fā)現(xiàn)某些思維轉(zhuǎn)換模式與更好的解題效果相關(guān),就可以在AI訓(xùn)練中有意識(shí)地強(qiáng)化這些模式。這可能會(huì)帶來(lái)新一代更加智能、更加可靠的AI推理系統(tǒng)。

說(shuō)到底,這項(xiàng)研究最重要的意義可能在于它建立了一座橋梁——連接了人類對(duì)思維過(guò)程的理解和AI系統(tǒng)的發(fā)展。通過(guò)這座橋梁,我們不僅能更好地理解AI,也可能對(duì)人類自己的思維過(guò)程有新的認(rèn)識(shí)。畢竟,當(dāng)我們用人類的理論來(lái)分析AI時(shí),也在某種程度上驗(yàn)證和深化了我們對(duì)人類認(rèn)知的理解。

這種跨學(xué)科的研究方法——將認(rèn)知科學(xué)的理論應(yīng)用到AI分析中——代表了一種新的研究范式。它提醒我們,在AI快速發(fā)展的時(shí)代,人文社科的知識(shí)依然具有重要價(jià)值,甚至可能是理解和改進(jìn)AI系統(tǒng)的關(guān)鍵所在。

Q&A

Q1:舍恩菲爾德情節(jié)理論是什么?為什么要用它來(lái)分析AI?

A:舍恩菲爾德情節(jié)理論是1985年由數(shù)學(xué)教育專家提出的,通過(guò)觀察學(xué)生解數(shù)學(xué)題的過(guò)程,將思維過(guò)程分為閱讀、分析、制定計(jì)劃、執(zhí)行計(jì)算、探索、驗(yàn)證和監(jiān)控七個(gè)階段。研究團(tuán)隊(duì)發(fā)現(xiàn)AI的推理過(guò)程與人類學(xué)生解題過(guò)程驚人相似,都會(huì)經(jīng)歷這些思維階段,因此這個(gè)理論特別適合用來(lái)分析AI的思考模式。

Q2:這項(xiàng)研究發(fā)現(xiàn)了AI思考的什么規(guī)律?

A:研究發(fā)現(xiàn)AI在不同思維模式間的轉(zhuǎn)換是有規(guī)律的,最常見的是從"閱讀"到"分析"(29%)、從"制定計(jì)劃"到"執(zhí)行計(jì)算"(40%),以及從"探索"回到"分析"(25%)。這些轉(zhuǎn)換模式與人類學(xué)生的思考習(xí)慣高度一致,說(shuō)明AI確實(shí)在某種程度上模擬了人類的推理過(guò)程。

Q3:這項(xiàng)研究對(duì)普通人有什么意義?

A:這項(xiàng)研究幫助我們理解AI是如何"思考"的,就像給AI的大腦做了一次透視掃描。這對(duì)于建立人類對(duì)AI的信任很重要,也為開發(fā)更可靠、更智能的AI系統(tǒng)提供了科學(xué)依據(jù)。未來(lái)我們可能會(huì)看到思考過(guò)程更清晰、更符合人類習(xí)慣的AI助手。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-