這項來自字節(jié)跳動人工智能實驗室(ByteDance Seed)與香港科技大學、北京大學等機構合作完成的突破性研究,于2024年9月發(fā)表在人工智能頂級預印本平臺arXiv上。該研究由王浩哲、闕昊然等研究人員共同完成,論文編號為arXiv:2509.06160v1,詳細內(nèi)容可通過項目頁面https://m-a-p.ai/REER_DeepWriter獲取。
想象一下,當你面對一道復雜的數(shù)學題時,通常會先分析問題,制定解題步驟,然后按步驟求解。但如果給你一個正確答案,讓你反推出解題過程,這聽起來是不是更有挑戰(zhàn)性?這正是這項研究要解決的核心問題。
目前的人工智能在數(shù)學、編程等有標準答案的領域表現(xiàn)出色,因為它們可以通過反復試錯和獎勵機制來學習。就像訓練一只小狗做動作,做對了給零食,做錯了不給,小狗很快就能學會。但當涉及到創(chuàng)意寫作、文章創(chuàng)作這些沒有標準答案的任務時,AI就犯了難。畢竟,一篇好文章的標準因人而異,很難用簡單的對錯來評判。
傳統(tǒng)的AI訓練方法主要有兩種思路。第一種是強化學習,就像教孩子寫作文,需要老師不斷打分指導,但對于創(chuàng)意寫作來說,很難找到一個完美的"評分老師"。第二種是讓AI模仿優(yōu)秀的"老師"(比如GPT-4),但這種方法成本高昂,而且學生永遠無法超越老師的水平。
研究團隊提出了一個全新的解決方案,他們稱之為"逆向工程推理"(REverse-Engineered Reasoning,簡稱REER)。這個方法的巧妙之處在于,它不是從問題出發(fā)找答案,而是從已知的優(yōu)質答案出發(fā),反推出產(chǎn)生這個答案最合理的思考過程。
就像一個美食家品嘗到一道絕佳菜肴后,試圖反推出廚師的制作過程和思路一樣。研究團隊收集了大量優(yōu)秀的文章和寫作作品,然后讓AI反推:如果要寫出這樣的作品,作者當時可能經(jīng)歷了怎樣的思考過程?
這個過程并非簡單的猜測。研究團隊將其設計為一個精密的搜索問題。他們首先讓AI生成一個初步的思考軌跡,然后通過特殊的評分系統(tǒng)不斷優(yōu)化這個軌跡。評分的標準很有趣:如果這個思考過程能讓最終的優(yōu)質作品顯得"理所當然",那就是一個好的思考過程。
通過這種方法,研究團隊創(chuàng)建了一個包含2萬個深度思考軌跡的大型數(shù)據(jù)集,命名為DeepWriting-20K。這些軌跡涵蓋了從學術寫作到創(chuàng)意故事創(chuàng)作的25個不同類別。更重要的是,他們還開源了這個數(shù)據(jù)集,讓其他研究者也能從中受益。
基于這個數(shù)據(jù)集,研究團隊訓練了一個名為DeepWriter-8B的AI模型。這個模型的表現(xiàn)令人驚艷:在多個寫作評測基準上,它不僅大幅超越了同等規(guī)模的開源模型,甚至在某些任務上能夠媲美甚至超越GPT-4o和Claude 3.5這樣的頂級商業(yè)模型。
更有趣的是,研究團隊還深入分析了什么樣的思考模式最有效。他們發(fā)現(xiàn),那些包含"嗯...也許..."、"等等,這有點..."這類自我反思和糾錯的思考軌跡,往往能產(chǎn)生更好的寫作效果。這說明AI也需要學會像人類一樣"邊想邊改",而不是一條道走到黑。
在技術細節(jié)上,這個方法的優(yōu)勢在于它是"無梯度"的搜索過程,不需要復雜的數(shù)學計算,具有很好的可擴展性。研究團隊通過大量實驗驗證了方法中每個組件的重要性,發(fā)現(xiàn)去除任何一個關鍵部分都會導致性能顯著下降。
這項研究的意義遠不止于技術創(chuàng)新。它為AI在開放性、創(chuàng)意性任務上的應用開辟了新的道路。傳統(tǒng)上,AI在需要標準答案的任務上表現(xiàn)出色,但在需要創(chuàng)造性和主觀判斷的領域總是力不從心。而這項研究證明,通過巧妙的"逆向思考",AI同樣可以在創(chuàng)意領域發(fā)光發(fā)熱。
對于普通用戶而言,這意味著未來的AI寫作助手將能提供更加深思熟慮、邏輯清晰的創(chuàng)作建議。無論是寫工作報告、學術論文還是創(chuàng)意小說,AI都能展現(xiàn)出更接近人類思維的規(guī)劃和推理能力。
當然,這項研究也面臨一些挑戰(zhàn)和限制。目前的方法主要針對文本創(chuàng)作,在其他創(chuàng)意領域的適用性還有待驗證。同時,如何確保AI生成的思考過程真實反映人類認知過程,也是一個值得深入探討的問題。
說到底,這項研究最大的貢獻在于它改變了我們思考AI學習的方式。與其讓AI像學生一樣從零開始學習,不如讓它像偵探一樣,從結果反推過程,從優(yōu)秀作品中挖掘隱藏的智慧。這種"逆向工程"的思路,不僅在AI領域具有廣泛應用前景,也為我們理解人類創(chuàng)造性思維提供了新的視角。
研究團隊已經(jīng)將DeepWriter-8B模型和相關數(shù)據(jù)集公開,希望能推動整個領域在開放性生成任務上的進步。對于那些想要深入了解技術細節(jié)的讀者,可以訪問論文的項目頁面獲取更多信息。這項研究無疑為AI在創(chuàng)意寫作領域的發(fā)展奠定了重要基礎,也讓我們對AI未來在更多創(chuàng)造性任務上的表現(xiàn)充滿期待。
Q&A
Q1:REER逆向工程推理方法與傳統(tǒng)AI訓練方法有什么區(qū)別?
A:傳統(tǒng)方法是從問題出發(fā)尋找答案,就像學生做題一樣需要反復試錯或模仿老師。而REER是從已知的優(yōu)質答案出發(fā),反推產(chǎn)生這個答案的思考過程,就像美食家品嘗佳肴后反推制作工藝。這種"逆向思考"的方式避免了創(chuàng)意寫作中難以制定標準評分的問題。
Q2:DeepWriter-8B模型的性能表現(xiàn)如何?
A:DeepWriter-8B在多個寫作評測基準上表現(xiàn)優(yōu)異,大幅超越同等規(guī)模的開源模型,在某些創(chuàng)意寫作任務上甚至能媲美或超越GPT-4o和Claude 3.5等頂級商業(yè)模型。特別是在需要長篇幅、結構化思考的寫作任務上表現(xiàn)突出。
Q3:DeepWriting-20K數(shù)據(jù)集包含什么內(nèi)容,普通研究者能使用嗎?
A:DeepWriting-20K包含2萬個涵蓋25個不同類別的深度思考軌跡,從學術寫作到創(chuàng)意故事創(chuàng)作應有盡有。研究團隊已經(jīng)將這個數(shù)據(jù)集完全開源,任何研究者都可以免費獲取和使用,通過項目頁面https://m-a-p.ai/REER_DeepWriter即可訪問。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。