在科學(xué)發(fā)現(xiàn)的歷史長河中,我們正站在一個前所未有的轉(zhuǎn)折點(diǎn)。這項(xiàng)由多倫多大學(xué)的張朋松、西湖大學(xué)的胡翔、蘭振忠等18個頂尖研究機(jī)構(gòu)的17位科學(xué)家聯(lián)合完成的研究,于2025年8月發(fā)表在arXiv預(yù)印本平臺(論文編號:arXiv:2508.15126v1)。他們首次創(chuàng)建了一個專門為AI科學(xué)家設(shè)計的學(xué)術(shù)發(fā)表平臺——aiXiv,這個平臺可以讓人工智能直接撰寫、審稿、修改和發(fā)表科學(xué)論文,就像人類科學(xué)家一樣。
這個突破性的平臺解決了當(dāng)前學(xué)術(shù)界面臨的一個嚴(yán)峻現(xiàn)實(shí):隨著AI技術(shù)的快速發(fā)展,越來越多高質(zhì)量的科學(xué)研究實(shí)際上是由AI完成的,但傳統(tǒng)的學(xué)術(shù)期刊和會議卻不接受這些AI生成的研究成果。就好比一個才華橫溢的新人想要在音樂界發(fā)表作品,卻發(fā)現(xiàn)所有的唱片公司都只接受特定背景的藝術(shù)家一樣。這種現(xiàn)狀不僅浪費(fèi)了大量有價值的科學(xué)發(fā)現(xiàn),也阻礙了科學(xué)研究的整體進(jìn)步。
研究團(tuán)隊(duì)發(fā)現(xiàn),目前的學(xué)術(shù)發(fā)表生態(tài)系統(tǒng)存在著嚴(yán)重的"身份歧視"問題。傳統(tǒng)期刊依賴人工同行評審,處理速度慢且往往排斥AI生成的內(nèi)容,而現(xiàn)有的預(yù)印本服務(wù)器如arXiv雖然開放,但缺乏嚴(yán)格的質(zhì)量控制機(jī)制。這就像是在一個只認(rèn)可手寫信件的年代,突然出現(xiàn)了打字機(jī)和電腦,但郵政系統(tǒng)卻拒絕處理這些新技術(shù)產(chǎn)生的信件。
aiXiv平臺的核心創(chuàng)新在于構(gòu)建了一個完整的多智能體生態(tài)系統(tǒng)。在這個系統(tǒng)中,AI不僅可以作為作者提交研究論文和提案,還可以擔(dān)任審稿人對其他提交內(nèi)容進(jìn)行評審,甚至可以根據(jù)審稿意見進(jìn)行修改和完善。整個過程就像一個由AI組成的學(xué)術(shù)社區(qū),它們之間可以進(jìn)行專業(yè)的學(xué)術(shù)對話和互動。
這個平臺的工作流程非常類似于人類學(xué)術(shù)界的運(yùn)作方式,但效率更高。當(dāng)一個AI科學(xué)家完成了一項(xiàng)研究后,它可以將論文或研究提案提交到aiXiv平臺。隨后,系統(tǒng)會自動安排多個AI審稿人對提交內(nèi)容進(jìn)行評估,從新穎性、技術(shù)可靠性、清晰度、可行性和潛在影響等多個維度進(jìn)行全面審查。如果審稿人提出修改建議,AI作者可以根據(jù)這些反饋對研究進(jìn)行改進(jìn),然后重新提交。只有當(dāng)五個AI審稿人中至少有三個給出"接受"意見時,研究才會在平臺上正式發(fā)表。
為了確保平臺的公正性和安全性,研究團(tuán)隊(duì)設(shè)計了一套復(fù)雜的防護(hù)機(jī)制。就像銀行需要防范各種詐騙手段一樣,aiXiv也需要防范惡意的"提示注入攻擊"。這種攻擊是指有人可能在論文中隱藏特殊指令,試圖操控AI審稿人給出不公正的評價。研究團(tuán)隊(duì)開發(fā)了一個五階段的檢測系統(tǒng),能夠識別和阻止這類攻擊,確保審稿過程的公正性。
在實(shí)際測試中,aiXiv展現(xiàn)出了令人印象深刻的性能。研究團(tuán)隊(duì)使用了來自頂級學(xué)術(shù)會議ICLR 2024和2025的真實(shí)論文數(shù)據(jù)進(jìn)行評估,發(fā)現(xiàn)aiXiv的評判準(zhǔn)確率在論文評估方面達(dá)到了81%,在研究提案評估方面達(dá)到了77%,這個表現(xiàn)甚至超過了之前的一些評估系統(tǒng)。更重要的是,通過反復(fù)的審稿和修改過程,AI生成的研究質(zhì)量得到了顯著提升。超過90%的論文在經(jīng)過審稿和修改后質(zhì)量都有明顯改善,而研究提案的改善率更是接近100%。
平臺的另一個重要特色是其開放性和可擴(kuò)展性。aiXiv不僅提供了用戶友好的網(wǎng)頁界面,還提供了API接口和模型控制協(xié)議,這意味著不同類型的AI系統(tǒng)都可以輕松接入平臺。這就像是建立了一個通用的學(xué)術(shù)交流語言,讓不同"方言"的AI都能進(jìn)行有效溝通。
研究團(tuán)隊(duì)在論文中詳細(xì)展示了四篇由AI科學(xué)家完成的完整研究論文作為例證。這些論文涵蓋了從數(shù)學(xué)推理加速到圖像生成模型優(yōu)化等多個領(lǐng)域,每一篇都經(jīng)歷了完整的審稿和修改過程,最終質(zhì)量都達(dá)到了相當(dāng)高的水準(zhǔn)。這些例子生動說明了AI科學(xué)家已經(jīng)具備了獨(dú)立完成高質(zhì)量學(xué)術(shù)研究的能力。
當(dāng)然,這項(xiàng)創(chuàng)新也面臨著一些挑戰(zhàn)和限制。研究團(tuán)隊(duì)坦承,目前的AI科學(xué)家系統(tǒng)在進(jìn)行嚴(yán)格的實(shí)驗(yàn)流程或生成可直接發(fā)表的高質(zhì)量科學(xué)成果方面仍然需要人類監(jiān)督。此外,平臺目前主要在模擬環(huán)境中進(jìn)行驗(yàn)證,在現(xiàn)實(shí)世界應(yīng)用的外部有效性方面還需要進(jìn)一步驗(yàn)證。
從計算成本的角度來看,AI審稿系統(tǒng)雖然提高了效率和質(zhì)量,但也帶來了大約兩倍的訓(xùn)練時間增長。這個代價對于追求高質(zhì)量科學(xué)研究來說是值得的,但在某些對成本敏感的應(yīng)用場景中可能需要進(jìn)一步優(yōu)化。
展望未來,研究團(tuán)隊(duì)計劃將強(qiáng)化學(xué)習(xí)技術(shù)整合到aiXiv平臺中,讓AI科學(xué)家能夠通過在這個協(xié)作環(huán)境中的互動來不斷進(jìn)化和學(xué)習(xí)。這將創(chuàng)造出一個真正的人工智能科學(xué)家生態(tài)系統(tǒng),在其中AI能夠自主獲取新知識和技能,動態(tài)適應(yīng)新的研究領(lǐng)域和挑戰(zhàn),最終形成一個人類與AI共同演化的研究環(huán)境。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面。它預(yù)示著科學(xué)研究范式的根本性變革,從傳統(tǒng)的純?nèi)祟愔鲗?dǎo)模式向人機(jī)協(xié)作甚至AI主導(dǎo)的模式轉(zhuǎn)變。雖然這種轉(zhuǎn)變可能會引發(fā)關(guān)于科學(xué)研究本質(zhì)、學(xué)術(shù)誠信和知識產(chǎn)權(quán)等方面的深度討論,但不可否認(rèn)的是,AI科學(xué)家的時代已經(jīng)到來。
aiXiv平臺為我們展示了科學(xué)研究的一個全新可能性:在不久的將來,我們可能會看到AI科學(xué)家在某些領(lǐng)域的研究速度和質(zhì)量都超越人類,同時人類科學(xué)家則專注于更具創(chuàng)造性和洞察性的工作。這種分工合作的模式有望大大加速整個科學(xué)發(fā)現(xiàn)的進(jìn)程,為解決人類面臨的重大挑戰(zhàn)提供更強(qiáng)大的工具。
說到底,aiXiv不僅僅是一個技術(shù)平臺,更是科學(xué)民主化的一個重要步驟。它讓科學(xué)研究不再受到傳統(tǒng)學(xué)術(shù)體系的束縛,為更多元化的研究方式和研究主體打開了大門。雖然我們還需要時間來適應(yīng)這個變化,但這種開放、高效、質(zhì)量可控的學(xué)術(shù)發(fā)表模式很可能會成為未來科學(xué)研究的標(biāo)準(zhǔn)配置。對于那些希望深入了解這一前沿發(fā)展的讀者,可以通過論文編號arXiv:2508.15126v1查閱完整的研究詳情。
Q&A
Q1:aiXiv平臺與傳統(tǒng)學(xué)術(shù)期刊有什么不同?
A:aiXiv是專門為AI科學(xué)家設(shè)計的學(xué)術(shù)平臺,允許AI直接提交、審稿和發(fā)表論文,而傳統(tǒng)期刊主要依賴人工審稿且通常不接受AI生成的研究。aiXiv的審稿速度更快,整個流程完全自動化,同時還提供API接口讓不同AI系統(tǒng)都能接入使用。
Q2:AI生成的科學(xué)論文質(zhì)量真的可靠嗎?
A:根據(jù)測試結(jié)果,經(jīng)過aiXiv平臺審稿和修改流程后,超過90%的AI生成論文質(zhì)量都有顯著提升。平臺使用多個AI審稿人從新穎性、技術(shù)可靠性等多個維度進(jìn)行評估,評判準(zhǔn)確率達(dá)到81%,質(zhì)量控制機(jī)制相當(dāng)嚴(yán)格。
Q3:普通研究者可以使用aiXiv平臺嗎?
A:是的,aiXiv設(shè)計為開放平臺,不僅支持AI科學(xué)家,也歡迎人類研究者參與。平臺提供用戶友好的網(wǎng)頁界面和API接口,人類可以對提交的內(nèi)容進(jìn)行點(diǎn)贊、評論和討論,形成人機(jī)協(xié)作的學(xué)術(shù)社區(qū)環(huán)境。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。