av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 利用大語言模型探索科學(xué)創(chuàng)新前沿:南洋理工大學(xué)團(tuán)隊(duì)開發(fā)檢測(cè)學(xué)術(shù)新穎性的突破性方法

利用大語言模型探索科學(xué)創(chuàng)新前沿:南洋理工大學(xué)團(tuán)隊(duì)開發(fā)檢測(cè)學(xué)術(shù)新穎性的突破性方法

2025-06-04 17:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 17:13 ? 科技行者

近日,一項(xiàng)由南洋理工大學(xué)(NTU)的劉巖、楊宗林、新加坡科技設(shè)計(jì)大學(xué)(SUTD)的Soujanya Poria以及新加坡科學(xué)、技術(shù)與研究局(A*STAR)的Thanh-Son Nguyen共同完成的研究引起了學(xué)術(shù)界的廣泛關(guān)注。這篇題為《利用大語言模型進(jìn)行科學(xué)新穎性檢測(cè)》的論文于2025年5月30日發(fā)表在arXiv預(yù)印本平臺(tái)(arXiv:2505.24615v1)上,由Erik Cambria教授擔(dān)任通訊作者。這項(xiàng)研究不僅提出了新的方法,還構(gòu)建了專門針對(duì)科學(xué)新穎性檢測(cè)的數(shù)據(jù)集,為學(xué)術(shù)創(chuàng)新提供了新的視角和工具。

想象一下,你是一位科研人員,面對(duì)海量的學(xué)術(shù)論文,如何判斷一個(gè)研究想法是否真正具有新穎性?這就像在圖書館中尋找一本從未被寫過的書——任務(wù)艱巨而關(guān)鍵。有趣的是,盡管科學(xué)和技術(shù)產(chǎn)出呈指數(shù)級(jí)增長(zhǎng),但最近的研究表明,發(fā)表的論文和專利的新穎性和顛覆性卻在下降。這個(gè)看似矛盾的現(xiàn)象引發(fā)了研究團(tuán)隊(duì)的思考:我們能否借助人工智能,特別是大語言模型(LLMs)的能力,來更有效地識(shí)別真正具有創(chuàng)新性的研究想法?

傳統(tǒng)的新穎性檢測(cè)方法主要依賴人類專家評(píng)估或啟發(fā)式測(cè)量,不僅耗費(fèi)大量資源,還容易受到專家知識(shí)不完整和主觀性的影響。而隨著大語言模型的迅猛發(fā)展,它們展現(xiàn)出的廣博知識(shí)、強(qiáng)大的文本理解和推理能力,為解決這一難題提供了新的可能。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn),簡(jiǎn)單地采用現(xiàn)有的自然語言處理技術(shù)并不是一個(gè)萬能的解決方案。這是因?yàn)槲谋鞠嗨菩院拖敕ǜ拍钪g存在著鴻溝。想象一下,兩篇論文可能使用完全不同的詞匯和表達(dá)方式,但核心想法卻非常相似;反之,表面上看似相似的文本可能代表著完全不同的研究概念。就像兩本書可能用不同的語言講述同一個(gè)故事,或者看似相似的開頭可能引向截然不同的結(jié)局。

為了解決這一挑戰(zhàn),南洋理工大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的框架,利用大語言模型的知識(shí)來訓(xùn)練一個(gè)輕量級(jí)檢索器,這個(gè)檢索器能夠捕捉想法層面的相似性,而不僅僅是表面的文本相似性。這就像訓(xùn)練一個(gè)特殊的閱讀助手,它不僅能理解文字,還能把握文字背后的核心思想。

一、構(gòu)建科學(xué)新穎性檢測(cè)的基準(zhǔn)數(shù)據(jù)集

在開始研究之前,團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是缺乏適合的基準(zhǔn)數(shù)據(jù)集。這就像要建造一座房子,卻沒有合適的地基和建材。為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種新方法,構(gòu)建了具有"拓?fù)溟]包"特性的論文語料庫(kù)。

什么是拓?fù)溟]包呢?簡(jiǎn)單來說,就是確保收集的論文集合是完整的,不會(huì)遺漏相關(guān)文獻(xiàn)。想象你在做一張家族樹,如果缺少了某個(gè)重要的親戚,整個(gè)家族關(guān)系就會(huì)出現(xiàn)斷層。同樣,如果在評(píng)估研究新穎性時(shí)遺漏了關(guān)鍵的相關(guān)論文,可能會(huì)錯(cuò)誤地將一個(gè)實(shí)際上并不新穎的想法判斷為新穎。

研究團(tuán)隊(duì)首先選擇了一部分論文作為"種子論文",然后提取這些論文引用的所有參考文獻(xiàn),將它們也納入語料庫(kù)。這樣,對(duì)于這些種子論文來說,所有相關(guān)的論文都被包含在了語料庫(kù)中,形成了一個(gè)閉合集。就像一個(gè)完整的拼圖,每一塊都在其應(yīng)有的位置。

為了使數(shù)據(jù)集更加緊湊和易于使用,團(tuán)隊(duì)利用大語言模型生成了每篇論文核心貢獻(xiàn)、假設(shè)和方法的結(jié)構(gòu)化摘要。這就像為每本書創(chuàng)建了一個(gè)詳細(xì)的內(nèi)容提要,使研究人員能夠快速把握論文的核心思想。

具體來說,團(tuán)隊(duì)構(gòu)建了兩個(gè)領(lǐng)域的數(shù)據(jù)集:

市場(chǎng)營(yíng)銷領(lǐng)域的數(shù)據(jù)集包含了470篇種子論文,主要來自《市場(chǎng)營(yíng)銷雜志》和《市場(chǎng)營(yíng)銷研究雜志》,時(shí)間跨度從2004年到2024年??紤]到社會(huì)科學(xué)出版物的限制,這些論文都經(jīng)過了精心篩選。

自然語言處理(NLP)領(lǐng)域的數(shù)據(jù)集則包含了3,533篇論文,這些論文來自過去五年ACL會(huì)議的公開論文。得益于NLP領(lǐng)域的開放獲取實(shí)踐,這些資源更加豐富和易于獲取。

通過語義學(xué)者API,研究團(tuán)隊(duì)為每篇種子論文收集了參考文獻(xiàn),最終在市場(chǎng)營(yíng)銷領(lǐng)域收集了12,832篇論文,在NLP領(lǐng)域收集了33,911篇論文。這就像建立了兩個(gè)專業(yè)領(lǐng)域的小型圖書館,每本書都與其他書有著明確的聯(lián)系。

為了確保數(shù)據(jù)提取的有效性,團(tuán)隊(duì)邀請(qǐng)了3位專家(2名博士生和1名研究員)評(píng)估不同大語言模型(GPT-4o-mini、LLaMA3-3.1-8B和PHI-3-3B)提取的想法與原始摘要的一致性。結(jié)果顯示,GPT-4o-mini表現(xiàn)最佳,因此被選用于想法提取和總結(jié)工作。

二、利用大語言模型知識(shí)蒸餾框架訓(xùn)練想法檢索器

有了數(shù)據(jù)集,研究團(tuán)隊(duì)面臨的下一個(gè)挑戰(zhàn)是如何有效地檢測(cè)研究想法的新穎性。直覺上,如果語料庫(kù)中沒有類似的想法,大語言模型可以輕松識(shí)別出一個(gè)想法的新穎性。但問題是,在大規(guī)模語料庫(kù)中逐一交叉檢查所有想法是不現(xiàn)實(shí)的,就像要在圖書館中逐本比對(duì)每本書一樣耗時(shí)費(fèi)力。

因此,團(tuán)隊(duì)采用了檢索增強(qiáng)生成(RAG)策略——先檢索相關(guān)想法,然后通過大語言模型進(jìn)行交叉檢查。這就像先通過圖書館的分類系統(tǒng)找到相關(guān)書架,然后才詳細(xì)閱讀特定的書籍,大大提高了效率。

然而,團(tuán)隊(duì)發(fā)現(xiàn),簡(jiǎn)單使用現(xiàn)有的檢索器并不能很好地捕捉想法層面的相似性。傳統(tǒng)檢索器更關(guān)注文本層面的相似性,可能會(huì)錯(cuò)過概念上相似但表達(dá)不同的想法。就像兩個(gè)人可能用完全不同的詞匯描述同一個(gè)概念,如果只看詞匯的重疊,就會(huì)誤判它們的關(guān)系。

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)基于大語言模型的知識(shí)蒸餾框架,訓(xùn)練一個(gè)專門用于想法檢索的輕量級(jí)檢索器。這個(gè)框架的核心是通過大語言模型生成的合成(非新穎)想法來訓(xùn)練檢索器,使其能夠?qū)R概念上相似的想法,即使它們?cè)谖谋颈砻嫔喜町惡艽蟆?/p>

這個(gè)過程包括三種類型的合成想法生成:

1. 改述想法:通過使用不同的語言表達(dá)來重新表述原始想法,同時(shí)保持概念的一致性。這就像用不同的詞匯重新講述同一個(gè)故事,內(nèi)容不變但表達(dá)方式改變。

2. 部分想法:提取原始想法的一個(gè)子集,比如只關(guān)注特定的貢獻(xiàn)、方法或應(yīng)用領(lǐng)域。這就像從一個(gè)完整的食譜中只提取主要步驟或關(guān)鍵成分。

3. 增量想法:通過添加額外但密切相關(guān)的組件來擴(kuò)展原始想法,如將原始想法與另一個(gè)想法結(jié)合或進(jìn)行輕微擴(kuò)展。這就像在原有的故事基礎(chǔ)上添加新的情節(jié)或角色。

通過這三種方式,研究團(tuán)隊(duì)創(chuàng)建了大量的合成想法對(duì)(原始想法-合成想法),然后使用這些對(duì)來訓(xùn)練檢索器。訓(xùn)練的目標(biāo)是使檢索器能夠?qū)⒑铣上敕ㄅc其對(duì)應(yīng)的原始想法緊密關(guān)聯(lián)起來,同時(shí)與其他不相關(guān)的新穎想法保持距離。

這個(gè)過程使用了對(duì)比學(xué)習(xí)的方法:檢索器被訓(xùn)練成使合成想法的嵌入與其對(duì)應(yīng)的原始想法的嵌入接近,而與其他想法的嵌入遠(yuǎn)離。通過這種方式,檢索器學(xué)會(huì)了捕捉想法層面的相似性,而不僅僅是表面的文本相似性。

三、基于檢索增強(qiáng)的新穎性檢測(cè)策略

有了訓(xùn)練好的想法檢索器,研究團(tuán)隊(duì)最后設(shè)計(jì)了一個(gè)完整的新穎性檢測(cè)框架。這個(gè)框架首先使用想法檢索器從語料庫(kù)中檢索出與目標(biāo)想法最相似的候選想法,然后通過大語言模型進(jìn)行交叉檢查,判斷目標(biāo)想法的新穎性。

具體來說,給定一個(gè)目標(biāo)想法和檢索器返回的候選想法集,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)結(jié)構(gòu)化的提示,引導(dǎo)大語言模型比較目標(biāo)想法與每個(gè)候選想法,并輸出新穎性評(píng)分。這些評(píng)分基于5個(gè)新穎性級(jí)別:極高新穎性、高新穎性、中等新穎性、低新穎性和無新穎性。

不同于依賴人工設(shè)計(jì)的閾值,研究團(tuán)隊(duì)提出通過監(jiān)督?jīng)Q策樹分類器直接從數(shù)據(jù)中學(xué)習(xí)新穎性決策規(guī)則。這種方法能夠捕捉新穎性評(píng)分之間的非線性組合和交互,從而實(shí)現(xiàn)更靈活、更準(zhǔn)確的新穎性檢測(cè)。

就像一個(gè)經(jīng)驗(yàn)豐富的評(píng)審員,這個(gè)框架綜合考慮了多方面的因素,不僅看文本的相似性,還看想法的概念性重疊,從而做出更加準(zhǔn)確的新穎性判斷。

四、實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證所提出方法的有效性,研究團(tuán)隊(duì)在想法檢索任務(wù)和新穎性檢測(cè)任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)。

在想法檢索任務(wù)中,團(tuán)隊(duì)比較了多種基線方法和不同的檢索器骨架。結(jié)果顯示,基于大語言模型知識(shí)蒸餾的檢索器在兩個(gè)領(lǐng)域的數(shù)據(jù)集上都一致優(yōu)于基線方法。與表現(xiàn)最好的基線方法相比,在市場(chǎng)營(yíng)銷領(lǐng)域平均提升了5.40%,在NLP任務(wù)上平均提升了15.19%。

有趣的是,通過錨點(diǎn)-參考對(duì)齊訓(xùn)練的變體(RA)在大多數(shù)情況下反而降低了原始檢索器的性能。這說明錨點(diǎn)論文和它們的參考文獻(xiàn)通常雖然共享相似的研究問題和背景,但它們的想法和新穎概念是不同的,這符合學(xué)術(shù)出版物對(duì)新穎性的要求。

另外,研究團(tuán)隊(duì)還分析了不同類型合成想法的性能。結(jié)果表明,基于大語言模型知識(shí)蒸餾的檢索器在所有類型的合成想法上都取得了一致的改進(jìn),尤其是在增量想法上,改進(jìn)最為顯著。增量想法與原始想法在文本相似性上差異較大,但在概念上是相似的,這表明知識(shí)蒸餾檢索器能夠有效捕捉想法層面的相似性。

在新穎性檢測(cè)任務(wù)上,研究團(tuán)隊(duì)的方法同樣表現(xiàn)出色。與現(xiàn)有的方法(如URPC、PES、CD、SCIMON和MOOSE)相比,團(tuán)隊(duì)提出的基于檢索增強(qiáng)的新穎性檢測(cè)方法(RAG-KD)在兩個(gè)領(lǐng)域的數(shù)據(jù)集上都取得了最佳性能。在市場(chǎng)營(yíng)銷領(lǐng)域,相比基線方法,RAG-KD在準(zhǔn)確率上提高了24.11%,F(xiàn)1分?jǐn)?shù)上提高了26.69%;在NLP領(lǐng)域,準(zhǔn)確率提高了22.54%,F(xiàn)1分?jǐn)?shù)提高了22.82%。

此外,研究團(tuán)隊(duì)還探究了不同超參數(shù)對(duì)方法性能的影響。結(jié)果表明,使用不同的大語言模型骨架(如Llama-3.1-8B-Instruct、gpt4o-mini和deepseek-reasoner)時(shí),基于大語言模型知識(shí)蒸餾的檢索器在大多數(shù)情況下都優(yōu)于原始檢索器。其中,deepseek-reasoner一致地優(yōu)于其他大語言模型骨架。

關(guān)于檢索的想法數(shù)量K的影響,研究發(fā)現(xiàn)中等大小的K(如5和10)能夠?yàn)榉椒ㄌ峁┓€(wěn)定和最佳的性能。較大的K(如20)并不能保證最佳性能,這可能是由于大語言模型處理大規(guī)模想法的能力有限。

五、研究意義與展望

這項(xiàng)研究的意義在于,它不僅提出了一種新的科學(xué)新穎性檢測(cè)方法,還構(gòu)建了專門針對(duì)新穎性檢測(cè)的基準(zhǔn)數(shù)據(jù)集。這些工作為學(xué)術(shù)創(chuàng)新提供了新的工具和視角,有助于加速科學(xué)發(fā)現(xiàn)和創(chuàng)新。

當(dāng)然,這項(xiàng)研究也存在一些局限性。首先,大語言模型生成的想法和新穎性評(píng)分不能保證完全準(zhǔn)確或一致,尤其是當(dāng)源提示微妙或模糊時(shí)。這種偽標(biāo)簽中的噪聲可能會(huì)影響檢索器微調(diào)和新穎性檢測(cè)的質(zhì)量。其次,該框架目前將新穎性檢測(cè)建模為二元分類任務(wù),但新穎性往往是主觀的、連續(xù)的,這可能需要未來擴(kuò)展到軟評(píng)估或人機(jī)交互評(píng)估。

盡管如此,這項(xiàng)研究為科學(xué)新穎性檢測(cè)開辟了新的道路,為研究人員提供了一種更有效、更準(zhǔn)確的方法來評(píng)估研究想法的新穎性。未來,隨著大語言模型和檢索技術(shù)的進(jìn)一步發(fā)展,我們可以期待這一領(lǐng)域取得更多突破,為科學(xué)創(chuàng)新提供更強(qiáng)大的支持。

對(duì)于普通讀者來說,這項(xiàng)研究意味著未來我們可能會(huì)有更好的工具來識(shí)別真正具有創(chuàng)新性的想法,這不僅對(duì)學(xué)術(shù)界意義重大,對(duì)產(chǎn)業(yè)界的創(chuàng)新也具有潛在價(jià)值。就像有了一個(gè)更智能的科學(xué)顧問,幫助我們?cè)谛畔⒈ǖ臅r(shí)代找到真正值得關(guān)注的新思想。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-