這項(xiàng)由韓國(guó)科學(xué)院人工智能系的吳咽琳(Yerim Oh)團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2025年6月9日的計(jì)算語(yǔ)言學(xué)會(huì)議(EMNLP),論文題目為《Incorporating Domain Knowledge into Materials Tokenization》。有興趣深入了解的讀者可以通過(guò)arXiv:2506.11115v1訪(fǎng)問(wèn)完整論文。
想象一下,你正在學(xué)習(xí)一門(mén)外語(yǔ),但老師總是把重要的單詞拆得七零八落。比如"germanium"(鍺元素)被拆成了"german"(德國(guó)的)和"-ium"(后綴),這樣你怎么可能理解這個(gè)詞的真正含義?這正是目前人工智能在處理材料科學(xué)文獻(xiàn)時(shí)面臨的尷尬問(wèn)題。
當(dāng)我們讓AI閱讀材料科學(xué)論文時(shí),就像讓一個(gè)外國(guó)人用錯(cuò)誤的字典來(lái)理解中文一樣。AI需要先把文字切分成小塊(就像把句子拆成詞語(yǔ)),這個(gè)過(guò)程叫做"分詞"。但現(xiàn)有的分詞方法原本是為普通文章設(shè)計(jì)的,它們只認(rèn)識(shí)高頻常見(jiàn)詞,對(duì)材料科學(xué)中那些專(zhuān)業(yè)而重要的術(shù)語(yǔ)卻視而不見(jiàn)。結(jié)果就是,"鍺"這個(gè)重要的化學(xué)元素被AI理解成了"德國(guó)的某種東西",完全南轅北轍。
韓國(guó)科學(xué)院的研究團(tuán)隊(duì)注意到了這個(gè)讓人頭疼的問(wèn)題。他們發(fā)現(xiàn),在材料科學(xué)文獻(xiàn)中,真正重要的材料概念—比如化學(xué)元素名稱(chēng)、分子式、材料名稱(chēng)—往往出現(xiàn)頻率很低,而一些無(wú)關(guān)緊要的常用詞卻占據(jù)了AI詞匯表的大部分位置。這就像一本專(zhuān)業(yè)詞典里,"的"、"了"、"嗎"占了一半篇幅,而"硅"、"鈦"、"碳納米管"這些關(guān)鍵詞卻被擠到了角落里。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一套名為MATTER的智能分詞系統(tǒng)。這套系統(tǒng)就像一個(gè)既懂語(yǔ)言學(xué)又懂材料學(xué)的專(zhuān)業(yè)翻譯,它能夠識(shí)別出哪些詞匯對(duì)材料科學(xué)真正重要,然后在分詞時(shí)特別保護(hù)這些詞匯,確保它們不被胡亂拆解。
MATTER系統(tǒng)的工作原理可以用"智能圖書(shū)管理員"來(lái)比喻。普通的圖書(shū)管理員只會(huì)按照書(shū)的厚薄來(lái)分類(lèi),厚書(shū)放一邊,薄書(shū)放另一邊。但MATTER就像一個(gè)既懂圖書(shū)分類(lèi)學(xué)又是各學(xué)科專(zhuān)家的超級(jí)管理員,它能識(shí)別出哪些書(shū)雖然薄但很重要(比如愛(ài)因斯坦的相對(duì)論),哪些書(shū)雖然厚但只是充數(shù)(比如某些冗長(zhǎng)的小說(shuō)),然后給重要的書(shū)更好的位置和保護(hù)。
這個(gè)系統(tǒng)的核心是一個(gè)叫做MatDetector的"材料概念偵探"。研究團(tuán)隊(duì)訓(xùn)練了這個(gè)偵探,讓它能夠從浩如煙海的科學(xué)文獻(xiàn)中精準(zhǔn)識(shí)別出材料科學(xué)相關(guān)的概念。他們首先從PubChem數(shù)據(jù)庫(kù)(一個(gè)巨大的化學(xué)物質(zhì)信息庫(kù))中提取了8萬(wàn)個(gè)材料相關(guān)概念,包括化學(xué)名稱(chēng)、IUPAC標(biāo)準(zhǔn)名稱(chēng)、同義詞和分子式。然后,他們用這些概念作為關(guān)鍵詞,從學(xué)術(shù)搜索引擎Semantic Scholar中收集了大約4.2萬(wàn)篇科學(xué)論文。
但收集數(shù)據(jù)只是第一步,更重要的是要訓(xùn)練MatDetector學(xué)會(huì)識(shí)別這些概念。研究團(tuán)隊(duì)深知現(xiàn)實(shí)世界的材料文獻(xiàn)往往充滿(mǎn)了各種錯(cuò)誤和不規(guī)范—OCR掃描錯(cuò)誤、格式不一致、特殊符號(hào)問(wèn)題等等。為了讓MatDetector更加健壯,他們特意制造了各種"噪音"數(shù)據(jù)來(lái)訓(xùn)練它,就像讓一個(gè)偵探在嘈雜的環(huán)境中練習(xí)辨音一樣。
經(jīng)過(guò)訓(xùn)練的MatDetector不僅能識(shí)別材料概念,還能給每個(gè)概念打分,表示它與材料科學(xué)的相關(guān)程度。分?jǐn)?shù)越高,說(shuō)明這個(gè)概念對(duì)材料科學(xué)越重要。比如"germanium"會(huì)得到很高的分?jǐn)?shù),而"german"則會(huì)得到很低的分?jǐn)?shù)。
有了這個(gè)評(píng)分系統(tǒng),MATTER就能在分詞時(shí)做出明智的決策。傳統(tǒng)的分詞方法就像一個(gè)只會(huì)數(shù)錢(qián)的商人,哪個(gè)詞出現(xiàn)次數(shù)多就優(yōu)先保護(hù)哪個(gè)。但MATTER更像一個(gè)既會(huì)數(shù)錢(qián)又懂行情的投資專(zhuān)家,它會(huì)綜合考慮詞匯的出現(xiàn)頻率和專(zhuān)業(yè)重要性。即使某個(gè)材料概念出現(xiàn)次數(shù)不多,但只要它對(duì)材料科學(xué)很重要,MATTER就會(huì)想辦法保護(hù)它不被拆散。
具體來(lái)說(shuō),MATTER使用了一個(gè)巧妙的重新排序策略。它會(huì)根據(jù)MatDetector的評(píng)分來(lái)調(diào)整詞匯的"虛擬頻率"。對(duì)于重要的材料概念,即使它們?cè)谖恼轮谐霈F(xiàn)次數(shù)不多,MATTER也會(huì)人為地提高它們的重要性權(quán)重,確保在構(gòu)建詞匯表時(shí)這些概念能夠獲得完整保留。這個(gè)過(guò)程就像給重要但不太知名的演員分配更好的戲份和更顯眼的位置一樣。
為了驗(yàn)證MATTER的效果,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)。他們比較了MATTER與其他幾種主流分詞方法的表現(xiàn),包括廣泛使用的BPE(字節(jié)對(duì)編碼)、WordPiece、以及較新的SAGE和PickyBPE方法。實(shí)驗(yàn)覆蓋了材料科學(xué)領(lǐng)域的多種任務(wù),既有文本生成任務(wù),也有分類(lèi)任務(wù)。
在文本生成任務(wù)中,MATTER表現(xiàn)出了明顯的優(yōu)勢(shì)。這些任務(wù)包括命名實(shí)體識(shí)別(識(shí)別文本中的材料名稱(chēng))、關(guān)系分類(lèi)(理解不同材料概念之間的關(guān)系)、事件論元抽?。ㄌ崛〔牧虾铣蛇^(guò)程中的關(guān)鍵信息)等等。平均而言,MATTER在這些任務(wù)上比其他方法提高了4%的性能。雖然4%聽(tīng)起來(lái)不多,但在AI領(lǐng)域,這已經(jīng)是相當(dāng)可觀的提升了,就像百米賽跑中提高0.1秒一樣珍貴。
在分類(lèi)任務(wù)中,MATTER同樣表現(xiàn)不俗,平均提升了2%的性能。這些任務(wù)包括對(duì)材料科學(xué)論文段落的分類(lèi)、對(duì)具體材料屬性的識(shí)別等等。更重要的是,研究團(tuán)隊(duì)通過(guò)嚴(yán)格的統(tǒng)計(jì)檢驗(yàn)證實(shí),這些提升不是偶然現(xiàn)象,而是MATTER方法帶來(lái)的真實(shí)改進(jìn)。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)特別有趣的實(shí)驗(yàn)—材料概念的形態(tài)學(xué)分割。簡(jiǎn)單來(lái)說(shuō),就是測(cè)試MATTER是否真的能把材料概念切分得更合理。他們使用了SIGMORPHON 2022形態(tài)學(xué)分割數(shù)據(jù)集中的材料相關(guān)部分,發(fā)現(xiàn)MATTER的分割準(zhǔn)確率比其他方法平均提高了18.6%。這意味著MATTER確實(shí)學(xué)會(huì)了以更符合材料科學(xué)邏輯的方式來(lái)理解和分割概念。
除了性能提升,研究團(tuán)隊(duì)還分析了MATTER構(gòu)建的詞匯表的質(zhì)量。他們發(fā)現(xiàn),MATTER的詞匯表中包含了更多完整的材料概念,而且這些概念在詞匯表中占據(jù)了更重要的位置。通過(guò)詞嵌入分析(一種衡量詞匯語(yǔ)義相似性的技術(shù)),他們發(fā)現(xiàn)MATTER學(xué)到的材料概念表示更加準(zhǔn)確和合理。比如,"germanium"的最相似詞匯不再是無(wú)關(guān)的"german"或"segregation",而是化學(xué)上相關(guān)的"dithiocarbamate"(二硫代氨基甲酸鹽)和"ammonium"(銨)等概念。
更令人印象深刻的是,研究團(tuán)隊(duì)發(fā)現(xiàn)MATTER學(xué)到的詞嵌入捕捉了豐富的化學(xué)知識(shí)。比如,PbI2(碘化鉛)和PbF2(氟化鉛)在MATTER的表示中非常相似,這是合理的,因?yàn)樗鼈兌紝儆阢U鹵化物家族。類(lèi)似地,LFP(磷酸鐵鋰)和ZrF7(氟化鋯)也表現(xiàn)出相似性,因?yàn)樗鼈冊(cè)谀茉磧?chǔ)存和傳感應(yīng)用中都有重要作用。這表明MATTER不僅僅是在表面上保護(hù)材料概念,而是真正理解了它們的化學(xué)含義和關(guān)系。
研究團(tuán)隊(duì)還驗(yàn)證了MatDetector相對(duì)于現(xiàn)有工具的優(yōu)勢(shì)。他們將MatDetector與廣泛使用的ChemDataExtractor進(jìn)行了比較。ChemDataExtractor是材料科學(xué)界常用的概念提取工具,但它最初是為生物醫(yī)學(xué)文獻(xiàn)訓(xùn)練的,在材料科學(xué)文獻(xiàn)上的表現(xiàn)不夠理想。實(shí)驗(yàn)結(jié)果顯示,MatDetector的準(zhǔn)確率、召回率和F1分?jǐn)?shù)都明顯優(yōu)于ChemDataExtractor。具體來(lái)說(shuō),MatDetector的F1分?jǐn)?shù)達(dá)到了63%,而ChemDataExtractor只有27%,提升幅度超過(guò)一倍。
為了進(jìn)一步驗(yàn)證MATTER的通用性,研究團(tuán)隊(duì)還在材料科學(xué)問(wèn)答任務(wù)上進(jìn)行了測(cè)試。他們使用了MaScQA數(shù)據(jù)集,這是一個(gè)專(zhuān)門(mén)針對(duì)材料科學(xué)知識(shí)問(wèn)答的基準(zhǔn)。無(wú)論是使用解碼器模型(如Llama)還是編碼器-解碼器模型(如基于BERT的架構(gòu)),MATTER都取得了最佳性能。這說(shuō)明MATTER的改進(jìn)不局限于特定的模型架構(gòu)或任務(wù)類(lèi)型。
在深入分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)MATTER的成功主要來(lái)源于三個(gè)方面。首先,MatDetector的準(zhǔn)確性至關(guān)重要。當(dāng)他們用性能較差的ChemDataExtractor替代MatDetector時(shí),雖然仍有改進(jìn),但幅度明顯減小。這說(shuō)明準(zhǔn)確識(shí)別材料概念是整個(gè)系統(tǒng)的基礎(chǔ)。其次,權(quán)重參數(shù)λ的選擇也很重要。研究團(tuán)隊(duì)發(fā)現(xiàn)λ=1是最優(yōu)選擇,這時(shí)能夠在保護(hù)材料概念和維持語(yǔ)言模型整體性能之間取得最佳平衡。最后,材料領(lǐng)域知識(shí)的引入本身就是關(guān)鍵創(chuàng)新,即使用較簡(jiǎn)單的方法引入這種知識(shí),也能帶來(lái)顯著改進(jìn)。
研究團(tuán)隊(duì)對(duì)MATTER方法也有誠(chéng)實(shí)的反思。他們指出,這種方法仍需要手動(dòng)調(diào)節(jié)超參數(shù)λ,雖然在實(shí)驗(yàn)中λ=1表現(xiàn)最佳,但對(duì)于不同的語(yǔ)料庫(kù)或子領(lǐng)域,最優(yōu)值可能有所不同。此外,MATTER依賴(lài)于監(jiān)督學(xué)習(xí)的信號(hào)(即需要標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練MatDetector),這在擴(kuò)展到更大規(guī)模或更多樣化的語(yǔ)料庫(kù)時(shí)可能帶來(lái)挑戰(zhàn)。
盡管存在這些限制,MATTER代表了一個(gè)重要的研究方向。它首次系統(tǒng)性地將領(lǐng)域知識(shí)引入到分詞過(guò)程中,為科學(xué)文本處理開(kāi)辟了新的道路。研究結(jié)果表明,簡(jiǎn)單地將通用NLP方法應(yīng)用到科學(xué)領(lǐng)域是不夠的,需要針對(duì)特定領(lǐng)域的特點(diǎn)進(jìn)行定制和優(yōu)化。
從更廣闊的視角來(lái)看,這項(xiàng)研究揭示了一個(gè)重要問(wèn)題:隨著AI在各個(gè)專(zhuān)業(yè)領(lǐng)域的應(yīng)用越來(lái)越深入,我們需要更多領(lǐng)域特定的技術(shù)和方法。材料科學(xué)只是一個(gè)開(kāi)始,類(lèi)似的問(wèn)題可能也存在于化學(xué)、物理、生物學(xué)、醫(yī)學(xué)等其他科學(xué)領(lǐng)域。每個(gè)領(lǐng)域都有自己獨(dú)特的詞匯體系和概念結(jié)構(gòu),都需要專(zhuān)門(mén)的處理方法。
MATTER的成功也為未來(lái)的研究指明了方向。研究團(tuán)隊(duì)建議,未來(lái)可以探索自動(dòng)化的超參數(shù)選擇方法,減少人工調(diào)節(jié)的需要。同時(shí),可以研究如何將這種領(lǐng)域知識(shí)引入方法擴(kuò)展到其他科學(xué)領(lǐng)域,或者開(kāi)發(fā)更通用的框架來(lái)處理不同領(lǐng)域的特殊需求。
此外,隨著大型語(yǔ)言模型在科學(xué)研究中應(yīng)用的不斷擴(kuò)展,如何讓這些模型更好地理解和處理科學(xué)概念將變得越來(lái)越重要。MATTER提供的思路—結(jié)合領(lǐng)域?qū)I(yè)知識(shí)來(lái)改進(jìn)基礎(chǔ)NLP技術(shù)—很可能會(huì)成為一個(gè)重要的研究范式。
說(shuō)到底,MATTER解決的不僅僅是一個(gè)技術(shù)問(wèn)題,更是如何讓AI真正理解人類(lèi)專(zhuān)業(yè)知識(shí)的問(wèn)題。就像培養(yǎng)一個(gè)優(yōu)秀的學(xué)生,不能只教他們通用的學(xué)習(xí)方法,還要針對(duì)不同學(xué)科的特點(diǎn)進(jìn)行專(zhuān)門(mén)指導(dǎo)。MATTER為材料科學(xué)領(lǐng)域的AI應(yīng)用提供了這樣的專(zhuān)門(mén)指導(dǎo),讓AI能夠更準(zhǔn)確地理解和處理材料科學(xué)文獻(xiàn)。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。它為加速材料發(fā)現(xiàn)和開(kāi)發(fā)提供了新的工具。在當(dāng)今快速發(fā)展的科技時(shí)代,新材料的研發(fā)對(duì)于解決能源、環(huán)境、健康等全球性挑戰(zhàn)至關(guān)重要。MATTER這樣的工具能夠幫助研究人員更高效地從海量文獻(xiàn)中提取有用信息,發(fā)現(xiàn)新的研究機(jī)會(huì),加速科學(xué)發(fā)現(xiàn)的進(jìn)程。
歸根結(jié)底,這項(xiàng)研究告訴我們,讓AI真正服務(wù)于科學(xué)研究,需要的不僅僅是更強(qiáng)大的計(jì)算能力或更大的數(shù)據(jù)集,更需要深入理解不同學(xué)科的特點(diǎn)和需求。只有將技術(shù)創(chuàng)新與領(lǐng)域?qū)I(yè)知識(shí)有機(jī)結(jié)合,我們才能讓AI成為科學(xué)研究的真正助手。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過(guò)論文編號(hào)arXiv:2506.11115v1查閱完整的研究論文。
Q&A
Q1:MATTER是什么?它能做什么? A:MATTER是韓國(guó)科學(xué)院開(kāi)發(fā)的智能分詞系統(tǒng),專(zhuān)門(mén)用于處理材料科學(xué)文獻(xiàn)。它的核心能力是識(shí)別和保護(hù)材料科學(xué)中的重要概念(如化學(xué)元素、分子式等),防止AI在理解文本時(shí)把這些重要概念錯(cuò)誤拆分。就像給AI配了一副專(zhuān)業(yè)眼鏡,讓它能正確識(shí)別材料科學(xué)術(shù)語(yǔ)。
Q2:為什么需要專(zhuān)門(mén)的材料科學(xué)分詞方法? A:因?yàn)閭鹘y(tǒng)的AI分詞方法只認(rèn)識(shí)常用詞匯,對(duì)材料科學(xué)中重要但不常見(jiàn)的專(zhuān)業(yè)術(shù)語(yǔ)視而不見(jiàn)。比如把"germanium"(鍺元素)錯(cuò)誤拆分成"german"(德國(guó)的)和"-ium",完全曲解了原意。這就像用普通字典去理解專(zhuān)業(yè)術(shù)語(yǔ),必然會(huì)出錯(cuò)。
Q3:MATTER的效果如何?有什么實(shí)際應(yīng)用價(jià)值? A:實(shí)驗(yàn)顯示MATTER比現(xiàn)有方法平均提升4%的文本生成性能和2%的分類(lèi)性能。雖然數(shù)字看起來(lái)不大,但在AI領(lǐng)域這已經(jīng)是顯著改進(jìn)。實(shí)際應(yīng)用中,它能幫助研究人員更準(zhǔn)確地從材料科學(xué)文獻(xiàn)中提取信息,加速新材料的發(fā)現(xiàn)和開(kāi)發(fā)過(guò)程。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話(huà)題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。