av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 中科院團(tuán)隊(duì)讓AI讀懂分子圖像:就像教機(jī)器人識(shí)別化學(xué)"文字"一樣簡(jiǎn)單

中科院團(tuán)隊(duì)讓AI讀懂分子圖像:就像教機(jī)器人識(shí)別化學(xué)"文字"一樣簡(jiǎn)單

2025-06-12 13:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-12 13:05 ? 科技行者

這項(xiàng)由上海人工智能實(shí)驗(yàn)室聯(lián)合華東師范大學(xué)、北京大學(xué)等多所知名院校的研究團(tuán)隊(duì)發(fā)表于2025年6月的最新研究,完整論文題為《GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition》,發(fā)表在arXiv平臺(tái)(論文編號(hào):2506.07553v1),有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv網(wǎng)站上訪問(wèn)完整論文。這項(xiàng)研究就像是在教計(jì)算機(jī)學(xué)會(huì)"讀懂"化學(xué)分子的圖像,正如我們教孩子認(rèn)字一樣,只不過(guò)這次要識(shí)別的不是漢字或英文字母,而是復(fù)雜的化學(xué)分子結(jié)構(gòu)圖。

想象一下,你面前有一張復(fù)雜的化學(xué)分子結(jié)構(gòu)圖,里面有各種原子、化學(xué)鍵,還有一些簡(jiǎn)寫(xiě)符號(hào)比如"Ph"代表苯環(huán)。對(duì)于化學(xué)家來(lái)說(shuō),這些圖就像是一種特殊的"文字",能夠準(zhǔn)確描述分子的結(jié)構(gòu)。但對(duì)于計(jì)算機(jī)來(lái)說(shuō),這就像是讓一個(gè)從未見(jiàn)過(guò)漢字的外國(guó)人去讀中文書(shū)一樣困難。研究團(tuán)隊(duì)要解決的核心問(wèn)題是:如何讓人工智能準(zhǔn)確地"讀懂"這些化學(xué)分子圖像,并將它們轉(zhuǎn)換成計(jì)算機(jī)能夠理解和處理的標(biāo)準(zhǔn)格式。

這項(xiàng)研究的重要性遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范圍。在現(xiàn)代化學(xué)研究中,大量的分子結(jié)構(gòu)信息被儲(chǔ)存在學(xué)術(shù)論文和專(zhuān)利文檔中,這些信息大多以圖像形式存在。就像一個(gè)巨大的圖書(shū)館里堆滿了珍貴的書(shū)籍,但這些書(shū)都被鎖在玻璃柜里無(wú)法閱讀一樣,這些分子圖像對(duì)于需要大規(guī)模數(shù)據(jù)分析的現(xiàn)代藥物研發(fā)、新材料發(fā)現(xiàn)等領(lǐng)域來(lái)說(shuō),幾乎無(wú)法直接使用。研究團(tuán)隊(duì)開(kāi)發(fā)的技術(shù)就像是制造了一把萬(wàn)能鑰匙,能夠打開(kāi)這些"玻璃柜",讓儲(chǔ)存的知識(shí)重新流動(dòng)起來(lái)。

研究團(tuán)隊(duì)的創(chuàng)新之處在于提出了兩個(gè)關(guān)鍵的設(shè)計(jì)理念。第一個(gè)理念叫做"圖遍歷視覺(jué)思維鏈",這聽(tīng)起來(lái)很復(fù)雜,但實(shí)際上就像是模仿人類(lèi)識(shí)別分子結(jié)構(gòu)的思維過(guò)程。當(dāng)化學(xué)家看到一個(gè)分子結(jié)構(gòu)圖時(shí),他們不會(huì)一次性處理所有信息,而是像走迷宮一樣,一步一步地識(shí)別每個(gè)原子,然后識(shí)別連接這些原子的化學(xué)鍵,最后把整個(gè)結(jié)構(gòu)拼接起來(lái)。傳統(tǒng)的計(jì)算機(jī)方法就像是要求計(jì)算機(jī)同時(shí)處理所有信息,這往往會(huì)導(dǎo)致混亂和錯(cuò)誤。

第二個(gè)理念叫做"忠實(shí)識(shí)別所見(jiàn)",這個(gè)概念可以用一個(gè)簡(jiǎn)單的例子來(lái)解釋。假設(shè)你在看一張照片,照片上寫(xiě)著"Ph"這個(gè)縮寫(xiě),你應(yīng)該記錄下"Ph",而不是自動(dòng)腦補(bǔ)成"苯環(huán)"的完整結(jié)構(gòu)。但現(xiàn)有的很多系統(tǒng)會(huì)自動(dòng)進(jìn)行這種"腦補(bǔ)",導(dǎo)致識(shí)別結(jié)果與原圖不符。研究團(tuán)隊(duì)認(rèn)為,計(jì)算機(jī)應(yīng)該老老實(shí)實(shí)地記錄它看到的內(nèi)容,這樣才能確保準(zhǔn)確性。

為了實(shí)現(xiàn)這些理念,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為GTR-Mol-VLM的人工智能模型。這個(gè)模型就像是一個(gè)經(jīng)過(guò)特殊訓(xùn)練的"學(xué)生",它學(xué)會(huì)了像人類(lèi)專(zhuān)家一樣閱讀化學(xué)分子圖像。為了訓(xùn)練這個(gè)"學(xué)生",研究團(tuán)隊(duì)準(zhǔn)備了一個(gè)包含130萬(wàn)個(gè)樣本的巨大"教科書(shū)",叫做GTR-CoT-1.3M數(shù)據(jù)集。

這個(gè)數(shù)據(jù)集的構(gòu)建過(guò)程就像是編寫(xiě)一本超級(jí)詳細(xì)的化學(xué)識(shí)別教科書(shū)。研究團(tuán)隊(duì)首先從公開(kāi)的化學(xué)數(shù)據(jù)庫(kù)中收集了100萬(wàn)個(gè)分子結(jié)構(gòu),然后用專(zhuān)業(yè)軟件將這些結(jié)構(gòu)轉(zhuǎn)換成圖像,這部分被稱(chēng)為GTR-CoT-PubChem-1M。接著,他們又從美國(guó)專(zhuān)利商標(biāo)局收集了約68萬(wàn)個(gè)真實(shí)的專(zhuān)利文檔中的分子圖像,經(jīng)過(guò)精心篩選和修正后,得到了35.1萬(wàn)個(gè)高質(zhì)量樣本,這部分被稱(chēng)為GTR-CoT-USPTO-351K。

在處理專(zhuān)利數(shù)據(jù)時(shí),研究團(tuán)隊(duì)遇到了一個(gè)有趣的問(wèn)題。專(zhuān)利文檔中的分子圖像經(jīng)常使用各種縮寫(xiě),比如用"Ph"代表苯環(huán),用"Et"代表乙基,這就像是化學(xué)家們使用的"速記符號(hào)"。但是,這些圖像對(duì)應(yīng)的標(biāo)準(zhǔn)答案(也就是所謂的"標(biāo)注")卻是完全展開(kāi)的形式,沒(méi)有任何縮寫(xiě)。這就像是考試題目用簡(jiǎn)寫(xiě),但標(biāo)準(zhǔn)答案卻用全稱(chēng),肯定會(huì)讓學(xué)生感到困惑。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一套復(fù)雜的數(shù)據(jù)修正流程。他們首先使用光學(xué)字符識(shí)別技術(shù)(OCR)來(lái)檢測(cè)圖像中的所有文字,就像是用放大鏡仔細(xì)查看每一個(gè)縮寫(xiě)符號(hào)。然后,他們建立了一個(gè)縮寫(xiě)與完整結(jié)構(gòu)的對(duì)應(yīng)表,最后用規(guī)則化的方法將標(biāo)注中的完整結(jié)構(gòu)替換回原圖中使用的縮寫(xiě)形式。這個(gè)過(guò)程就像是重新編寫(xiě)標(biāo)準(zhǔn)答案,確保題目和答案使用同樣的"語(yǔ)言"。

研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)新的評(píng)估基準(zhǔn),叫做MolRec-Bench。傳統(tǒng)的評(píng)估方法就像是只看學(xué)生的最終答案是否正確,而不關(guān)心解題過(guò)程。但化學(xué)分子識(shí)別更像是解數(shù)學(xué)題,解題過(guò)程(也就是如何識(shí)別每個(gè)原子和化學(xué)鍵)同樣重要。MolRec-Bench就像是一套更加全面的考試系統(tǒng),不僅檢查最終答案,還要檢查學(xué)生是否真正理解了分子的結(jié)構(gòu)。

這個(gè)基準(zhǔn)包含兩個(gè)測(cè)試集。第一個(gè)叫MolRec-USPTO,包含5423個(gè)來(lái)自專(zhuān)利的分子圖像。第二個(gè)叫MolRec-Abb,包含9311個(gè)含有縮寫(xiě)的分子圖像。這就像是準(zhǔn)備了兩套不同難度的考試:一套是普通考試,一套是專(zhuān)門(mén)測(cè)試處理縮寫(xiě)能力的高難度考試。

在實(shí)際測(cè)試中,GTR-Mol-VLM的表現(xiàn)就像是一個(gè)優(yōu)秀的學(xué)生在各科考試中都取得了頂尖成績(jī)。在處理普通分子圖像時(shí),它的準(zhǔn)確率達(dá)到了91.19%,而在處理含有縮寫(xiě)的復(fù)雜分子圖像時(shí),準(zhǔn)確率也達(dá)到了84.50%,比第二名高出了約14個(gè)百分點(diǎn)。這個(gè)差距就像是班級(jí)第一名比第二名的考試成績(jī)高出了14分,是一個(gè)相當(dāng)顯著的優(yōu)勢(shì)。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn),就像是同時(shí)讓多個(gè)不同水平的學(xué)生參加同一場(chǎng)考試。他們測(cè)試了專(zhuān)業(yè)的化學(xué)識(shí)別模型(如MolScribe和MolNexTR)、化學(xué)領(lǐng)域的通用AI模型(如ChemVLM)以及知名的商業(yè)AI模型(如GPT-4o)。結(jié)果顯示,專(zhuān)業(yè)模型在處理普通圖像時(shí)表現(xiàn)不錯(cuò),但在面對(duì)含有縮寫(xiě)的圖像時(shí)就明顯力不從心,準(zhǔn)確率下降到了20%左右。而那些知名的商業(yè)AI模型雖然在其他任務(wù)上表現(xiàn)出色,但在這個(gè)專(zhuān)業(yè)任務(wù)上的表現(xiàn)卻令人失望,準(zhǔn)確率幾乎接近于零。

這種巨大的性能差異可以用一個(gè)生動(dòng)的比喻來(lái)理解。如果把化學(xué)分子識(shí)別比作翻譯一種特殊的外語(yǔ),那么GTR-Mol-VLM就像是專(zhuān)門(mén)學(xué)習(xí)了這門(mén)語(yǔ)言語(yǔ)法和習(xí)語(yǔ)的專(zhuān)業(yè)翻譯,而其他模型要么是只學(xué)了基礎(chǔ)語(yǔ)法的初學(xué)者,要么是擅長(zhǎng)其他語(yǔ)言但對(duì)這門(mén)特殊語(yǔ)言一竅不通的語(yǔ)言學(xué)家。

為了驗(yàn)證他們?cè)O(shè)計(jì)理念的有效性,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),這就像是通過(guò)移除汽車(chē)的不同部件來(lái)測(cè)試每個(gè)部件的重要性。他們發(fā)現(xiàn),使用"圖遍歷視覺(jué)思維鏈"方法比直接預(yù)測(cè)最終答案的準(zhǔn)確率提高了2.31%。而采用他們特有的圖遍歷策略比傳統(tǒng)的"先識(shí)別所有原子,再識(shí)別所有化學(xué)鍵"的方法準(zhǔn)確率提高了2.86%到3.11%。這些看似不大的數(shù)字改進(jìn),在人工智能領(lǐng)域已經(jīng)是相當(dāng)可觀的進(jìn)步了。

這項(xiàng)研究的實(shí)際應(yīng)用前景非常廣闊。在藥物研發(fā)領(lǐng)域,制藥公司可以利用這項(xiàng)技術(shù)快速數(shù)字化大量的化學(xué)文獻(xiàn)和專(zhuān)利文檔,加速新藥發(fā)現(xiàn)過(guò)程。在材料科學(xué)領(lǐng)域,研究人員可以更容易地搜索和分析相關(guān)的分子結(jié)構(gòu)信息,推動(dòng)新材料的開(kāi)發(fā)。在化學(xué)教育領(lǐng)域,這項(xiàng)技術(shù)可以幫助構(gòu)建更加智能的化學(xué)學(xué)習(xí)系統(tǒng),讓學(xué)生能夠通過(guò)拍照上傳分子結(jié)構(gòu)圖來(lái)獲得即時(shí)的反饋和解釋。

值得注意的是,這項(xiàng)研究不僅解決了一個(gè)技術(shù)問(wèn)題,更重要的是它展示了如何將人工智能的通用能力與專(zhuān)業(yè)領(lǐng)域知識(shí)相結(jié)合。研究團(tuán)隊(duì)沒(méi)有簡(jiǎn)單地套用現(xiàn)有的AI技術(shù),而是深入理解了化學(xué)專(zhuān)家的工作方式,然后設(shè)計(jì)出模仿這種工作方式的AI系統(tǒng)。這種"以人為師"的設(shè)計(jì)思路為其他專(zhuān)業(yè)領(lǐng)域的AI應(yīng)用提供了寶貴的借鑒。

從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究還展示了數(shù)據(jù)質(zhì)量對(duì)AI系統(tǒng)性能的關(guān)鍵影響。研究團(tuán)隊(duì)花費(fèi)大量精力來(lái)修正訓(xùn)練數(shù)據(jù)中的不一致問(wèn)題,這個(gè)看似"笨拙"的工作實(shí)際上是整個(gè)項(xiàng)目成功的關(guān)鍵。這提醒我們,在AI時(shí)代,高質(zhì)量的數(shù)據(jù)往往比復(fù)雜的算法更加重要。

當(dāng)然,這項(xiàng)研究也有其局限性。研究團(tuán)隊(duì)坦誠(chéng)地指出,他們的模型在處理一些特殊情況時(shí)仍然會(huì)出錯(cuò),比如對(duì)縮寫(xiě)位置的判斷、對(duì)復(fù)雜分子結(jié)構(gòu)的理解等。這就像是即使是最優(yōu)秀的學(xué)生也會(huì)在某些難題上犯錯(cuò)一樣。但重要的是,這項(xiàng)研究為未來(lái)的改進(jìn)指明了方向,也為其他研究者提供了堅(jiān)實(shí)的基礎(chǔ)。

研究團(tuán)隊(duì)已經(jīng)承諾將他們的代碼、數(shù)據(jù)集和模型公開(kāi)發(fā)布,這意味著全世界的研究者都可以在他們的基礎(chǔ)上繼續(xù)改進(jìn)和創(chuàng)新。這種開(kāi)放的研究態(tài)度就像是在科學(xué)的花園里播下種子,相信會(huì)有更多美麗的花朵在未來(lái)綻放。

說(shuō)到底,這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身。它展示了人工智能如何能夠真正理解和模仿人類(lèi)專(zhuān)家的思維過(guò)程,如何通過(guò)細(xì)致的工程化努力來(lái)解決實(shí)際問(wèn)題,以及如何在追求技術(shù)進(jìn)步的同時(shí)保持科學(xué)研究的嚴(yán)謹(jǐn)性。對(duì)于我們普通人來(lái)說(shuō),這項(xiàng)研究預(yù)示著一個(gè)更加智能化的未來(lái),在這個(gè)未來(lái)里,AI將能夠幫助我們更好地理解和利用人類(lèi)積累的科學(xué)知識(shí),推動(dòng)整個(gè)社會(huì)的進(jìn)步。

歸根結(jié)底,這項(xiàng)研究告訴我們一個(gè)簡(jiǎn)單而深刻的道理:最好的AI不是要替代人類(lèi)專(zhuān)家,而是要學(xué)會(huì)像人類(lèi)專(zhuān)家一樣思考和工作。當(dāng)機(jī)器真正學(xué)會(huì)了人類(lèi)的智慧,它就能成為我們最好的助手,幫助我們?cè)诳茖W(xué)探索的道路上走得更遠(yuǎn)、更快。有興趣的讀者可以通過(guò)arXiv:2506.07553v1查閱完整的研究論文,深入了解這項(xiàng)令人興奮的技術(shù)突破。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-