av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 大語言模型中的分詞限制:一項探究符號和算術推理邊界的研究

大語言模型中的分詞限制:一項探究符號和算術推理邊界的研究

2025-05-26 08:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 08:06 ? 科技行者

近日,由不列顛哥倫比亞大學的張翔和曹俊泰、浙江大學的魏佳琪、思科公司的徐一偉以及紐約石溪大學的尤晨宇共同完成的一項前沿研究《Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits》在arXiv預印本平臺上發(fā)表。這項研究深入探討了大語言模型(LLMs)中一個經常被忽視但卻至關重要的基礎組件——分詞系統(tǒng)(tokenization)如何影響模型的符號和算術推理能力。

一、分詞:被低估的語言模型第一道處理門檻

想象一下,當你學習一門新語言時,如果不知道如何正確地將句子分割成有意義的單詞,那么理解整個句子將變得異常困難。大語言模型面臨的挑戰(zhàn)也是如此。在這項研究中,研究團隊揭示了一個長期被忽視的事實:語言模型的推理能力不僅受到其架構設計的限制,還深受其處理信息的第一道門檻——分詞系統(tǒng)的影響。

分詞是什么?簡單來說,分詞就像是語言模型的"閱讀眼鏡"。當我們輸入"Strawberry"(草莓)這個詞時,模型并不是按字母一個一個地處理,而是會將其切分成若干個"詞元"(token)。比如,它可能會將其分割為"Straw"和"berry"兩個部分。這種切分方式對于存儲效率很有幫助,但研究團隊發(fā)現(xiàn),這恰恰是許多模型在進行符號推理和算術計算時表現(xiàn)不佳的關鍵原因。

想象一下,如果有人要求你數(shù)一數(shù)"Strawberry"中有多少個字母"r",而給你看的卻是被分割成"Straw"和"berry"的兩塊拼圖,這就會增加你的計數(shù)難度,因為你需要先在心里重新拼接這個詞,然后再進行計數(shù)。大語言模型在進行類似任務時也面臨著相同的挑戰(zhàn)。

二、思維鏈提示:給語言模型裝上"遞歸引擎"

在深入探討分詞問題之前,我們需要理解大語言模型在推理方面的基本局限性。Transformer架構(GPT、BERT等模型的基礎)本質上是一種深度有限的系統(tǒng),就像一個只能看有限幾步的棋手。這種架構無法像人類那樣進行遞歸思考,即"我思考,所以我對我的思考再次思考"這樣的能力。

研究人員形象地解釋道,這就像是一個只能走固定臺階數(shù)的爬樓機器人。無論樓梯有多高,它永遠只能爬固定的幾步,因此無法適應不同高度的樓梯。同理,標準的Transformer模型無論輸入多長,都只能進行固定次數(shù)的信息處理,這嚴重限制了其處理需要多步計算的任務(如數(shù)數(shù)、加法或模式識別)的能力。

這時,思維鏈(Chain-of-Thought,CoT)提示技術的出現(xiàn)提供了一個解決方案。思維鏈就像是給語言模型提供了一個"外部記事本",讓它能夠將中間計算步驟寫下來,然后在下一步思考中使用這些記錄。通過這種方式,語言模型可以模擬人類的遞歸思考過程,大大增強了其解決復雜問題的能力。

以計數(shù)任務為例:如果讓模型直接回答"abcabcabc中有多少個a",它很可能失敗。但如果使用思維鏈提示,引導模型一步步思考:"第一個字符是a,計數(shù)為1;第二個字符是b,計數(shù)仍為1;第三個字符是c,計數(shù)仍為1;第四個字符是a,計數(shù)增加到2...",這樣模型就能夠正確解答復雜問題。

三、分詞瓶頸:符號推理能力的隱形殺手

研究團隊通過深入分析發(fā)現(xiàn),即使使用了思維鏈提示,許多大語言模型在進行簡單的算術和符號操作時仍然表現(xiàn)不佳。例如,即使是強大如GPT-4的模型,在計算一個單詞中特定字母出現(xiàn)次數(shù)等簡單任務上也常常失敗。

為什么會這樣?答案就藏在分詞系統(tǒng)中。研究團隊提出了"詞元感知"(Token Awareness)的概念,用來描述模型對詞元內部結構的理解能力。當一個詞被切分為多個詞元時,模型需要具備強大的詞元感知能力,才能正確理解和處理詞元內部的信息。

想象你在解讀一本被隨機撕碎頁面的書。如果碎片太小或分割不當,即使你把所有碎片拼在一起,也難以理解原文。同樣,如果分詞系統(tǒng)不當?shù)厍蟹治谋?,模型就無法正確識別和處理符號單元,從而影響其推理能力。

研究團隊將分詞帶來的信息損失分為兩種類型:

第一種是"信息隱藏":當一個符號單元(如字母、數(shù)字)被合并到更大的詞元中時,模型難以識別該單元的特征。比如,當"Strawberry"被分割為"Straw"和"berry"時,模型可能無法輕易識別出"Straw"中包含一個"r"。

第二種是"表達能力限制":當模型需要通過思維鏈來表達中間推理步驟時,如果詞元粒度不夠細,模型就無法準確表達某些概念。這就像是你想用一門只有100個單詞的語言來寫詩,表達能力會受到嚴重限制。

四、實驗證明:分詞格式決定推理成敗

為了驗證分詞對推理能力的影響,研究團隊設計了一系列實驗,測試不同分詞格式下模型在計數(shù)、排序和字符串反轉等任務上的表現(xiàn)。

他們嘗試了四種不同的分詞格式:

第一種是原始BPE(Byte Pair Encoding)分詞,如"abbab",字符緊密相連; 第二種是空格分隔分詞,如"a b b a b",每個字符之間添加空格; 第三種是逗號空格分隔分詞,如"a, b, b, a, b",使用逗號和空格分隔; 第四種是引號分隔分詞,如"'a', 'b', 'b', 'a', 'b'",每個字符都用引號包圍。

實驗結果令人驚訝:僅僅是改變分詞格式,而不改變任務本身,模型的性能就能從幾乎完全失敗提升到接近完美。以計數(shù)任務為例,在30-40個字符的長度范圍內,使用原始BPE分詞時,GPT-4o-mini模型的準確率僅為2%;而使用引號分隔分詞時,準確率飆升至56.1%,提高了驚人的54.1個百分點!

更令人驚訝的是,在最優(yōu)分詞格式下,較小的模型(如GPT-4o-mini)甚至能夠在結構化推理任務上超越更大的模型(如OpenAI的o1)。這一發(fā)現(xiàn)徹底顛覆了"更大的模型總是更好"的常規(guī)認知。

五、字母頻率與計數(shù)性能的意外關聯(lián)

研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:模型對不同字母的計數(shù)準確率不同。具體來說,在英語中出現(xiàn)頻率較低的字母(如'b'和'z')的計數(shù)表現(xiàn)明顯優(yōu)于高頻字母(如'a'和'e')。

為什么會出現(xiàn)這種現(xiàn)象?研究人員推測,這可能是因為高頻字母在模型訓練過程中獲得了更豐富、更復雜的語義表示,反而使得模型難以將其單純視為計數(shù)對象。相比之下,低頻字母的表示更為單一,模型能更容易地將其識別為離散的計數(shù)單元。

這個發(fā)現(xiàn)揭示了語言模型在處理符號時的一個重要特性:字符在自然語言中的使用頻率會影響模型對其作為純符號處理的能力。這也提示我們,在設計需要符號操作的提示時,使用低頻符號可能會獲得更好的性能。

六、解決之道:優(yōu)化分詞策略釋放模型潛能

研究團隊的發(fā)現(xiàn)為提高大語言模型在符號和算術推理方面的能力提供了明確的方向。通過優(yōu)化分詞策略,特別是確保符號單元與詞元邊界對齊,我們可以顯著提升模型的推理性能。

具體來說,當我們需要讓語言模型執(zhí)行字符級別的操作(如計數(shù)、排序或字符串反轉)時,最好使用能保持字符原子性的分詞格式,比如用引號或特殊分隔符將每個字符隔開。這樣做可以確保模型能清晰地識別每個字符,從而提高推理的準確性。

研究還表明,思維鏈提示技術與優(yōu)化分詞策略相結合,能產生"1+1>2"的效果。思維鏈為模型提供了遞歸推理的能力,而優(yōu)化的分詞策略則確保模型能精確識別和處理符號單元,兩者結合可以顯著釋放模型的推理潛能。

七、研究啟示:理解和突破語言模型的限制

這項研究的意義遠不止于提高特定任務的性能。它深刻揭示了語言模型推理能力的本質和限制,提醒我們注意那些看似微不足道但實際影響重大的基礎組件。

首先,它強調了語言模型的推理能力不僅受制于其架構設計(如層數(shù)和參數(shù)規(guī)模),還深受其對輸入信息的初始處理方式影響。這就像是兩個智商相當?shù)娜耍粋€戴著清晰的眼鏡,一個戴著模糊的眼鏡,即使他們的思考能力相同,獲取信息的質量差異也會導致最終判斷的巨大差異。

其次,這項研究提醒我們,在測評語言模型的能力時,要考慮到輸入格式對性能的影響。一個在特定輸入格式下表現(xiàn)優(yōu)異的模型,在其他格式下可能表現(xiàn)平平。這啟示我們在設計提示和評估模型時,應考慮分詞等底層因素的影響。

最后,這項研究為未來語言模型的改進指明了方向。除了增加模型規(guī)模和訓練數(shù)據(jù)量外,優(yōu)化分詞系統(tǒng)和提示格式可能是提升模型能力的更高效途徑。未來的語言模型可能會采用更靈活的分詞策略,或者在訓練過程中專門優(yōu)化對符號和算術操作的處理能力。

八、結論:重視基礎,優(yōu)化交互

歸根結底,這項研究告訴我們一個簡單而深刻的道理:即使是最先進的人工智能系統(tǒng),其能力也受制于其感知和處理信息的基礎機制。就像一個天才如果戴著模糊的眼鏡閱讀,也會受到限制一樣,大語言模型的推理能力同樣受制于其分詞系統(tǒng)的質量。

對于開發(fā)者和研究人員來說,這項研究提供了一個實用的指導:在設計需要精確符號操作的提示時,考慮使用能保持符號原子性的分詞格式。對于普通用戶來說,了解這一限制可以幫助我們更好地理解為什么有時候語言模型會在看似簡單的任務上犯錯,以及如何通過優(yōu)化輸入格式來獲得更好的結果。

最后值得一提的是,盡管這項研究主要關注符號和算術推理,但其發(fā)現(xiàn)可能對更廣泛的語言理解任務也有啟示。分詞系統(tǒng)作為語言模型處理信息的第一道門檻,其設計和優(yōu)化值得我們給予更多關注。

隨著人工智能研究的深入,我們或許會看到專門針對不同類型任務優(yōu)化的分詞系統(tǒng),使語言模型在符號推理、算術計算和語言理解等多個方面都能發(fā)揮最佳性能。在人工智能的發(fā)展道路上,有時候真正的突破不在于構建更大的系統(tǒng),而在于更好地理解和優(yōu)化現(xiàn)有系統(tǒng)的基礎組件。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-