這項由加州Menlo Research的Alan Dao(Gia Tuan Dao)和Dinh Bach Vu共同完成的研究發(fā)表于2025年7月1日,相關(guān)技術(shù)報告已在arXiv平臺公開發(fā)布(編號:arXiv:2506.22760v1)。有興趣深入了解的讀者可以訪問Hugging Face平臺上的多個模型版本,包括標(biāo)準(zhǔn)版Jan-nano、GGUF格式版本以及支持128K上下文長度的擴(kuò)展版本。
過去,人工智能模型的發(fā)展一直遵循著一個看似鐵律的規(guī)則:想要更強(qiáng)大的能力,就必須付出更多的計算資源代價。這就像造房子一樣,想要更大的房子,就需要更多的材料和空間。但Menlo Research的研究團(tuán)隊卻提出了一個顛覆性的想法:與其讓AI模型試圖記住世界上的所有知識,不如讓它精通"找到任何信息"的技能。
這個思路就像培養(yǎng)一個圖書管理員。傳統(tǒng)的做法是讓管理員把圖書館里的每本書都背下來,這需要超人的記憶力。而Jan-nano采用的新方法是讓管理員熟練掌握圖書館的檢索系統(tǒng),知道如何快速找到任何需要的信息。結(jié)果證明,后者不僅效率更高,而且所需的"腦容量"也小得多。
Jan-nano是一個只有40億參數(shù)的語言模型,基于Qwen3-4B進(jìn)行了深度改造。在SimpleQA基準(zhǔn)測試中,它配合MCP(模型上下文協(xié)議)集成后達(dá)到了83.2%的準(zhǔn)確率。這個成績有多令人驚訝呢?要知道,連參數(shù)量達(dá)到6710億的DeepSeek模型在相同測試中也只達(dá)到了78.2%的準(zhǔn)確率。這就像一個4年級的小學(xué)生在智力競賽中擊敗了博士生一樣令人震撼。
研究團(tuán)隊的核心創(chuàng)新在于完全摒棄了傳統(tǒng)的"下一個詞預(yù)測"訓(xùn)練方式,轉(zhuǎn)而采用了一種叫做"多階段RLVR系統(tǒng)"的全新訓(xùn)練方法。傳統(tǒng)的語言模型訓(xùn)練就像讓學(xué)生通過不斷的背誦來學(xué)習(xí),而新方法更像是通過解決實際問題來提升能力。這種訓(xùn)練方式讓Jan-nano學(xué)會了如何高效地使用工具,而不是單純地存儲信息。
**一、創(chuàng)新的訓(xùn)練方法論:從背書生到實踐家**
Jan-nano的訓(xùn)練過程可以比作培養(yǎng)一個優(yōu)秀的調(diào)研員。傳統(tǒng)的AI訓(xùn)練方法就像讓調(diào)研員死記硬背百科全書,希望他們能回答任何問題。但Jan-nano的訓(xùn)練更像是教會調(diào)研員如何使用圖書館、如何搜索數(shù)據(jù)庫、如何驗證信息的可靠性。
整個訓(xùn)練過程分為三個循序漸進(jìn)的階段,就像學(xué)習(xí)駕駛汽車一樣。第一階段相當(dāng)于學(xué)習(xí)基本操作,讓模型掌握如何使用搜索工具和網(wǎng)頁抓取功能。第二階段專注于提高答案質(zhì)量,就像從新手司機(jī)成長為熟練司機(jī)。第三階段則是擴(kuò)展處理能力,將上下文長度從8K擴(kuò)展到40K,相當(dāng)于從城市道路駕駛擴(kuò)展到高速公路駕駛。
研究團(tuán)隊使用了MuSiQue-Ans數(shù)據(jù)集進(jìn)行訓(xùn)練,這是一個專門設(shè)計的多跳問答數(shù)據(jù)集。所謂"多跳"問答,就像解決一個需要多個線索的推理題。比如要回答"誰訓(xùn)練了9/11劫機(jī)者中的兩人"這樣的問題,模型需要先搜索相關(guān)信息,然后將不同來源的信息組合起來得出答案。訓(xùn)練數(shù)據(jù)包含了10325個樣本,其中67.8%是需要兩步推理的問題,20.8%需要三步推理,11.4%需要四步推理。
最令人驚訝的是,研究團(tuán)隊完全放棄了傳統(tǒng)的監(jiān)督學(xué)習(xí)方法,轉(zhuǎn)而使用一種叫做DAPO(直接偏好優(yōu)化對齊)的技術(shù)。這種方法的獨特之處在于強(qiáng)制模型不進(jìn)行"思考"過程,直接給出答案。這聽起來可能違反直覺,但實際效果證明,對于某些任務(wù)來說,過度思考反而會導(dǎo)致性能下降。
**二、本地RAG服務(wù)器:搭建專屬知識檢索系統(tǒng)**
為了訓(xùn)練Jan-nano的搜索能力,研究團(tuán)隊構(gòu)建了一個模擬真實搜索引擎的本地RAG(檢索增強(qiáng)生成)服務(wù)器。這個系統(tǒng)就像為模型建立了一個私人圖書館,讓它能在可控的環(huán)境中學(xué)習(xí)如何高效檢索信息。
這個檢索系統(tǒng)采用了兩階段的設(shè)計架構(gòu)。首先使用E5-base-v2編碼器對所有文檔生成密集嵌入向量,然后使用FAISS庫建立索引以實現(xiàn)快速相似性搜索。當(dāng)模型提出查詢時,系統(tǒng)會先檢索出最相關(guān)的15個文檔,然后使用cross-encoder模型ms-marco-MiniLM-L12-v2對這些文檔進(jìn)行重新排序,最終返回質(zhì)量最高的10個結(jié)果。
這種設(shè)計模擬了真實搜索引擎的工作方式。系統(tǒng)提供兩個主要工具:websearch功能返回最多10個相關(guān)文檔的150字符預(yù)覽,就像搜索引擎的結(jié)果摘要;scrape功能則可以獲取特定文檔的完整內(nèi)容。這種設(shè)計鼓勵模型學(xué)習(xí)高效的搜索策略,先通過預(yù)覽篩選相關(guān)文檔,再選擇性地獲取完整信息。
整個訓(xùn)練環(huán)境的設(shè)計非常巧妙。模型必須學(xué)會使用特定的XML格式進(jìn)行工具調(diào)用:使用標(biāo)簽調(diào)用工具,標(biāo)簽顯示結(jié)果,標(biāo)簽給出最終答案。這種結(jié)構(gòu)化格式不僅便于訓(xùn)練過程中的解析和比較,也讓模型能夠發(fā)展出自主推理模式,而無需復(fù)雜的系統(tǒng)提示。
**三、三階段漸進(jìn)式訓(xùn)練策略**
Jan-nano的訓(xùn)練過程就像培養(yǎng)一個專業(yè)研究員,需要循序漸進(jìn)地掌握不同技能。第一階段是"工具使用基礎(chǔ)"訓(xùn)練,模型在8K上下文長度下學(xué)習(xí)基本的工具操作和交互模式。這個階段的獎勵函數(shù)同時考慮多個目標(biāo):答案正確性、工具執(zhí)行成功率、格式規(guī)范性和XML結(jié)構(gòu)合規(guī)性。這就像教一個新員工學(xué)會使用辦公軟件,不僅要會操作,還要規(guī)范地操作。
第二階段轉(zhuǎn)向"答案質(zhì)量專注"訓(xùn)練,同樣在8K上下文長度下進(jìn)行。在這個階段,研究團(tuán)隊移除了工具執(zhí)行和格式相關(guān)的獎勵,將模型的注意力完全集中在提高答案準(zhǔn)確性上。獎勵函數(shù)主要關(guān)注答案正確性,同時保持最基本的XML結(jié)構(gòu)指導(dǎo)。這種策略迫使模型在已經(jīng)掌握基本工具使用技能的基礎(chǔ)上,專注于如何更準(zhǔn)確地回答問題。
第三階段是"上下文擴(kuò)展"訓(xùn)練,將模型處理長文本的能力從8K擴(kuò)展到40K tokens。這個階段的獎勵函數(shù)只強(qiáng)調(diào)正確性和XML結(jié)構(gòu),類似于前一階段,確保模型在適應(yīng)擴(kuò)展上下文長度的同時保持高質(zhì)量響應(yīng)。這種擴(kuò)展讓模型能夠處理更復(fù)雜的多文檔信息整合任務(wù)。
整個訓(xùn)練過程中,研究團(tuán)隊堅持使用"強(qiáng)制非思考"模式,防止模型產(chǎn)生過度思考行為。這個決定基于他們的重要發(fā)現(xiàn):較大的模型往往會表現(xiàn)出過度思考的問題,通過不必要的額外過濾參數(shù)和過于復(fù)雜的搜索方法降低搜索性能。
**四、"過度思考"問題的驚人發(fā)現(xiàn)**
研究過程中最有趣的發(fā)現(xiàn)之一是"過度思考"現(xiàn)象。研究團(tuán)隊在開發(fā)過程中系統(tǒng)地比較了"思考模式"和"非思考模式"在不同模型規(guī)模下的表現(xiàn),結(jié)果令人意外。
在4B參數(shù)規(guī)模下,思考模式達(dá)到71.0%的SimpleQA得分,而8B參數(shù)模型的思考模式卻只有62.2%。這個反直覺的結(jié)果揭示了一個重要問題:模型規(guī)模越大,越容易陷入"分析癱瘓"的困境。大模型會應(yīng)用時間過濾等復(fù)雜約束條件,反而排除了相關(guān)結(jié)果,導(dǎo)致幻覺響應(yīng)。
研究團(tuán)隊提供了具體的對比案例來說明這個問題。在回答"訓(xùn)練了9/11劫機(jī)者中兩人的荷蘭商人和毒品販子的名字是什么"這個問題時,4B模型采用直接搜索策略,成功檢索到準(zhǔn)確信息并正確識別出Rudi Dekkers。而8B模型卻應(yīng)用了年份過濾(filter year=2001),這個看似合理的限制實際上排除了包含正確答案的搜索結(jié)果,最終導(dǎo)致模型給出了錯誤的答案"Randy Weaver"。
類似的問題在另一個案例中也有體現(xiàn)。詢問"1985年發(fā)布的科幻動畫電視系列ThunderCats的制作經(jīng)理是誰"時,4B模型通過簡單搜索迅速找到正確答案Masaki Iizuka。8B模型同樣因為應(yīng)用年份過濾限制,只能在1985年的有限文檔中搜索,最終無法找到相關(guān)信息,只能給出虛構(gòu)的答案"Susan Cavan"。
這些發(fā)現(xiàn)表明,在配備了強(qiáng)大搜索工具的情況下,模型的"聰明才智"有時反而成為障礙。就像一個過度謹(jǐn)慎的研究員,設(shè)置了太多搜索限制條件,反而錯過了最重要的信息源。基于這些觀察,研究團(tuán)隊在后續(xù)版本中采用了強(qiáng)制非思考訓(xùn)練,顯著提高了響應(yīng)速度,同時保持了競爭性的準(zhǔn)確率。
**五、智能體配置評估:不同框架下的性能表現(xiàn)**
為了全面評估Jan-nano的能力,研究團(tuán)隊測試了不同的工作流程范式。他們比較了傳統(tǒng)的結(jié)構(gòu)化工作流程(語言模型在預(yù)定義代碼路徑中運行)和智能體工作流程(語言模型自主指導(dǎo)行動并基于環(huán)境反饋做決策)。
在智能體工作流程中,模型保持對決策過程、工具選擇和執(zhí)行流程的完全控制權(quán)。研究團(tuán)隊測試了兩種實現(xiàn)方式:來自smolagents的CodeAgent和基于LangGraph的ReAct。初期使用CodeAgent框架的評估顯示了性能局限性,主要原因是模板格式不匹配。Jan-nano使用JSON工具調(diào)用模板進(jìn)行訓(xùn)練,而CodeAgent需要Python代碼生成,這是模型未經(jīng)優(yōu)化的格式。
隨后使用LangGraph ReAct實現(xiàn)進(jìn)行的評估顯示了改進(jìn)的性能。這個實現(xiàn)通過MCP服務(wù)器使用JSON格式的工具調(diào)用,與Jan-nano的訓(xùn)練模板完全匹配。在完整SimpleQA數(shù)據(jù)集上,Jan-nano在smolagents CodeAgent框架下達(dá)到76.2%的準(zhǔn)確率,而在LangGraph MCP框架下達(dá)到80.7%的準(zhǔn)確率,顯示了4.5個百分點的性能差異。
這種相對適中的差異證明了模型適應(yīng)不同工具調(diào)用格式的能力,同時保持競爭性能。性能差異主要反映了模板格式對齊的重要性:Jan-nano在與其訓(xùn)練格式直接匹配的JSON工具調(diào)用模板上表現(xiàn)更佳,而在需要Python代碼生成的格式上稍遜一籌。
通過這個評估過程,研究團(tuán)隊認(rèn)識到模型上下文協(xié)議(MCP)工具提供了最靈活的框架來復(fù)制真實的智能體應(yīng)用用戶體驗。與施加嚴(yán)格工具集成和交互模式約束的傳統(tǒng)評估框架不同,MCP支持多樣化工具和服務(wù)的無縫集成,讓模型能夠以鏡像實際部署場景的方式與真實世界系統(tǒng)交互。
**六、技術(shù)實現(xiàn)細(xì)節(jié)與模型架構(gòu)**
Jan-nano的技術(shù)架構(gòu)建立在對Qwen3-4B模型的深度改造之上。整個系統(tǒng)采用JSON-in-XML格式進(jìn)行工具交互,這種設(shè)計在可靠性和靈活性之間找到了最佳平衡點。工具調(diào)用使用{"name": "tool name", "args": {params}}標(biāo)簽,結(jié)果顯示在content標(biāo)簽中,最終答案使用content標(biāo)簽。
這種結(jié)構(gòu)化XML格式在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中發(fā)揮了重要作用,便于可靠的解析和比較,同時使模型能夠發(fā)展出自主推理模式,只需要最少的系統(tǒng)提示。模型的128K上下文長度版本在SimpleQA基準(zhǔn)測試中表現(xiàn)出比標(biāo)準(zhǔn)版本2.5個百分點的提升,達(dá)到83.2%的準(zhǔn)確率,表明擴(kuò)展上下文長度對這類基準(zhǔn)測試是有益的。
Jan-nano目前主要針對英語進(jìn)行了優(yōu)化,需要適當(dāng)?shù)奶崾竟こ桃垣@得最佳結(jié)果,這些優(yōu)化已經(jīng)集成到模型中。研究團(tuán)隊使用DAPO技術(shù)進(jìn)行微調(diào),這種方法利用可驗證的獎勵信號指導(dǎo)學(xué)習(xí),而不需要大規(guī)模數(shù)據(jù)集。這種方法的優(yōu)勢在于它可以直接優(yōu)化模型在特定任務(wù)上的表現(xiàn),而不是依賴于通用的語言建模目標(biāo)。
模型的部署考慮了消費級硬件的限制。4B參數(shù)的規(guī)模使得Jan-nano能夠在普通GPU上運行,而不需要昂貴的企業(yè)級硬件。同時,模型提供了GGUF格式版本,進(jìn)一步優(yōu)化了部署效率和兼容性。這種設(shè)計理念體現(xiàn)了研究團(tuán)隊"效率優(yōu)于規(guī)模"的核心思想。
**七、性能基準(zhǔn)測試與對比分析**
在SimpleQA基準(zhǔn)測試中,Jan-nano的表現(xiàn)令整個AI社區(qū)刮目相看。83.2%的準(zhǔn)確率不僅超越了許多參數(shù)規(guī)模遠(yuǎn)超自己的模型,更重要的是展現(xiàn)了"小而精"設(shè)計理念的巨大潛力。相比之下,OpenAI的o1模型僅達(dá)到42.6%,Claude-3.7-Sonnet為50.0%,Gemini-2.5 Pro為52.9%。即使是ChatGPT-4.5也只有62.5%的表現(xiàn)。
最引人注目的對比是與DeepSeek-671B模型的比較。這個擁有6710億參數(shù)的巨型模型在相同測試中達(dá)到78.2%的準(zhǔn)確率,比Jan-nano低了5個百分點。這種對比就像一輛經(jīng)濟(jì)型轎車在燃油效率競賽中擊敗了重型卡車,充分展示了優(yōu)化設(shè)計的威力。
Jan-nano相比基線Qwen3-4B模型實現(xiàn)了24個百分點的顯著提升,從59.2%提升到83.2%。這種提升主要歸功于MCP集成和專門的工具使用訓(xùn)練。雖然研究團(tuán)隊承認(rèn)不同MCP實現(xiàn)和評估設(shè)置可能影響直接比較,但這種幅度的改進(jìn)仍然是令人印象深刻的。
Jan-nano 128K上下文變體比標(biāo)準(zhǔn)變體有2.5個百分點的適度改進(jìn),從80.7%提升到83.2%。這表明擴(kuò)展上下文長度對這種基準(zhǔn)測試是有益的,可能是因為模型能夠處理更復(fù)雜的多文檔信息整合任務(wù)。
這些性能結(jié)果挑戰(zhàn)了AI開發(fā)中的傳統(tǒng)假設(shè)。長期以來,業(yè)界普遍認(rèn)為更好的性能需要更大的模型和更多的計算資源。Jan-nano的成功證明,通過聚焦特定能力(如工具使用和信息檢索)而不是試圖在模型中編碼百科全書式知識,可以實現(xiàn)更高的效率和更好的結(jié)果。
**八、未來發(fā)展方向與局限性**
盡管Jan-nano取得了令人矚目的成功,研究團(tuán)隊也坦率地承認(rèn)了當(dāng)前版本的局限性。模型目前在SimpleQA基準(zhǔn)測試中達(dá)到83.2%的性能,未來的工作目標(biāo)是通過改進(jìn)量化方法和擴(kuò)展工具集成能力,將性能提升到85-90%的范圍。
語言支持是另一個需要改進(jìn)的領(lǐng)域。Jan-nano主要針對英語進(jìn)行了優(yōu)化,對于其他語言的支持還需要進(jìn)一步的研究和開發(fā)。這種局限性在全球化的AI應(yīng)用環(huán)境中是一個需要解決的重要問題。
模型需要適當(dāng)?shù)奶崾竟こ滩拍塬@得最佳結(jié)果,雖然這些優(yōu)化已經(jīng)集成到模型中,但仍然需要用戶具備一定的技術(shù)理解。未來的發(fā)展方向可能包括進(jìn)一步簡化使用方式,讓普通用戶也能輕松發(fā)揮模型的全部潛力。
研究團(tuán)隊的成功為AI開發(fā)開辟了新的道路。通過證明專門化訓(xùn)練可以讓小型模型在特定任務(wù)上超越大型通用模型,Jan-nano為資源受限的研究團(tuán)隊和應(yīng)用開發(fā)者提供了新的可能性。這種方法特別適合那些需要高效、可靠工具使用能力的應(yīng)用場景。
從更廣闊的視角來看,Jan-nano的成功可能標(biāo)志著AI發(fā)展范式的轉(zhuǎn)變。與其追求包羅萬象的超大型模型,未來可能會看到更多針對特定任務(wù)優(yōu)化的專門化模型。這種趨勢不僅能夠提高效率,還能降低AI技術(shù)的使用門檻,讓更多人能夠享受人工智能帶來的便利。
說到底,Jan-nano最大的貢獻(xiàn)可能不是它在某個基準(zhǔn)測試中的優(yōu)異表現(xiàn),而是它向我們展示了一種全新的思考方式。在AI領(lǐng)域,有時候聰明的策略比暴力的計算更重要,專注的方向比全面的覆蓋更有效。這個只有40億參數(shù)的"小個子"模型,用它的表現(xiàn)告訴我們:智能不在于知道所有答案,而在于知道如何找到答案。對于那些希望在資源有限的情況下開發(fā)高效AI應(yīng)用的研究者和開發(fā)者來說,Jan-nano提供了一個極具啟發(fā)性的范例。有興趣深入了解這項技術(shù)的讀者,可以通過arXiv平臺訪問完整的技術(shù)報告,或在Hugging Face平臺體驗不同版本的模型。
Q&A
Q1:Jan-nano是什么?它和傳統(tǒng)AI模型有什么不同? A:Jan-nano是Menlo Research開發(fā)的4B參數(shù)語言模型,最大特點是"會找信息"而不是"記住信息"。傳統(tǒng)AI模型像百科全書,試圖記住所有知識;Jan-nano更像圖書管理員,精通如何快速找到任何需要的信息。
Q2:為什么Jan-nano能用更少參數(shù)擊敗更大的模型? A:關(guān)鍵在于專門化訓(xùn)練。Jan-nano放棄了通用知識存儲,專注訓(xùn)練搜索和工具使用能力。就像專業(yè)選手在自己擅長的項目上能擊敗全能選手一樣,專門化使它在特定任務(wù)上表現(xiàn)更出色。
Q3:普通人能使用Jan-nano嗎?它有什么實際應(yīng)用? A:可以。Jan-nano設(shè)計時考慮了消費級硬件限制,普通GPU就能運行。它特別適合需要實時信息檢索的應(yīng)用,比如智能客服、研究助手、實時問答系統(tǒng)等,能夠準(zhǔn)確回答需要搜索驗證的復(fù)雜問題。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。