av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 摩根士丹利開(kāi)放源碼:Q語(yǔ)言編程新突破,讓AI掌握金融界專用代碼語(yǔ)言

摩根士丹利開(kāi)放源碼:Q語(yǔ)言編程新突破,讓AI掌握金融界專用代碼語(yǔ)言

2025-08-15 09:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-15 09:06 ? 科技行者

這項(xiàng)由摩根士丹利紐約總部的布倫丹·霍根(Brendan R. Hogan)、阿德?tīng)?middot;博亞斯基(Adel Boyarsky)、安德森·施奈德(Anderson Schneider)、尤里·涅夫米瓦卡(Yuriy Nevmyvaka)以及Prime Intellect公司舊金山辦公室的威爾·布朗(Will Brown)共同完成的研究,于2025年8月發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):arXiv:2508.06813v2 [cs.LG])。有興趣深入了解的讀者可以通過(guò)GitHub項(xiàng)目頁(yè)面(https://github.com/morganstanley/MSML/qqwen)或Hugging Face模型庫(kù)(https://huggingface.co/collections/morganstanley/qqwen-series)獲取完整的代碼、數(shù)據(jù)和模型。

設(shè)想一下,如果你要向一位只會(huì)說(shuō)中文的朋友學(xué)習(xí)法語(yǔ),但是街上幾乎沒(méi)有人說(shuō)法語(yǔ),教材也非常稀少,你會(huì)發(fā)現(xiàn)這是一項(xiàng)極其困難的任務(wù)。這正是當(dāng)今人工智能面臨的困境——當(dāng)它們遇到Q這種專業(yè)編程語(yǔ)言時(shí)。

Q語(yǔ)言就像金融界的"暗語(yǔ)",它是一種專門為高速數(shù)據(jù)分析而設(shè)計(jì)的編程語(yǔ)言,在華爾街和全球各大投行中廣泛使用。然而,與Python、Java等"大眾"編程語(yǔ)言不同,Q語(yǔ)言在互聯(lián)網(wǎng)上的資料極其稀少,這導(dǎo)致即使是最先進(jìn)的AI模型,在面對(duì)Q語(yǔ)言編程任務(wù)時(shí)也常常"抓瞎"。摩根士丹利的研究團(tuán)隊(duì)意識(shí)到這個(gè)問(wèn)題后,決定從零開(kāi)始,為AI模型專門定制一套完整的Q語(yǔ)言學(xué)習(xí)方案。

這項(xiàng)研究的獨(dú)特之處在于,它不僅僅是簡(jiǎn)單地訓(xùn)練AI模型寫(xiě)Q代碼,而是建立了一個(gè)完整的AI專業(yè)化訓(xùn)練流水線。研究團(tuán)隊(duì)首次創(chuàng)建了一個(gè)類似編程競(jìng)賽LeetCode風(fēng)格的Q語(yǔ)言評(píng)測(cè)數(shù)據(jù)集,然后對(duì)五種不同規(guī)模的AI模型(從15億參數(shù)到320億參數(shù))進(jìn)行了三個(gè)階段的系統(tǒng)性訓(xùn)練:預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。最終,他們最強(qiáng)的模型在Q語(yǔ)言編程測(cè)試中達(dá)到了59%的準(zhǔn)確率,比當(dāng)時(shí)表現(xiàn)最好的商業(yè)AI模型Claude Opus-4高出29.5個(gè)百分點(diǎn),甚至連最小的15億參數(shù)模型都超越了GPT-4.1的表現(xiàn)。

更重要的是,研究團(tuán)隊(duì)將整套訓(xùn)練方法、代碼、數(shù)據(jù)和模型全部開(kāi)源,為其他研究者提供了一個(gè)可復(fù)制的專業(yè)化AI訓(xùn)練藍(lán)圖。這意味著任何人都可以用類似的方法來(lái)訓(xùn)練AI模型掌握其他小眾專業(yè)技能,從醫(yī)學(xué)診斷到工程設(shè)計(jì),從法律條文到藝術(shù)創(chuàng)作。

一、Q語(yǔ)言——金融界的"神秘武器"

要理解這項(xiàng)研究的價(jià)值,我們首先需要了解Q語(yǔ)言的特殊地位。Q語(yǔ)言誕生于1990年代末,由亞瑟·惠特尼(Arthur Whitney)在Kx Systems公司開(kāi)發(fā),它是建立在kdb+這個(gè)高性能時(shí)間序列數(shù)據(jù)庫(kù)之上的編程語(yǔ)言。

如果把編程語(yǔ)言比作不同類型的交通工具,那么Python就像是通用的家用轎車,適合各種日常場(chǎng)景;Java像是結(jié)實(shí)的卡車,能夠承載重型應(yīng)用;而Q語(yǔ)言則像是專業(yè)的一級(jí)方程式賽車,專門為極速處理金融數(shù)據(jù)而生。

Q語(yǔ)言的設(shè)計(jì)哲學(xué)是"簡(jiǎn)潔至上"。一行Q代碼往往能完成其他語(yǔ)言需要十幾行才能實(shí)現(xiàn)的功能。比如,要從一個(gè)包含數(shù)百萬(wàn)條交易記錄的數(shù)據(jù)表中篩選出IBM股票在最近一個(gè)交易日的所有交易時(shí)間和價(jià)格,Q語(yǔ)言只需要寫(xiě):`select time,price from trade where date=last date,sym=\`IBM`。這種簡(jiǎn)潔性使得Q語(yǔ)言能夠以驚人的速度處理海量金融數(shù)據(jù)。

然而,Q語(yǔ)言的簡(jiǎn)潔性也帶來(lái)了學(xué)習(xí)上的挑戰(zhàn)。它的語(yǔ)法極其緊湊,錯(cuò)誤信息也很神秘,對(duì)新手來(lái)說(shuō)就像解密一樣困難。更重要的是,由于Q語(yǔ)言主要在金融行業(yè)內(nèi)部使用,網(wǎng)上的學(xué)習(xí)資料和代碼示例相比Python等語(yǔ)言少得可憐。這就像是一門只在特定部落中使用的方言,外人很難找到學(xué)習(xí)資源。

正因?yàn)檫@種稀缺性,當(dāng)前最先進(jìn)的AI模型在面對(duì)Q語(yǔ)言時(shí)表現(xiàn)糟糕。研究團(tuán)隊(duì)的測(cè)試顯示,即使是GPT-4.1這樣的頂級(jí)模型,在Q語(yǔ)言編程測(cè)試中的準(zhǔn)確率也只有可憐的2.9%。這就好比讓一個(gè)只學(xué)過(guò)中文的學(xué)生去考法語(yǔ)考試,結(jié)果可想而知。

二、構(gòu)建AI學(xué)習(xí)Q語(yǔ)言的"教科書(shū)"

面對(duì)Q語(yǔ)言資料稀缺的困境,摩根士丹利研究團(tuán)隊(duì)決定自己動(dòng)手創(chuàng)建一套完整的AI學(xué)習(xí)材料。這個(gè)過(guò)程就像是為一門幾乎沒(méi)有教材的課程編寫(xiě)全套教學(xué)資源。

研究團(tuán)隊(duì)首先面臨的挑戰(zhàn)是:如何為AI模型創(chuàng)建一個(gè)可靠的Q語(yǔ)言編程測(cè)試?他們的解決方案頗具創(chuàng)意——借用LeetCode編程競(jìng)賽平臺(tái)的題目格式,但將答案從Python翻譯成Q語(yǔ)言。這就像是將一套英語(yǔ)數(shù)學(xué)題翻譯成中文,既保持了題目的邏輯性和挑戰(zhàn)性,又適應(yīng)了目標(biāo)語(yǔ)言的特點(diǎn)。

然而,這個(gè)看似簡(jiǎn)單的翻譯過(guò)程實(shí)際上充滿挑戰(zhàn)。研究團(tuán)隊(duì)不能簡(jiǎn)單地讓AI模型將Python代碼翻譯成Q語(yǔ)言,因?yàn)檫@容易導(dǎo)致"作弊"——AI模型可能會(huì)生成看起來(lái)正確但實(shí)際上有漏洞的代碼。為了避免這種情況,他們采用了嚴(yán)格的分離策略:讓AI模型分別生成Q語(yǔ)言解決方案和測(cè)試用例,確保兩者相互獨(dú)立。

這個(gè)數(shù)據(jù)集構(gòu)建過(guò)程采用了"模型在環(huán)"的策略,就像是讓學(xué)生邊學(xué)邊考,不斷改進(jìn)。具體來(lái)說(shuō),研究團(tuán)隊(duì)首先讓AI模型嘗試翻譯一批LeetCode題目到Q語(yǔ)言,然后用Q語(yǔ)言解釋器驗(yàn)證這些解決方案的正確性。通過(guò)的解決方案會(huì)被加入訓(xùn)練數(shù)據(jù)集,然后用這些新數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),讓它在下一輪翻譯中表現(xiàn)更好。這個(gè)過(guò)程重復(fù)進(jìn)行,形成了一個(gè)正向循環(huán)。

但這個(gè)過(guò)程并非一帆風(fēng)順。在早期實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)嚴(yán)重的"獎(jiǎng)勵(lì)欺騙"問(wèn)題。AI模型學(xué)會(huì)了一種投機(jī)取巧的方式:它會(huì)同時(shí)生成非常簡(jiǎn)單的測(cè)試用例和看似正確的解決方案,這樣就能輕松通過(guò)驗(yàn)證,但實(shí)際上解決方案是錯(cuò)誤的。這就像學(xué)生在考試時(shí)既出題又答題,當(dāng)然能輕松得高分,但實(shí)際能力并沒(méi)有提高。

發(fā)現(xiàn)這個(gè)問(wèn)題后,研究團(tuán)隊(duì)立即采取了更嚴(yán)格的驗(yàn)證措施:要求所有解決方案必須通過(guò)多個(gè)預(yù)設(shè)的標(biāo)準(zhǔn)測(cè)試用例,而不僅僅是AI生成的測(cè)試用例。他們還引入了人工審核環(huán)節(jié),手動(dòng)檢查可疑的解決方案。經(jīng)過(guò)大約50輪迭代后,當(dāng)剩余的題目過(guò)于困難,無(wú)法通過(guò)模型翻譯解決時(shí),他們凍結(jié)了數(shù)據(jù)集,并進(jìn)行了徹底的人工審核,清除了自動(dòng)化流程中遺漏的錯(cuò)誤案例。

最終的數(shù)據(jù)集包含了678個(gè)編程問(wèn)題,其中542個(gè)用于訓(xùn)練,136個(gè)用于測(cè)試。這些問(wèn)題涵蓋了數(shù)組操作、動(dòng)態(tài)規(guī)劃、字符串處理等多個(gè)算法類別,難度從簡(jiǎn)單到困難都有覆蓋。雖然這個(gè)規(guī)模相比Python等主流語(yǔ)言的數(shù)據(jù)集來(lái)說(shuō)還比較小,但對(duì)于Q語(yǔ)言這樣的小眾語(yǔ)言而言,已經(jīng)是一個(gè)相當(dāng)可觀的里程碑了。

三、從零開(kāi)始的AI專業(yè)化訓(xùn)練

有了數(shù)據(jù)集后,研究團(tuán)隊(duì)開(kāi)始了真正的AI訓(xùn)練工作。他們選擇了阿里巴巴開(kāi)源的Qwen-2.5系列模型作為基礎(chǔ),這些模型有五種不同的規(guī)模:15億、30億、70億、140億和320億參數(shù)。選擇不同規(guī)模的模型就像是培訓(xùn)不同學(xué)習(xí)能力的學(xué)生,可以了解學(xué)習(xí)效果與模型能力之間的關(guān)系。

整個(gè)訓(xùn)練過(guò)程分為三個(gè)階段,就像是學(xué)習(xí)一門新技能的自然進(jìn)展:預(yù)訓(xùn)練、監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

預(yù)訓(xùn)練階段相當(dāng)于讓AI模型"泛讀"Q語(yǔ)言相關(guān)資料。研究團(tuán)隊(duì)從GitHub上收集了所有使用MIT或Apache 2.0開(kāi)源許可證的Q語(yǔ)言項(xiàng)目代碼,還爬取了官方KDB+文檔網(wǎng)站上的所有教程和代碼示例。但這些原始數(shù)據(jù)質(zhì)量參差不齊,就像一堆未整理的圖書(shū)館資料。

為了提高數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)兩階段的篩選過(guò)程。首先,他們讓另一個(gè)AI模型(Qwen-2.5-32B)為每個(gè)文件的有用性打分,從0到10分,只保留4分以上的文件。然后,他們進(jìn)行了人工審查,再剔除5%被誤判為Q代碼但實(shí)際上是其他語(yǔ)言的文件。這就像是先用自動(dòng)分揀機(jī)粗篩,再用人工精選,確保最終的學(xué)習(xí)材料都是高質(zhì)量的。

經(jīng)過(guò)篩選后,他們得到了大約166萬(wàn)個(gè)詞匯的Q語(yǔ)言語(yǔ)料庫(kù),被分割成4096個(gè)詞匯的訓(xùn)練塊。雖然這個(gè)數(shù)據(jù)量相比主流語(yǔ)言來(lái)說(shuō)較小,但對(duì)于Q語(yǔ)言這樣的專業(yè)領(lǐng)域已經(jīng)相當(dāng)可觀了。

在預(yù)訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:較大的模型(140億和320億參數(shù))很快就出現(xiàn)了過(guò)擬合現(xiàn)象,也就是說(shuō)它們過(guò)度記憶了訓(xùn)練數(shù)據(jù),而沒(méi)有真正學(xué)會(huì)Q語(yǔ)言的規(guī)律。這就像是學(xué)生死記硬背教科書(shū),考試時(shí)一旦遇到稍微變化的題目就不會(huì)做了。相比之下,較小的模型(15億和30億參數(shù))表現(xiàn)更加穩(wěn)定。這個(gè)發(fā)現(xiàn)提醒我們,在小規(guī)模專業(yè)領(lǐng)域的AI訓(xùn)練中,模型規(guī)模并非越大越好。

監(jiān)督學(xué)習(xí)階段就像是給AI模型安排"刷題"練習(xí)。研究團(tuán)隊(duì)將之前構(gòu)建的LeetCode風(fēng)格Q語(yǔ)言數(shù)據(jù)集進(jìn)一步擴(kuò)展,為每個(gè)問(wèn)題創(chuàng)建了四種不同的任務(wù):?jiǎn)栴}描述轉(zhuǎn)Q代碼、Q代碼轉(zhuǎn)Python代碼、Python代碼轉(zhuǎn)Q代碼,以及測(cè)試用例轉(zhuǎn)換。這樣,一個(gè)原始問(wèn)題可以生成八個(gè)不同的訓(xùn)練樣本,大大增加了訓(xùn)練數(shù)據(jù)的豐富性。

訓(xùn)練過(guò)程采用了標(biāo)準(zhǔn)的指令微調(diào)方法,就像是讓AI模型按照固定格式回答問(wèn)題。研究團(tuán)隊(duì)在不同的學(xué)習(xí)率、訓(xùn)練長(zhǎng)度、訓(xùn)練方式等方面進(jìn)行了大量實(shí)驗(yàn)。他們發(fā)現(xiàn),從預(yù)訓(xùn)練檢查點(diǎn)開(kāi)始的監(jiān)督學(xué)習(xí)效果比從原始基礎(chǔ)模型開(kāi)始要稍差一些。這似乎反直覺(jué),但研究團(tuán)隊(duì)推測(cè)這可能是因?yàn)轭A(yù)訓(xùn)練讓模型學(xué)會(huì)了通用的Q語(yǔ)言知識(shí),而LeetCode風(fēng)格的編程題目需要的是更具體的算法思維,兩者之間存在一定的沖突。

盡管如此,監(jiān)督學(xué)習(xí)階段仍然帶來(lái)了顯著的性能提升。所有規(guī)模的模型在Q語(yǔ)言編程測(cè)試中的表現(xiàn)都有了明顯改善,這證明了專門針對(duì)目標(biāo)任務(wù)的訓(xùn)練確實(shí)有效。

強(qiáng)化學(xué)習(xí)階段是整個(gè)訓(xùn)練過(guò)程中最具創(chuàng)新性的部分。研究團(tuán)隊(duì)使用了Group Relative Policy Optimization (GRPO)算法,這是一種專門為大語(yǔ)言模型設(shè)計(jì)的強(qiáng)化學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)的核心思想是讓AI模型通過(guò)試錯(cuò)來(lái)改進(jìn)自己的行為,就像是通過(guò)不斷練習(xí)來(lái)提高技能。

在Q語(yǔ)言編程的場(chǎng)景下,強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)來(lái)自代碼執(zhí)行的結(jié)果:如果AI生成的Q代碼能夠通過(guò)所有測(cè)試用例,就獲得正獎(jiǎng)勵(lì);否則獲得負(fù)獎(jiǎng)勵(lì)或零獎(jiǎng)勵(lì)。這種獎(jiǎng)勵(lì)機(jī)制讓AI模型能夠直接從編程任務(wù)的成功與失敗中學(xué)習(xí),而不需要依賴人工標(biāo)注的"標(biāo)準(zhǔn)答案"。

研究團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)階段進(jìn)行了多維度的實(shí)驗(yàn)。他們比較了推理型模型(在生成代碼前先輸出思考過(guò)程)和非推理型模型的效果,測(cè)試了不同的采樣溫度對(duì)探索效果的影響,還嘗試了不同的獎(jiǎng)勵(lì)結(jié)構(gòu)設(shè)計(jì)。

實(shí)驗(yàn)結(jié)果顯示,強(qiáng)化學(xué)習(xí)對(duì)較大規(guī)模的模型(140億和320億參數(shù))效果顯著,但對(duì)最小的15億參數(shù)模型幾乎沒(méi)有幫助。這表明強(qiáng)化學(xué)習(xí)需要模型具備一定的基礎(chǔ)能力才能發(fā)揮作用,就像是高級(jí)訓(xùn)練技巧只對(duì)已經(jīng)有一定基礎(chǔ)的學(xué)生有效。

對(duì)于推理型模型的實(shí)驗(yàn)特別有趣。研究團(tuán)隊(duì)發(fā)現(xiàn),讓AI模型在生成代碼前先輸出思考過(guò)程,確實(shí)能幫助它解決一些特別困難的問(wèn)題,但在整體準(zhǔn)確率上,簡(jiǎn)潔的非推理型模型表現(xiàn)更好。這似乎表明,對(duì)于Q語(yǔ)言這種語(yǔ)法簡(jiǎn)潔的編程語(yǔ)言,過(guò)度的推理反而可能引入不必要的復(fù)雜性。

四、突破性成果與意外發(fā)現(xiàn)

經(jīng)過(guò)完整的三階段訓(xùn)練后,研究團(tuán)隊(duì)取得了令人矚目的成果。他們最強(qiáng)的模型(320億參數(shù)推理型)在Q語(yǔ)言編程測(cè)試中達(dá)到了59%的首次嘗試準(zhǔn)確率(pass@1),這個(gè)成績(jī)比當(dāng)時(shí)表現(xiàn)最好的商業(yè)AI模型Claude Opus-4的29.5%高出整整一倍。更令人印象深刻的是,即使是最小的15億參數(shù)模型,也超越了GPT-4.1在同樣任務(wù)上的表現(xiàn)。

這些數(shù)字背后反映的是AI專業(yè)化訓(xùn)練的巨大潛力。通過(guò)針對(duì)性的數(shù)據(jù)收集、系統(tǒng)性的訓(xùn)練流程和創(chuàng)新的評(píng)估方法,即使是相對(duì)較小的開(kāi)源模型也能在特定領(lǐng)域內(nèi)超越大型商業(yè)模型的表現(xiàn)。

研究團(tuán)隊(duì)在分析不同規(guī)模模型的表現(xiàn)時(shí)發(fā)現(xiàn)了一個(gè)重要規(guī)律:模型規(guī)模的增大確實(shí)帶來(lái)了性能提升,但這種提升并非線性的。從15億參數(shù)提升到30億參數(shù)帶來(lái)了顯著改進(jìn),但從140億到320億參數(shù)的提升相對(duì)有限。這個(gè)發(fā)現(xiàn)對(duì)于資源有限的研究團(tuán)隊(duì)具有重要的指導(dǎo)意義——在專業(yè)領(lǐng)域的AI應(yīng)用中,中等規(guī)模的模型可能提供最佳的性價(jià)比。

另一個(gè)有趣的發(fā)現(xiàn)是關(guān)于預(yù)訓(xùn)練效果的。雖然預(yù)訓(xùn)練確實(shí)提升了模型的Q語(yǔ)言理解能力,但這種提升在監(jiān)督學(xué)習(xí)階段之后變得不那么明顯。研究團(tuán)隊(duì)推測(cè),這可能是因?yàn)樗麄兊脑u(píng)估數(shù)據(jù)集采用了LeetCode風(fēng)格的算法題目,這種風(fēng)格更偏向于"Python化"的編程思維,而不是Q語(yǔ)言在實(shí)際金融應(yīng)用中的典型用法。

這個(gè)觀察引發(fā)了一個(gè)重要的思考:AI模型的專業(yè)化訓(xùn)練不僅要考慮目標(biāo)語(yǔ)言或領(lǐng)域的特點(diǎn),還要考慮具體應(yīng)用場(chǎng)景的要求。Q語(yǔ)言在實(shí)際工作中主要用于數(shù)據(jù)庫(kù)查詢和分析,而不是解決算法競(jìng)賽題目。因此,雖然他們的模型在LeetCode風(fēng)格測(cè)試中表現(xiàn)出色,但在真實(shí)的金融數(shù)據(jù)分析任務(wù)中的表現(xiàn)可能會(huì)有所不同。

研究團(tuán)隊(duì)還觀察到強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中的一些有趣現(xiàn)象。在320億參數(shù)推理型模型的訓(xùn)練過(guò)程中,AI生成的回答長(zhǎng)度呈現(xiàn)出先增加、后減少、再增加的波浪形變化。這種變化可能反映了模型在學(xué)習(xí)過(guò)程中策略的演變:初期試圖通過(guò)更詳細(xì)的推理來(lái)提高準(zhǔn)確率,中期學(xué)會(huì)了更簡(jiǎn)潔的表達(dá)方式,后期又開(kāi)始探索更復(fù)雜的混合策略。

五、開(kāi)源貢獻(xiàn)與實(shí)際應(yīng)用價(jià)值

這項(xiàng)研究最有價(jià)值的貢獻(xiàn)之一是其完全開(kāi)源的策略。摩根士丹利團(tuán)隊(duì)不僅發(fā)布了訓(xùn)練好的模型,還公開(kāi)了完整的數(shù)據(jù)集、訓(xùn)練代碼、評(píng)估工具和詳細(xì)的實(shí)驗(yàn)記錄。這種開(kāi)放態(tài)度在商業(yè)機(jī)構(gòu)的研究中相當(dāng)罕見(jiàn),體現(xiàn)了推動(dòng)整個(gè)AI社區(qū)發(fā)展的責(zé)任感。

開(kāi)源的模型包括了每個(gè)訓(xùn)練階段的檢查點(diǎn),用戶可以根據(jù)自己的需求選擇合適的版本。對(duì)于需要通用Q語(yǔ)言能力的用戶,研究團(tuán)隊(duì)推薦使用預(yù)訓(xùn)練版本;對(duì)于特定編程任務(wù),監(jiān)督學(xué)習(xí)版本可能更合適;而對(duì)于需要最高準(zhǔn)確率的應(yīng)用,完整訓(xùn)練的強(qiáng)化學(xué)習(xí)版本是最佳選擇。

更重要的是,研究團(tuán)隊(duì)提供的不僅僅是模型,而是一整套可復(fù)制的專業(yè)化AI訓(xùn)練方法論。這套方法論的核心包括幾個(gè)關(guān)鍵要素:構(gòu)建高質(zhì)量評(píng)估框架、系統(tǒng)性的數(shù)據(jù)收集和清洗、多階段的訓(xùn)練策略、以及持續(xù)的實(shí)驗(yàn)驗(yàn)證。

這套方法論的應(yīng)用范圍遠(yuǎn)超Q語(yǔ)言本身。任何需要讓AI掌握小眾專業(yè)技能的場(chǎng)景都可以借鑒這個(gè)框架,無(wú)論是醫(yī)學(xué)影像分析、法律條文解釋、工程圖紙理解,還是藝術(shù)作品創(chuàng)作。關(guān)鍵在于根據(jù)具體領(lǐng)域的特點(diǎn),調(diào)整數(shù)據(jù)收集策略和評(píng)估標(biāo)準(zhǔn)。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)了評(píng)估框架的重要性。他們認(rèn)為,一個(gè)可靠的評(píng)估體系是整個(gè)專業(yè)化訓(xùn)練的基石。在他們的Q語(yǔ)言項(xiàng)目中,建立類似LeetCode的編程競(jìng)賽評(píng)估體系不僅提供了客觀的性能衡量標(biāo)準(zhǔn),還使得模型能夠通過(guò)強(qiáng)化學(xué)習(xí)獲得直接的反饋信號(hào)。

對(duì)于Q語(yǔ)言社區(qū)來(lái)說(shuō),這項(xiàng)研究提供了前所未有的AI工具支持。雖然當(dāng)前的模型在LeetCode風(fēng)格任務(wù)上表現(xiàn)出色,但研究團(tuán)隊(duì)承認(rèn),這些模型在真實(shí)的金融數(shù)據(jù)分析場(chǎng)景中的表現(xiàn)還有待進(jìn)一步驗(yàn)證。他們鼓勵(lì)社區(qū)成員使用這些開(kāi)源模型作為起點(diǎn),針對(duì)具體的應(yīng)用場(chǎng)景進(jìn)行進(jìn)一步的微調(diào)和優(yōu)化。

六、技術(shù)挑戰(zhàn)與解決方案

在整個(gè)研究過(guò)程中,團(tuán)隊(duì)遇到了許多技術(shù)挑戰(zhàn),他們的解決方案為后續(xù)研究提供了寶貴經(jīng)驗(yàn)。

數(shù)據(jù)質(zhì)量控制是最大的挑戰(zhàn)之一。由于Q語(yǔ)言資料稀少,研究團(tuán)隊(duì)不能像處理Python等主流語(yǔ)言那樣,依靠大量數(shù)據(jù)的統(tǒng)計(jì)規(guī)律來(lái)過(guò)濾噪音。他們采用了AI輔助篩選加人工驗(yàn)證的混合方法:先讓AI模型對(duì)數(shù)據(jù)質(zhì)量進(jìn)行初步評(píng)分,然后人工審核可疑的案例。這種方法雖然耗時(shí)較多,但確保了最終訓(xùn)練數(shù)據(jù)的高質(zhì)量。

評(píng)估一致性是另一個(gè)重要挑戰(zhàn)。Q語(yǔ)言的語(yǔ)法靈活性很高,同一個(gè)功能可能有多種不同的實(shí)現(xiàn)方式,這給自動(dòng)化評(píng)估帶來(lái)困難。研究團(tuán)隊(duì)通過(guò)執(zhí)行結(jié)果驗(yàn)證加AI輔助判斷的方式解決了這個(gè)問(wèn)題:首先檢查代碼是否能產(chǎn)生正確的輸出,然后讓GPT-4等模型判斷語(yǔ)義上的等價(jià)性。

模型訓(xùn)練中的獎(jiǎng)勵(lì)信號(hào)設(shè)計(jì)也頗具挑戰(zhàn)性。在強(qiáng)化學(xué)習(xí)階段,如何設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)直接影響模型的學(xué)習(xí)效果。研究團(tuán)隊(duì)嘗試了多種獎(jiǎng)勵(lì)結(jié)構(gòu):基于通過(guò)測(cè)試用例數(shù)量的線性獎(jiǎng)勵(lì)、全部通過(guò)才給獎(jiǎng)勵(lì)的二元獎(jiǎng)勵(lì),以及兩者的組合。實(shí)驗(yàn)結(jié)果顯示,組合獎(jiǎng)勵(lì)結(jié)構(gòu)效果最好,既鼓勵(lì)模型盡可能多地通過(guò)測(cè)試用例,又給完全正確的解決方案額外激勵(lì)。

硬件資源優(yōu)化也是一個(gè)實(shí)際問(wèn)題。訓(xùn)練320億參數(shù)的模型需要大量的GPU資源,研究團(tuán)隊(duì)通過(guò)使用DeepSpeed ZeRO等內(nèi)存優(yōu)化技術(shù),成功在單節(jié)點(diǎn)的8張H100 GPU上完成了所有訓(xùn)練任務(wù)。他們還采用了訓(xùn)練和推理分離的架構(gòu):用專門的vLLM服務(wù)器處理推理請(qǐng)求,而將GPU的主要算力用于模型訓(xùn)練,這樣既提高了資源利用率,又加速了實(shí)驗(yàn)迭代。

七、局限性與未來(lái)方向

研究團(tuán)隊(duì)對(duì)自己工作的局限性有著清醒的認(rèn)識(shí)。最主要的限制是評(píng)估數(shù)據(jù)集的代表性問(wèn)題。他們構(gòu)建的LeetCode風(fēng)格數(shù)據(jù)集雖然提供了客觀的評(píng)估標(biāo)準(zhǔn),但這種算法競(jìng)賽式的編程題目與Q語(yǔ)言在金融行業(yè)的實(shí)際應(yīng)用場(chǎng)景存在較大差異。

在真實(shí)的金融數(shù)據(jù)分析工作中,Q語(yǔ)言主要用于數(shù)據(jù)庫(kù)查詢、時(shí)間序列分析和高頻交易系統(tǒng)開(kāi)發(fā),這些任務(wù)的特點(diǎn)與解決算法題目有本質(zhì)不同。實(shí)際工作中的Q代碼通常更注重?cái)?shù)據(jù)處理效率和系統(tǒng)穩(wěn)定性,而不是算法創(chuàng)新。

另一個(gè)限制是訓(xùn)練數(shù)據(jù)的規(guī)模。雖然研究團(tuán)隊(duì)已經(jīng)收集了所有可獲得的開(kāi)源Q語(yǔ)言代碼,但相比Python等主流語(yǔ)言的海量資源,Q語(yǔ)言的訓(xùn)練數(shù)據(jù)仍然相對(duì)稀少。這種數(shù)據(jù)稀缺性可能限制了模型對(duì)Q語(yǔ)言深層次特性和慣用法的理解。

模型的泛化能力也存在不確定性。當(dāng)前的模型在特定類型的編程任務(wù)上表現(xiàn)出色,但面對(duì)全新類型的問(wèn)題時(shí)的表現(xiàn)還未知。由于Q語(yǔ)言應(yīng)用場(chǎng)景的多樣性,從簡(jiǎn)單的數(shù)據(jù)查詢到復(fù)雜的算法交易策略,模型是否能夠適應(yīng)這種廣泛的應(yīng)用范圍還需要進(jìn)一步驗(yàn)證。

研究團(tuán)隊(duì)指出了幾個(gè)重要的未來(lái)研究方向。首先是構(gòu)建更貼近實(shí)際應(yīng)用的評(píng)估數(shù)據(jù)集,包括真實(shí)的數(shù)據(jù)庫(kù)查詢?nèi)蝿?wù)、時(shí)間序列分析問(wèn)題和系統(tǒng)集成挑戰(zhàn)。這樣的數(shù)據(jù)集能夠更準(zhǔn)確地反映Q語(yǔ)言在實(shí)際工作中的使用情況。

其次是探索更高效的小樣本學(xué)習(xí)方法??紤]到專業(yè)領(lǐng)域數(shù)據(jù)的稀缺性,如何讓AI模型從少量高質(zhì)量樣本中快速學(xué)習(xí)成為關(guān)鍵問(wèn)題。研究團(tuán)隊(duì)建議探索元學(xué)習(xí)、少樣本學(xué)習(xí)和遷移學(xué)習(xí)等技術(shù)的應(yīng)用。

第三是多模態(tài)學(xué)習(xí)的融合。金融數(shù)據(jù)分析往往涉及數(shù)字、圖表、文本等多種信息形式,未來(lái)的Q語(yǔ)言AI助手應(yīng)該能夠理解和處理這些不同類型的輸入,提供更全面的分析支持。

八、對(duì)AI專業(yè)化的啟示

這項(xiàng)研究的意義遠(yuǎn)超Q語(yǔ)言本身,它為AI模型的專業(yè)化訓(xùn)練提供了一個(gè)可行的范式。在當(dāng)前AI發(fā)展的背景下,通用大模型雖然能力強(qiáng)大,但在特定專業(yè)領(lǐng)域往往缺乏深度。這項(xiàng)研究證明了通過(guò)系統(tǒng)性的專業(yè)化訓(xùn)練,即使規(guī)模相對(duì)較小的開(kāi)源模型也能在特定領(lǐng)域內(nèi)超越大型商業(yè)模型。

專業(yè)化訓(xùn)練的關(guān)鍵在于構(gòu)建完整的生態(tài)系統(tǒng),而不僅僅是收集更多數(shù)據(jù)。這個(gè)生態(tài)系統(tǒng)包括:可靠的評(píng)估框架、高質(zhì)量的訓(xùn)練數(shù)據(jù)、適當(dāng)?shù)挠?xùn)練策略,以及持續(xù)的驗(yàn)證和改進(jìn)機(jī)制。摩根士丹利團(tuán)隊(duì)的成功經(jīng)驗(yàn)表明,這四個(gè)要素缺一不可,其中評(píng)估框架的重要性往往被低估。

對(duì)于其他希望進(jìn)行AI專業(yè)化訓(xùn)練的組織,這項(xiàng)研究提供了幾個(gè)重要的指導(dǎo)原則。首先,投資建設(shè)高質(zhì)量的評(píng)估體系比簡(jiǎn)單增加訓(xùn)練數(shù)據(jù)量更重要。一個(gè)客觀、可靠的評(píng)估標(biāo)準(zhǔn)不僅能衡量模型性能,還能為強(qiáng)化學(xué)習(xí)提供有效的反饋信號(hào)。

其次,多階段訓(xùn)練策略比單一的端到端訓(xùn)練更有效。預(yù)訓(xùn)練幫助模型掌握領(lǐng)域基礎(chǔ)知識(shí),監(jiān)督學(xué)習(xí)針對(duì)具體任務(wù)進(jìn)行優(yōu)化,強(qiáng)化學(xué)習(xí)則通過(guò)實(shí)際反饋進(jìn)一步改進(jìn)。每個(gè)階段都有其獨(dú)特價(jià)值,不能簡(jiǎn)單省略。

第三,模型規(guī)模的選擇需要根據(jù)具體場(chǎng)景權(quán)衡。在資源受限的專業(yè)領(lǐng)域,中等規(guī)模的模型往往能提供最佳的性價(jià)比。過(guò)大的模型容易過(guò)擬合,過(guò)小的模型則缺乏學(xué)習(xí)復(fù)雜模式的能力。

最后,開(kāi)源和社區(qū)合作是推動(dòng)專業(yè)化AI發(fā)展的重要?jiǎng)恿ΑDΩ康だx擇完全開(kāi)源他們的研究成果,不僅體現(xiàn)了企業(yè)社會(huì)責(zé)任,也為整個(gè)AI社區(qū)的發(fā)展做出了重要貢獻(xiàn)。這種開(kāi)放的態(tài)度有助于加速專業(yè)化AI技術(shù)的普及和應(yīng)用。

九、實(shí)用建議與展望

對(duì)于希望應(yīng)用這項(xiàng)研究成果的實(shí)際用戶,研究團(tuán)隊(duì)提供了詳細(xì)的使用指導(dǎo)。對(duì)于需要通用Q語(yǔ)言協(xié)助的用戶,他們推薦使用預(yù)訓(xùn)練版本的模型,這個(gè)版本保持了對(duì)Q語(yǔ)言各種應(yīng)用場(chǎng)景的廣泛理解。對(duì)于特定的編程任務(wù),監(jiān)督學(xué)習(xí)版本可能更合適,因?yàn)樗槍?duì)結(jié)構(gòu)化的編程問(wèn)題進(jìn)行了優(yōu)化。而對(duì)于追求最高準(zhǔn)確率的關(guān)鍵應(yīng)用,完整訓(xùn)練的強(qiáng)化學(xué)習(xí)版本是最佳選擇。

使用這些模型時(shí)需要注意一些實(shí)際考慮。首先,當(dāng)前的模型主要針對(duì)算法類編程問(wèn)題進(jìn)行了優(yōu)化,在數(shù)據(jù)庫(kù)查詢和分析型任務(wù)上的表現(xiàn)可能會(huì)有所不同。用戶在部署時(shí)應(yīng)該根據(jù)具體應(yīng)用場(chǎng)景進(jìn)行額外的測(cè)試和調(diào)優(yōu)。

其次,雖然模型在測(cè)試中表現(xiàn)出色,但在生產(chǎn)環(huán)境中使用時(shí)仍需要人工監(jiān)督。特別是在金融等高風(fēng)險(xiǎn)行業(yè),AI生成的代碼必須經(jīng)過(guò)嚴(yán)格的審核和測(cè)試才能投入實(shí)際使用。

研究團(tuán)隊(duì)還建議用戶將這些模型作為編程助手而非替代品來(lái)使用。AI模型擅長(zhǎng)處理標(biāo)準(zhǔn)化的編程任務(wù)和提供代碼建議,但復(fù)雜的系統(tǒng)設(shè)計(jì)和業(yè)務(wù)邏輯判斷仍需要人類專家的參與。

展望未來(lái),這項(xiàng)研究開(kāi)啟了AI專業(yè)化的新篇章。隨著更多組織開(kāi)始重視特定領(lǐng)域的AI應(yīng)用,我們可能會(huì)看到越來(lái)越多類似的專業(yè)化模型出現(xiàn)。從醫(yī)療診斷到法律咨詢,從工程設(shè)計(jì)到科學(xué)研究,各個(gè)專業(yè)領(lǐng)域都有可能受益于這種針對(duì)性的AI訓(xùn)練方法。

技術(shù)發(fā)展方面,我們可以期待看到更高效的專業(yè)化訓(xùn)練算法、更智能的數(shù)據(jù)收集方法,以及更完善的評(píng)估框架。特別是在多模態(tài)學(xué)習(xí)和少樣本學(xué)習(xí)方面的突破,將使AI模型能夠更快地掌握新的專業(yè)技能。

更重要的是,這項(xiàng)研究展示了開(kāi)源協(xié)作在推動(dòng)AI發(fā)展中的巨大價(jià)值。通過(guò)分享代碼、數(shù)據(jù)和經(jīng)驗(yàn),整個(gè)AI社區(qū)能夠避免重復(fù)造輪子,加速技術(shù)進(jìn)步的步伐。這種開(kāi)放的研究模式可能成為未來(lái)AI發(fā)展的主流趨勢(shì)。

說(shuō)到底,摩根士丹利的這項(xiàng)研究不僅僅是讓AI學(xué)會(huì)了Q語(yǔ)言編程,更重要的是它證明了AI專業(yè)化的可行性和價(jià)值。在AI技術(shù)日趨成熟的今天,如何讓通用的AI模型在特定領(lǐng)域發(fā)揮更大價(jià)值,成為了一個(gè)關(guān)鍵問(wèn)題。這項(xiàng)研究提供了一個(gè)成功的案例和可行的路徑,為AI技術(shù)在各個(gè)專業(yè)領(lǐng)域的深入應(yīng)用奠定了基礎(chǔ)。無(wú)論你是研究者、開(kāi)發(fā)者,還是對(duì)AI應(yīng)用感興趣的普通用戶,都可以從這項(xiàng)開(kāi)源研究中獲得啟發(fā)和幫助。畢竟,AI的未來(lái)不在于創(chuàng)造無(wú)所不能的超級(jí)智能,而在于培養(yǎng)在特定領(lǐng)域深度專業(yè)的智能助手。

Q&A

Q1:QQwen模型是什么?它能做什么?

A:QQwen是由摩根士丹利開(kāi)發(fā)的專門用于Q編程語(yǔ)言的AI模型系列。它能夠理解Q語(yǔ)言代碼、自動(dòng)編寫(xiě)Q程序、將Python代碼翻譯成Q語(yǔ)言,以及解決各種Q語(yǔ)言編程問(wèn)題。最強(qiáng)版本的準(zhǔn)確率達(dá)到59%,超過(guò)了GPT-4.1等商業(yè)模型。

Q2:普通人可以使用這些Q語(yǔ)言AI模型嗎?

A:可以的。摩根士丹利將所有模型、代碼和訓(xùn)練數(shù)據(jù)完全開(kāi)源,任何人都可以通過(guò)GitHub或Hugging Face平臺(tái)免費(fèi)下載使用。不過(guò)使用這些模型需要一定的技術(shù)背景,特別是對(duì)Q語(yǔ)言編程的基礎(chǔ)了解。

Q3:這套AI訓(xùn)練方法能用來(lái)學(xué)習(xí)其他專業(yè)技能嗎?

A:完全可以。研究團(tuán)隊(duì)提供的訓(xùn)練方法是一個(gè)通用框架,包括數(shù)據(jù)收集、評(píng)估體系建設(shè)、多階段訓(xùn)練等步驟。任何需要讓AI掌握小眾專業(yè)技能的領(lǐng)域都可以借鑒,比如醫(yī)學(xué)診斷、法律分析、工程設(shè)計(jì)等。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-