這項(xiàng)由沙特阿拉伯阿卜杜拉國王科技大學(xué)(KAUST)的哈桑·阿貝德·阿爾·卡德爾·哈穆德和穆罕默德·茲比布團(tuán)隊(duì)主導(dǎo)的研究發(fā)表于2025年1月,論文標(biāo)題為"HALA Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale"。有興趣深入了解的讀者可以通過arXiv:2509.14008v1訪問完整論文,相關(guān)模型和數(shù)據(jù)已在Hugging Face平臺(tái)開放:hf.co/collections/Hala。
在人工智能的世界里,英語長期占據(jù)著絕對(duì)主導(dǎo)地位。絕大多數(shù)AI模型都是基于英語訓(xùn)練的,就像一個(gè)只會(huì)說英語的老師試圖教授全世界不同語言的學(xué)生。當(dāng)這些模型遇到阿拉伯語時(shí),往往表現(xiàn)得磕磕絆絆,就像用機(jī)械翻譯軟件處理詩歌一樣,雖然能傳達(dá)基本意思,但完全失去了語言的韻律和文化內(nèi)涵。
阿拉伯語是世界上使用人數(shù)第四多的語言,有超過4億人使用,橫跨22個(gè)國家。然而,在AI發(fā)展的大潮中,阿拉伯語卻面臨著"數(shù)字鴻溝"的挑戰(zhàn)。這種情況就像一個(gè)擁有豐富文化遺產(chǎn)的古老民族,卻發(fā)現(xiàn)自己在數(shù)字時(shí)代被邊緣化了。
KAUST的研究團(tuán)隊(duì)決定改變這一局面。他們開發(fā)了名為"Hala"的AI模型家族。在阿拉伯語中,"Hala"意味著甜美和美麗,正如阿拉伯語本身給人的感覺。這個(gè)名字的選擇體現(xiàn)了研究團(tuán)隊(duì)對(duì)阿拉伯語的深厚情感和文化認(rèn)同。
一、創(chuàng)新的"翻譯再調(diào)優(yōu)"流水線
傳統(tǒng)的多語言AI模型就像一個(gè)試圖同時(shí)學(xué)會(huì)多種樂器的音樂家,雖然每種樂器都能彈奏,但很難在某一種樂器上達(dá)到專業(yè)水準(zhǔn)。Hala團(tuán)隊(duì)采用了完全不同的策略——專注深耕阿拉伯語,而不是追求多語言的廣度。
他們的核心創(chuàng)新在于一套"翻譯再調(diào)優(yōu)"的流水線系統(tǒng)。這個(gè)過程可以比作烹飪中的"母湯制作":首先準(zhǔn)備一鍋高質(zhì)量的英語"原湯",然后通過精密的翻譯過程將其轉(zhuǎn)化為阿拉伯語"母湯",最后用這個(gè)"母湯"來培養(yǎng)專門的阿拉伯語AI模型。
研究團(tuán)隊(duì)首先選擇了一個(gè)強(qiáng)大的多語言翻譯模型——CohereLabs的command-a-translate模型作為"主廚"。但這個(gè)"主廚"有個(gè)問題:它的工作效率不夠高,就像一個(gè)技藝精湛但動(dòng)作緩慢的大師傅。為了解決這個(gè)問題,團(tuán)隊(duì)使用了FP8量化技術(shù),這相當(dāng)于給大師傅配備了更高效的工具,讓他的工作速度提升了一倍,同時(shí)保持了相同的烹飪質(zhì)量。
接下來,他們用這個(gè)"高效大師傅"來翻譯Open-Orca數(shù)據(jù)集中的40.5萬個(gè)英語指令-回答對(duì)。Open-Orca可以理解為一個(gè)包含各種復(fù)雜問答的"英語教科書",涵蓋了推理、解釋和多步驟思考等高級(jí)認(rèn)知能力。翻譯過程非常直接,就像告訴翻譯官"請將以下內(nèi)容翻譯成阿拉伯語"一樣簡單明了。
為了確保翻譯質(zhì)量,團(tuán)隊(duì)還從OPUS-100數(shù)據(jù)集中篩選出了44萬個(gè)高質(zhì)量的阿拉伯語-英語對(duì)照樣本。他們使用了一個(gè)嚴(yán)格的"雙語法官"——Qwen2.5-3B-Instruct模型來審查每一對(duì)翻譯,確保只有那些準(zhǔn)確、自然的翻譯才能進(jìn)入最終的訓(xùn)練數(shù)據(jù)集。這個(gè)過程就像有一個(gè)經(jīng)驗(yàn)豐富的語言學(xué)家坐在旁邊,逐一檢查每個(gè)翻譯是否準(zhǔn)確傳達(dá)了原文的意思。
二、培養(yǎng)輕量級(jí)翻譯專家
擁有了大量高質(zhì)量的雙語數(shù)據(jù)后,團(tuán)隊(duì)開始培養(yǎng)自己的"翻譯專家"。他們選擇了LiquidAI的LFM2-1.2B模型作為基礎(chǔ),這是一個(gè)相對(duì)輕量級(jí)的模型,就像選擇了一個(gè)聰明且學(xué)習(xí)能力強(qiáng)的年輕學(xué)徒。
訓(xùn)練過程結(jié)合了兩種數(shù)據(jù)源:翻譯后的Open-Orca數(shù)據(jù)(81萬個(gè)樣本)和篩選后的OPUS-100數(shù)據(jù)(44萬個(gè)樣本),總計(jì)約126萬個(gè)雙語示例。這個(gè)數(shù)據(jù)量相當(dāng)于讓學(xué)徒閱讀了126萬個(gè)阿拉伯語-英語對(duì)照的句子,涵蓋了日常對(duì)話、學(xué)術(shù)討論、技術(shù)說明等各種語境。
訓(xùn)練采用了簡單的對(duì)話式提示和標(biāo)準(zhǔn)的監(jiān)督微調(diào)方法,就像用傳統(tǒng)的師傅帶徒弟的方式,通過大量的實(shí)踐練習(xí)讓模型掌握準(zhǔn)確的翻譯技巧。經(jīng)過訓(xùn)練后,這個(gè)輕量級(jí)模型成為了團(tuán)隊(duì)后續(xù)工作的"翻譯引擎",專門負(fù)責(zé)將各種英語指令數(shù)據(jù)集轉(zhuǎn)化為高質(zhì)量的阿拉伯語版本。
三、構(gòu)建大規(guī)模阿拉伯語指令語料庫
有了專門的翻譯引擎后,團(tuán)隊(duì)開始了更大規(guī)模的數(shù)據(jù)轉(zhuǎn)換工作。他們精心選擇了多個(gè)高質(zhì)量的英語指令數(shù)據(jù)集,就像挑選不同類型的優(yōu)秀教材來豐富學(xué)生的學(xué)習(xí)內(nèi)容。
Open-Orca數(shù)據(jù)集貢獻(xiàn)了40.5萬個(gè)樣本,這些樣本專門針對(duì)多步驟推理和復(fù)雜問答。Hermes-3數(shù)據(jù)集在過濾掉代碼相關(guān)內(nèi)容后,提供了對(duì)話和指令遵循的訓(xùn)練樣本。SCP-116K數(shù)據(jù)集包含了11.6萬個(gè)指令對(duì)話對(duì),涵蓋了廣泛的對(duì)話場景。
ReAlign-Alpaca數(shù)據(jù)集是Alpaca指令的重新對(duì)齊版本,提供了更準(zhǔn)確的指令遵循訓(xùn)練數(shù)據(jù)。LaMini指令數(shù)據(jù)集作為輕量級(jí)選擇被完整翻譯。Tulu-3數(shù)據(jù)集中的英語子集也被納入翻譯范圍,為模型提供了最新的指令遵循樣本。
最特別的是,他們還包含了synthetic-instruct-gptj-pairwise數(shù)據(jù)集,這是一個(gè)包含成對(duì)偏好樣本的合成數(shù)據(jù)集,可以幫助模型學(xué)會(huì)在不同回答之間做出更好的選擇,就像訓(xùn)練模型的判斷能力和品味。
整個(gè)翻譯過程產(chǎn)生了大約450萬個(gè)阿拉伯語指令樣本,形成了一個(gè)前所未有的大規(guī)模阿拉伯語指令語料庫。這個(gè)語料庫不僅規(guī)模龐大,更重要的是質(zhì)量很高,能夠涵蓋指令遵循、推理思考和對(duì)齊優(yōu)化等AI能力的各個(gè)方面。
四、模型訓(xùn)練與智能融合
擁有了豐富的阿拉伯語指令數(shù)據(jù)后,團(tuán)隊(duì)開始訓(xùn)練不同規(guī)模的Hala模型。他們選擇了四個(gè)不同的規(guī)模等級(jí):350M、700M、1.2B和9B參數(shù),就像培養(yǎng)不同級(jí)別的阿拉伯語專家,從初學(xué)者到大師級(jí)別。
前三個(gè)較小規(guī)模的模型基于LiquidAI的LFM2系列,而9B規(guī)模的模型則基于FANAR-1-9B-Instruct架構(gòu)。每個(gè)模型都在翻譯后的阿拉伯語指令數(shù)據(jù)上進(jìn)行專門訓(xùn)練,就像讓每個(gè)學(xué)生都專門學(xué)習(xí)阿拉伯語課程。
但團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:專門針對(duì)阿拉伯語優(yōu)化的模型在阿拉伯語任務(wù)上表現(xiàn)出色,但在其他語言或通用能力上可能會(huì)有所下降。這就像一個(gè)專攻古典音樂的鋼琴家,雖然在古典音樂方面造詣極深,但在流行音樂方面可能不如全才音樂家。
為了解決這個(gè)問題,團(tuán)隊(duì)采用了一種巧妙的"模型融合"策略。他們使用MergeKit工具中的球面線性插值(SLERP)技術(shù),將專門訓(xùn)練的阿拉伯語模型與原始的基礎(chǔ)模型進(jìn)行融合,融合比例設(shè)定為0.5。這個(gè)過程就像調(diào)制雞尾酒一樣,將兩種不同特性的"原料"按照精確比例混合,創(chuàng)造出既保留阿拉伯語專長又不失通用能力的"完美調(diào)制"。
這種融合策略的效果非常顯著。融合后的模型既保持了在阿拉伯語任務(wù)上的優(yōu)異表現(xiàn),又維持了基礎(chǔ)模型在其他方面的通用能力,就像培養(yǎng)出了一個(gè)既精通阿拉伯語又具備良好綜合素質(zhì)的全才。
五、嚴(yán)格的性能評(píng)估與突出成果
為了驗(yàn)證Hala模型的實(shí)際表現(xiàn),團(tuán)隊(duì)采用了一套全面的阿拉伯語測試基準(zhǔn)。這套測試就像給學(xué)生安排的期末考試,涵蓋了阿拉伯語理解能力的各個(gè)方面。
測試基準(zhǔn)包括AlGhafa(綜合阿拉伯語理解)、AraTrust(可信度評(píng)估)、ArabicMMLU(阿拉伯語大規(guī)模多任務(wù)理解)、ArbMMLU-HT(高思維能力測試)、EXAMS(考試問答)和MadinahQA(宗教文本問答)等六項(xiàng)任務(wù)。這些測試覆蓋了從基礎(chǔ)語言理解到復(fù)雜推理思考的完整認(rèn)知光譜。
在"納米級(jí)"(參數(shù)量≤2B)類別中,Hala-1.2B取得了令人矚目的成績。相比其基礎(chǔ)模型LiquidAI LFM2-1.2B,Hala-1.2B在綜合評(píng)分上提升了5.1個(gè)百分點(diǎn),從46.3%躍升至51.4%,成為該類別中表現(xiàn)最佳的模型。
更小規(guī)模的Hala-350M和Hala-700M也表現(xiàn)出色,分別比其基礎(chǔ)模型提升了7.6和5.5個(gè)百分點(diǎn)。這證明了即使在資源受限的情況下,專門針對(duì)阿拉伯語優(yōu)化的策略依然能夠帶來顯著的性能提升。
在"小型"(7-9B參數(shù))類別中,Hala-9B同樣表現(xiàn)突出,以69.9%的綜合得分略微超越了之前的最佳模型QCRI Fanar-1-9B-Instruct的69.2%。雖然提升幅度相對(duì)較小,但在這個(gè)競爭激烈的規(guī)模段能夠?qū)崿F(xiàn)超越,依然體現(xiàn)了技術(shù)方案的有效性。
六、翻譯質(zhì)量的專門驗(yàn)證
除了整體性能評(píng)估外,團(tuán)隊(duì)還專門驗(yàn)證了翻譯系統(tǒng)的質(zhì)量。他們設(shè)計(jì)了一個(gè)巧妙的測試方法:從英語MMLU數(shù)據(jù)集中隨機(jī)選擇500個(gè)問題,用不同的翻譯系統(tǒng)翻譯成阿拉伯語,然后與已有的阿拉伯語MMLU標(biāo)準(zhǔn)答案進(jìn)行對(duì)比。
這個(gè)測試就像讓不同的翻譯官翻譯同一篇文章,然后與權(quán)威譯本進(jìn)行對(duì)比,看誰的翻譯更準(zhǔn)確、更自然。評(píng)估使用了BLEU、ROUGE-L和chrF++三種指標(biāo),從不同角度衡量翻譯質(zhì)量。
結(jié)果顯示,經(jīng)過FP8量化的主要翻譯模型幾乎沒有質(zhì)量損失,BLEU得分從53.1略微提升至53.5,證明了量化優(yōu)化的有效性。更重要的是,經(jīng)過專門訓(xùn)練的Hala LFM2-1.2B翻譯器取得了48.2的BLEU得分,相比基礎(chǔ)模型的16.0有了巨大提升,提升幅度超過32個(gè)點(diǎn)。
這個(gè)結(jié)果證明了專門的翻譯訓(xùn)練確實(shí)能夠顯著提升模型的阿拉伯語處理能力,為后續(xù)的大規(guī)模數(shù)據(jù)轉(zhuǎn)換提供了可靠的技術(shù)基礎(chǔ)。
七、經(jīng)濟(jì)高效的研究方案
值得一提的是,整個(gè)研究項(xiàng)目在成本控制方面表現(xiàn)出色。所有模型的訓(xùn)練都在1000美元的預(yù)算內(nèi)完成,使用8塊H100-SXM GPU進(jìn)行。數(shù)據(jù)集翻譯工作使用12塊A100 GPU,額外成本約500美元。
這種經(jīng)濟(jì)高效的方案證明了,即使在有限的資源條件下,通過巧妙的技術(shù)設(shè)計(jì)和精心的資源規(guī)劃,依然能夠?qū)崿F(xiàn)高質(zhì)量的語言專門化AI模型開發(fā)。這對(duì)于資源相對(duì)有限的研究機(jī)構(gòu)和發(fā)展中國家具有重要的借鑒意義。
整個(gè)項(xiàng)目的開放性也值得稱贊。團(tuán)隊(duì)將所有的模型、數(shù)據(jù)集、評(píng)估工具和訓(xùn)練代碼都公開發(fā)布,讓全球的研究者和開發(fā)者都能夠基于這項(xiàng)工作繼續(xù)深入研究。這種開放精神不僅加速了阿拉伯語AI技術(shù)的發(fā)展,也為其他語言的專門化模型開發(fā)提供了可復(fù)制的方案。
八、深遠(yuǎn)的意義與未來展望
Hala項(xiàng)目的成功不僅僅是技術(shù)上的突破,更代表了AI發(fā)展理念的重要轉(zhuǎn)變。傳統(tǒng)的"一刀切"多語言模型就像試圖用一把萬能鑰匙開啟所有的門,雖然具有普遍適用性,但往往無法深入挖掘每種語言的獨(dú)特魅力和文化內(nèi)涵。
相比之下,語言專門化的方法就像為每種語言量身定制專門的鑰匙,雖然專用性更強(qiáng),但能夠更好地理解和處理該語言的細(xì)微差別、文化背景和使用習(xí)慣。這種方法對(duì)于阿拉伯語這樣具有復(fù)雜語法結(jié)構(gòu)、豐富方言變體和深厚文化底蘊(yùn)的語言來說,顯得尤為重要。
阿拉伯語的復(fù)雜性遠(yuǎn)超一般語言。它不僅有標(biāo)準(zhǔn)阿拉伯語和各地方言的區(qū)別,還有著從右到左的書寫方式、復(fù)雜的詞根變化系統(tǒng),以及深度融合宗教和文化內(nèi)涵的表達(dá)方式。傳統(tǒng)的多語言模型很難充分理解和準(zhǔn)確處理這些特征,而專門化的Hala模型則能夠更好地把握這些語言的精妙之處。
從更廣闊的視角來看,Hala項(xiàng)目為全球語言多樣性的數(shù)字化保護(hù)提供了新的思路。世界上有超過7000種語言,但絕大多數(shù)在數(shù)字時(shí)代面臨著被邊緣化的風(fēng)險(xiǎn)。如果AI技術(shù)只服務(wù)于幾種主要語言,那么其他語言的文化傳承和現(xiàn)代化發(fā)展就會(huì)受到嚴(yán)重制約。
Hala項(xiàng)目證明了,通過合理的技術(shù)設(shè)計(jì)和經(jīng)濟(jì)高效的實(shí)施方案,完全可以為任何語言開發(fā)專門化的AI模型。這為全球的語言多樣性保護(hù)和發(fā)展提供了技術(shù)上的可能性,讓每種語言都有機(jī)會(huì)在數(shù)字時(shí)代煥發(fā)新的活力。
對(duì)于阿拉伯世界來說,Hala項(xiàng)目的意義更加深遠(yuǎn)。它不僅提升了阿拉伯語在AI領(lǐng)域的地位,更為阿拉伯國家的數(shù)字化轉(zhuǎn)型和人工智能發(fā)展提供了重要的技術(shù)基礎(chǔ)。有了更好的阿拉伯語AI工具,阿拉伯世界可以更好地利用人工智能技術(shù)來促進(jìn)教育、醫(yī)療、法律、商業(yè)等各個(gè)領(lǐng)域的發(fā)展。
從技術(shù)發(fā)展的角度看,Hala項(xiàng)目還為未來的多語言AI發(fā)展指明了新的方向。與其追求一個(gè)能夠處理所有語言的超大型模型,不如發(fā)展一系列專門化的語言模型,每個(gè)都在特定語言上表現(xiàn)卓越,然后通過適當(dāng)?shù)膮f(xié)調(diào)機(jī)制讓它們協(xié)同工作。這種"專業(yè)分工"的模式可能會(huì)成為未來多語言AI發(fā)展的主流趨勢。
說到底,Hala項(xiàng)目展示了一種全新的AI發(fā)展哲學(xué):技術(shù)進(jìn)步不應(yīng)該導(dǎo)致語言和文化的同質(zhì)化,而應(yīng)該成為保護(hù)和發(fā)揚(yáng)語言多樣性的工具。當(dāng)我們的AI助手能夠真正理解阿拉伯語的詩意、把握文化的精髓、尊重傳統(tǒng)的智慧時(shí),技術(shù)與人文的和諧統(tǒng)一就不再是遙遠(yuǎn)的理想,而是觸手可及的現(xiàn)實(shí)。這項(xiàng)研究為構(gòu)建一個(gè)更加包容、多元的人工智能未來邁出了堅(jiān)實(shí)的一步。
**Q&A**
**Q1:Hala模型和普通的多語言AI模型有什么不同?**
A:Hala專門為阿拉伯語設(shè)計(jì),就像專業(yè)阿拉伯語老師和懂點(diǎn)阿拉伯語的萬能翻譯官的區(qū)別。普通多語言模型雖然能處理阿拉伯語,但往往不夠準(zhǔn)確和自然。Hala通過專門的阿拉伯語訓(xùn)練,能更好地理解阿拉伯語的語法、文化內(nèi)涵和表達(dá)習(xí)慣,在阿拉伯語任務(wù)上表現(xiàn)顯著優(yōu)于同規(guī)模的通用模型。
**Q2:這種翻譯再調(diào)優(yōu)的方法能用于其他語言嗎?**
A:完全可以。研究團(tuán)隊(duì)提供的整套方法和代碼都是開源的,其他語言的研究者可以按照同樣的流程:先用高質(zhì)量翻譯模型轉(zhuǎn)換英語數(shù)據(jù),然后訓(xùn)練專門的語言模型,最后通過模型融合保持通用能力。這種方法對(duì)于中文、法語、西班牙語等任何語言都適用,成本也相對(duì)較低。
**Q3:使用Hala模型需要什么技術(shù)條件?普通人能用嗎?**
A:Hala模型已經(jīng)在Hugging Face平臺(tái)開放下載(hf.co/collections/Hala),技術(shù)人員可以直接使用。對(duì)于普通用戶,需要等待基于Hala技術(shù)的應(yīng)用產(chǎn)品出現(xiàn)。模型有不同規(guī)??蛇x:350M版本對(duì)硬件要求較低,個(gè)人電腦也能運(yùn)行;而9B版本性能更強(qiáng)但需要更好的硬件。隨著技術(shù)普及,相信很快就會(huì)有面向普通用戶的阿拉伯語AI應(yīng)用出現(xiàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。