這項由阿里巴巴Qwen團(tuán)隊完成的突破性研究發(fā)表于2025年9月,論文編號為arXiv:2509.17765v1。有興趣深入了解的讀者可以通過該編號在學(xué)術(shù)數(shù)據(jù)庫中查詢完整論文。這項研究首次實現(xiàn)了一個AI模型同時精通文字、語音、圖像和視頻處理,而且在每個領(lǐng)域的表現(xiàn)都不遜色于專門的單一模態(tài)模型。
想象一下,你正在和一個朋友聊天,你可以給他看照片、播放音樂、展示視頻,他都能立即理解并用自然的語音回應(yīng)你。現(xiàn)在,阿里巴巴的研究團(tuán)隊真的創(chuàng)造出了這樣一個AI助手。這個名為Qwen3-Omni的AI系統(tǒng)就像一個全能的數(shù)字伙伴,它不僅能讀懂文字、看懂圖片、聽懂聲音,還能觀看視頻并理解其中的內(nèi)容,然后用流暢自然的語音與你對話。
這項研究的核心突破在于解決了一個長期困擾AI領(lǐng)域的難題:如何讓一個AI模型在掌握多種技能的同時,不會因為"貪多嚼不爛"而在某些方面表現(xiàn)變差。就像一個人學(xué)會了畫畫之后,寫字能力反而下降了一樣,傳統(tǒng)的多模態(tài)AI往往會出現(xiàn)這種"顧此失彼"的問題。但Qwen3-Omni打破了這個魔咒,它在文字理解、圖像識別、語音處理和視頻分析方面都達(dá)到了頂尖水平。
更令人驚嘆的是,這個AI系統(tǒng)的反應(yīng)速度快得驚人。當(dāng)你對它說話時,它能在234毫秒內(nèi)開始回應(yīng)——這比人類眨眼的時間還要短。這意味著與它對話就像和真人交流一樣自然流暢,沒有那種機(jī)器人式的停頓和延遲。
研究團(tuán)隊還特別開發(fā)了一個"思考模式"的版本,這個版本會在回答復(fù)雜問題時先進(jìn)行深入思考,然后給出更加準(zhǔn)確和詳細(xì)的答案。此外,他們還創(chuàng)造了一個專門的"音頻描述專家",能夠為任何聲音生成詳細(xì)而準(zhǔn)確的文字描述,這在以往是非常困難的任務(wù)。
一、革命性的"思考者-表達(dá)者"架構(gòu)設(shè)計
Qwen3-Omni的設(shè)計理念就像一個高效的雙人組合:一個負(fù)責(zé)思考的"大腦"和一個負(fù)責(zé)表達(dá)的"嘴巴"。這種分工合作的方式讓整個系統(tǒng)既能深入思考復(fù)雜問題,又能流暢自然地表達(dá)想法。
在這個設(shè)計中,"思考者"模塊就像一個博學(xué)的學(xué)者,專門負(fù)責(zé)理解和分析輸入的各種信息,無論是文字、圖片、聲音還是視頻。它會仔細(xì)處理這些信息,形成深入的理解和準(zhǔn)確的判斷。而"表達(dá)者"模塊則像一個優(yōu)秀的播音員,專門負(fù)責(zé)將思考的結(jié)果轉(zhuǎn)化為自然流暢的語音輸出。
這種分工設(shè)計的巧妙之處在于,兩個模塊可以并行工作。當(dāng)思考者還在處理復(fù)雜信息時,表達(dá)者就可以開始準(zhǔn)備語音輸出,這大大減少了整體的響應(yīng)時間。就像一個經(jīng)驗豐富的新聞主播,能夠在理解新聞內(nèi)容的同時,立即開始流暢地播報。
研究團(tuán)隊在這次升級中采用了混合專家模型(MoE)架構(gòu),這就像是在思考者和表達(dá)者的大腦中分別安裝了多個專業(yè)顧問。每當(dāng)遇到不同類型的問題時,系統(tǒng)會自動調(diào)用最合適的專家來處理。比如遇到數(shù)學(xué)問題時調(diào)用數(shù)學(xué)專家,遇到藝術(shù)問題時調(diào)用藝術(shù)專家,這樣既提高了處理效率,又保證了回答質(zhì)量。
特別值得一提的是,新版本的表達(dá)者不再完全依賴思考者的文字輸出,而是可以直接從多模態(tài)特征中生成語音。這種設(shè)計讓系統(tǒng)在處理音視頻內(nèi)容時能夠保持原有的韻律和情感色彩。比如在翻譯一段帶有情感的演講時,不僅能準(zhǔn)確傳達(dá)內(nèi)容,還能保持原有的語調(diào)和情緒。
二、從零開始訓(xùn)練的音頻理解大師
為了讓Qwen3-Omni真正理解聲音的世界,研究團(tuán)隊沒有采用現(xiàn)成的音頻處理模型,而是從零開始訓(xùn)練了一個名為AuT(Audio Transformer)的音頻編碼器。這就像是專門為這個AI系統(tǒng)定制了一雙"超級耳朵"。
這個音頻編碼器的訓(xùn)練過程可以說是"聽遍天下聲音"。研究團(tuán)隊收集了2000萬小時的音頻數(shù)據(jù),這相當(dāng)于一個人不眠不休地聽2283年的聲音。這些音頻數(shù)據(jù)包括了各種語言的對話、音樂、自然聲音等等,讓AI系統(tǒng)能夠理解聲音世界的豐富多樣性。
AuT的設(shè)計采用了動態(tài)注意力窗口機(jī)制,這就像是給AI裝上了可以調(diào)節(jié)焦距的"聽覺望遠(yuǎn)鏡"。當(dāng)處理短音頻時,它會專注于細(xì)節(jié);當(dāng)處理長音頻時,它會關(guān)注整體結(jié)構(gòu)。這種靈活的注意力機(jī)制讓系統(tǒng)既能捕捉到瞬間的聲音變化,又能理解長時間音頻的整體含義。
在音頻處理的技術(shù)細(xì)節(jié)上,系統(tǒng)將音頻信號轉(zhuǎn)換為每秒12.5個音頻幀,每個幀代表大約80毫秒的音頻內(nèi)容。這種處理方式既保證了音頻質(zhì)量,又確保了實時處理的效率。就像是將連續(xù)的音樂流切分成一個個小的音符片段,每個片段都包含了豐富的聲音信息。
三、多語言全球化的語音交互能力
Qwen3-Omni的語言能力堪稱全球化AI助手的典范。它支持119種文字語言的理解,這幾乎涵蓋了世界上所有主要的書面語言。在語音方面,它能夠理解19種語言的口語,并能用10種語言進(jìn)行自然的語音回應(yīng)。
這種多語言能力的實現(xiàn)并非簡單的翻譯,而是真正的跨語言理解。系統(tǒng)能夠理解不同語言中的文化背景、語言習(xí)慣和表達(dá)方式。比如當(dāng)用戶用中文問"今天天氣怎么樣"時,系統(tǒng)不僅能理解這是在詢問天氣,還能根據(jù)用戶的語言習(xí)慣選擇合適的回應(yīng)方式。
在語音生成方面,系統(tǒng)采用了多碼本表示技術(shù),這就像是為每種語言準(zhǔn)備了專門的"發(fā)音字典"。這種技術(shù)能夠準(zhǔn)確捕捉不同語言的發(fā)音特點、語調(diào)變化和情感表達(dá)。無論是英語的重音變化、中文的聲調(diào)起伏,還是法語的鼻音特色,系統(tǒng)都能準(zhǔn)確模擬。
特別令人印象深刻的是,系統(tǒng)還支持跨語言的語音克隆。你可以用中文錄制一段話,然后讓系統(tǒng)用同樣的聲音特征說英語或其他語言。這種技術(shù)在國際會議、多語言教學(xué)等場景中具有巨大的應(yīng)用價值。
四、突破性的實時流式語音生成技術(shù)
傳統(tǒng)的AI語音生成就像是先寫完整篇文章再朗讀,而Qwen3-Omni實現(xiàn)了"邊想邊說"的實時生成。這種技術(shù)突破讓AI的語音交互變得更加自然和流暢。
系統(tǒng)采用了多碼本自回歸生成機(jī)制,這就像是一個經(jīng)驗豐富的播音員,能夠在理解內(nèi)容的同時立即開始發(fā)聲。當(dāng)系統(tǒng)生成第一個語音片段時,后續(xù)的語音內(nèi)容就開始并行處理,這樣就避免了傳統(tǒng)方法中"說完一句話再想下一句話"的延遲問題。
為了實現(xiàn)超低延遲,研究團(tuán)隊設(shè)計了輕量級的MTP(多令牌預(yù)測)模塊和卷積網(wǎng)絡(luò)解碼器。MTP模塊就像是一個高效的"語音預(yù)測器",能夠快速預(yù)測接下來要說的內(nèi)容。而卷積網(wǎng)絡(luò)解碼器則像是一個高速的"語音合成器",能夠立即將預(yù)測的內(nèi)容轉(zhuǎn)化為自然的語音波形。
這種設(shè)計的最終效果是,從用戶說話結(jié)束到AI開始回應(yīng),整個過程只需要234毫秒。這個速度比人類的正常反應(yīng)時間還要快,讓人機(jī)對話變得真正自然流暢。在高并發(fā)場景下,即使同時有多個用戶與系統(tǒng)對話,每個用戶仍然能夠獲得流暢的交互體驗。
五、無損多模態(tài)融合的訓(xùn)練策略
Qwen3-Omni最大的技術(shù)突破在于實現(xiàn)了"無損多模態(tài)融合"——讓AI在學(xué)會處理多種類型信息的同時,不會在任何單一能力上出現(xiàn)退步。這就像是培養(yǎng)一個全才學(xué)生,讓他在學(xué)會數(shù)學(xué)的同時,語文和英語成績也不會下降。
研究團(tuán)隊采用了三階段的訓(xùn)練策略。第一階段是"編碼器對齊階段",就像是讓AI的"眼睛"(視覺編碼器)和"耳朵"(音頻編碼器)先學(xué)會與"大腦"(語言模型)進(jìn)行有效溝通。在這個階段,語言模型的參數(shù)被固定,專門訓(xùn)練視覺和音頻編碼器如何將圖像和聲音信息轉(zhuǎn)化為語言模型能夠理解的形式。
第二階段是"通用訓(xùn)練階段",在這個階段,所有模塊都參與訓(xùn)練,使用包含約2萬億個訓(xùn)練樣本的大規(guī)模數(shù)據(jù)集。這些數(shù)據(jù)包括純文本、音頻、圖像、視頻和音視頻組合等多種形式。訓(xùn)練數(shù)據(jù)的分布經(jīng)過精心設(shè)計:文本數(shù)據(jù)占0.57萬億、音頻數(shù)據(jù)占0.77萬億、圖像數(shù)據(jù)占0.82萬億、視頻數(shù)據(jù)占0.05萬億、音視頻組合數(shù)據(jù)占0.05萬億。
第三階段是"長上下文訓(xùn)練階段",將系統(tǒng)能夠處理的最大序列長度從8192個令牌擴(kuò)展到32768個令牌,這相當(dāng)于讓AI能夠"記住"更長的對話歷史和更復(fù)雜的多模態(tài)內(nèi)容。這種擴(kuò)展讓系統(tǒng)能夠處理長達(dá)40分鐘的音頻內(nèi)容,進(jìn)行深入的長時間對話。
關(guān)鍵的創(chuàng)新在于,研究團(tuán)隊在訓(xùn)練早期就引入了多模態(tài)數(shù)據(jù),而不是先訓(xùn)練單模態(tài)能力再融合。這種策略讓不同模態(tài)之間形成了天然的協(xié)同關(guān)系,避免了后期融合時可能出現(xiàn)的沖突和性能損失。
六、專業(yè)化的后訓(xùn)練優(yōu)化流程
為了讓Qwen3-Omni從一個"博學(xué)的學(xué)生"變成一個"專業(yè)的助手",研究團(tuán)隊設(shè)計了復(fù)雜的后訓(xùn)練流程,分別針對思考者和表達(dá)者模塊進(jìn)行專門優(yōu)化。
思考者模塊的訓(xùn)練采用了三階段流程。首先是監(jiān)督微調(diào)階段,使用ChatML格式的對話數(shù)據(jù)讓系統(tǒng)學(xué)會如何進(jìn)行自然的多模態(tài)對話。這就像是給AI上"禮儀課",教它如何與人類進(jìn)行恰當(dāng)?shù)慕涣鳌?/p>
接下來是強(qiáng)弱蒸餾階段,這個過程就像是讓一個優(yōu)秀的老師(大型教師模型)來指導(dǎo)學(xué)生(Qwen3-Omni)。教師模型會生成高質(zhì)量的回答,學(xué)生模型通過模仿學(xué)習(xí)來提升自己的能力。這個過程分為離線蒸餾和在線蒸餾兩個步驟,確保學(xué)生模型既能學(xué)到教師的知識,又能保持自己的特色。
最后是GSPO(廣義自我偏好優(yōu)化)階段,這就像是讓AI學(xué)會自我評價和改進(jìn)。系統(tǒng)會生成多個候選回答,然后通過規(guī)則基礎(chǔ)獎勵和模型基礎(chǔ)獎勵兩種方式來評估這些回答的質(zhì)量,選擇最好的回答進(jìn)行強(qiáng)化學(xué)習(xí)。
表達(dá)者模塊的訓(xùn)練同樣采用了四階段流程。第一階段使用數(shù)億條語音數(shù)據(jù)建立多模態(tài)表示到語音的映射關(guān)系。第二階段進(jìn)行持續(xù)預(yù)訓(xùn)練,使用高質(zhì)量數(shù)據(jù)減少第一階段可能產(chǎn)生的幻覺問題。第三階段使用直接偏好優(yōu)化來提升多語言語音生成的泛化能力。最后一階段進(jìn)行說話人微調(diào),讓系統(tǒng)能夠模擬特定的聲音特征。
七、全面的性能評估與對比分析
為了驗證Qwen3-Omni的真實能力,研究團(tuán)隊進(jìn)行了全面的性能評估,涵蓋了36個音頻和音視頻基準(zhǔn)測試。結(jié)果顯示,Qwen3-Omni在32個基準(zhǔn)測試中達(dá)到了開源模型的最佳性能,在22個測試中創(chuàng)造了全新的最佳記錄。
在文本理解任務(wù)中,Qwen3-Omni展現(xiàn)出了令人印象深刻的能力。在GPQA、AIME25、ZebraLogic等高難度測試中,它的表現(xiàn)甚至超過了參數(shù)規(guī)模更大的模型。比如在數(shù)學(xué)推理任務(wù)AIME25中,Qwen3-Omni達(dá)到了65.0的分?jǐn)?shù),超過了GPT-4o的26.7分。
音頻處理能力方面,Qwen3-Omni在語音識別、語音翻譯和音樂理解等任務(wù)中都表現(xiàn)出色。在中英文語音識別任務(wù)中,它的錯誤率低至1.22%和2.48%,明顯優(yōu)于其他競爭對手。在多語言語音識別方面,它支持19種語言,平均錯誤率僅為5.33%。
特別值得關(guān)注的是音樂理解能力,這是一個相對較新的評估領(lǐng)域。Qwen3-Omni在GTZAN音樂分類任務(wù)中達(dá)到了93.0%的準(zhǔn)確率,在各種音樂標(biāo)注任務(wù)中都顯著超過了其他音頻語言模型,甚至超過了專門的音樂理解模型。
視覺理解方面,Qwen3-Omni在數(shù)學(xué)和STEM相關(guān)任務(wù)中表現(xiàn)尤為突出。在MMMU-Pro、MathVista和MATH-Vision等測試中,它的表現(xiàn)超過了GPT-4o和Gemini-2.0-Flash等強(qiáng)大的競爭對手。這表明多模態(tài)訓(xùn)練不僅沒有損害視覺能力,反而在某些方面帶來了提升。
八、無損多模態(tài)融合的實驗驗證
為了嚴(yán)格驗證多模態(tài)訓(xùn)練是否真的能夠做到"無損融合",研究團(tuán)隊設(shè)計了一個對照實驗。他們訓(xùn)練了三個參數(shù)規(guī)模相同的模型:純文本模型、純視覺模型和多模態(tài)Omni模型,并確保所有其他訓(xùn)練條件完全一致。
實驗結(jié)果令人振奮。在文本任務(wù)中,多模態(tài)Omni模型的表現(xiàn)與純文本模型基本相當(dāng),在某些任務(wù)中甚至略有提升。比如在MMLU測試中,純文本模型得分81.24,而Omni模型得分81.69。在數(shù)學(xué)任務(wù)GSM8K中,純文本模型得分90.83,Omni模型得分91.36。
更有趣的是,研究團(tuán)隊發(fā)現(xiàn)音頻數(shù)據(jù)的加入對視覺任務(wù)產(chǎn)生了積極影響。在MMMU視覺理解任務(wù)中,純視覺模型得分57.22,而Omni模型得分59.33。在多個OCR相關(guān)任務(wù)中,Omni模型也都略微超過了純視覺模型。
這些結(jié)果證明了一個重要觀點:不同模態(tài)之間存在著相互促進(jìn)的協(xié)同效應(yīng)。音頻信息中包含的時序和韻律特征能夠幫助模型更好地理解視覺序列,而視覺信息中的空間結(jié)構(gòu)特征也能增強(qiáng)對音頻內(nèi)容的理解。
九、工程優(yōu)化與實際部署考量
除了算法創(chuàng)新,Qwen3-Omni在工程實現(xiàn)方面也進(jìn)行了大量優(yōu)化,確保系統(tǒng)能夠在實際應(yīng)用中穩(wěn)定高效地運(yùn)行。
系統(tǒng)采用了分塊預(yù)填充機(jī)制,這就像是將長篇文章分成若干段落來閱讀,既保證了理解質(zhì)量,又提高了處理效率。在實時交互場景中,思考者和表達(dá)者模塊可以異步工作:當(dāng)思考者完成當(dāng)前塊的處理時,其輸出會立即傳遞給表達(dá)者進(jìn)行處理,同時思考者開始處理下一個塊。
混合專家架構(gòu)在提升性能的同時,也顯著改善了系統(tǒng)的并發(fā)處理能力。相比傳統(tǒng)的密集模型,MoE架構(gòu)在處理長序列時大大減少了KV緩存的IO消耗,提高了每秒處理的令牌數(shù)量,從而支持更高的并發(fā)用戶數(shù)。
在語音生成的優(yōu)化方面,系統(tǒng)采用了左上下文多碼本生成機(jī)制。傳統(tǒng)方法需要等待足夠的上下文信息才能開始合成,而新方法可以在生成第一個令牌后立即開始輸出波形,大大減少了首包延遲。
輕量級的MTP模塊和卷積網(wǎng)絡(luò)解碼器都經(jīng)過了專門的優(yōu)化,支持批量推理和硬件加速。在實際部署中,這些模塊可以利用CUDA Graph等技術(shù)進(jìn)一步加速,確保在高并發(fā)場景下仍能保持低延遲。
十、音頻描述專家的創(chuàng)新應(yīng)用
考慮到研究社區(qū)缺乏通用的音頻描述模型,研究團(tuán)隊基于Qwen3-Omni開發(fā)了專門的音頻描述專家Qwen3-Omni-Captioner。這個模型能夠為任意音頻輸入生成詳細(xì)、準(zhǔn)確的文字描述,填補(bǔ)了多模態(tài)理解領(lǐng)域的一個重要空白。
音頻描述任務(wù)的難度在于需要理解聲音的多個層面:內(nèi)容層面(說了什么)、情感層面(如何說的)、環(huán)境層面(在哪里說的)和技術(shù)層面(音質(zhì)如何)。傳統(tǒng)的語音識別只能處理內(nèi)容層面,而音頻描述需要全方位的理解。
Qwen3-Omni-Captioner通過在大規(guī)模音頻描述數(shù)據(jù)集上進(jìn)行微調(diào),學(xué)會了生成詳細(xì)而準(zhǔn)確的音頻描述。它不僅能識別語音內(nèi)容,還能描述說話者的情緒狀態(tài)、背景噪音、音樂風(fēng)格等復(fù)雜信息。比如對于一段錄音,它可能會描述為:"一位中年男性用平靜而自信的語調(diào)在安靜的室內(nèi)環(huán)境中講解技術(shù)概念,背景偶有輕微的空調(diào)噪音。"
這種能力在多個應(yīng)用場景中都有重要價值:為視聽障礙人士提供無障礙服務(wù)、為音頻內(nèi)容創(chuàng)建搜索索引、為多媒體內(nèi)容生成字幕和描述等。
十一、思考模式的深度推理能力
Qwen3-Omni-Thinking版本代表了AI推理能力的新高度。這個版本在回答復(fù)雜問題時會先進(jìn)入"思考模式",進(jìn)行深入的分析和推理,然后給出更加準(zhǔn)確和全面的答案。
思考模式的工作原理類似于人類解決復(fù)雜問題的過程。當(dāng)遇到需要多步推理的問題時,系統(tǒng)會首先分析問題的各個組成部分,識別關(guān)鍵信息和約束條件,然后制定解決策略,逐步推進(jìn)求解過程,最后整合所有信息得出最終答案。
在數(shù)學(xué)和科學(xué)問題中,思考模式的優(yōu)勢特別明顯。比如在處理復(fù)雜的積分計算時,系統(tǒng)會先分析被積函數(shù)的特點,選擇合適的積分方法,逐步進(jìn)行計算,并在每一步都檢查結(jié)果的合理性。這種深度推理能力讓AI的數(shù)學(xué)解題能力達(dá)到了新的水平。
思考模式不僅適用于邏輯推理,在創(chuàng)意任務(wù)中也展現(xiàn)出獨特價值。當(dāng)需要生成創(chuàng)意內(nèi)容時,系統(tǒng)會先分析需求和約束,探索不同的創(chuàng)意方向,評估各種可能性,最后選擇最佳的創(chuàng)意方案。
十二、未來發(fā)展方向與應(yīng)用前景
Qwen3-Omni的成功為多模態(tài)AI的發(fā)展指明了新方向。研究團(tuán)隊已經(jīng)規(guī)劃了多個未來發(fā)展方向,包括多說話人語音識別、視頻OCR、音視頻主動學(xué)習(xí),以及增強(qiáng)的智能體工作流和函數(shù)調(diào)用支持。
在多說話人語音識別方面,未來版本將能夠在復(fù)雜的多人對話場景中準(zhǔn)確識別不同說話人的身份和內(nèi)容,這對會議記錄、訪談?wù)淼葢?yīng)用場景具有重要價值。
視頻OCR功能將讓系統(tǒng)能夠理解視頻中的文字信息,結(jié)合音頻和視覺內(nèi)容提供更全面的視頻理解能力。這對教育視頻、新聞節(jié)目、廣告分析等領(lǐng)域都有重要意義。
音視頻主動學(xué)習(xí)技術(shù)將讓系統(tǒng)能夠主動識別和學(xué)習(xí)新的音視頻模式,不斷提升自己的理解能力。這種自我進(jìn)化的能力將讓AI系統(tǒng)變得更加智能和適應(yīng)性更強(qiáng)。
在實際應(yīng)用方面,Qwen3-Omni的低延遲、高質(zhì)量特性使其特別適合實時交互場景。無論是智能客服、在線教育、遠(yuǎn)程會議,還是娛樂互動、輔助創(chuàng)作等場景,都能發(fā)揮重要作用。
說到底,Qwen3-Omni代表了AI發(fā)展的一個重要里程碑。它證明了多模態(tài)AI不再是"樣樣通,樣樣松"的妥協(xié)產(chǎn)品,而是能夠在各個領(lǐng)域都達(dá)到專業(yè)水平的全能助手。這種無損多模態(tài)融合的成功,為未來更加智能、更加自然的人機(jī)交互開辟了新的可能性。
歸根結(jié)底,這項研究最大的意義在于證明了一個觀點:AI的未來不是單一技能的極致優(yōu)化,而是多種能力的和諧統(tǒng)一。就像人類智能的魅力在于能夠靈活運(yùn)用視覺、聽覺、語言等多種能力來理解和改造世界一樣,真正智能的AI也應(yīng)該具備這樣的綜合能力。Qwen3-Omni的成功讓我們看到了這個未來正在變成現(xiàn)實。
對于普通用戶來說,這意味著我們很快就能擁有真正智能的AI助手,它們能夠像人類朋友一樣理解我們的各種表達(dá)方式,并用最自然的方式與我們交流。無論是工作中的協(xié)助、學(xué)習(xí)中的指導(dǎo),還是生活中的陪伴,這樣的AI都將成為我們不可或缺的伙伴。
有興趣深入了解這項研究技術(shù)細(xì)節(jié)的讀者,可以通過論文編號arXiv:2509.17765v1在相關(guān)學(xué)術(shù)數(shù)據(jù)庫中查找完整的研究報告,其中包含了更多的技術(shù)實現(xiàn)細(xì)節(jié)和實驗數(shù)據(jù)。
Q&A
Q1:Qwen3-Omni相比其他AI模型有什么特別之處?
A:Qwen3-Omni最大的特點是實現(xiàn)了"無損多模態(tài)融合",它能同時處理文字、語音、圖像和視頻,而且在每個領(lǐng)域的表現(xiàn)都不遜色于專門的單一模態(tài)模型。傳統(tǒng)多模態(tài)AI往往會出現(xiàn)"顧此失彼"的問題,但Qwen3-Omni打破了這個限制,在36個測試中有32個達(dá)到開源最佳性能。
Q2:Qwen3-Omni的實時對話延遲只有234毫秒是什么概念?
A:234毫秒比人類眨眼的時間還要短,這意味著與Qwen3-Omni對話就像和真人交流一樣自然流暢。系統(tǒng)采用了"思考者-表達(dá)者"分工架構(gòu)和多碼本流式生成技術(shù),能夠邊思考邊說話,避免了傳統(tǒng)AI"想完再說"的延遲問題。
Q3:Qwen3-Omni支持哪些語言,普通人能使用嗎?
A:Qwen3-Omni支持119種文字語言理解、19種語言的語音理解和10種語言的語音生成,幾乎涵蓋了世界主要語言。目前該模型已在GitHub和HuggingFace等平臺開源發(fā)布,研究者和開發(fā)者可以免費(fèi)使用,但普通消費(fèi)者可能需要等待商業(yè)化產(chǎn)品的推出。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。