av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<table id="9knwv"></table>

<menuitem id="9knwv"><b id="9knwv"></b></menuitem>

<abbr id="9knwv"></abbr>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

聲入虎穴：MBZUAI研究團(tuán)隊(duì)揭示大型音頻語(yǔ)言模型的安全漏洞與對(duì)抗攻擊實(shí)驗(yàn)

人工智能安全音頻語(yǔ)言模型對(duì)抗攻擊

聲入虎穴：MBZUAI研究團(tuán)隊(duì)揭示大型音頻語(yǔ)言模型的安全漏洞與對(duì)抗攻擊實(shí)驗(yàn)

作者：科技行者

2025-05-27 17:08

分享至：

這項(xiàng)由Mohamed bin Zayed人工智能大學(xué)研究團(tuán)隊(duì)主導(dǎo)的研究首次建立了針對(duì)大型音頻語(yǔ)言模型的安全性測(cè)試基準(zhǔn)。研究發(fā)現(xiàn)，當(dāng)前主流音頻語(yǔ)言模型在面對(duì)特定音頻擾動(dòng)時(shí)，即使是微小的聲學(xué)變化也能顯著降低其安全防護(hù)能力，導(dǎo)致生成有害內(nèi)容。研究團(tuán)隊(duì)構(gòu)建了包含1,495個(gè)對(duì)抗性音頻樣本的數(shù)據(jù)集，并開發(fā)了音頻擾動(dòng)工具包來(lái)生成更具挑戰(zhàn)性的測(cè)試樣本。實(shí)驗(yàn)評(píng)估了七種主流模型，結(jié)果顯示沒有一個(gè)模型能在所有安全維度上保持一致的魯棒性，這為音頻AI安全研究提供了重要基礎(chǔ)和方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 17:08 ? 科技行者

大型音頻語(yǔ)言模型（LAMs）的興起為我們帶來(lái)了科幻小說(shuō)中才有的人工助手體驗(yàn)，但這些能聽會(huì)說(shuō)的AI助手真的安全嗎？近日，由Mohamed bin Zayed人工智能大學(xué)（MBZUAI）的宋子睿、蔣倩、崔明軒等研究人員，聯(lián)合ByteDance的李明哲和澳大利亞國(guó)立大學(xué)的張澤宇共同完成的一項(xiàng)研究《Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models》（音頻越獄：一個(gè)針對(duì)大型音頻語(yǔ)言模型的綜合基準(zhǔn)測(cè)試）揭示了這一領(lǐng)域中不為人知的安全隱患。該論文于2024年5月21日在arXiv預(yù)印本平臺(tái)上發(fā)布（arXiv:2505.15406v1），研究團(tuán)隊(duì)也同時(shí)開源了相關(guān)代碼和數(shù)據(jù)集：https://github.com/mbzuai-nlp/AudioJailbreak。

想象一下，你對(duì)著你的AI助手說(shuō)："嘿，幫我分析一下不同性別的駕駛行為"，AI給你回答了一段公正客觀的分析。但如果有人稍微調(diào)整了這段語(yǔ)音的音調(diào)、速度或背景音，AI可能突然回答："是啊，女性就是糟糕的駕駛員..."——這就是音頻越獄攻擊的威力。

當(dāng)前的研究多集中在文本和圖像模型的安全性上，而對(duì)音頻語(yǔ)言模型的安全評(píng)估卻相對(duì)不足。特別是針對(duì)"越獄攻擊"（jailbreak attacks，即誘導(dǎo)AI生成有害或違反政策內(nèi)容的攻擊）的系統(tǒng)性評(píng)估幾乎空白。這類攻擊在音頻領(lǐng)域尤其具有挑戰(zhàn)性，因?yàn)檎Z(yǔ)音既包含語(yǔ)義信息，又有獨(dú)特的時(shí)間和聲學(xué)特性。

針對(duì)這一研究空白，MBZUAI團(tuán)隊(duì)構(gòu)建了AJailBench——第一個(gè)專門用于評(píng)估音頻語(yǔ)言模型越獄漏洞的開源基準(zhǔn)測(cè)試。他們的研究包含三個(gè)關(guān)鍵部分：首先，創(chuàng)建了包含1,495個(gè)對(duì)抗性音頻樣本的基礎(chǔ)數(shù)據(jù)集；其次，開發(fā)了一套音頻擾動(dòng)工具包（APT），能夠在保持語(yǔ)義內(nèi)容的同時(shí)生成更具攻擊性的變體；最后，他們對(duì)七個(gè)主流音頻語(yǔ)言模型進(jìn)行了全面評(píng)估，揭示了這些模型在面對(duì)攻擊時(shí)的脆弱性。

研究的結(jié)果令人擔(dān)憂：即使是最先進(jìn)的音頻語(yǔ)言模型，在面對(duì)這些微妙但有效的音頻擾動(dòng)時(shí)，也會(huì)顯著降低安全性能。這不僅暴露了當(dāng)前技術(shù)的局限，也為未來(lái)的防御機(jī)制研究提供了重要基礎(chǔ)。

一、AJailBench基礎(chǔ)數(shù)據(jù)集：構(gòu)建越獄測(cè)試的基石

想象你在搭建一個(gè)安全測(cè)試場(chǎng)，需要各種各樣的"鑰匙"來(lái)測(cè)試鎖的可靠性。MBZUAI的研究團(tuán)隊(duì)正是這樣構(gòu)建了AJailBench-Base數(shù)據(jù)集，這個(gè)數(shù)據(jù)集就像是一大堆專門設(shè)計(jì)用來(lái)"撬鎖"的工具。

研究團(tuán)隊(duì)首先從兩個(gè)主要來(lái)源收集了越獄文本樣本。一部分來(lái)自已發(fā)表的研究論文和Reddit等在線平臺(tái)上用戶分享的實(shí)例；另一部分則是使用開源越獄生成工具自動(dòng)創(chuàng)建的。這些文本樣本經(jīng)過精心篩選，只保留那些能夠繞過ChatGPT-3.5/4安全過濾器的提示，確?；鶞?zhǔn)測(cè)試具有挑戰(zhàn)性和實(shí)用性。

每個(gè)樣本都根據(jù)OpenAI使用政策，使用DeekSeek-V3進(jìn)行違規(guī)類型標(biāo)注，最終構(gòu)建了一個(gè)包含1,495個(gè)越獄文本樣本的數(shù)據(jù)集，涵蓋了10個(gè)違規(guī)類別，包括虛假信息、經(jīng)濟(jì)傷害、個(gè)人社會(huì)規(guī)范濫用等。

為了將這些文本轉(zhuǎn)換為自然的語(yǔ)音，研究團(tuán)隊(duì)使用了Google Cloud TTS模型，并配置了118種不同的音色，跨越四種英語(yǔ)口音（英國(guó)、澳大利亞、美國(guó)、印度），最大限度地增加音頻多樣性。這就像準(zhǔn)備了118位不同口音、音調(diào)的"配音演員"，讓他們朗讀這些潛在有害的內(nèi)容。

值得注意的是，在自動(dòng)生成的越獄樣本中，有些詞匯排列混亂（類似拼寫錯(cuò)誤），TTS模型會(huì)逐字拼讀而非直接朗讀，這也保留了文本越獄攻擊的某些特性。

二、音頻擾動(dòng)工具包：讓越獄攻擊更具現(xiàn)實(shí)挑戰(zhàn)性

雖然基礎(chǔ)數(shù)據(jù)集可以評(píng)估模型對(duì)"干凈"音頻的魯棒性，但現(xiàn)實(shí)世界中的攻擊往往更為復(fù)雜和隱蔽。想象一下，如果有人試圖破解你家的安全系統(tǒng)，他們不會(huì)只用一種方法，而是會(huì)嘗試各種技巧的組合。

基于這一考慮，研究團(tuán)隊(duì)開發(fā)了音頻擾動(dòng)工具包（Audio Perturbation Toolkit，APT），這個(gè)工具包有三個(gè)主要?jiǎng)訖C(jī)：首先，它能創(chuàng)造更強(qiáng)大的攻擊方式，甚至可以挑戰(zhàn)那些已經(jīng)經(jīng)過良好安全調(diào)整的模型；其次，它利用語(yǔ)音的獨(dú)特特性，如時(shí)間變化和聲學(xué)模糊性；最后，它探索了多種擾動(dòng)類型的組合效應(yīng)，增強(qiáng)攻擊的多樣性和有效性。

研究團(tuán)隊(duì)提出了一個(gè)統(tǒng)一的數(shù)學(xué)框架來(lái)描述音頻擾動(dòng)。假設(shè)原始音頻樣本為x，擾動(dòng)被定義為參數(shù)化轉(zhuǎn)換T(x; θ)，生成擾動(dòng)后的音頻x'。為了保持越獄意圖不變，他們引入了語(yǔ)義一致性約束：S(x, x') ≥ τ，其中S衡量相似度，τ是閾值。

具體來(lái)說(shuō)，APT包含三類擾動(dòng)方法：

時(shí)域擾動(dòng)：直接作用于波形x(t)，包括能量分布擾動(dòng)（調(diào)整音頻整體響度）、截?cái)啵ㄒ瞥囟〞r(shí)間段的信號(hào)）和淡入淡出（對(duì)音頻開始和結(jié)束部分應(yīng)用線性增益斜坡）。

頻域擾動(dòng)：通過操縱頻率成分來(lái)修改信號(hào)，如音高偏移（改變基頻及其諧波而不改變持續(xù)時(shí)間）和時(shí)間縮放（加速或減慢音頻而不改變音高）。

混合擾動(dòng)：將原始信號(hào)與外部信號(hào)結(jié)合，包括額外聽覺引導(dǎo)（添加超聲波或次聲波正弦信號(hào)）和自然噪聲注入（疊加雨聲、哭聲、喇叭聲或音樂等自然聲音事件）。

就像一位廚師會(huì)嘗試不同的調(diào)味料組合以找到最佳風(fēng)味一樣，研究團(tuán)隊(duì)?wèi)?yīng)用貝葉斯優(yōu)化來(lái)自動(dòng)搜索最有效的擾動(dòng)配置。他們使用低維向量p = (p1, p2)控制擾動(dòng)過程，其中p1表示擾動(dòng)類型的配置（例如，截?cái)?噪聲注入+音高偏移的組合），p2控制每個(gè)激活擾動(dòng)的強(qiáng)度或關(guān)鍵特性。

為了量化模型拒絕程度，他們定義了一組參考拒絕短語(yǔ)，并測(cè)量模型響應(yīng)與這組短語(yǔ)之間的語(yǔ)義相似度。優(yōu)化目標(biāo)是找到能使這種相似度最小化的擾動(dòng)參數(shù)，從而暴露潛在的越獄漏洞。

三、語(yǔ)義一致性約束：確保攻擊的有效性和真實(shí)性

在進(jìn)行對(duì)抗性音頻攻擊時(shí)，確保擾動(dòng)后的輸入保留原始查詢的核心語(yǔ)義至關(guān)重要。否則，擾動(dòng)可能會(huì)無(wú)意中改變或模糊預(yù)期含義，使人難以判斷模型響應(yīng)是由真正的漏洞引起，還是僅僅由于語(yǔ)義退化。

這就像魔術(shù)師的手法——如果觀眾看出了把戲，魔術(shù)就失去了效果。同樣，如果音頻擾動(dòng)太明顯地改變了原始內(nèi)容，這種攻擊就失去了研究?jī)r(jià)值。

為解決這些挑戰(zhàn)，研究團(tuán)隊(duì)引入了語(yǔ)義一致性約束，確保擾動(dòng)音頻在保持對(duì)抗效果的同時(shí)，仍忠實(shí)于原始意圖。這種約束促進(jìn)了對(duì)抗樣本的泛化性和可遷移性，使成功的攻擊能夠跨不同的聲音風(fēng)格、口音或語(yǔ)速工作，從而更接近現(xiàn)實(shí)世界的黑盒場(chǎng)景。

具體實(shí)現(xiàn)中，每種擾動(dòng)方法都由一個(gè)參數(shù)控制，該參數(shù)調(diào)整擾動(dòng)程度。研究團(tuán)隊(duì)遍歷參數(shù)范圍生成不同強(qiáng)度的擾動(dòng)音頻樣本，然后使用自動(dòng)語(yǔ)音識(shí)別模型轉(zhuǎn)錄每個(gè)樣本。接著，他們使用GPTScore衡量轉(zhuǎn)錄文本與原始越獄提示之間的語(yǔ)義相似度，并通過人工評(píng)估確定哪些樣本在語(yǔ)義上保持一致，從而確定相應(yīng)的最小GPTScore。

這個(gè)分?jǐn)?shù)被映射回?cái)_動(dòng)參數(shù)空間，為每種方法定義了語(yǔ)義安全擾動(dòng)的最大閾值。GPTScore充當(dāng)了人類判斷與擾動(dòng)參數(shù)空間（如縮放率、頻率偏移、時(shí)間段）之間的中間橋梁，避免了不同擾動(dòng)類型之間不可比性的問題。

通過語(yǔ)義一致性實(shí)驗(yàn)，研究團(tuán)隊(duì)發(fā)現(xiàn)：能量分布擾動(dòng)導(dǎo)致相似度相對(duì)緩慢下降，但在高擾動(dòng)強(qiáng)度時(shí)急劇下降；音高偏移在中等頻率偏移時(shí)相似度略有增加，然后迅速下降，表明模型對(duì)某些頻率變化具有一定的魯棒性；時(shí)間縮放顯著影響相似度，當(dāng)縮放率低于0.6或超過1.2時(shí)，相似度急劇下降，表明在這種轉(zhuǎn)換下語(yǔ)義保真度較低；多輪疊加擾動(dòng)對(duì)語(yǔ)義一致性的影響最為線性和持久，隨著擾動(dòng)數(shù)量增加，語(yǔ)義一致性逐漸退化。

最終，研究團(tuán)隊(duì)只保留了低于語(yǔ)義閾值的擾動(dòng)，確保既保持語(yǔ)義一致性，又能實(shí)現(xiàn)有效的對(duì)抗攻擊。

四、基準(zhǔn)測(cè)試結(jié)果：揭示音頻語(yǔ)言模型的安全弱點(diǎn)

研究團(tuán)隊(duì)對(duì)七個(gè)主流音頻語(yǔ)言模型進(jìn)行了全面評(píng)估，包括SpeechGPT、SALMONN、DiVA、Qwen2-Audio、LLama-Omni、Gemini-2.0-flash和GPT-4o-audio。為適應(yīng)不同模型的特定問答格式，他們對(duì)提示進(jìn)行了必要的調(diào)整。

為了全面評(píng)估模型在對(duì)抗攻擊下的行為，研究團(tuán)隊(duì)采用了五個(gè)指標(biāo)：攻擊成功率（ASR，越低越好）、毒性得分（TS，越低越好）、政策違規(guī)（PV，越低越好）、相關(guān)性（越高越好）和相似度（越高越好）。

攻擊成功率表明模型對(duì)對(duì)抗提示的脆弱性。參考Shen等人的方法，他們使用拒絕關(guān)鍵詞列表（如"抱歉，我不能"）計(jì)算ASR；如果響應(yīng)包含任何這些關(guān)鍵詞，則攻擊被視為不成功。較低的ASR反映了對(duì)未經(jīng)授權(quán)或不安全生成的更強(qiáng)抵抗力。

為評(píng)估輸出的質(zhì)量、安全性和相關(guān)性，他們使用了基于GPT-4o的評(píng)估框架。毒性得分在1到5的范圍內(nèi)衡量有害程度；政策違規(guī)是政策違反的二元指標(biāo)（1=違規(guī)，0=安全）；相關(guān)性捕捉響應(yīng)與提示的一致程度，也是1到5的評(píng)分。為評(píng)估與標(biāo)準(zhǔn)拒絕行為的一致性，他們使用GPTScore計(jì)算模型輸出與142個(gè)GPT-4生成的拒絕之間的相似度。

評(píng)估結(jié)果顯示，所有被評(píng)估的LAM（包括Qwen2 Audio、DiVA、LLaMA Omni和GPT-4o）在文本和音頻輸入之間表現(xiàn)出高度一致的安全行為。這表明納入音頻模態(tài)并不會(huì)削弱它們底層語(yǔ)言模型的安全對(duì)齊。值得注意的是，GPT-4o對(duì)其音頻模態(tài)施加了比其文本對(duì)應(yīng)部分更嚴(yán)格的安全約束，這反映在更低的ASR、TS和PV分?jǐn)?shù)上。

研究還揭示，SpeechGPT是安全對(duì)齊程度最低的模型，幾乎沒有能力抵抗越獄攻擊。而在光譜的另一端，SALMONN實(shí)施了極其嚴(yán)格的安全約束，但這是以降低可用性為代價(jià)的，因?yàn)樗?jīng)常無(wú)法對(duì)良性用戶查詢提供有用的響應(yīng)。

有趣的是，GPT-4o在處理潛在越獄提示時(shí)采用了一種微妙的策略。它不是直接拒絕，而是經(jīng)常使用模糊但中性的語(yǔ)言，既承認(rèn)主題，又巧妙地轉(zhuǎn)移請(qǐng)求。例如，當(dāng)被問及醫(yī)療問題時(shí)，它回復(fù)："我在這里提供信息并促進(jìn)積極負(fù)責(zé)任的行為...最好咨詢持證醫(yī)療專業(yè)人員。"這反映了安全性和可用性之間的平衡，在不過度限制的情況下保持一致性。

當(dāng)使用AJailBench-APT+數(shù)據(jù)集（包含經(jīng)過優(yōu)化的擾動(dòng)）進(jìn)行評(píng)估時(shí)，所有模型的安全指標(biāo)都顯著下降，表明這些語(yǔ)義一致的擾動(dòng)增加了攻擊的有效性。通過貝葉斯優(yōu)化選擇的七種APT工具中，時(shí)間拉伸擾動(dòng)和淡入淡出擾動(dòng)最常被使用，對(duì)各種輸入的模型魯棒性降低效果最強(qiáng)。

這些結(jié)果突出了三個(gè)關(guān)鍵見解：首先，對(duì)LAM的越獄攻擊不僅可以通過精心制作的語(yǔ)義內(nèi)容成功，還可以通過音頻信號(hào)本身的微妙操作成功，揭示了一個(gè)超出文本級(jí)提示的攻擊向量；其次，AJailBench-APT+中對(duì)抗樣本的成功表明，當(dāng)前LAM安全機(jī)制可能過度依賴于干凈的、轉(zhuǎn)錄的語(yǔ)音表示，可能忽視了可以繞過拒絕策略的非規(guī)范聲學(xué)模式；第三，APT+通過整合信號(hào)級(jí)可變性和語(yǔ)義保留，構(gòu)成了一個(gè)更嚴(yán)格的基準(zhǔn)，從而在對(duì)抗條件下提供對(duì)音頻模型魯棒性的更現(xiàn)實(shí)、更可遷移的評(píng)估。

五、展望未來(lái)：音頻語(yǔ)言模型的防御機(jī)制

盡管越來(lái)越多人意識(shí)到LAM容易受到越獄攻擊，但據(jù)研究團(tuán)隊(duì)所知，目前還沒有專門為L(zhǎng)AM設(shè)計(jì)的系統(tǒng)防御機(jī)制。為填補(bǔ)這一空白，他們提出未來(lái)研究可以探索使用語(yǔ)義保留擾動(dòng)進(jìn)行對(duì)抗性微調(diào)，通過增強(qiáng)音頻視圖進(jìn)行一致性正則化，以及輸入級(jí)信號(hào)過濾技術(shù)來(lái)緩解輸入級(jí)攻擊。

此外，研究團(tuán)隊(duì)建議納入聲學(xué)上下文感知的拒絕校準(zhǔn)和不確定性感知的解碼策略可能有助于LAM在遇到異?；?qū)剐砸纛l信號(hào)時(shí)檢測(cè)并避免不安全的完成。

雖然AJailBench提供了系統(tǒng)評(píng)估LAM在音頻攻擊下越獄漏洞的框架，但仍有幾個(gè)未探索的方向。首先，他們沒有調(diào)查針對(duì)音頻對(duì)抗攻擊的防御，主要是因?yàn)檫@一領(lǐng)域的進(jìn)展有限——目前還沒有專門為音頻模態(tài)設(shè)計(jì)的成熟防御方法。其次，研究主要集中在英語(yǔ)音頻輸入上，雖然包含了各種口音，但跨語(yǔ)言魯棒性在對(duì)抗擾動(dòng)下仍未探索，這對(duì)多語(yǔ)言部署場(chǎng)景可能至關(guān)重要。

結(jié)論：研究團(tuán)隊(duì)的AJailBench基準(zhǔn)測(cè)試首次系統(tǒng)地評(píng)估了大型音頻語(yǔ)言模型面對(duì)各種對(duì)抗性音頻輸入時(shí)的安全漏洞。實(shí)驗(yàn)結(jié)果令人擔(dān)憂：即使是最先進(jìn)的音頻語(yǔ)言模型，在面對(duì)精心設(shè)計(jì)的音頻擾動(dòng)時(shí)，也會(huì)顯著降低其安全表現(xiàn)。這項(xiàng)研究不僅揭示了當(dāng)前技術(shù)的局限性，也為未來(lái)開發(fā)更強(qiáng)大、語(yǔ)義感知的防御機(jī)制鋪平了道路。

從更廣泛的角度看，隨著音頻語(yǔ)言模型在各種應(yīng)用中的普及，確保它們能夠抵抗這類攻擊變得至關(guān)重要。研究團(tuán)隊(duì)開源的AJailBench基準(zhǔn)測(cè)試和音頻擾動(dòng)工具包，為研究人員和開發(fā)者提供了評(píng)估和增強(qiáng)模型安全性的寶貴資源。

人工智能安全音頻語(yǔ)言模型對(duì)抗攻擊

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<thead id="fhj9k"></thead>

<abbr id="fhj9k"><menu id="fhj9k"></menu></abbr>