這項(xiàng)由中國(guó)傳媒大學(xué)和微軟亞洲研究院聯(lián)合開展的研究發(fā)表于2025年9月,論文編號(hào)為arXiv:2509.22570v1。研究團(tuán)隊(duì)由中國(guó)傳媒大學(xué)媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室的毛奇、楊廷瀚、金立彪等人,以及微軟亞洲研究院的李佳豪、李斌、盧巖等專家組成。這項(xiàng)名為UniMIC的創(chuàng)新研究,首次提出了一套完整的人機(jī)協(xié)作通信新模式,有興趣深入了解的讀者可以通過(guò)arXiv:2509.22570v1查詢完整論文。
當(dāng)你在手機(jī)上向云端AI發(fā)送圖片請(qǐng)求修圖時(shí),你可能不會(huì)意識(shí)到,這個(gè)看似簡(jiǎn)單的過(guò)程背后隱藏著一個(gè)巨大的技術(shù)挑戰(zhàn)。就像兩個(gè)人用不同的語(yǔ)言交流一樣,你的設(shè)備和云端AI之間也存在著"語(yǔ)言不通"的問(wèn)題。傳統(tǒng)的解決方案就像讓兩個(gè)人都通過(guò)翻譯員來(lái)對(duì)話——不僅效率低下,而且容易出現(xiàn)信息失真。
毛奇教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:目前的人工智能交互就像是一場(chǎng)"失聰?shù)膶?duì)話"。當(dāng)你把一張照片發(fā)送給云端AI進(jìn)行處理時(shí),照片首先要被壓縮成便于傳輸?shù)母袷?,到達(dá)云端后被解壓縮,AI處理完成后又要重新壓縮,然后傳回你的設(shè)備再次解壓縮。這個(gè)過(guò)程就像把一份報(bào)紙反復(fù)復(fù)印一樣,每一次復(fù)印都會(huì)讓畫質(zhì)變得更模糊,信息損失也越來(lái)越嚴(yán)重。
更關(guān)鍵的是,當(dāng)前的壓縮技術(shù)都是為人眼觀看而設(shè)計(jì)的,但AI"看"世界的方式與人類完全不同。這就好比給盲人描述顏色,給聾人演奏音樂(lè)——即使技術(shù)再先進(jìn),也無(wú)法完全滿足AI的需求?,F(xiàn)有的壓縮方法無(wú)法應(yīng)對(duì)人類和AI之間頻繁的雙向互動(dòng),特別是在需要多輪對(duì)話和復(fù)雜任務(wù)處理的場(chǎng)景中。
研究團(tuán)隊(duì)提出的UniMIC解決方案,就像是為人類和AI之間建立了一種全新的"通用語(yǔ)言"。這種語(yǔ)言不是基于傳統(tǒng)的像素或文字,而是基于一種叫做"令牌"的數(shù)字編碼方式。你可以把令牌理解為一種高度濃縮的信息膠囊,它能夠完整保存圖像和文字的核心信息,同時(shí)體積極小,傳輸效率極高。
令牌的工作原理有點(diǎn)像漢字的造字法。漢字用簡(jiǎn)單的筆畫組合就能表達(dá)復(fù)雜的含義,一個(gè)"森"字就能讓人聯(lián)想到茂密的樹林。同樣,令牌系統(tǒng)用數(shù)字編碼就能完整描述一張圖片的全部信息。當(dāng)你的設(shè)備需要向云端發(fā)送圖片時(shí),不再需要傳送每一個(gè)像素點(diǎn)的顏色信息,而是發(fā)送一串緊湊的令牌編碼。云端AI收到這些令牌后,可以直接在令牌層面進(jìn)行處理,完全跳過(guò)了傳統(tǒng)的解壓縮-處理-重新壓縮這個(gè)繁瑣的循環(huán)。
這種方法的巧妙之處在于避免了信息的累積損失。傳統(tǒng)方法就像玩"傳話游戲",每傳遞一次信息都會(huì)有所失真,經(jīng)過(guò)多輪傳遞后,最終的結(jié)果可能與原始信息相去甚遠(yuǎn)。而UniMIC的令牌傳輸就像使用保險(xiǎn)箱傳遞貴重物品,除了最初的打包過(guò)程,整個(gè)傳輸過(guò)程都是無(wú)損的。
一、讓AI擁有專屬的"壓縮算法"
傳統(tǒng)的壓縮技術(shù)就像是為人類量身定制的服裝,雖然質(zhì)量上乘,但AI穿起來(lái)總是不合身。研究團(tuán)隊(duì)意識(shí)到,AI處理信息的方式與人類截然不同,因此需要專門為AI設(shè)計(jì)的壓縮策略。
團(tuán)隊(duì)開發(fā)了三種不同類型的智能壓縮引擎,每一種都針對(duì)特定的應(yīng)用場(chǎng)景進(jìn)行了優(yōu)化。第一種是自回歸模式,工作原理類似于閱讀一本書——從左到右、從上到下依次處理信息,適用于常規(guī)的圖像處理任務(wù)。這種模式在處理標(biāo)準(zhǔn)圖像時(shí)表現(xiàn)出色,能夠有效預(yù)測(cè)下一個(gè)信息單元應(yīng)該是什么。
第二種是掩碼令牌模式,專門設(shè)計(jì)用于圖像編輯任務(wù)。這種模式就像是一個(gè)經(jīng)驗(yàn)豐富的修復(fù)師,能夠根據(jù)周圍完好的部分來(lái)推斷被損壞區(qū)域應(yīng)該是什么樣子。當(dāng)你想要?jiǎng)h除照片中的某個(gè)物體,或者修復(fù)照片中的瑕疵時(shí),這種模式就會(huì)發(fā)揮作用。它不需要傳輸整張圖片,只需要告訴云端AI哪些區(qū)域需要修改,以及如何修改即可。
第三種是文本條件模式,這是最具創(chuàng)新性的設(shè)計(jì)。它能夠理解文字描述與圖像內(nèi)容之間的關(guān)聯(lián)關(guān)系,就像一個(gè)既懂文字又懂繪畫的藝術(shù)家。當(dāng)你輸入"把這朵紅玫瑰改成藍(lán)色"這樣的指令時(shí),這種模式能夠理解文字指令的含義,并相應(yīng)地調(diào)整圖像編碼策略,從而實(shí)現(xiàn)更高效的壓縮。
這三種壓縮引擎的核心都采用了輕量級(jí)的Transformer架構(gòu)。Transformer是目前AI領(lǐng)域最先進(jìn)的信息處理框架,它的工作原理類似于一個(gè)超級(jí)高效的翻譯團(tuán)隊(duì)。在傳統(tǒng)的翻譯過(guò)程中,翻譯員需要先理解整個(gè)句子的含義,然后再進(jìn)行翻譯。而Transformer能夠同時(shí)關(guān)注句子中的每一個(gè)詞匯,理解它們之間的復(fù)雜關(guān)系,從而產(chǎn)生更準(zhǔn)確的結(jié)果。
研究團(tuán)隊(duì)將這種強(qiáng)大的架構(gòu)進(jìn)行了輕量化處理,使其能夠在普通設(shè)備上運(yùn)行。這就像是把一臺(tái)強(qiáng)大的臺(tái)式機(jī)壓縮成了手機(jī)芯片的大小,但保持了同樣的處理能力。通過(guò)精心的設(shè)計(jì),這些壓縮引擎只需要6億個(gè)參數(shù),相比動(dòng)輒千億參數(shù)的大型AI模型,它們更加輕便實(shí)用。
為了讓這些壓縮引擎能夠準(zhǔn)確理解不同類型的信息,研究團(tuán)隊(duì)設(shè)計(jì)了專門的訓(xùn)練策略。就像培訓(xùn)不同專業(yè)的技師一樣,每種壓縮引擎都接受了針對(duì)性的訓(xùn)練。自回歸模式在ImageNet這樣的大型圖像數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練,學(xué)會(huì)了理解各種自然圖像的規(guī)律。掩碼令牌模式則通過(guò)隨機(jī)遮擋圖像的某些部分,訓(xùn)練AI學(xué)會(huì)如何根據(jù)可見部分推斷被遮擋的內(nèi)容。
文本條件模式的訓(xùn)練更加復(fù)雜,它需要學(xué)習(xí)文字描述與圖像內(nèi)容之間的對(duì)應(yīng)關(guān)系。研究團(tuán)隊(duì)使用了MS COCO和CC3M等包含豐富文字描述的圖像數(shù)據(jù)集,讓AI學(xué)會(huì)如何理解"一只正在跳躍的橙色貓咪"這樣的文字描述對(duì)應(yīng)什么樣的圖像特征。通過(guò)這種訓(xùn)練,AI能夠在看到文字描述時(shí),就預(yù)先知道圖像中可能出現(xiàn)的內(nèi)容,從而采用更有針對(duì)性的壓縮策略。
二、針對(duì)不同任務(wù)的智能傳輸策略
研究團(tuán)隊(duì)深入分析了人機(jī)協(xié)作中的四種典型應(yīng)用場(chǎng)景,為每種場(chǎng)景設(shè)計(jì)了最適合的傳輸策略。這就像是為不同的快遞需求設(shè)計(jì)專門的物流方案——寄送珠寶和寄送家具顯然需要不同的包裝和運(yùn)輸方式。
第一種場(chǎng)景是文本生成圖像,這是目前最受歡迎的AI應(yīng)用之一。當(dāng)你在應(yīng)用中輸入"畫一只穿著紅色外套的小狗在雪地里玩耍"這樣的描述時(shí),傳統(tǒng)方法需要將這段文字發(fā)送到云端,等待AI生成圖像后,再將完整的圖像文件傳回你的設(shè)備。而UniMIC的處理方式更加巧妙:它只需要發(fā)送經(jīng)過(guò)輕量壓縮的文字令牌,云端AI生成圖像后,直接傳回圖像令牌,你的設(shè)備再將這些令牌還原成最終的圖像。
整個(gè)過(guò)程中,文字部分使用了名為Brotli的無(wú)損壓縮算法。Brotli就像是專門為文本設(shè)計(jì)的壓縮工具,它能夠發(fā)現(xiàn)文字中的重復(fù)模式和規(guī)律,從而大幅減少傳輸數(shù)據(jù)量。而圖像令牌則使用文本條件壓縮模式進(jìn)行處理,因?yàn)锳I在生成圖像時(shí)會(huì)充分考慮文字描述的內(nèi)容,這種關(guān)聯(lián)性可以被用來(lái)進(jìn)一步提高壓縮效率。
第二種場(chǎng)景是圖像修復(fù),也就是我們常說(shuō)的"PS"功能。假設(shè)你想要從一張全家福中刪除某個(gè)路人,或者想要去除照片中的水印。傳統(tǒng)方法需要傳輸完整的原始圖像,在云端進(jìn)行處理后,再傳回完整的修改后圖像。這就像是為了改變房間里的一件家具,需要把整個(gè)房間的物品都搬出去再搬回來(lái)一樣低效。
UniMIC的方法更加精明:它只傳輸需要保持不變的圖像區(qū)域令牌,同時(shí)發(fā)送一個(gè)"地圖"標(biāo)明哪些區(qū)域需要修改,以及相應(yīng)的文字指令說(shuō)明如何修改。云端AI根據(jù)這些信息,只生成需要填補(bǔ)區(qū)域的新內(nèi)容,然后將這些新內(nèi)容的令牌傳回用戶設(shè)備。用戶設(shè)備接收到這些令牌后,就像拼圖一樣將它們與原有的未修改區(qū)域組合起來(lái),形成最終的修復(fù)圖像。
第三種場(chǎng)景是圖像擴(kuò)展,比如將一張風(fēng)景照片的邊界向外擴(kuò)展,讓畫面看起來(lái)更加寬廣。這種應(yīng)用在短視頻制作和照片美化中越來(lái)越常見。傳統(tǒng)方法同樣需要傳輸完整圖像,而UniMIC則采用了更聰明的策略:將完整的原始圖像令牌和擴(kuò)展指令一起發(fā)送到云端,云端AI只生成新擴(kuò)展區(qū)域的內(nèi)容令牌并傳回。這樣就避免了重復(fù)傳輸原始圖像內(nèi)容。
第四種場(chǎng)景是視覺(jué)問(wèn)答,這是一種新興的AI應(yīng)用,用戶可以向AI詢問(wèn)圖片中的內(nèi)容。比如你可以上傳一張菜譜圖片,詢問(wèn)"這道菜需要哪些調(diào)料?"或者上傳一張街景照片詢問(wèn)"這是哪個(gè)城市?"在這種場(chǎng)景中,UniMIC將圖像和問(wèn)題都轉(zhuǎn)換為令牌進(jìn)行傳輸,云端AI在令牌空間中直接進(jìn)行推理,生成答案令牌后傳回用戶設(shè)備。
每種場(chǎng)景都采用了精心優(yōu)化的傳輸策略,就像快遞公司會(huì)根據(jù)不同物品的特性選擇最適合的運(yùn)輸方式一樣。易碎品需要特殊包裝,急件需要優(yōu)先處理,而大件物品則需要專門的運(yùn)輸工具。UniMIC的傳輸策略也是如此,每種應(yīng)用場(chǎng)景都有其最優(yōu)化的處理方式。
研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)這種任務(wù)自適應(yīng)的傳輸策略,數(shù)據(jù)傳輸量可以減少60-80%,同時(shí)完全避免了傳統(tǒng)方法中的多次壓縮損失。這意味著用戶不僅能享受到更快的響應(yīng)速度,還能獲得更高質(zhì)量的結(jié)果。
三、極致壓縮下的完美重現(xiàn)
研究團(tuán)隊(duì)在四個(gè)主要應(yīng)用領(lǐng)域進(jìn)行了詳盡的性能測(cè)試,結(jié)果顯示UniMIC在極低傳輸量下仍能保持出色的質(zhì)量表現(xiàn)。這就像是用最小的行李箱裝下了最多的物品,卻沒(méi)有損壞任何東西。
在文本生成圖像的測(cè)試中,研究團(tuán)隊(duì)使用了MS COCO數(shù)據(jù)集中的1000個(gè)真實(shí)文字描述。傳統(tǒng)的壓縮方法就像是先把蛋糕烤好,然后再想辦法把它壓縮裝盒。而UniMIC則像是直接傳輸?shù)案獾?配方",讓云端AI根據(jù)配方重新"烘焙"出完美的蛋糕。測(cè)試結(jié)果顯示,UniMIC在僅使用0.03比特每像素的傳輸量下,就能實(shí)現(xiàn)完全無(wú)損的圖像重建。作為對(duì)比,傳統(tǒng)方法即使使用了更多的傳輸量,重建的圖像也會(huì)出現(xiàn)明顯的模糊和失真。
研究團(tuán)隊(duì)使用了多個(gè)客觀指標(biāo)來(lái)評(píng)估圖像質(zhì)量。峰值信噪比(PSNR)衡量的是重建圖像與原始圖像的相似度,數(shù)值越高表示質(zhì)量越好。在這個(gè)指標(biāo)上,UniMIC達(dá)到了理論上的無(wú)損水平,而傳統(tǒng)方法的PSNR值明顯較低。感知圖像補(bǔ)丁相似性(LPIPS)則更關(guān)注人眼感知的圖像質(zhì)量,UniMIC在這個(gè)指標(biāo)上同樣表現(xiàn)優(yōu)異。
弗雷歇特起始距離(FID)是衡量生成圖像真實(shí)性的重要指標(biāo),就像是評(píng)判一幅畫作是否逼真的藝術(shù)標(biāo)準(zhǔn)。UniMIC生成的圖像在FID指標(biāo)上獲得了80.61的優(yōu)秀分?jǐn)?shù),明顯優(yōu)于傳統(tǒng)壓縮方法。CLIP-T分?jǐn)?shù)則評(píng)估文字描述與生成圖像之間的匹配度,UniMIC達(dá)到了0.315的高分,表明AI能夠準(zhǔn)確理解文字指令并生成相應(yīng)的圖像。
在圖像修復(fù)任務(wù)的測(cè)試中,研究團(tuán)隊(duì)使用了MagicBrush數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了535張?jiān)紙D像和1053個(gè)編輯樣本。每個(gè)樣本都有明確標(biāo)注的需要修改的區(qū)域和相應(yīng)的文字指令。傳統(tǒng)方法在這個(gè)任務(wù)中面臨著一個(gè)特別嚴(yán)重的問(wèn)題:累積失真。就像復(fù)印一份文件,然后再?gòu)?fù)印復(fù)印件一樣,每次處理都會(huì)讓質(zhì)量進(jìn)一步下降。
UniMIC通過(guò)令牌傳輸避免了這個(gè)問(wèn)題。在邊緣到云端的傳輸階段,UniMIC只需要0.0369比特每像素的傳輸量,而傳統(tǒng)方法普遍需要0.05比特每像素以上。更重要的是,在云端到邊緣的傳輸階段,UniMIC實(shí)現(xiàn)了完全無(wú)損的傳輸,傳輸量?jī)H為0.0063比特每像素。綜合兩個(gè)階段,UniMIC的總傳輸量比最佳傳統(tǒng)方法減少了約18%。
在圖像質(zhì)量評(píng)估方面,UniMIC在R-CLIP-I指標(biāo)上達(dá)到了0.903的高分,這個(gè)指標(biāo)衡量的是修改后圖像與原始圖像未修改部分的一致性。傳統(tǒng)方法由于累積失真的存在,這個(gè)分?jǐn)?shù)普遍在0.7以下。這意味著UniMIC能夠更好地保持圖像修改的局部性,避免對(duì)不需要修改的區(qū)域產(chǎn)生影響。
圖像擴(kuò)展任務(wù)的測(cè)試基于Flickr Scenery數(shù)據(jù)集,包含1000張高分辨率風(fēng)景圖像。在這個(gè)任務(wù)中,UniMIC同樣展現(xiàn)出了顯著的優(yōu)勢(shì)。傳統(tǒng)方法在處理圖像擴(kuò)展時(shí)經(jīng)常出現(xiàn)不一致的問(wèn)題:擴(kuò)展部分的風(fēng)格、色調(diào)或質(zhì)感與原始圖像不匹配。這就像是在一幅古典油畫上貼上了現(xiàn)代水彩畫的邊框,視覺(jué)效果非常突兀。
UniMIC通過(guò)文本條件壓縮模式有效解決了這個(gè)問(wèn)題。由于文字描述提供了風(fēng)格和內(nèi)容的指導(dǎo)信息,AI能夠生成與原始圖像高度一致的擴(kuò)展內(nèi)容。在FID指標(biāo)上,UniMIC獲得了30.04的優(yōu)秀分?jǐn)?shù),遠(yuǎn)優(yōu)于傳統(tǒng)方法的39.16到213.36分。CLIP-T分?jǐn)?shù)達(dá)到0.291,表明擴(kuò)展后的圖像與文字描述高度匹配。
視覺(jué)問(wèn)答任務(wù)的測(cè)試涵蓋了四個(gè)不同的數(shù)據(jù)集:POPE數(shù)據(jù)集考驗(yàn)AI識(shí)別圖像中物體的能力,GQA數(shù)據(jù)集測(cè)試復(fù)雜的視覺(jué)推理能力,F(xiàn)lickr30k數(shù)據(jù)集評(píng)估圖像描述生成的質(zhì)量,Vizwiz-val數(shù)據(jù)集則模擬真實(shí)世界中視覺(jué)障礙人士的使用場(chǎng)景。
在所有這些測(cè)試中,UniMIC都表現(xiàn)出了穩(wěn)定的優(yōu)勢(shì)。在POPE數(shù)據(jù)集上,UniMIC的準(zhǔn)確率達(dá)到77.1%,而傳統(tǒng)方法普遍在53%左右。在GQA數(shù)據(jù)集上,UniMIC的精確匹配率為49.15%,同樣顯著優(yōu)于傳統(tǒng)方法。這些結(jié)果表明,令牌級(jí)別的傳輸不僅保持了圖像的視覺(jué)質(zhì)量,更重要的是保持了AI進(jìn)行復(fù)雜推理所需要的語(yǔ)義信息。
四、技術(shù)創(chuàng)新的關(guān)鍵突破
研究團(tuán)隊(duì)的技術(shù)創(chuàng)新集中體現(xiàn)在三個(gè)關(guān)鍵突破上,每一個(gè)突破都像是解開了一把復(fù)雜密碼鎖的關(guān)鍵機(jī)關(guān)。
第一個(gè)突破是建立了統(tǒng)一的多模態(tài)令牌空間。傳統(tǒng)的AI系統(tǒng)就像是一座有多個(gè)科室的醫(yī)院,文字處理科和圖像處理科各自為政,使用完全不同的"病歷系統(tǒng)"。當(dāng)病人需要在不同科室間轉(zhuǎn)診時(shí),就需要重新建立病歷,不僅效率低下,還容易出現(xiàn)信息遺漏。
UniMIC則建立了一套統(tǒng)一的"病歷系統(tǒng)",無(wú)論是文字信息還是圖像信息,都被轉(zhuǎn)換成相同格式的令牌。這些令牌就像是通用的樂(lè)高積木,可以自由組合構(gòu)建出任何復(fù)雜的結(jié)構(gòu)。文字令牌記錄語(yǔ)言信息,圖像令牌記錄視覺(jué)信息,但它們使用相同的數(shù)字編碼格式,可以在同一個(gè)處理系統(tǒng)中無(wú)縫配合。
這種統(tǒng)一性帶來(lái)了巨大的優(yōu)勢(shì)。當(dāng)需要處理"把照片中的紅色汽車改成藍(lán)色"這樣的復(fù)雜指令時(shí),AI可以同時(shí)理解文字指令中的"紅色"、"汽車"、"藍(lán)色"等概念,以及圖像中對(duì)應(yīng)的視覺(jué)元素,然后在統(tǒng)一的令牌空間中進(jìn)行處理。這就像是讓不同語(yǔ)言的人都學(xué)會(huì)了世界語(yǔ),可以直接交流,不再需要反復(fù)翻譯。
第二個(gè)突破是開發(fā)了自適應(yīng)的熵編碼策略。熵編碼是信息壓縮的核心技術(shù),它的原理類似于摩爾斯電碼:常用的信息用短碼表示,不常用的信息用長(zhǎng)碼表示,從而減少總的傳輸量。但傳統(tǒng)的熵編碼就像是使用同一套摩爾斯電碼表來(lái)發(fā)送中文、英文和數(shù)學(xué)公式,效率并不理想。
UniMIC的創(chuàng)新在于根據(jù)不同的應(yīng)用場(chǎng)景使用不同的"電碼表"。當(dāng)處理常規(guī)圖像時(shí),使用基于自然圖像統(tǒng)計(jì)規(guī)律的編碼表。當(dāng)處理圖像編輯任務(wù)時(shí),使用專門為殘缺圖像優(yōu)化的編碼表。當(dāng)處理文本條件生成時(shí),使用能夠利用文字信息的編碼表。這就像是為不同的專業(yè)領(lǐng)域開發(fā)專門的術(shù)語(yǔ)字典,大大提高了信息傳遞的效率。
更精妙的是,這些編碼策略能夠動(dòng)態(tài)適應(yīng)具體的內(nèi)容。比如在處理風(fēng)景照片時(shí),系統(tǒng)會(huì)自動(dòng)識(shí)別出這是自然場(chǎng)景,相應(yīng)地調(diào)整編碼參數(shù),優(yōu)先壓縮天空、樹木、水面等常見元素。而在處理人物肖像時(shí),系統(tǒng)會(huì)重點(diǎn)關(guān)注面部特征和表情細(xì)節(jié),采用更適合人像的編碼策略。
第三個(gè)突破是實(shí)現(xiàn)了雙向?qū)ΨQ的無(wú)損傳輸。傳統(tǒng)的壓縮系統(tǒng)就像是單行道,信息只能朝一個(gè)方向流動(dòng),而且每次通過(guò)都要支付"過(guò)路費(fèi)"——信息質(zhì)量的損失。UniMIC則建立了一套雙向高速公路系統(tǒng),信息可以在人類設(shè)備和AI云端之間自由往返,而且除了最初的"入口收費(fèi)"(令牌化過(guò)程的微小損失),整個(gè)傳輸過(guò)程完全免費(fèi)(無(wú)損)。
這種設(shè)計(jì)的巧妙之處在于,它將信息損失集中在最初的令牌化階段,這個(gè)損失是一次性的,而且是可控的。一旦信息被轉(zhuǎn)換成令牌,后續(xù)的所有傳輸和處理都保持完全的保真度。這就像是把珍貴的藝術(shù)品制作成高質(zhì)量的數(shù)字副本,雖然數(shù)字化過(guò)程中有微小的損失,但一旦完成數(shù)字化,這些數(shù)字副本就可以無(wú)損地復(fù)制和傳輸無(wú)數(shù)次。
研究團(tuán)隊(duì)還開發(fā)了一套精巧的令牌管理系統(tǒng),能夠智能地決定在不同階段傳輸哪些令牌。在圖像修復(fù)任務(wù)中,系統(tǒng)只傳輸需要修改區(qū)域周圍的令牌,為AI提供足夠的上下文信息。在圖像擴(kuò)展任務(wù)中,系統(tǒng)傳輸完整的原始圖像令牌,但只接收新生成區(qū)域的令牌。這種精確的令牌管理就像是精密的物流調(diào)度,確保每一個(gè)信息包裹都被送到最需要它的地方。
五、實(shí)驗(yàn)驗(yàn)證與性能對(duì)比
為了驗(yàn)證UniMIC的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了全面而嚴(yán)格的對(duì)比實(shí)驗(yàn)。他們選擇了多個(gè)具有代表性的傳統(tǒng)壓縮方法作為對(duì)照組,包括業(yè)界標(biāo)準(zhǔn)的BPG和最新的VVC編碼標(biāo)準(zhǔn),以及三種先進(jìn)的生成式壓縮方法:MS-ILLM、VQ-Kmeans和DiffEIC。
實(shí)驗(yàn)設(shè)計(jì)就像是一場(chǎng)公平的馬拉松比賽,所有參賽者都在相同的賽道上,使用相似的"裝備"(傳輸帶寬),最終比較誰(shuí)能跑得更快、更穩(wěn)定。為了確保比較的公平性,研究團(tuán)隊(duì)精心調(diào)整了每種方法的參數(shù),使它們?cè)谙嗨频膫鬏斄肯逻M(jìn)行比較。
在文本生成圖像的馬拉松中,UniMIC就像是一位訓(xùn)練有素的專業(yè)選手,不僅跑得快,而且非常穩(wěn)定。當(dāng)其他選手在相同的傳輸量下只能生成模糊不清的圖像時(shí),UniMIC卻能產(chǎn)生幾乎完美的圖像。具體來(lái)說(shuō),在0.03比特每像素的傳輸量下,傳統(tǒng)的BPG方法產(chǎn)生的圖像PSNR值只有23.13分貝,而UniMIC達(dá)到了理論上的無(wú)損水平。
更令人印象深刻的是,UniMIC在保持視覺(jué)質(zhì)量的同時(shí),還能完美保持語(yǔ)義信息。CLIP-T分?jǐn)?shù)衡量的是生成圖像與文字描述的匹配程度,UniMIC達(dá)到了0.315分,而傳統(tǒng)方法普遍在0.286到0.314之間。這意味著UniMIC生成的圖像不僅看起來(lái)更清晰,而且更準(zhǔn)確地體現(xiàn)了用戶的文字描述。
在圖像修復(fù)任務(wù)的測(cè)試中,累積失真問(wèn)題變得特別明顯。傳統(tǒng)方法就像是在玩?zhèn)髟捰螒颍總鬟f一次信息都會(huì)產(chǎn)生新的失真。經(jīng)過(guò)邊緣到云端,再?gòu)脑贫说竭吘壍膬纱蝹鬏敽?,圖像質(zhì)量顯著下降。而UniMIC就像是使用保密電話,信息在傳輸過(guò)程中保持完全的保真度。
研究團(tuán)隊(duì)使用MagicBrush數(shù)據(jù)集進(jìn)行測(cè)試,結(jié)果顯示傳統(tǒng)方法的總傳輸量普遍在0.08到0.09比特每像素之間,而UniMIC只需要0.0432比特每像素,節(jié)省了50%以上的帶寬。更重要的是,在圖像質(zhì)量方面,UniMIC的FID分?jǐn)?shù)為57.30,遠(yuǎn)優(yōu)于傳統(tǒng)方法的95.51到254.76分。
圖像擴(kuò)展任務(wù)的測(cè)試結(jié)果同樣令人鼓舞。傳統(tǒng)方法在擴(kuò)展圖像時(shí)經(jīng)常出現(xiàn)風(fēng)格不一致的問(wèn)題,就像是在古典建筑上強(qiáng)行添加現(xiàn)代建筑元素,視覺(jué)效果很不協(xié)調(diào)。UniMIC通過(guò)文本條件編碼有效解決了這個(gè)問(wèn)題,生成的擴(kuò)展內(nèi)容與原始圖像完美融合。
在視覺(jué)問(wèn)答任務(wù)中,UniMIC的優(yōu)勢(shì)更加明顯。傳統(tǒng)壓縮方法在壓縮圖像時(shí)會(huì)丟失一些對(duì)AI推理至關(guān)重要的細(xì)節(jié)信息,就像是給偵探提供了一張模糊不清的案發(fā)現(xiàn)場(chǎng)照片,影響了推理的準(zhǔn)確性。而UniMIC保持了所有關(guān)鍵的語(yǔ)義信息,使AI能夠進(jìn)行更準(zhǔn)確的推理。
在POPE數(shù)據(jù)集上,UniMIC的準(zhǔn)確率達(dá)到77.1%,比最好的傳統(tǒng)方法高出23個(gè)百分點(diǎn)。在更復(fù)雜的GQA推理任務(wù)中,UniMIC的精確匹配率為49.15%,同樣顯著優(yōu)于傳統(tǒng)方法的33%左右。這些結(jié)果表明,令牌級(jí)傳輸不僅節(jié)省了帶寬,更重要的是保持了AI進(jìn)行高質(zhì)量推理所需的完整信息。
研究團(tuán)隊(duì)還進(jìn)行了一系列細(xì)致的消融實(shí)驗(yàn),就像是汽車工程師逐個(gè)測(cè)試每個(gè)零部件的性能一樣。他們發(fā)現(xiàn),三種不同的熵編碼策略確實(shí)各有所長(zhǎng):自回歸模式在常規(guī)圖像處理中表現(xiàn)最佳,掩碼令牌模式在圖像編輯中最有效,而文本條件模式在文字指導(dǎo)的生成任務(wù)中優(yōu)勢(shì)明顯。
文本令牌化的效果也得到了驗(yàn)證。相比直接使用傳統(tǒng)的文本壓縮算法,先進(jìn)行令牌化再壓縮的方法能夠額外節(jié)省13.8%到24.7%的傳輸量。這證明了令牌化不僅有利于圖像處理,對(duì)文本處理同樣有顯著優(yōu)勢(shì)。
六、面向未來(lái)的思考與展望
UniMIC的意義遠(yuǎn)超技術(shù)本身的創(chuàng)新,它預(yù)示著人機(jī)交互模式的根本性變革。就像互聯(lián)網(wǎng)從文字時(shí)代進(jìn)入多媒體時(shí)代一樣,我們正在見證人工智能交互從單向問(wèn)答模式向雙向協(xié)作模式的轉(zhuǎn)變。
當(dāng)前的人工智能交互就像是傳統(tǒng)的師生關(guān)系:學(xué)生向老師提問(wèn),老師給出答案,交互相對(duì)簡(jiǎn)單。而未來(lái)的人機(jī)協(xié)作更像是合作伙伴關(guān)系:人類和AI需要在復(fù)雜的任務(wù)中頻繁交流,共同解決問(wèn)題。這種新模式對(duì)通信技術(shù)提出了全新的要求,而UniMIC正是為這種未來(lái)而設(shè)計(jì)的。
研究團(tuán)隊(duì)指出,隨著大型多模態(tài)模型的快速發(fā)展,AI的能力邊界在不斷擴(kuò)展。從最初只能處理文字,到現(xiàn)在能夠理解圖像、音頻甚至視頻,AI正在成為真正的多媒體智能助手。但這種能力的提升也帶來(lái)了新的挑戰(zhàn):如何在有限的網(wǎng)絡(luò)帶寬下,實(shí)現(xiàn)人類與這些強(qiáng)大AI系統(tǒng)的高效交流?
傳統(tǒng)的通信協(xié)議就像是為馬車設(shè)計(jì)的道路,雖然汽車也能通行,但效率并不理想。而UniMIC則像是專門為現(xiàn)代交通工具設(shè)計(jì)的高速公路,不僅適應(yīng)當(dāng)前的需求,還為未來(lái)更高速的"車輛"留出了空間。
令牌化技術(shù)的普及應(yīng)用前景非常廣闊。目前,越來(lái)越多的AI系統(tǒng)開始采用令牌作為內(nèi)部表示格式,這為UniMIC的推廣應(yīng)用創(chuàng)造了良好條件。就像當(dāng)年USB接口逐漸統(tǒng)一了電子設(shè)備的連接標(biāo)準(zhǔn)一樣,令牌化有望成為未來(lái)AI系統(tǒng)之間通信的通用標(biāo)準(zhǔn)。
研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前技術(shù)的局限性。UniMIC的性能在很大程度上依賴于令牌化器的質(zhì)量,而不同的AI模型可能使用不同的令牌化標(biāo)準(zhǔn)。這就像是不同廠商的設(shè)備使用不同的充電接口一樣,需要時(shí)間來(lái)實(shí)現(xiàn)標(biāo)準(zhǔn)化。另外,當(dāng)適配新的AI模型時(shí),熵編碼模塊可能需要重新訓(xùn)練,這增加了部署的復(fù)雜性。
不過(guò),這些挑戰(zhàn)也為未來(lái)的研究指明了方向。研究團(tuán)隊(duì)正在探索更通用的令牌化標(biāo)準(zhǔn),以及能夠快速適應(yīng)不同AI模型的自適應(yīng)壓縮技術(shù)。他們還在研究如何將這種技術(shù)擴(kuò)展到更多的模態(tài),包括音頻、視頻,甚至是三維場(chǎng)景數(shù)據(jù)。
從產(chǎn)業(yè)應(yīng)用的角度來(lái)看,UniMIC技術(shù)有望在多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,它能夠顯著減少用戶的數(shù)據(jù)流量消耗,提升應(yīng)用的響應(yīng)速度。在物聯(lián)網(wǎng)領(lǐng)域,它能夠讓資源受限的設(shè)備也能享受到強(qiáng)大的云端AI服務(wù)。在邊緣計(jì)算領(lǐng)域,它能夠優(yōu)化云邊協(xié)同的效率,實(shí)現(xiàn)更智能的任務(wù)分配。
特別值得關(guān)注的是,UniMIC技術(shù)對(duì)于推動(dòng)AI技術(shù)的民主化具有重要意義。傳統(tǒng)的AI服務(wù)往往需要高帶寬和高端設(shè)備支持,這在一定程度上限制了AI技術(shù)的普及。而UniMIC通過(guò)大幅降低通信開銷,使得即使是網(wǎng)絡(luò)條件較差的地區(qū),用戶也能流暢地使用先進(jìn)的AI服務(wù)。
說(shuō)到底,UniMIC不僅僅是一項(xiàng)技術(shù)創(chuàng)新,更是對(duì)未來(lái)人機(jī)協(xié)作模式的一次大膽探索。它告訴我們,在人工智能時(shí)代,效率和質(zhì)量不必是對(duì)立的選擇,通過(guò)巧妙的技術(shù)設(shè)計(jì),我們完全可以做到既快又好。正如研究團(tuán)隊(duì)在論文中所展望的,這種基于令牌的通信范式有望成為未來(lái)AI原生多媒體傳輸系統(tǒng)的基礎(chǔ),為構(gòu)建更智能、更高效的人機(jī)協(xié)作生態(tài)系統(tǒng)鋪平道路。
Q&A
Q1:UniMIC是什么?它解決了什么問(wèn)題?
A:UniMIC是由中國(guó)傳媒大學(xué)和微軟團(tuán)隊(duì)開發(fā)的新型人機(jī)協(xié)作通信技術(shù),主要解決人類設(shè)備與云端AI之間高效通信的問(wèn)題。傳統(tǒng)方法需要反復(fù)壓縮解壓圖像,造成質(zhì)量損失和效率低下,UniMIC則通過(guò)令牌化技術(shù)實(shí)現(xiàn)一次轉(zhuǎn)換、無(wú)損傳輸,大幅提升效率和質(zhì)量。
Q2:UniMIC的令牌化技術(shù)有什么優(yōu)勢(shì)?
A:令牌化就像把復(fù)雜信息轉(zhuǎn)換成通用的"數(shù)字密碼",一旦轉(zhuǎn)換完成,后續(xù)傳輸都是無(wú)損的。相比傳統(tǒng)方法每次傳輸都有損失,UniMIC只在最初令牌化時(shí)有微小損失,之后的所有處理和傳輸都保持完美質(zhì)量,同時(shí)傳輸量減少60-80%。
Q3:普通用戶什么時(shí)候能使用UniMIC技術(shù)?
A:目前UniMIC還處于研究階段,主要在學(xué)術(shù)界驗(yàn)證其可行性。由于該技術(shù)需要與AI服務(wù)提供商和設(shè)備制造商合作部署,預(yù)計(jì)需要一段時(shí)間才能應(yīng)用到消費(fèi)級(jí)產(chǎn)品中。不過(guò)隨著令牌化技術(shù)在AI領(lǐng)域的普及,這種通信方式有望逐步推廣。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。