這項(xiàng)由快手(Kuaishou)技術(shù)團(tuán)隊(duì)開發(fā)的研究成果于2025年7月發(fā)表,論文詳細(xì)介紹了他們最新研發(fā)的Kwai Keye-VL多模態(tài)大語言模型。這是一個專門為理解短視頻而設(shè)計(jì)的AI系統(tǒng),擁有80億個參數(shù)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2507.01949v1獲取完整論文,或訪問項(xiàng)目主頁https://kwai-keye.github.io/了解更多信息。
當(dāng)我們刷短視頻時,大腦能夠瞬間理解畫面中發(fā)生的事情、聽懂配音說的內(nèi)容,甚至能預(yù)測接下來可能發(fā)生什么。但對于AI來說,這個看似簡單的過程卻異常復(fù)雜??焓值难芯繄F(tuán)隊(duì)正是看到了這個挑戰(zhàn),決定開發(fā)一個專門為短視頻理解而生的AI大腦。
傳統(tǒng)的AI模型就像一個只會看靜態(tài)照片的人,當(dāng)面對動態(tài)變化的短視頻時往往束手無策。它們或許能識別畫面中的某個物體,但卻難以理解整個故事的來龍去脈,更別說把握住短視頻獨(dú)特的節(jié)奏感和表達(dá)方式了??焓謭F(tuán)隊(duì)意識到,要讓AI真正理解短視頻,需要的不僅僅是技術(shù)上的改進(jìn),更需要一套全新的思維方式。
快手作為短視頻平臺的先行者,擁有海量的短視頻數(shù)據(jù)和用戶行為數(shù)據(jù),這為他們開發(fā)這樣一個專業(yè)化模型提供了得天獨(dú)厚的優(yōu)勢。研究團(tuán)隊(duì)不僅要讓AI看懂視頻內(nèi)容,還要讓它理解短視頻平臺特有的商業(yè)邏輯和用戶需求,比如判斷哪些視頻可能會獲得高點(diǎn)贊率,或者識別用戶評論是否合規(guī)。
**一、從無到有:構(gòu)建AI的"眼睛"和"大腦"**
Keye-VL的架構(gòu)設(shè)計(jì)就像組裝一臺精密的觀察儀器。研究團(tuán)隊(duì)需要為AI配備三個核心組件:一雙能夠"看"的眼睛、一個能夠"思考"的大腦,以及連接兩者的神經(jīng)通路。
AI的"眼睛"采用了一種叫做視覺編碼器的技術(shù),這相當(dāng)于給AI裝上了一副高清攝像頭。但與普通攝像頭不同的是,這雙"眼睛"能夠自動適應(yīng)不同分辨率的畫面,就像人眼能夠自動調(diào)節(jié)焦距一樣。無論是高清的4K視頻還是模糊的低分辨率畫面,AI都能從中提取有用的信息。
更有趣的是,研究團(tuán)隊(duì)為這雙"眼睛"裝配了一種特殊的定位系統(tǒng),叫做2D旋轉(zhuǎn)位置編碼。這就像給AI裝上了GPS導(dǎo)航,讓它能夠準(zhǔn)確知道畫面中每個元素的具體位置。當(dāng)AI看到一個人在畫面左上角揮手時,它不僅知道這是揮手動作,還知道這個動作發(fā)生在畫面的哪個區(qū)域。
AI的"大腦"則基于Qwen3-8B語言模型構(gòu)建,這是一個擁有80億個參數(shù)的強(qiáng)大思維系統(tǒng)。可以把這些參數(shù)想象成人腦中的神經(jīng)連接點(diǎn),參數(shù)越多,AI的理解能力就越強(qiáng)。這個大腦不僅具備強(qiáng)大的語言理解能力,還能處理復(fù)雜的邏輯推理任務(wù)。
連接"眼睛"和"大腦"的神經(jīng)通路是一個多層感知機(jī)投影器,它的作用是把視覺信息轉(zhuǎn)換成大腦能夠理解的語言。就像同聲傳譯員一樣,這個組件需要實(shí)時地把看到的畫面"翻譯"成文字描述,讓AI的語言大腦能夠理解視覺內(nèi)容。
特別值得一提的是,Keye-VL支持原生動態(tài)分辨率處理。傳統(tǒng)AI模型就像只能看固定尺寸照片的老式相機(jī),而Keye-VL則像現(xiàn)代智能手機(jī)攝像頭,能夠自動適應(yīng)各種畫面比例和分辨率。這種設(shè)計(jì)保持了圖像的原始寬高比,避免了因?yàn)閺?qiáng)制調(diào)整尺寸而造成的畫面變形。
**二、海量數(shù)據(jù)喂養(yǎng):AI的"成長食譜"**
要訓(xùn)練出一個真正理解短視頻的AI,就像培養(yǎng)一個從小就浸泡在短視頻文化中的孩子。快手團(tuán)隊(duì)為Keye-VL準(zhǔn)備了超過6000億個詞匯量的訓(xùn)練數(shù)據(jù),這個數(shù)字幾乎相當(dāng)于一個人一生中能接觸到的所有文字信息總和。
這些訓(xùn)練數(shù)據(jù)就像一本巨大的百科全書,涵蓋了AI需要學(xué)習(xí)的所有知識類型。首先是圖像描述數(shù)據(jù),這相當(dāng)于給AI看了無數(shù)張照片,并告訴它每張照片里有什么。但研究團(tuán)隊(duì)發(fā)現(xiàn),許多現(xiàn)有的圖像描述質(zhì)量參差不齊,就像有些人拍照技術(shù)好,有些人卻總是拍得模糊不清。
為了解決這個問題,團(tuán)隊(duì)采用了一種叫做"重新標(biāo)注"的技術(shù)。他們使用更先進(jìn)的AI模型,包括Qwen2.5-VL 72B、GPT-4o等,重新為這些圖像生成更準(zhǔn)確、更詳細(xì)的描述。這就像請專業(yè)攝影師重新為模糊的照片寫說明文字,確保AI能夠獲得高質(zhì)量的學(xué)習(xí)材料。
光學(xué)字符識別(OCR)和視覺問答數(shù)據(jù)是另一個重要組成部分。這類數(shù)據(jù)教會AI如何從圖像中讀取文字信息,并回答相關(guān)問題。為了增強(qiáng)AI對中文的理解能力,團(tuán)隊(duì)還專門制作了大量中文OCR數(shù)據(jù),包括各種字體、背景和排版方式的文字圖像。
定位和計(jì)數(shù)數(shù)據(jù)則訓(xùn)練AI的空間理解能力。這就像教孩子玩"找不同"游戲,讓AI學(xué)會準(zhǔn)確指出畫面中特定物體的位置,或者數(shù)清楚畫面中有幾個蘋果、幾只貓。研究團(tuán)隊(duì)使用了三種不同的定位方式:中心點(diǎn)、邊界框和多邊形,讓AI能夠以不同精度標(biāo)記物體位置。
交錯文本圖像數(shù)據(jù)是一種更高級的訓(xùn)練材料,就像給AI看圖文并茂的雜志文章。這種數(shù)據(jù)不僅包含圖像和文字,還保持了它們在原始文檔中的相對位置關(guān)系。AI通過學(xué)習(xí)這類數(shù)據(jù),能夠理解圖像和文字之間的關(guān)聯(lián),比如理解圖表的說明文字、或者文章中圖片的作用。
最核心的視頻數(shù)據(jù)來自快手平臺積累的海量短視頻資源。但原始視頻數(shù)據(jù)往往缺乏詳細(xì)的文字描述,研究團(tuán)隊(duì)開發(fā)了一套完整的視頻處理流程。他們首先使用語音識別技術(shù)提取視頻中的音頻內(nèi)容,然后使用多個不同的AI模型為視頻生成描述,最后還為每一幀畫面添加OCR標(biāo)注,確保不遺漏任何細(xì)節(jié)信息。
**三、四階段漸進(jìn)訓(xùn)練:從新手到專家的成長之路**
訓(xùn)練Keye-VL的過程就像培養(yǎng)一個從零開始學(xué)習(xí)看視頻的孩子,需要循序漸進(jìn),不能一蹴而就。研究團(tuán)隊(duì)設(shè)計(jì)了一個四階段的訓(xùn)練策略,每個階段都有明確的學(xué)習(xí)目標(biāo)。
第一階段是圖像-文本匹配訓(xùn)練,這相當(dāng)于教AI認(rèn)識基本的圖像元素。在這個階段,AI主要學(xué)習(xí)如何將看到的畫面與相應(yīng)的文字描述建立聯(lián)系。研究團(tuán)隊(duì)使用SigLIP損失函數(shù)來訓(xùn)練視覺編碼器,這就像給AI設(shè)定了一個評分標(biāo)準(zhǔn),每當(dāng)它正確地將圖像與描述匹配時就能得到獎勵。
第二階段是視覺-語言對齊訓(xùn)練,這時AI開始學(xué)習(xí)如何用語言描述看到的內(nèi)容。在這個階段,語言模型和視覺編碼器的參數(shù)都被凍結(jié),只有連接兩者的投影層在學(xué)習(xí)。這就像讓一個翻譯員專心練習(xí)在兩種語言之間轉(zhuǎn)換,而不用擔(dān)心忘記已經(jīng)掌握的語言知識。
第三階段是多任務(wù)預(yù)訓(xùn)練,AI開始接觸更復(fù)雜的任務(wù)組合。此時所有模型參數(shù)都可以調(diào)整,AI需要同時學(xué)習(xí)圖像描述、文字識別、物體定位、視覺問答等多種技能。這就像讓學(xué)生同時學(xué)習(xí)多門課程,雖然難度增加了,但綜合能力也得到了全面提升。
第四階段是退火訓(xùn)練,這是整個訓(xùn)練過程的精細(xì)化階段。研究團(tuán)隊(duì)會使用精心篩選的高質(zhì)量數(shù)據(jù)對模型進(jìn)行最后的調(diào)優(yōu),就像雕塑家在完成基本造型后進(jìn)行的精細(xì)雕琢。這個階段主要解決前期大規(guī)模訓(xùn)練中可能遇到的數(shù)據(jù)質(zhì)量不均衡問題。
特別有意思的是,研究團(tuán)隊(duì)還采用了模型融合技術(shù)。他們訓(xùn)練了多個使用不同數(shù)據(jù)比例的模型版本,然后將這些模型的參數(shù)進(jìn)行平均融合。這就像組建一個專家委員會,每個專家都有自己的專長,最終的決策是所有專家意見的綜合體現(xiàn)。這種方法能夠減少單一模型可能存在的偏見,提高整體性能的穩(wěn)定性。
**四、后訓(xùn)練優(yōu)化:讓AI學(xué)會深度思考**
如果說預(yù)訓(xùn)練是讓AI掌握基本技能,那么后訓(xùn)練就是教它學(xué)會深度思考和靈活應(yīng)變。這個階段的訓(xùn)練分為兩個主要方向:建立扎實(shí)的基礎(chǔ)能力和培養(yǎng)高級推理技能。
基礎(chǔ)能力建立階段主要通過監(jiān)督微調(diào)來實(shí)現(xiàn)。研究團(tuán)隊(duì)收集了500萬個多模態(tài)問答樣本,但他們沒有簡單地使用這些數(shù)據(jù),而是采用了一套精密的數(shù)據(jù)篩選策略。他們開發(fā)了一個叫TaskGalaxy的框架,能夠?qū)?shù)據(jù)按照7萬種不同的多模態(tài)任務(wù)類型進(jìn)行分類,確保訓(xùn)練數(shù)據(jù)的多樣性和代表性。
為了確保數(shù)據(jù)質(zhì)量,團(tuán)隊(duì)還使用AI模型為每個數(shù)據(jù)點(diǎn)生成多個推理路徑,然后根據(jù)回答的正確性和復(fù)雜程度來篩選出最具挑戰(zhàn)性的樣本。這就像老師專門挑選難題來訓(xùn)練學(xué)生的思維能力,避免AI在簡單任務(wù)上浪費(fèi)時間。
混合偏好優(yōu)化是這個階段的另一個關(guān)鍵技術(shù)。研究團(tuán)隊(duì)構(gòu)建了包含40萬個開源樣本、5萬個重構(gòu)偏好樣本、1萬個自我改進(jìn)樣本、9萬個純文本樣本和3萬個人工標(biāo)注樣本的綜合數(shù)據(jù)集。這種多元化的數(shù)據(jù)組合就像給AI提供了營養(yǎng)均衡的"食譜",確保它在各個方面都能得到充分訓(xùn)練。
高級推理能力的培養(yǎng)是Keye-VL最具創(chuàng)新性的特色之一。研究團(tuán)隊(duì)開發(fā)了一套"五模式冷啟動"策略,這就像教會AI在面對不同難度的問題時選擇不同的思考方式。
常規(guī)模式適用于簡單的日常問題,AI可以直接給出答案而不需要展示推理過程。思考模式適用于復(fù)雜問題,AI會像人類一樣先思考再回答,顯示完整的推理鏈條。自動思考模式最為智能,AI會自動判斷問題的復(fù)雜程度,然后決定是否需要進(jìn)入深度思考狀態(tài)。
特別創(chuàng)新的是"圖像編程"模式,這讓AI具備了通過編寫代碼來處理圖像的能力。當(dāng)遇到需要精確測量、圖像處理或復(fù)雜計(jì)算的任務(wù)時,AI可以自動生成Python代碼來解決問題。比如在計(jì)算圖像中草莓?dāng)?shù)量的任務(wù)中,AI會自動編寫代碼來裁剪和放大相關(guān)區(qū)域,然后進(jìn)行精確計(jì)數(shù)。
強(qiáng)化學(xué)習(xí)階段則進(jìn)一步提升了AI的推理質(zhì)量。研究團(tuán)隊(duì)使用GRPO算法,設(shè)置了結(jié)果正確性和推理一致性兩種獎勵機(jī)制。這就像給AI設(shè)置了雙重評判標(biāo)準(zhǔn):不僅要答案正確,推理過程也要邏輯清晰。通過這種訓(xùn)練,AI學(xué)會了生成高質(zhì)量的推理路徑,避免了邏輯跳躍或錯誤推理。
最后的迭代對齊階段專門解決AI可能出現(xiàn)的異常行為。研究團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的模型有時會出現(xiàn)重復(fù)輸出或邏輯錯誤的問題。他們開發(fā)了一套綜合評分系統(tǒng),包括重復(fù)性評分、指令遵循評分和邏輯性評分,然后使用混合偏好優(yōu)化算法進(jìn)行多輪迭代調(diào)整,最終讓AI的輸出變得更加穩(wěn)定和可靠。
**五、基礎(chǔ)設(shè)施支撐:訓(xùn)練超級AI的"工廠"**
訓(xùn)練像Keye-VL這樣的大型AI模型,就像建造一座現(xiàn)代化的汽車工廠,需要精密的設(shè)備、高效的流水線和完善的質(zhì)量控制系統(tǒng)。快手團(tuán)隊(duì)在訓(xùn)練基礎(chǔ)設(shè)施方面進(jìn)行了深度優(yōu)化,確保整個訓(xùn)練過程既高效又穩(wěn)定。
計(jì)算資源的分配就像協(xié)調(diào)一個龐大的管弦樂團(tuán)。研究團(tuán)隊(duì)采用了混合并行策略,將數(shù)據(jù)并行和序列并行巧妙結(jié)合。數(shù)據(jù)并行就像讓多個工人同時處理不同批次的產(chǎn)品,而序列并行則像將一個復(fù)雜任務(wù)分解成多個步驟,由不同的專家負(fù)責(zé)不同環(huán)節(jié)。
特別值得一提的是,團(tuán)隊(duì)將這種并行策略與ZeRO優(yōu)化器深度整合。ZeRO技術(shù)能夠智能地分散存儲優(yōu)化器狀態(tài)、梯度和參數(shù),大大減少了單個設(shè)備的內(nèi)存壓力。更重要的是,這種設(shè)計(jì)實(shí)現(xiàn)了計(jì)算與通信的重疊,就像讓工人在等待前一道工序完成的同時就開始準(zhǔn)備下一道工序,有效隱藏了通信延遲,提高了整體訓(xùn)練效率。
負(fù)載均衡是另一個關(guān)鍵挑戰(zhàn)。在多模態(tài)訓(xùn)練中,不同樣本的計(jì)算需求差異巨大。一個包含高分辨率圖像的樣本可能需要比純文本樣本多十倍的計(jì)算時間。研究團(tuán)隊(duì)開發(fā)了一套全局貪心平衡策略,在每個訓(xùn)練步驟中評估所有樣本的計(jì)算復(fù)雜度,然后智能地重新分配任務(wù),確保所有計(jì)算節(jié)點(diǎn)都能保持忙碌狀態(tài),避免出現(xiàn)"有的工人忙得要命,有的工人卻在等活干"的情況。
故障恢復(fù)機(jī)制就像為整個訓(xùn)練過程購買了全面的保險。大規(guī)模訓(xùn)練很容易遭遇硬件故障或軟件錯誤,一旦中斷可能損失數(shù)天甚至數(shù)周的訓(xùn)練進(jìn)度。團(tuán)隊(duì)構(gòu)建了樣本級自動恢復(fù)機(jī)制,能夠同時保存訓(xùn)練狀態(tài)和數(shù)據(jù)IO狀態(tài)的檢查點(diǎn)。當(dāng)系統(tǒng)遇到故障時,能夠自動從中斷的確切位置繼續(xù)訓(xùn)練,不需要任何人工干預(yù),大大提高了訓(xùn)練的穩(wěn)定性和資源利用效率。
針對后訓(xùn)練階段的特殊需求,團(tuán)隊(duì)還對vLLM框架進(jìn)行了定制化改進(jìn),使其兼容Keye-VL的模型架構(gòu)和視頻輸入。同時部署了多個獎勵模型,采用隨機(jī)調(diào)度策略來減少強(qiáng)化學(xué)習(xí)階段的計(jì)算開銷。這些優(yōu)化措施確保了復(fù)雜的后訓(xùn)練流程能夠高效運(yùn)行。
**六、全面評測:AI的"期末考試"**
評估一個AI模型的能力就像為學(xué)生設(shè)計(jì)一套全面的期末考試,既要測試基礎(chǔ)知識,也要考查應(yīng)用能力和創(chuàng)新思維??焓謭F(tuán)隊(duì)為Keye-VL設(shè)計(jì)了多層次、多維度的評測體系。
在公開基準(zhǔn)測試中,Keye-VL的表現(xiàn)就像一個全能型優(yōu)等生。在通用視覺語言任務(wù)上,模型在MMMU基準(zhǔn)測試中取得了71.4分的成績,在AI2D測試中達(dá)到86.7分,這些分?jǐn)?shù)都明顯超過了同等規(guī)模的其他模型。特別是在挑戰(zhàn)性極高的ZeroBench測試中,Keye-VL取得了15.2分,而其他模型幾乎都是零分,顯示出其卓越的泛化能力。
數(shù)學(xué)推理能力的測試結(jié)果更加令人印象深刻。在MathVision測試中,Keye-VL獲得了46.0分,在MathVistaMINI中達(dá)到80.7分,這些成績僅次于專門針對數(shù)學(xué)優(yōu)化的MiMo-VL模型??紤]到Keye-VL是一個通用型模型而非數(shù)學(xué)專用模型,這樣的表現(xiàn)已經(jīng)相當(dāng)出色。
視頻理解能力是Keye-VL的核心競爭優(yōu)勢。在Video-MMMU基準(zhǔn)測試中,模型取得了57.6分,比第二名高出近10分。在長視頻理解的LongVideoBench測試中,自動思考模式甚至超過了思考模式,達(dá)到64.8分,這表明AI已經(jīng)學(xué)會了根據(jù)任務(wù)復(fù)雜度自動調(diào)節(jié)推理策略。
為了更貼近實(shí)際應(yīng)用場景,快手團(tuán)隊(duì)還開發(fā)了專門的KC-MMBench基準(zhǔn)測試。這個測試專門針對短視頻平臺的實(shí)際業(yè)務(wù)需求,包括商品屬性識別、視頻內(nèi)容分類、評論合規(guī)性判斷等任務(wù)。在這個更貼近實(shí)用場景的測試中,Keye-VL取得了68.03%的準(zhǔn)確率,大幅領(lǐng)先第二名的57.62%。
研究團(tuán)隊(duì)還進(jìn)行了深入的人工評估,選擇了同等規(guī)模的主流模型進(jìn)行對比。評估維度包括準(zhǔn)確性、相關(guān)性、全面性、流暢性和創(chuàng)意性五個方面。結(jié)果顯示,Keye-VL在視頻任務(wù)上的綜合得分達(dá)到3.33分(滿分5分),在圖像任務(wù)上得到3.81分,都是參評模型中的最高分。
特別值得關(guān)注的是AI的自動模式選擇能力。在不同類型的任務(wù)中,Keye-VL會自動選擇是否進(jìn)入深度思考模式。在數(shù)學(xué)推理較多的MathVista測試中,35%的情況下AI會選擇思考模式;在邏輯推理的MMStar測試中,這個比例是34%;而在簡單的OCR任務(wù)中,AI幾乎從不選擇思考模式,顯示出良好的任務(wù)難度判斷能力。
**七、技術(shù)創(chuàng)新亮點(diǎn):突破傳統(tǒng)的智慧結(jié)晶**
Keye-VL最引人注目的創(chuàng)新之一是其獨(dú)特的多模式推理系統(tǒng)。傳統(tǒng)AI就像只會一種解題方法的學(xué)生,而Keye-VL則像掌握了多種解題技巧的數(shù)學(xué)天才,能夠根據(jù)題目類型自動選擇最合適的方法。
自動思考模式的實(shí)現(xiàn)尤其巧妙。AI首先會快速分析問題的復(fù)雜程度,就像醫(yī)生看病時先做初步診斷一樣。對于簡單問題,AI會直接給出答案;對于復(fù)雜問題,它會自動切換到深度思考模式,展示完整的推理過程。這種設(shè)計(jì)不僅提高了效率,還讓AI的決策過程更加透明可理解。
圖像編程能力是另一個突破性創(chuàng)新。當(dāng)遇到需要精確操作的視覺任務(wù)時,AI能夠自動生成Python代碼來處理圖像。比如在統(tǒng)計(jì)圖像中物體數(shù)量時,AI會寫代碼將相關(guān)區(qū)域裁剪出來、放大、增強(qiáng)對比度,然后進(jìn)行精確計(jì)數(shù)。這就像給AI裝備了一套專業(yè)工具,讓它能夠像人類專家一樣處理復(fù)雜的視覺分析任務(wù)。
原生動態(tài)分辨率處理技術(shù)解決了傳統(tǒng)模型的一個重大痛點(diǎn)。過去的AI模型就像只能看標(biāo)準(zhǔn)尺寸照片的老式相框,遇到不同比例的圖像就會產(chǎn)生變形。Keye-VL則像現(xiàn)代智能顯示器,能夠自動適應(yīng)各種尺寸和比例的圖像,保持原始畫面的完整性。
數(shù)據(jù)質(zhì)量控制方面的創(chuàng)新同樣值得贊賞。研究團(tuán)隊(duì)沒有簡單地收集大量數(shù)據(jù),而是建立了一套精密的質(zhì)量控制流程。他們使用多個先進(jìn)AI模型對現(xiàn)有數(shù)據(jù)進(jìn)行重新標(biāo)注,確保每個訓(xùn)練樣本都達(dá)到高質(zhì)量標(biāo)準(zhǔn)。這就像建立了一個嚴(yán)格的質(zhì)檢體系,確保進(jìn)入生產(chǎn)線的每個零件都符合標(biāo)準(zhǔn)。
在訓(xùn)練策略方面,四階段漸進(jìn)訓(xùn)練和模型融合技術(shù)的結(jié)合創(chuàng)造了新的訓(xùn)練范式。這種方法避免了傳統(tǒng)端到端訓(xùn)練可能帶來的不穩(wěn)定問題,讓AI能夠像人類學(xué)習(xí)一樣循序漸進(jìn)地掌握復(fù)雜技能。
強(qiáng)化學(xué)習(xí)的創(chuàng)新應(yīng)用也是亮點(diǎn)之一。研究團(tuán)隊(duì)設(shè)計(jì)了雙重獎勵機(jī)制,不僅關(guān)注答案的正確性,還重視推理過程的合理性。這種設(shè)計(jì)確保AI不僅能得出正確答案,還能提供可信的推理過程,大大提高了AI決策的可解釋性。
**八、實(shí)際應(yīng)用前景:改變生活的可能性**
Keye-VL的技術(shù)突破為短視頻行業(yè)和更廣泛的AI應(yīng)用領(lǐng)域開啟了全新的可能性。在內(nèi)容創(chuàng)作方面,AI助手可以自動為視頻生成精準(zhǔn)的標(biāo)題、標(biāo)簽和描述,大大減輕創(chuàng)作者的工作負(fù)擔(dān)。更進(jìn)一步,AI還能根據(jù)視頻內(nèi)容自動生成互動問題、相關(guān)推薦和個性化評論,增強(qiáng)用戶參與度。
電商直播是另一個重要應(yīng)用場景。Keye-VL能夠?qū)崟r理解主播展示的商品特征,自動生成商品屬性標(biāo)簽,識別商品優(yōu)勢賣點(diǎn),甚至預(yù)測哪些時刻最適合引導(dǎo)用戶下單。這種智能化分析能夠幫助商家優(yōu)化直播策略,提高轉(zhuǎn)化率。
內(nèi)容審核領(lǐng)域?qū)⒂瓉砀锩宰兓?。傳統(tǒng)的內(nèi)容審核主要依賴關(guān)鍵詞過濾和簡單的圖像識別,往往出現(xiàn)誤判或漏判。Keye-VL能夠深入理解視頻的語境和情感色彩,更準(zhǔn)確地識別違規(guī)內(nèi)容,同時減少對正常內(nèi)容的誤傷。
個性化推薦系統(tǒng)也將變得更加精準(zhǔn)。AI不再只是根據(jù)用戶的歷史行為進(jìn)行推薦,而是能夠真正理解視頻內(nèi)容的深層含義和情感價值,匹配用戶的真實(shí)興趣和當(dāng)前情緒狀態(tài)。這種深度理解將讓推薦算法更加人性化和智能化。
教育培訓(xùn)行業(yè)同樣能從中受益。AI助教可以觀看學(xué)生的學(xué)習(xí)視頻,理解學(xué)生的困惑點(diǎn)和掌握程度,提供個性化的學(xué)習(xí)建議和答疑解惑。對于在線課程,AI能夠自動生成課程摘要、知識點(diǎn)標(biāo)注和練習(xí)題目。
無障礙技術(shù)的發(fā)展將讓更多人群受益。AI可以為視頻自動生成詳細(xì)的視覺描述,幫助視覺障礙用戶"看到"視頻內(nèi)容。同時,AI還能將視頻內(nèi)容轉(zhuǎn)換為易于理解的文字描述,降低認(rèn)知障礙人群的理解門檻。
企業(yè)培訓(xùn)和會議記錄也是重要應(yīng)用領(lǐng)域。AI可以自動分析會議視頻,提取關(guān)鍵信息,生成會議紀(jì)要,識別重要決策點(diǎn)和行動項(xiàng)目。這種自動化處理能夠大大提高企業(yè)工作效率。
**九、技術(shù)挑戰(zhàn)與未來展望**
盡管Keye-VL在多個方面取得了突破性進(jìn)展,研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前存在的技術(shù)挑戰(zhàn)和改進(jìn)空間。這種科學(xué)嚴(yán)謹(jǐn)?shù)膽B(tài)度體現(xiàn)了研究者的專業(yè)精神。
視覺感知能力仍有提升空間,特別是在處理復(fù)雜場景時的細(xì)節(jié)識別。當(dāng)圖像包含密集文字或風(fēng)格化字體時,AI的OCR準(zhǔn)確率還需要進(jìn)一步提高。對于需要精細(xì)區(qū)分的任務(wù),比如區(qū)分相似的動植物品種或細(xì)微的服裝差異,AI有時還會出現(xiàn)混淆。這就像人類在光線不足或距離太遠(yuǎn)時也會看錯東西一樣,是當(dāng)前技術(shù)的自然限制。
時序理解是視頻AI面臨的另一個挑戰(zhàn)。雖然Keye-VL在理解視頻內(nèi)容方面已經(jīng)達(dá)到很高水平,但在描述復(fù)雜的動作序列或理解電影語言(如鏡頭切換、視角變化)方面還有改進(jìn)余地。AI有時難以準(zhǔn)確把握事件的時間順序或因果關(guān)系,特別是在處理具有復(fù)雜敘事結(jié)構(gòu)的視頻時。
高階認(rèn)知推理能力是AI發(fā)展的長期挑戰(zhàn)。雖然Keye-VL在數(shù)學(xué)推理和邏輯分析方面表現(xiàn)不錯,但面對需要專業(yè)領(lǐng)域知識或創(chuàng)造性思維的問題時,AI的可靠性還會下降。這反映了當(dāng)前AI技術(shù)的普遍局限性,即在處理開放性、創(chuàng)造性任務(wù)時仍然無法完全達(dá)到人類水平。
研究團(tuán)隊(duì)指出,未來的改進(jìn)方向主要集中在幾個關(guān)鍵領(lǐng)域。首先是視頻編碼器架構(gòu)的優(yōu)化,現(xiàn)有的視頻編碼策略還有很大的提升空間,特別是在處理超長視頻和高幀率內(nèi)容方面。
獎勵模型的改進(jìn)是另一個重要方向。目前使用其他大語言模型作為獎勵信號的方法存在可靠性和計(jì)算成本的問題。開發(fā)更加高效、準(zhǔn)確的獎勵建模策略將是推動AI能力進(jìn)一步提升的關(guān)鍵因素。
多模態(tài)融合技術(shù)也需要繼續(xù)演進(jìn)。如何更好地整合視覺、聽覺和文本信息,讓AI真正像人類一樣進(jìn)行多感官理解,仍然是一個開放性的研究問題。
數(shù)據(jù)質(zhì)量和多樣性的持續(xù)改善將是長期工作重點(diǎn)。雖然研究團(tuán)隊(duì)已經(jīng)建立了相當(dāng)完善的數(shù)據(jù)處理流程,但隨著應(yīng)用場景的擴(kuò)展和用戶需求的變化,需要持續(xù)收集和整理更加多樣化、高質(zhì)量的訓(xùn)練數(shù)據(jù)。
計(jì)算效率的優(yōu)化也是實(shí)際部署中的重要考量。如何在保持高性能的同時降低計(jì)算成本,讓這類先進(jìn)AI技術(shù)能夠更廣泛地普及應(yīng)用,是產(chǎn)業(yè)化過程中必須解決的問題。
**結(jié)語:技術(shù)進(jìn)步永不止步**
說到底,Keye-VL的誕生代表了AI技術(shù)向更加智能化、人性化方向邁進(jìn)的重要一步。這不僅僅是一個技術(shù)產(chǎn)品的發(fā)布,更是對"讓AI真正理解人類世界"這一宏大目標(biāo)的具體實(shí)踐。
快手團(tuán)隊(duì)通過這項(xiàng)研究證明了,專門針對特定領(lǐng)域深度優(yōu)化的AI模型能夠在保持通用能力的同時,在專業(yè)領(lǐng)域達(dá)到超越通用模型的性能水平。這種技術(shù)路線為未來AI發(fā)展提供了新的思路:與其追求無所不能的通用AI,不如在特定垂直領(lǐng)域做到極致專業(yè)。
當(dāng)然,任何技術(shù)進(jìn)步都不是一蹴而就的。Keye-VL雖然在短視頻理解方面取得了顯著突破,但距離真正的人工智能還有很長的路要走。正如研究團(tuán)隊(duì)所指出的,當(dāng)前的AI仍然在處理創(chuàng)造性任務(wù)、復(fù)雜推理和跨領(lǐng)域知識整合方面存在局限。
從更宏觀的角度來看,Keye-VL的成功也反映了中國科技企業(yè)在AI領(lǐng)域的創(chuàng)新實(shí)力。快手作為短視頻行業(yè)的領(lǐng)軍企業(yè),沒有滿足于現(xiàn)有的商業(yè)成功,而是持續(xù)投入大量資源進(jìn)行前沿技術(shù)研發(fā),這種長遠(yuǎn)眼光和技術(shù)積累為行業(yè)發(fā)展注入了新的活力。
對于普通用戶而言,這些技術(shù)進(jìn)步最終會轉(zhuǎn)化為更好的產(chǎn)品體驗(yàn)。未來我們可能會看到更智能的視頻推薦、更準(zhǔn)確的內(nèi)容搜索、更個性化的互動體驗(yàn)。AI將不再是冰冷的算法,而是真正能夠理解我們需求和情感的智能助手。
技術(shù)的發(fā)展永無止境,每一次突破都為下一次創(chuàng)新奠定基礎(chǔ)。Keye-VL的成功告訴我們,通過專注、堅(jiān)持和科學(xué)的方法,復(fù)雜的技術(shù)挑戰(zhàn)終將被逐一攻克。而這種不斷探索、持續(xù)改進(jìn)的精神,正是推動人類社會進(jìn)步的根本動力。
有興趣了解更多技術(shù)細(xì)節(jié)的讀者,可以訪問項(xiàng)目主頁https://kwai-keye.github.io/或查閱完整論文arXiv:2507.01949v1,那里有更詳細(xì)的技術(shù)文檔和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:Keye-VL是什么?它能做什么? A:Keye-VL是快手開發(fā)的專門理解短視頻的AI模型,擁有80億參數(shù)。它能看懂視頻內(nèi)容、理解用戶評論、預(yù)測視頻熱度、識別商品屬性,還能自動判斷什么時候需要深度思考,什么時候直接給答案。就像一個既懂技術(shù)又懂短視頻文化的智能助手。
Q2:Keye-VL會不會取代人類創(chuàng)作者? A:目前不會取代,而是幫助創(chuàng)作者提高效率。它主要用于內(nèi)容理解、自動標(biāo)注、智能推薦等輔助工作,真正的創(chuàng)意和情感表達(dá)還是需要人類完成。未來更可能是人機(jī)協(xié)作的模式,AI處理重復(fù)性工作,人類專注于創(chuàng)意和策略。
Q3:普通用戶能體驗(yàn)到Keye-VL技術(shù)嗎? A:雖然核心技術(shù)論文已經(jīng)公開,但具體的產(chǎn)品應(yīng)用還在快手內(nèi)部測試階段。用戶可能會在快手App的智能推薦、內(nèi)容搜索、自動字幕等功能中逐步體驗(yàn)到這項(xiàng)技術(shù)帶來的改善,但完整的開放使用還需要等待官方正式發(fā)布。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。