快手科技的研究團(tuán)隊(duì)在2025年9月9日發(fā)布了一項(xiàng)令人矚目的研究成果——Keye-VL 1.5技術(shù)報(bào)告。這項(xiàng)由快手Keye團(tuán)隊(duì)主導(dǎo)的研究,詳細(xì)介紹了一個(gè)能夠深度理解視頻內(nèi)容的多模態(tài)大語言模型。研究論文已發(fā)表在arXiv預(yù)印本平臺(tái)上,編號(hào)為arXiv:2509.01563v3,感興趣的讀者可以通過https://kwai-keye.github.io/和https://huggingface.co/Kwai-Keye訪問相關(guān)資源,也可以通過https://github.com/Kwai-Keye/Keye獲取開源代碼。
當(dāng)我們看電影或短視頻時(shí),大腦會(huì)自然地處理其中的畫面變化:對(duì)于激烈的動(dòng)作場(chǎng)面,我們會(huì)全神貫注地觀察每一個(gè)細(xì)節(jié);而對(duì)于相對(duì)靜止的對(duì)話場(chǎng)景,我們則會(huì)放松注意力,但仍能捕捉到重要信息??焓挚萍嫉难芯繄F(tuán)隊(duì)正是受到這種人類視覺機(jī)制的啟發(fā),開發(fā)出了Keye-VL 1.5這個(gè)革命性的視頻理解系統(tǒng)。
這個(gè)系統(tǒng)最大的創(chuàng)新之處在于它的"慢-快"雙眼設(shè)計(jì)。就像人眼在觀看不同場(chǎng)景時(shí)會(huì)采用不同的注意力策略一樣,Keye-VL 1.5會(huì)智能地分配計(jì)算資源:當(dāng)視頻中出現(xiàn)重要變化時(shí),"慢眼"會(huì)以高分辨率仔細(xì)觀察每一個(gè)細(xì)節(jié);而在相對(duì)平靜的場(chǎng)景中,"快眼"則會(huì)以較低分辨率但更廣的時(shí)間跨度來監(jiān)視整體情況。這種設(shè)計(jì)讓AI不僅能看清視頻中的細(xì)節(jié),還能理解時(shí)間序列中的復(fù)雜關(guān)系。
更令人驚訝的是,這個(gè)系統(tǒng)不僅能處理短視頻,還能理解長達(dá)數(shù)小時(shí)的視頻內(nèi)容。研究團(tuán)隊(duì)通過四個(gè)階段的漸進(jìn)式訓(xùn)練,讓模型的理解能力從處理8000個(gè)信息單元擴(kuò)展到128000個(gè)單元,這相當(dāng)于讓一個(gè)人的注意力范圍擴(kuò)大了16倍。同時(shí),他們還開發(fā)了一套完整的訓(xùn)練體系,讓AI不僅能準(zhǔn)確理解視頻內(nèi)容,還能按照人類的喜好來回答問題。
在多項(xiàng)評(píng)測(cè)中,Keye-VL 1.5都表現(xiàn)出了超越同類產(chǎn)品的能力,特別是在視頻理解任務(wù)上,它的表現(xiàn)堪稱業(yè)界標(biāo)桿。這意味著未來的視頻內(nèi)容理解、自動(dòng)字幕生成、視頻搜索等應(yīng)用都將迎來質(zhì)的飛躍。
一、視頻理解的困境與突破
想象你正在圖書館里快速瀏覽一本厚重的畫冊(cè)。有些頁面內(nèi)容豐富、細(xì)節(jié)繁多,需要你仔細(xì)觀察;而有些頁面相對(duì)簡(jiǎn)單,你只需要快速翻過。現(xiàn)有的AI視頻理解系統(tǒng)就像一個(gè)只會(huì)用同一種速度看書的讀者,無論內(nèi)容復(fù)雜還是簡(jiǎn)單,都用相同的"閱讀速度",這樣既浪費(fèi)了時(shí)間,又容易遺漏重要信息。
視頻內(nèi)容具有天然的動(dòng)態(tài)性和信息密集性,這給AI理解帶來了前所未有的挑戰(zhàn)。一段普通的視頻可能包含成千上萬幀畫面,每一幀都攜帶著豐富的視覺信息。傳統(tǒng)的處理方法通常采用"一刀切"的策略:要么統(tǒng)一選取固定數(shù)量的關(guān)鍵幀,要么將所有幀降低到相同的分辨率。這種做法就像用同一個(gè)模板裁剪所有不同的布料,必然會(huì)造成信息的丟失或資源的浪費(fèi)。
快手團(tuán)隊(duì)面臨的核心問題是如何在有限的計(jì)算資源下,既要保證對(duì)重要畫面的精細(xì)理解,又要維持對(duì)整個(gè)視頻時(shí)間軸的全局把握。這就好比一個(gè)攝影師同時(shí)需要拍攝微距特寫和全景畫面,但只有一臺(tái)相機(jī)的窘境。傳統(tǒng)方法往往在空間分辨率和時(shí)間覆蓋范圍之間難以平衡,要么看得清楚但看得不全,要么看得全面但看不清楚。
為了解決這個(gè)根本性矛盾,研究團(tuán)隊(duì)提出了革命性的"慢-快"視頻編碼策略。這個(gè)策略的靈感來源于人類視覺系統(tǒng)的工作原理。當(dāng)我們觀看體育比賽時(shí),在運(yùn)動(dòng)員快速移動(dòng)的關(guān)鍵時(shí)刻,我們的注意力會(huì)高度集中,大腦會(huì)調(diào)動(dòng)更多資源來處理這些復(fù)雜的視覺信息;而在比較平靜的時(shí)段,比如運(yùn)動(dòng)員在準(zhǔn)備階段,我們的注意力會(huì)相對(duì)放松,但仍然保持基本的監(jiān)控。
這種生物學(xué)啟發(fā)的設(shè)計(jì)理念被巧妙地轉(zhuǎn)化為技術(shù)實(shí)現(xiàn)。系統(tǒng)首先會(huì)分析視頻中相鄰畫面之間的相似性。當(dāng)畫面變化較小時(shí),說明這段時(shí)間內(nèi)的信息相對(duì)穩(wěn)定,系統(tǒng)就啟動(dòng)"快通道",用較低的分辨率但更密集的采樣來處理這些幀;當(dāng)畫面出現(xiàn)顯著變化時(shí),比如場(chǎng)景切換或重要?jiǎng)幼靼l(fā)生,系統(tǒng)就切換到"慢通道",用更高的分辨率來精細(xì)分析這些關(guān)鍵時(shí)刻。
這種自適應(yīng)的處理方式帶來了顯著的優(yōu)勢(shì)。首先,它大大提高了計(jì)算效率,避免了對(duì)平靜場(chǎng)景的過度分析;其次,它確保了對(duì)關(guān)鍵信息的充分捕捉,不會(huì)因?yàn)橘Y源限制而錯(cuò)過重要細(xì)節(jié);最重要的是,它保持了對(duì)整個(gè)視頻時(shí)間軸的連貫理解,讓AI能夠建立起完整的時(shí)空關(guān)系圖譜。
研究團(tuán)隊(duì)在設(shè)計(jì)這套系統(tǒng)時(shí),還考慮了實(shí)際應(yīng)用中的各種復(fù)雜情況。比如,當(dāng)一個(gè)鏡頭中同時(shí)包含快速運(yùn)動(dòng)的前景和相對(duì)靜止的背景時(shí),系統(tǒng)會(huì)基于畫面的整體變化程度來做出判斷,既不會(huì)因?yàn)榫植康奈⑿∽兓^度反應(yīng),也不會(huì)因?yàn)檎w的相對(duì)穩(wěn)定而忽視重要的局部變化。
二、漸進(jìn)式訓(xùn)練:從新手到專家的成長之路
培養(yǎng)一個(gè)優(yōu)秀的視頻分析專家需要循序漸進(jìn)的訓(xùn)練過程,不可能一蹴而就??焓謭F(tuán)隊(duì)設(shè)計(jì)的訓(xùn)練方案就像一個(gè)精心規(guī)劃的學(xué)習(xí)課程,分為四個(gè)逐步深入的階段,讓AI從基礎(chǔ)的圖像識(shí)別能力發(fā)展到復(fù)雜的視頻推理能力。
第一階段可以比作"基礎(chǔ)視覺訓(xùn)練"。在這個(gè)階段,系統(tǒng)需要學(xué)會(huì)基本的視覺識(shí)別能力,就像人類嬰兒最初學(xué)會(huì)區(qū)分不同的顏色和形狀一樣。研究團(tuán)隊(duì)使用了SigLIP-400M-384-14作為視覺編碼器的基礎(chǔ),這相當(dāng)于給AI配備了一雙經(jīng)過基礎(chǔ)訓(xùn)練的"眼睛"。但是,原始的SigLIP只能處理固定尺寸的圖像,就像一個(gè)只會(huì)看標(biāo)準(zhǔn)照片的人突然面對(duì)各種奇形怪狀的畫面會(huì)感到困惑。
為了讓AI能夠適應(yīng)各種分辨率和寬高比的視覺內(nèi)容,研究團(tuán)隊(duì)對(duì)視覺編碼器進(jìn)行了"手術(shù)級(jí)"的改造。他們引入了原生分辨率處理技術(shù),讓AI能夠保持圖像的原始結(jié)構(gòu)完整性,避免了傳統(tǒng)方法中常見的圖像裁剪或變形問題。同時(shí),他們還加入了二維旋轉(zhuǎn)位置編碼技術(shù),這就像給AI裝上了一個(gè)精密的空間定位系統(tǒng),讓它能夠準(zhǔn)確理解圖像中各個(gè)元素的相對(duì)位置關(guān)系。
第二階段是"跨模態(tài)對(duì)齊訓(xùn)練",這個(gè)過程就像教會(huì)AI將看到的內(nèi)容和聽到的描述聯(lián)系起來。想象一個(gè)外國人剛到中國時(shí),雖然能看懂圖片,但不知道如何用中文描述所看到的內(nèi)容。這個(gè)階段的訓(xùn)練就是要建立視覺信息和語言信息之間的橋梁。研究團(tuán)隊(duì)在這個(gè)階段凍結(jié)了視覺編碼器和語言模型的參數(shù),只訓(xùn)練中間的投影層,這種做法確保了基礎(chǔ)能力的穩(wěn)定性,同時(shí)專注于建立兩種模態(tài)之間的映射關(guān)系。
第三階段是"多任務(wù)全面訓(xùn)練",相當(dāng)于讓AI接受全科醫(yī)生的培訓(xùn)。在這個(gè)階段,所有的模型參數(shù)都被解凍,系統(tǒng)開始學(xué)習(xí)處理各種復(fù)雜的視覺語言任務(wù)。研究團(tuán)隊(duì)精心準(zhǔn)備了包含圖像描述、光學(xué)字符識(shí)別、目標(biāo)定位、視覺問答等多種任務(wù)的訓(xùn)練數(shù)據(jù)。這種多任務(wù)學(xué)習(xí)方式讓AI不僅能專精某一項(xiàng)技能,還能在不同任務(wù)之間遷移和整合知識(shí),形成更全面的理解能力。
最后一個(gè)階段是"長上下文退火訓(xùn)練",這是整個(gè)訓(xùn)練過程中最關(guān)鍵的環(huán)節(jié)。在前面的階段中,AI處理的信息長度被限制在8192個(gè)token,相當(dāng)于只能看短篇文章。但真正的視頻理解往往需要處理更長的內(nèi)容序列,就像理解一部完整的電影需要把握整個(gè)故事脈絡(luò)一樣。在這個(gè)階段,研究團(tuán)隊(duì)將上下文長度擴(kuò)展到131072個(gè)token,增長了16倍。
這種擴(kuò)展并不是簡(jiǎn)單的數(shù)字增加,而是涉及到整個(gè)系統(tǒng)架構(gòu)的重大調(diào)整。研究團(tuán)隊(duì)需要重新設(shè)計(jì)內(nèi)存管理策略,采用更加復(fù)雜的并行計(jì)算方案,確保系統(tǒng)能夠穩(wěn)定處理如此大規(guī)模的信息。同時(shí),他們還調(diào)整了訓(xùn)練數(shù)據(jù)的配比:24%用于視頻內(nèi)容,50%用于圖像內(nèi)容,剩余26%用于純文本內(nèi)容。這種精心設(shè)計(jì)的配比確保了系統(tǒng)在擴(kuò)展長度能力的同時(shí),不會(huì)損失在基礎(chǔ)視覺和語言任務(wù)上的表現(xiàn)。
整個(gè)訓(xùn)練過程就像培養(yǎng)一個(gè)全能型人才,從基礎(chǔ)技能訓(xùn)練開始,逐步增加任務(wù)復(fù)雜度和信息處理量,最終培養(yǎng)出能夠處理各種復(fù)雜視頻理解任務(wù)的AI專家。每個(gè)階段都有明確的目標(biāo)和科學(xué)的設(shè)計(jì),確保AI能夠穩(wěn)步成長而不會(huì)出現(xiàn)能力倒退或不穩(wěn)定的情況。
三、訓(xùn)練后精雕細(xì)琢:讓AI更懂人心
即使一個(gè)AI系統(tǒng)掌握了基本的視頻理解能力,要讓它真正為人類服務(wù),還需要經(jīng)過細(xì)致的"人格塑造"過程。這就像一個(gè)技藝高超但不懂禮貌的工匠,雖然能做出精美的產(chǎn)品,但如果不學(xué)會(huì)與客戶溝通,就無法提供令人滿意的服務(wù)??焓謭F(tuán)隊(duì)設(shè)計(jì)的訓(xùn)練后優(yōu)化方案,就是要讓AI不僅能準(zhǔn)確理解視頻內(nèi)容,還能以人類喜歡的方式來表達(dá)和互動(dòng)。
這個(gè)過程分為幾個(gè)重要環(huán)節(jié)。首先是"非推理階段"的基礎(chǔ)調(diào)優(yōu),包括監(jiān)督微調(diào)和模型偏好優(yōu)化。監(jiān)督微調(diào)就像給AI上禮儀課,教會(huì)它如何按照標(biāo)準(zhǔn)格式回答問題。研究團(tuán)隊(duì)準(zhǔn)備了超過750萬個(gè)多模態(tài)問答樣本,涵蓋了各種可能的交互場(chǎng)景。這些數(shù)據(jù)不是隨機(jī)收集的,而是經(jīng)過精心篩選和平衡的。團(tuán)隊(duì)使用了TaskGalaxy框架,將數(shù)據(jù)按照7萬種不同的任務(wù)類型進(jìn)行分類,確保AI能夠應(yīng)對(duì)各種可能遇到的情況。
為了保證數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)采用了多層過濾機(jī)制。對(duì)于大量的中等質(zhì)量數(shù)據(jù),他們使用CLIP評(píng)分進(jìn)行初步篩選;對(duì)于少量的高質(zhì)量數(shù)據(jù),則使用開源的多模態(tài)大語言模型作為判別器。這種做法就像招聘時(shí)既要看簡(jiǎn)歷又要面試一樣,確保進(jìn)入訓(xùn)練的每一條數(shù)據(jù)都有價(jià)值。
模型偏好優(yōu)化階段則更像是教AI學(xué)會(huì)察言觀色。系統(tǒng)需要學(xué)會(huì)在多個(gè)可能的回答中選擇最符合人類期望的那一個(gè)。研究團(tuán)隊(duì)構(gòu)建了包含25萬個(gè)開源樣本、15萬個(gè)純文本樣本和2.6萬個(gè)人工標(biāo)注樣本的偏好數(shù)據(jù)集。通過對(duì)比高質(zhì)量和低質(zhì)量回答的差異,AI逐漸學(xué)會(huì)了什么樣的回答更受人類歡迎。
接下來是"推理能力強(qiáng)化"階段,這是整個(gè)訓(xùn)練過程中最具挑戰(zhàn)性的部分。研究團(tuán)隊(duì)開發(fā)了一套五步驟的思維鏈數(shù)據(jù)構(gòu)建流程,就像教會(huì)AI進(jìn)行系統(tǒng)性思考一樣。這個(gè)過程從多源數(shù)據(jù)收集開始,涵蓋數(shù)學(xué)推理、科技問題、邏輯推理、目標(biāo)定位等多個(gè)復(fù)雜領(lǐng)域。
在數(shù)據(jù)增強(qiáng)環(huán)節(jié),研究團(tuán)隊(duì)使用專有的多模態(tài)大語言模型對(duì)原始問題進(jìn)行重寫和任務(wù)合并,將簡(jiǎn)單直接的問題轉(zhuǎn)化為需要多步推理的復(fù)雜挑戰(zhàn)。這就像將單選題改造成需要寫出完整解題過程的應(yīng)用題,不僅要求AI給出正確答案,還要求它展示清晰的思考路徑。
多路徑推理生成是這個(gè)階段的核心創(chuàng)新。對(duì)于每個(gè)增強(qiáng)后的問答對(duì),系統(tǒng)會(huì)生成多個(gè)不同的推理路徑,就像解決同一個(gè)問題可以有不同的方法一樣。研究團(tuán)隊(duì)還引入了置信度量化機(jī)制,在步驟級(jí)別和整體響應(yīng)級(jí)別都計(jì)算模型的確信程度。這種設(shè)計(jì)讓AI不僅知道答案是什么,還知道自己對(duì)這個(gè)答案有多確定。
質(zhì)量評(píng)估環(huán)節(jié)采用了雙層評(píng)估框架,既檢查答案的正確性,也檢查推理過程的合理性。研究團(tuán)隊(duì)設(shè)計(jì)了靈活的匹配模式,能夠識(shí)別不同表達(dá)方式但本質(zhì)相同的答案。比如數(shù)學(xué)答案會(huì)考慮公式等價(jià)性和單位轉(zhuǎn)換,文本答案會(huì)考慮語義相似性和表述變化。根據(jù)評(píng)估結(jié)果,所有樣本被分為三個(gè)等級(jí):A級(jí)(高質(zhì)量)、B級(jí)(中等質(zhì)量,需要人工審查)、C級(jí)(低質(zhì)量,直接丟棄)。
對(duì)于B級(jí)樣本,研究團(tuán)隊(duì)實(shí)施了"人在回路"的質(zhì)量提升過程。人工審查員會(huì)對(duì)這些樣本進(jìn)行精細(xì)化改進(jìn),修正冗長或重復(fù)的推理步驟,增強(qiáng)邏輯連貫性。這個(gè)過程確保了最終用于訓(xùn)練的數(shù)據(jù)不僅正確,而且具有良好的教學(xué)價(jià)值。
為了優(yōu)化數(shù)據(jù)利用效率,研究團(tuán)隊(duì)還設(shè)計(jì)了動(dòng)態(tài)質(zhì)量評(píng)分系統(tǒng),根據(jù)樣本對(duì)多模態(tài)能力的依賴程度進(jìn)行1-5分的評(píng)價(jià)。得分較高的樣本會(huì)在訓(xùn)練過程中被更頻繁地使用,這種策略化的數(shù)據(jù)運(yùn)用方式確保了模型學(xué)習(xí)過程的高效性。
四、專業(yè)化與通用性的平衡藝術(shù)
在AI系統(tǒng)開發(fā)中,一個(gè)永恒的挑戰(zhàn)是如何在專業(yè)化和通用性之間找到平衡點(diǎn)。就像培養(yǎng)一個(gè)人才,既希望他在某個(gè)領(lǐng)域有突出專長,又不希望他在其他方面一竅不通??焓謭F(tuán)隊(duì)在這方面采用了"專家模型融合"的創(chuàng)新策略,這種方法就像組建一個(gè)由各領(lǐng)域?qū)<医M成的智囊團(tuán),每個(gè)專家在自己的領(lǐng)域內(nèi)表現(xiàn)卓越,同時(shí)又能協(xié)調(diào)合作解決綜合性問題。
研究團(tuán)隊(duì)首先對(duì)基礎(chǔ)模型進(jìn)行了全面的能力評(píng)估,發(fā)現(xiàn)了三個(gè)主要的薄弱環(huán)節(jié):純文本處理、數(shù)學(xué)推理和光學(xué)字符識(shí)別。這就像發(fā)現(xiàn)一個(gè)優(yōu)秀學(xué)生在語文、數(shù)學(xué)和英語三個(gè)科目上還有提升空間。針對(duì)這些不足,團(tuán)隊(duì)決定為每個(gè)領(lǐng)域?qū)iT訓(xùn)練一個(gè)專家模型。
以光學(xué)字符識(shí)別專家模型為例,這個(gè)專業(yè)化訓(xùn)練過程相當(dāng)精細(xì)。除了標(biāo)準(zhǔn)的OCR數(shù)據(jù)集,研究團(tuán)隊(duì)還特別關(guān)注了車牌識(shí)別、街景標(biāo)識(shí)和公章印鑒等特殊場(chǎng)景,這些都是實(shí)際應(yīng)用中經(jīng)常遇到但標(biāo)準(zhǔn)數(shù)據(jù)集覆蓋不足的情況。他們的增強(qiáng)策略包含三個(gè)關(guān)鍵要素:首先是利用圖像配對(duì)已驗(yàn)證OCR標(biāo)注的自動(dòng)化數(shù)據(jù)生成流程,通過其他多模態(tài)大語言模型產(chǎn)生相關(guān)OCR問題,而原始標(biāo)注作為標(biāo)準(zhǔn)答案確保正確性;其次是使用字體渲染工具合成高質(zhì)量OCR樣本,包括多樣化的圖像背景、語義和非語義文本、多種字體風(fēng)格和尺寸,以及各種圖像分辨率;最后是結(jié)構(gòu)化文檔和代碼理解任務(wù),通過渲染保持原始布局的代碼和文檔,創(chuàng)建復(fù)雜的OCR任務(wù)。
這種專家模型訓(xùn)練的效果顯著。OCR專家模型在所有評(píng)估的OCR基準(zhǔn)測(cè)試中都實(shí)現(xiàn)了大幅提升,平均得分從基礎(chǔ)模型的78.25%提升到83.65%。更重要的是,通過模型融合技術(shù),當(dāng)專家模型與基礎(chǔ)模型合并后,性能進(jìn)一步提升到84.51%,在TextVQA任務(wù)上的表現(xiàn)(83.40%)相比競(jìng)爭(zhēng)對(duì)手MiMo-VL(75.57%)有了顯著優(yōu)勢(shì)。
模型融合過程需要精確把握多個(gè)關(guān)鍵參數(shù)。研究發(fā)現(xiàn),專家模型的訓(xùn)練步數(shù)存在最優(yōu)區(qū)間:步數(shù)太少無法充分掌握專業(yè)技能,步數(shù)太多則會(huì)與通用模型產(chǎn)生過大差異,影響融合效果。學(xué)習(xí)率的選擇同樣關(guān)鍵,較小的學(xué)習(xí)率能夠產(chǎn)生更好的專家模型性能,相應(yīng)的融合模型表現(xiàn)也更優(yōu)。
最有趣的發(fā)現(xiàn)是專家模型與通用模型之間的參數(shù)差異對(duì)融合性能有決定性影響。差異太小限制了專業(yè)領(lǐng)域的改進(jìn)空間,而差異太大則會(huì)導(dǎo)致融合后的模型性能下降,存在一個(gè)需要精確把握的最優(yōu)平衡點(diǎn)。這種現(xiàn)象就像調(diào)制雞尾酒,每種酒的比例都需要恰到好處,才能調(diào)出完美的口感。
為了驗(yàn)證這種專家融合策略的普適性,研究團(tuán)隊(duì)在數(shù)學(xué)推理和純文本處理領(lǐng)域也進(jìn)行了類似的實(shí)驗(yàn)。結(jié)果表明,這種方法不僅在特定領(lǐng)域內(nèi)能夠顯著提升性能,還能保持模型在其他任務(wù)上的穩(wěn)定表現(xiàn),真正實(shí)現(xiàn)了專業(yè)化與通用性的完美平衡。
五、強(qiáng)化學(xué)習(xí)與智能提示系統(tǒng)
當(dāng)AI系統(tǒng)掌握了基礎(chǔ)能力后,如何讓它在面對(duì)困難問題時(shí)也能堅(jiān)持不懈地尋找解決方案,這是一個(gè)極具挑戰(zhàn)性的課題??焓謭F(tuán)隊(duì)開發(fā)的"漸進(jìn)提示采樣"系統(tǒng),就像給AI配備了一個(gè)智能的學(xué)習(xí)助手,能夠在適當(dāng)?shù)臅r(shí)候提供恰到好處的指導(dǎo),既不會(huì)直接告訴答案,又能夠幫助AI突破思維障礙。
這個(gè)系統(tǒng)的設(shè)計(jì)哲學(xué)基于"最小干預(yù)原則",就像一個(gè)優(yōu)秀的老師不會(huì)直接告訴學(xué)生答案,而是通過巧妙的引導(dǎo)讓學(xué)生自己找到解決方法。研究團(tuán)隊(duì)將提示分為五個(gè)遞進(jìn)的層次,每一層都比前一層提供更多的指導(dǎo),但都嚴(yán)格控制在不直接泄露答案的范圍內(nèi)。
第一層是"概念觀察層",主要引導(dǎo)AI關(guān)注問題的核心概念或圖像中的關(guān)鍵特征。這個(gè)層次的提示不包含任何解題方法或公式,只是幫助AI把注意力集中在正確的方向上。比如在處理幾何問題時(shí),提示可能是"注意觀察這個(gè)三角形的特殊性質(zhì)",而不會(huì)提及任何具體的定理或計(jì)算方法。
第二層是"策略方法層",會(huì)建議一種或多種可能的解題策略。這就像給迷路的人指出幾條可能的道路,但不會(huì)告訴具體怎么走。提示可能包括"嘗試整體思考"、"考慮分情況討論"或"建立坐標(biāo)系"等策略性建議,讓AI明白解決問題的大致方向,但仍需要自己細(xì)化具體步驟。
第三層是"工具公式層",會(huì)提供解決問題所需的特定數(shù)學(xué)定理、公式或工具。這個(gè)層次開始提供具體的知識(shí)支持,比如"你可能需要使用勾股定理"或"考慮使用積分方法"。但即使提供了工具,AI仍然需要自己決定如何使用這些工具來解決具體問題。
第四層是"步驟計(jì)算層",會(huì)提供問題解決過程中的第一個(gè)具體操作步驟。這就像在拼圖游戲中給出第一塊拼圖的正確位置,為后續(xù)的解題過程建立一個(gè)可靠的起點(diǎn)。這個(gè)層次的提示讓AI能夠開始具體的計(jì)算或操作,但仍需要獨(dú)立完成剩余的步驟。
第五層是"完整方案層",提供問題的完整解決方案。這個(gè)層次主要用作標(biāo)準(zhǔn)答案,當(dāng)前四個(gè)層次都無法幫助AI得到正確結(jié)果時(shí),這個(gè)完整方案可以作為學(xué)習(xí)材料。
實(shí)驗(yàn)結(jié)果顯示了這種分層提示系統(tǒng)的顯著效果。在沒有任何提示的情況下,約有25.56%的困難樣本完全無法得到正確解決,這嚴(yán)重影響了強(qiáng)化學(xué)習(xí)過程的效率。隨著提示層次的提升,錯(cuò)誤率逐步下降,到第五層時(shí)錯(cuò)誤率降至僅0.20%。同時(shí),四次嘗試的平均得分也從無提示時(shí)的1.62分提升到完整方案提示時(shí)的3.96分,標(biāo)準(zhǔn)差從1.18降低到0.28,說明結(jié)果的穩(wěn)定性也大大提升。
這種漸進(jìn)提示系統(tǒng)的巧妙之處在于它能夠?yàn)槊總€(gè)困難樣本找到最適合的幫助程度。對(duì)于只需要輕微引導(dǎo)就能解決的問題,系統(tǒng)會(huì)停留在較低的提示層次;對(duì)于確實(shí)困難的問題,系統(tǒng)會(huì)提供更多支持,但始終保持讓AI自主學(xué)習(xí)和推理的空間。這種動(dòng)態(tài)調(diào)整的能力確保了強(qiáng)化學(xué)習(xí)過程既高效又有教育價(jià)值。
為了進(jìn)一步提升訓(xùn)練效果,研究團(tuán)隊(duì)還設(shè)計(jì)了迭代循環(huán)機(jī)制。AI模型會(huì)使用強(qiáng)化學(xué)習(xí)模型對(duì)原始訓(xùn)練數(shù)據(jù)進(jìn)行重新采樣,通過獎(jiǎng)勵(lì)模型評(píng)分篩選出比原始標(biāo)準(zhǔn)答案更好的新答案。這些改進(jìn)的數(shù)據(jù)會(huì)替換原始數(shù)據(jù),用于訓(xùn)練下一輪的模型。這個(gè)過程會(huì)持續(xù)多輪,每一輪都在前一輪的基礎(chǔ)上進(jìn)一步提升,形成螺旋上升的改進(jìn)軌跡。
六、人類偏好對(duì)齊的精細(xì)化訓(xùn)練
讓AI系統(tǒng)不僅能夠準(zhǔn)確完成任務(wù),還能以符合人類期望的方式進(jìn)行交互,這是現(xiàn)代AI開發(fā)中的重要挑戰(zhàn)??焓謭F(tuán)隊(duì)在這個(gè)方面投入了大量精力,開發(fā)了一套全面的對(duì)齊訓(xùn)練系統(tǒng),這個(gè)系統(tǒng)就像培養(yǎng)一個(gè)懂得社交禮儀的專業(yè)助手,既要有扎實(shí)的專業(yè)能力,又要有良好的服務(wù)意識(shí)和溝通技巧。
對(duì)齊訓(xùn)練的第一個(gè)維度是"指令遵循能力"的提升。這涉及到AI對(duì)用戶需求的準(zhǔn)確理解和恰當(dāng)響應(yīng)。研究團(tuán)隊(duì)設(shè)計(jì)了25種硬性約束和20種軟性約束來測(cè)試和訓(xùn)練這種能力。硬性約束包括關(guān)鍵詞包含、標(biāo)點(diǎn)符號(hào)使用、發(fā)音要求、輸出格式等具體要求,這就像給AI制定了明確的行為規(guī)范;軟性約束則涉及文本風(fēng)格和語義表達(dá),更多體現(xiàn)在細(xì)微的表達(dá)差異上。
團(tuán)隊(duì)構(gòu)建了一個(gè)包含1.7萬個(gè)多模態(tài)數(shù)據(jù)和2.3萬個(gè)純文本數(shù)據(jù)的查詢集合,每個(gè)查詢都被分配了2到6種不同類型的約束條件。這種多約束的設(shè)計(jì)模擬了真實(shí)應(yīng)用場(chǎng)景中用戶可能提出的復(fù)雜要求,訓(xùn)練AI在滿足多重條件的同時(shí)保持響應(yīng)的自然和有用性。
第二個(gè)重要維度是"格式adherence",即確保AI的回應(yīng)嚴(yán)格遵循預(yù)定義的格式要求。這包括think-answer格式、代理思考格式、自動(dòng)思考格式和無思考格式等多種交互模式。每種格式都有其特定的應(yīng)用場(chǎng)景和用戶期望,AI需要能夠根據(jù)上下文準(zhǔn)確選擇和執(zhí)行相應(yīng)的格式。
研究團(tuán)隊(duì)開發(fā)了基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)來評(píng)估格式遵循情況。這個(gè)系統(tǒng)能夠自動(dòng)檢測(cè)AI輸出是否符合邏輯推理格式要求,以及是否遵循特定的結(jié)構(gòu)化指導(dǎo)原則,如JSON、Markdown和代碼格式等。通過這種自動(dòng)化評(píng)估,訓(xùn)練過程能夠及時(shí)糾正格式錯(cuò)誤,確保AI輸出的一致性和可預(yù)測(cè)性。
第三個(gè)維度是"偏好對(duì)齊",這是最具挑戰(zhàn)性的部分,因?yàn)樗婕暗綄?duì)人類主觀判斷的模擬和學(xué)習(xí)。對(duì)于開放性問題,研究團(tuán)隊(duì)通過提升回應(yīng)的可靠性、交互性和風(fēng)格來改善用戶體驗(yàn)。這個(gè)過程需要AI學(xué)會(huì)在多個(gè)可能正確的答案中選擇最符合人類偏好的那一個(gè)。
為了支持偏好對(duì)齊訓(xùn)練,研究團(tuán)隊(duì)構(gòu)建了一個(gè)多樣化的任務(wù)系統(tǒng)和獎(jiǎng)勵(lì)建??蚣堋_@個(gè)框架包含三個(gè)主要組成部分:基于規(guī)則的獎(jiǎng)勵(lì)檢查AI回應(yīng)是否遵循預(yù)定義的結(jié)構(gòu)和格式規(guī)則;生成式獎(jiǎng)勵(lì)使用其他多模態(tài)大語言模型評(píng)估回應(yīng)與參考答案的契合程度、推理一致性和關(guān)鍵屬性的相關(guān)性;基于模型的獎(jiǎng)勵(lì)則利用專門訓(xùn)練的獎(jiǎng)勵(lì)模型評(píng)估回應(yīng)是否符合人類偏好標(biāo)準(zhǔn)。
在推理任務(wù)方面,團(tuán)隊(duì)構(gòu)建了1.2萬個(gè)數(shù)學(xué)和邏輯推理查詢,每個(gè)查詢都設(shè)計(jì)了3到5個(gè)解題步驟。AI需要按照規(guī)定的步驟順序解決問題,這不僅測(cè)試了問題解決能力,也訓(xùn)練了遵循指令的精確性。系統(tǒng)使用基于規(guī)則的獎(jiǎng)勵(lì)計(jì)算結(jié)果正確性,使用生成式獎(jiǎng)勵(lì)評(píng)估推理過程是否遵循了預(yù)定義步驟。
對(duì)于知識(shí)檢索增強(qiáng)生成任務(wù),研究團(tuán)隊(duì)收集了一系列基于最新新聞的實(shí)例,這些實(shí)例需要通過互聯(lián)網(wǎng)搜索才能獲得答案。AI被鼓勵(lì)在思考過程中使用搜索和摘要行為,最終生成正確答案。系統(tǒng)通過生成式獎(jiǎng)勵(lì)評(píng)估搜索行為解決查詢的有效性、摘要行為的正確性以及最終答案的一致性。
整個(gè)對(duì)齊訓(xùn)練過程使用GSPO算法進(jìn)行優(yōu)化,這種算法特別適合處理具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)場(chǎng)景。通過多輪迭代訓(xùn)練,AI系統(tǒng)在指令遵循、格式規(guī)范和偏好對(duì)齊三個(gè)維度上都實(shí)現(xiàn)了顯著提升,為實(shí)際應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。
七、技術(shù)創(chuàng)新的核心架構(gòu)
要理解Keye-VL 1.5的技術(shù)魅力,我們需要深入了解其精巧的系統(tǒng)架構(gòu)。這個(gè)架構(gòu)就像一座設(shè)計(jì)精良的現(xiàn)代化工廠,每個(gè)組件都有明確的分工,同時(shí)又協(xié)調(diào)配合,共同完成復(fù)雜的視頻理解任務(wù)。
系統(tǒng)的核心由三個(gè)主要組件構(gòu)成:視覺編碼器、投影層和語言解碼器。視覺編碼器就像工廠的原料檢測(cè)部門,負(fù)責(zé)接收和初步處理各種視覺信息;投影層像是翻譯部門,將視覺信息轉(zhuǎn)換為語言系統(tǒng)能夠理解的格式;語言解碼器則是最終的產(chǎn)品生產(chǎn)線,將所有信息整合后生成最終的文字回應(yīng)。
視覺編碼器基于開源的SigLIP-400M-384-14模型,但經(jīng)過了大量的定制化改進(jìn)。最重要的創(chuàng)新是原生分辨率處理能力的引入。傳統(tǒng)的視覺處理系統(tǒng)就像只能看標(biāo)準(zhǔn)尺寸照片的人,面對(duì)不同比例的圖像時(shí)要么會(huì)裁剪掉重要信息,要么會(huì)產(chǎn)生變形。而Keye-VL 1.5的視覺編碼器能夠自然地處理各種分辨率和寬高比的圖像,保持視覺內(nèi)容的完整性和準(zhǔn)確性。
為了實(shí)現(xiàn)這種靈活性,研究團(tuán)隊(duì)首先使用插值技術(shù)將固定長度的可學(xué)習(xí)位置嵌入擴(kuò)展為分辨率自適應(yīng)的位置嵌入。這個(gè)過程就像給視覺系統(tǒng)配備了一個(gè)可以自動(dòng)調(diào)節(jié)的觀察網(wǎng)格,能夠根據(jù)不同的圖像尺寸調(diào)整觀察的精細(xì)程度。接著,他們引入了二維旋轉(zhuǎn)位置編碼技術(shù),這種編碼方式能夠更好地表示視覺元素之間的空間關(guān)系,特別是在處理高分辨率圖像時(shí)表現(xiàn)出色。
最后,團(tuán)隊(duì)采用了NaViT打包技術(shù)結(jié)合FlashAttention優(yōu)化,讓視覺編碼器能夠在處理不同分辨率圖像時(shí)保持高效率。這種組合就像給生產(chǎn)線裝上了智能調(diào)度系統(tǒng),能夠根據(jù)原料的不同特性自動(dòng)調(diào)整處理流程,既保證質(zhì)量又提高效率。
在視覺編碼的實(shí)際應(yīng)用中,系統(tǒng)對(duì)圖像和視頻采用了不同的策略。對(duì)于圖像處理,系統(tǒng)為每張圖像分配20480個(gè)token的預(yù)算,這個(gè)容量足以處理包含數(shù)千萬像素的高清圖像,確保AI能夠看到圖像中的足夠細(xì)節(jié)。
對(duì)于視頻處理,系統(tǒng)的SlowFast編碼策略展現(xiàn)了其獨(dú)特的智能性。這個(gè)策略的工作原理類似于人類觀看電影時(shí)的注意力分配機(jī)制。系統(tǒng)首先分析相鄰幀之間的patch級(jí)別相似性,將第一幀始終標(biāo)記為slow frame,然后對(duì)后續(xù)每一幀,如果其與最近的slow frame的patch相似度超過95%,就標(biāo)記為fast frame,否則標(biāo)記為新的slow frame。
這種分類完成后,系統(tǒng)為fast frame分配的token預(yù)算僅為slow frame的30%,這樣既保證了對(duì)關(guān)鍵變化時(shí)刻的精細(xì)捕捉,又通過降低靜態(tài)場(chǎng)景的處理精度來節(jié)省計(jì)算資源。整個(gè)token分配過程使用二分搜索算法來精確計(jì)算每個(gè)slow frame的token數(shù)量,確保在總預(yù)算限制下(例如75000個(gè)token)達(dá)到最優(yōu)的資源利用效果。
為了幫助語言模型更好地理解視頻的時(shí)間結(jié)構(gòu),研究團(tuán)隊(duì)還引入了特殊的時(shí)間戳標(biāo)記。這些標(biāo)記就像視頻的章節(jié)目錄,清楚地標(biāo)識(shí)出slow frame和fast frame的邊界以及對(duì)應(yīng)的時(shí)間信息,讓AI能夠建立起完整的時(shí)空關(guān)系圖譜。
投影層雖然結(jié)構(gòu)相對(duì)簡(jiǎn)單,只是一個(gè)隨機(jī)初始化的多層感知器,但它承擔(dān)著關(guān)鍵的模態(tài)轉(zhuǎn)換功能。這個(gè)組件在第一階段訓(xùn)練中被重點(diǎn)優(yōu)化,學(xué)會(huì)將視覺編碼器輸出的高維視覺特征轉(zhuǎn)換為語言模型能夠理解的語義表示。
語言解碼器基于廣受認(rèn)可的Qwen3-8B模型,這為系統(tǒng)提供了強(qiáng)大的語言理解和生成能力。為了適應(yīng)超長上下文的需求,研究團(tuán)隊(duì)對(duì)語言模型進(jìn)行了專門的優(yōu)化,包括將RoPE逆頻率從100萬調(diào)整到800萬,使模型能夠穩(wěn)定處理128K token的長序列。
整個(gè)架構(gòu)的設(shè)計(jì)體現(xiàn)了效率與性能的精妙平衡,每個(gè)組件都經(jīng)過精心優(yōu)化,確保在處理復(fù)雜的多模態(tài)任務(wù)時(shí)既能保持高精度,又能維持合理的計(jì)算開銷。
八、訓(xùn)練數(shù)據(jù)的精心orchestration
高質(zhì)量的訓(xùn)練數(shù)據(jù)是AI系統(tǒng)成功的基石,快手團(tuán)隊(duì)在數(shù)據(jù)收集、處理和組織方面展現(xiàn)了工匠級(jí)的精細(xì)態(tài)度。他們構(gòu)建的訓(xùn)練數(shù)據(jù)生態(tài)系統(tǒng)就像一個(gè)精心策劃的營養(yǎng)配方,為AI提供了全面均衡的"食物"來源,確保系統(tǒng)能夠在各個(gè)維度上全面發(fā)展。
在圖像字幕數(shù)據(jù)的構(gòu)建上,研究團(tuán)隊(duì)面臨的首要挑戰(zhàn)是現(xiàn)有開源數(shù)據(jù)的質(zhì)量參差不齊。許多數(shù)據(jù)源雖然量大,但質(zhì)量不可靠,主要是因?yàn)樗鼈兺ǔV唤?jīng)過簡(jiǎn)單的爬蟲匹配,圖像與描述之間的對(duì)應(yīng)關(guān)系不夠準(zhǔn)確。為了解決這個(gè)問題,團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的相似性過濾流程,使用CLIP模型對(duì)圖像-字幕對(duì)進(jìn)行評(píng)分,只保留高相似性的配對(duì)(CLIP分?jǐn)?shù)大于0.9)。
對(duì)于那些被過濾掉的低質(zhì)量開源圖像數(shù)據(jù)以及團(tuán)隊(duì)自有的圖像資源,研究團(tuán)隊(duì)采用了重新字幕生成的策略。他們調(diào)用多個(gè)先進(jìn)的多模態(tài)大語言模型,包括Qwen2.5-VL 72B、Tarsier2、GPT-4o和Gemini1.5-pro,為各種分辨率的圖像和不同類別的內(nèi)容生成高質(zhì)量的合成字幕。實(shí)驗(yàn)表明,由不同模型生成的重字幕數(shù)據(jù)對(duì)于細(xì)粒度圖像理解非常有幫助。
為了防止AI系統(tǒng)退化為單純的字幕生成器,損害其指令遵循和復(fù)雜推理能力,團(tuán)隊(duì)實(shí)施了數(shù)據(jù)增強(qiáng)策略,創(chuàng)建了多種格式的訓(xùn)練樣本。包括"圖像-字幕-問題-答案"格式,訓(xùn)練模型無縫地從生成字幕轉(zhuǎn)向準(zhǔn)確回答后續(xù)問題,加強(qiáng)上下文理解和任務(wù)連續(xù)性;"圖像-問題-答案-字幕"格式,顛倒任務(wù)順序,要求模型先回答問題再進(jìn)行描述,打破默認(rèn)生成字幕的傾向,提高任務(wù)切換靈活性和指令敏感度;指令遵循式圖像字幕生成和問答,提供多張圖像作為輸入,然后隨機(jī)詢問特定圖像對(duì)應(yīng)的問題或生成字幕。
團(tuán)隊(duì)還主動(dòng)注入了一些"陷阱問題",這些問題指向不存在或矛盾的內(nèi)容。這種反事實(shí)數(shù)據(jù)鼓勵(lì)模型更準(zhǔn)確地基于視覺內(nèi)容進(jìn)行回應(yīng),而不是依賴文本先驗(yàn)知識(shí),提高了模型的忠實(shí)性和可靠性。
在OCR和VQA數(shù)據(jù)構(gòu)建方面,研究團(tuán)隊(duì)采用了多種技術(shù)來彌補(bǔ)高質(zhì)量中文數(shù)據(jù)的稀缺。他們利用SOTA多模態(tài)大語言模型合成技術(shù),從開源和內(nèi)部圖像-文本數(shù)據(jù)集中提取圖像構(gòu)建圖像庫,利用其中的文本密集圖像合成涵蓋不同場(chǎng)景的綜合OCR數(shù)據(jù)集。對(duì)于VQA任務(wù),他們首先設(shè)計(jì)種子問題集,通過自演化方法擴(kuò)展初始問題池,然后將圖像及其對(duì)應(yīng)字幕輸入SOTA多模態(tài)大語言模型,生成高質(zhì)量且多樣化的VQA數(shù)據(jù)。
考慮到高質(zhì)量開源中文OCR數(shù)據(jù)的稀缺,團(tuán)隊(duì)進(jìn)一步利用字體渲染工具合成高質(zhì)量OCR樣本。這個(gè)過程包括多樣化的圖像背景和布局、語義和非語義文本、多種字體風(fēng)格和尺寸,以及各種圖像分辨率,顯著增強(qiáng)了模型對(duì)中文OCR識(shí)別的魯棒性。
在結(jié)構(gòu)化文檔和代碼理解方面,團(tuán)隊(duì)使用大量代碼庫(如Markdown、HTML和其他編程語言)創(chuàng)建精細(xì)的OCR任務(wù)。通過渲染保持原始布局的代碼和文檔,他們創(chuàng)建了諸如從圖像重構(gòu)源代碼或在特定位置補(bǔ)全缺失代碼等復(fù)雜的OCR任務(wù),訓(xùn)練模型理解文本層次結(jié)構(gòu)和結(jié)構(gòu)。
目標(biāo)定位和計(jì)數(shù)數(shù)據(jù)的構(gòu)建展現(xiàn)了團(tuán)隊(duì)對(duì)細(xì)節(jié)的極致關(guān)注。在Keye-VL-1.5的目標(biāo)定位功能中,他們主要使用三種對(duì)象定位形式:中心點(diǎn)、邊界框和多邊形,坐標(biāo)嚴(yán)格輸入為整數(shù)并歸一化到[0, 1000)范圍內(nèi)以適應(yīng)不同分辨率圖像。數(shù)據(jù)來源主要包括RefCoCo、VisualGenome和TolokaVQA作為定位數(shù)據(jù)源,PixMo作為計(jì)數(shù)數(shù)據(jù)源。
對(duì)于內(nèi)部定位數(shù)據(jù)生成,團(tuán)隊(duì)使用其他多模態(tài)大語言模型提取相應(yīng)文檔問題的答案區(qū)域邊界框。為了過濾不正確、缺失或模糊的標(biāo)注定位數(shù)據(jù),他們利用CLIP和Qwen-2.5-7B選擇更高分?jǐn)?shù)的點(diǎn)、框或多邊形作為訓(xùn)練數(shù)據(jù),即從圖像中提取相應(yīng)的定位區(qū)域來計(jì)算其與目標(biāo)客觀文本的相似性。
九、基礎(chǔ)設(shè)施的精密engineering
構(gòu)建如此復(fù)雜的AI系統(tǒng)需要強(qiáng)大的技術(shù)基礎(chǔ)設(shè)施支撐,快手團(tuán)隊(duì)在這方面展現(xiàn)了深厚的工程能力。他們?cè)O(shè)計(jì)的訓(xùn)練基礎(chǔ)設(shè)施就像一座高度自動(dòng)化的現(xiàn)代化制造工廠,能夠高效處理海量數(shù)據(jù),同時(shí)保證訓(xùn)練過程的穩(wěn)定性和可靠性。
多模態(tài)大語言模型的訓(xùn)練面臨三個(gè)主要挑戰(zhàn):架構(gòu)異構(gòu)性、負(fù)載不平衡和I/O瓶頸。針對(duì)第一個(gè)挑戰(zhàn),團(tuán)隊(duì)設(shè)計(jì)了異構(gòu)混合并行策略。傳統(tǒng)的統(tǒng)一并行策略就像用同一套管理方法管理所有不同類型的員工,必然會(huì)導(dǎo)致效率低下。而異構(gòu)策略則像是為不同崗位制定專門的工作流程。
具體來說,對(duì)于計(jì)算模式相對(duì)固定的視覺編碼器組件,團(tuán)隊(duì)只使用數(shù)據(jù)并行來最大化吞吐量。這種選擇是基于視覺編碼器的計(jì)算特性:每個(gè)樣本的處理時(shí)間相對(duì)可預(yù)測(cè),不同GPU之間的工作負(fù)載差異較小。而對(duì)于參數(shù)密集且內(nèi)存消耗巨大的語言模型組件,團(tuán)隊(duì)采用流水線并行、張量并行和數(shù)據(jù)并行的混合策略。這種精細(xì)化的并行設(shè)計(jì)是實(shí)現(xiàn)128K超長序列訓(xùn)練的決定性技術(shù)前提。
負(fù)載不平衡問題主要源于多模態(tài)數(shù)據(jù)的固有特性。處理高分辨率視頻的計(jì)算成本可能是處理靜態(tài)圖像的數(shù)倍,如果簡(jiǎn)單地將這些樣本隨機(jī)分配給不同的GPU,就會(huì)出現(xiàn)有些GPU長時(shí)間高負(fù)載運(yùn)行,而有些GPU提前完成任務(wù)后只能等待的情況。為解決這個(gè)問題,團(tuán)隊(duì)開發(fā)了動(dòng)態(tài)負(fù)載均衡機(jī)制。
這個(gè)機(jī)制的核心是預(yù)估算法,能夠根據(jù)輸入樣本的特征(分辨率、幀數(shù)、內(nèi)容復(fù)雜度等)預(yù)測(cè)其計(jì)算復(fù)雜度。然后使用貪心算法將樣本分配到不同的GPU上,目標(biāo)是使所有GPU的總計(jì)算時(shí)間盡可能接近。這種做法就像合理安排工廠生產(chǎn)線上的任務(wù)分配,確保每個(gè)工作站都能保持適當(dāng)?shù)拿β党潭?,避免整體效率被最慢的環(huán)節(jié)拖累。
I/O瓶頸的解決方案體現(xiàn)了團(tuán)隊(duì)對(duì)系統(tǒng)架構(gòu)的深刻理解。他們?cè)O(shè)計(jì)了靈活可擴(kuò)展的數(shù)據(jù)加載器,能夠深度感知并行訓(xùn)練的拓?fù)浣Y(jié)構(gòu)。在數(shù)據(jù)并行維度,每個(gè)進(jìn)程只加載全局?jǐn)?shù)據(jù)集的一個(gè)分片;在流水線并行維度,只有第一階段負(fù)責(zé)數(shù)據(jù)獲取和預(yù)處理;在張量/上下文并行維度,數(shù)據(jù)首先由組內(nèi)單個(gè)進(jìn)程獲取,然后高效廣播到組內(nèi)所有進(jìn)程。
更進(jìn)一步,團(tuán)隊(duì)實(shí)現(xiàn)了I/O服務(wù)器架構(gòu),將CPU密集型任務(wù)(如視頻解碼)從訓(xùn)練節(jié)點(diǎn)上分離出來。這種設(shè)計(jì)類似于現(xiàn)代工廠中的專業(yè)化分工,讓訓(xùn)練節(jié)點(diǎn)能夠?qū)W⒂贕PU計(jì)算任務(wù),而繁重的數(shù)據(jù)預(yù)處理工作由專門的服務(wù)器承擔(dān)。這不僅解決了CPU瓶頸問題,還顯著提高了整體系統(tǒng)的資源利用率。
為了保證長時(shí)間訓(xùn)練過程的穩(wěn)定性,團(tuán)隊(duì)還實(shí)現(xiàn)了實(shí)例級(jí)完美恢復(fù)機(jī)制。這個(gè)機(jī)制能夠確保任務(wù)在中斷后從最后一個(gè)成功處理的樣本開始恢復(fù),而不是從最近的檢查點(diǎn)開始,避免了重復(fù)處理和數(shù)據(jù)浪費(fèi)。這種細(xì)致入微的設(shè)計(jì)體現(xiàn)了團(tuán)隊(duì)對(duì)大規(guī)模訓(xùn)練實(shí)踐的深刻理解。
在硬件資源優(yōu)化方面,團(tuán)隊(duì)還針對(duì)不同訓(xùn)練階段采用了不同的優(yōu)化策略。在前兩個(gè)訓(xùn)練階段,由于序列長度限制在8K,主要采用數(shù)據(jù)并行配合Zero-2優(yōu)化策略來減少內(nèi)存開銷。在最后的退火階段,為了支持128K的超長上下文,切換到Zero-1優(yōu)化策略,并采用上下文并行和流水線并行來支持長上下文訓(xùn)練。這種動(dòng)態(tài)調(diào)整策略確保了不同訓(xùn)練階段都能達(dá)到最優(yōu)的資源利用效率。
十、實(shí)驗(yàn)評(píng)估與性能驗(yàn)證
為了全面驗(yàn)證Keye-VL 1.5的實(shí)際性能,快手團(tuán)隊(duì)設(shè)計(jì)了一套涵蓋多個(gè)維度的綜合評(píng)估體系。這個(gè)評(píng)估過程就像對(duì)一個(gè)全科醫(yī)生進(jìn)行執(zhí)業(yè)資格考試,不僅要測(cè)試專業(yè)技能,還要考察實(shí)際工作中的應(yīng)用能力和用戶滿意度。
在公開基準(zhǔn)測(cè)試中,Keye-VL 1.5展現(xiàn)出了全面超越競(jìng)爭(zhēng)對(duì)手的實(shí)力。在通用視覺-語言任務(wù)方面,系統(tǒng)在OpenCompass上取得了79.5%的得分,顯著高于同規(guī)模的其他開源模型。在大規(guī)模多學(xué)科理解基準(zhǔn)MMMU上獲得71.4%的成績,在AI2D科學(xué)圖表理解任務(wù)上達(dá)到89.5%的準(zhǔn)確率。這些成績不僅體現(xiàn)了系統(tǒng)的基礎(chǔ)能力,更重要的是證明了其在處理復(fù)雜多模態(tài)任務(wù)時(shí)的可靠性。
更令人印象深刻的是系統(tǒng)在視頻理解任務(wù)上的表現(xiàn)。在Video-MME基準(zhǔn)上,Keye-VL 1.5獲得了73.0%的成績,相比其他開源模型有顯著優(yōu)勢(shì)。在Video-MMMU這個(gè)需要從專業(yè)視頻中獲取知識(shí)的任務(wù)上,系統(tǒng)的表現(xiàn)(66.0%)比第二名高出6.5個(gè)百分點(diǎn),這個(gè)差距在AI評(píng)測(cè)中已經(jīng)是相當(dāng)顯著的提升。
在數(shù)學(xué)推理能力測(cè)試中,系統(tǒng)同樣表現(xiàn)出色。MathVision任務(wù)的46.8%準(zhǔn)確率、MathVista的81.2%成績以及MathVerse的68.7%表現(xiàn),都明顯超越了同規(guī)模的競(jìng)爭(zhēng)對(duì)手。這些結(jié)果證明了系統(tǒng)不僅能看懂圖像和視頻,還能進(jìn)行復(fù)雜的邏輯推理和數(shù)學(xué)計(jì)算。
為了更深入地了解系統(tǒng)的實(shí)際應(yīng)用效果,研究團(tuán)隊(duì)還構(gòu)建了內(nèi)部評(píng)估基準(zhǔn)。這個(gè)基準(zhǔn)的設(shè)計(jì)更貼近實(shí)際應(yīng)用場(chǎng)景,涵蓋了視覺元素識(shí)別、推理能力、時(shí)間信息理解、知識(shí)問答、描述能力、魯棒性、創(chuàng)造能力和領(lǐng)域?qū)I(yè)知識(shí)等八個(gè)核心維度。
在這個(gè)綜合評(píng)估中,Keye-VL 1.5獲得了3.53的總分(滿分5分),相比預(yù)覽版本提升了0.51分,相比主要競(jìng)爭(zhēng)對(duì)手MiMoVL-7B-RL-2508提升了0.13分。特別值得注意的是,系統(tǒng)在正確性方面的表現(xiàn)(3.73分)明顯優(yōu)于競(jìng)爭(zhēng)對(duì)手(3.54分),這對(duì)于實(shí)際應(yīng)用來說是至關(guān)重要的。
細(xì)分能力評(píng)估揭示了系統(tǒng)的優(yōu)勢(shì)領(lǐng)域。在推理能力上,Keye-VL 1.5獲得了3.81分,比競(jìng)爭(zhēng)對(duì)手高出0.25分;在時(shí)間信息理解方面得分3.36分,比競(jìng)爭(zhēng)對(duì)手高出0.18分;在魯棒性測(cè)試中更是獲得了4.29的高分,比競(jìng)爭(zhēng)對(duì)手高出驚人的0.83分。這個(gè)魯棒性優(yōu)勢(shì)表明系統(tǒng)在面對(duì)各種異常情況和邊界案例時(shí)都能保持穩(wěn)定的性能。
為了驗(yàn)證SlowFast視頻編碼策略的有效性,團(tuán)隊(duì)進(jìn)行了專門的對(duì)比實(shí)驗(yàn)。他們將Keye-VL-1.5-Base與采用2D卷積合并技術(shù)的Qwen-2.5-VL在VideoMME基準(zhǔn)上進(jìn)行了詳細(xì)比較。結(jié)果顯示,Keye-VL-1.5-Base在不同幀數(shù)設(shè)置下都能保持穩(wěn)定的性能,并且能夠在更高的幀數(shù)下仍然保持性能提升,而競(jìng)爭(zhēng)對(duì)手在128幀時(shí)就達(dá)到了性能峰值。
更有趣的是token使用效率的對(duì)比。Qwen-2.5-VL的token使用與幀數(shù)基本成線性關(guān)系,而Keye-VL-1.5-Base在低幀數(shù)時(shí)使用更多token,在高幀數(shù)時(shí)使用更少token。這種動(dòng)態(tài)調(diào)整的資源分配策略證明了SlowFast編碼的智能性和效率優(yōu)勢(shì)。
在不同F(xiàn)PS設(shè)置的測(cè)試中,Keye-VL-1.5-Base表現(xiàn)出了更好的穩(wěn)定性,這進(jìn)一步驗(yàn)證了其視頻編碼策略的魯棒性。這種穩(wěn)定性對(duì)于實(shí)際應(yīng)用非常重要,因?yàn)檎鎸?shí)世界的視頻內(nèi)容往往具有不同的幀率和質(zhì)量特征。
十一、技術(shù)細(xì)節(jié)的深入剖析
在技術(shù)實(shí)現(xiàn)的細(xì)節(jié)層面,Keye-VL 1.5展現(xiàn)了研發(fā)團(tuán)隊(duì)在工程實(shí)踐方面的深厚功底。這些看似微小的技術(shù)選擇和優(yōu)化,實(shí)際上對(duì)系統(tǒng)的整體性能產(chǎn)生了關(guān)鍵影響,就像精密機(jī)械中每一個(gè)齒輪的精度都會(huì)影響整體運(yùn)轉(zhuǎn)的smooth性。
在視覺編碼器的native分辨率處理實(shí)現(xiàn)中,團(tuán)隊(duì)面臨的首要挑戰(zhàn)是如何擴(kuò)展原本固定尺寸的位置嵌入。SigLIP-400M-384-14模型原本只能處理384×384像素的正方形圖像,但實(shí)際應(yīng)用中的圖像和視頻幀往往具有各種不同的寬高比和分辨率。簡(jiǎn)單的拉伸或裁剪會(huì)導(dǎo)致信息丟失或視覺變形,影響AI的理解準(zhǔn)確性。
研究團(tuán)隊(duì)采用的解決方案是位置嵌入插值技術(shù)。這個(gè)過程就像給一個(gè)只會(huì)看標(biāo)準(zhǔn)地圖的人配備了一副能夠自動(dòng)調(diào)節(jié)焦距的眼鏡,讓他能夠清晰地觀察不同比例尺的地圖。具體實(shí)現(xiàn)上,系統(tǒng)會(huì)根據(jù)輸入圖像的實(shí)際尺寸,計(jì)算出需要的位置嵌入網(wǎng)格大小,然后使用雙線性插值將原始的固定尺寸嵌入擴(kuò)展到相應(yīng)的大小。
二維RoPE的引入進(jìn)一步增強(qiáng)了系統(tǒng)的位置理解能力。傳統(tǒng)的絕對(duì)位置嵌入就像給每個(gè)位置貼上固定的標(biāo)簽,而RoPE更像是建立了一個(gè)動(dòng)態(tài)的坐標(biāo)系統(tǒng),能夠更好地表示元素之間的相對(duì)位置關(guān)系。在處理高分辨率圖像時(shí),這種相對(duì)位置關(guān)系的準(zhǔn)確表示變得尤為重要,因?yàn)榻^對(duì)位置嵌入在外推到訓(xùn)練時(shí)未見過的分辨率時(shí)往往會(huì)出現(xiàn)性能下降。
NaViT packing技術(shù)的應(yīng)用則解決了batch處理中的效率問題。傳統(tǒng)的方法需要將所有圖像填充到相同的尺寸,這不僅浪費(fèi)計(jì)算資源,還可能引入無意義的填充信息。NaViT允許在同一個(gè)batch中處理不同尺寸的圖像,就像在同一個(gè)包裝箱中放入不同大小的物品,通過巧妙的排列實(shí)現(xiàn)空間的最大化利用。
在SlowFast編碼的具體實(shí)現(xiàn)中,patch相似性計(jì)算是關(guān)鍵環(huán)節(jié)。系統(tǒng)將每幀圖像分割成14×14像素的patch,然后計(jì)算當(dāng)前幀與最近slow frame之間的patch-level相似度。這個(gè)計(jì)算過程類似于比較兩幅拼圖的相似程度,通過分塊對(duì)比來判斷整體的變化幅度。95%的相似度閾值是經(jīng)過大量實(shí)驗(yàn)確定的最優(yōu)值,既能有效識(shí)別靜態(tài)場(chǎng)景,又不會(huì)過于敏感而將微小變化誤判為重要變化。
token預(yù)算的動(dòng)態(tài)分配使用了精巧的二分搜索算法。給定總token預(yù)算(如75000個(gè)token)和fast frame與slow frame的token比例(30%),系統(tǒng)需要找到一個(gè)最優(yōu)的slow frame token數(shù)量,使得所有frame的總token使用量不超過預(yù)算。這個(gè)過程就像在有限的資源約束下安排生產(chǎn)計(jì)劃,需要精確計(jì)算才能達(dá)到最優(yōu)配置。
在長上下文擴(kuò)展的實(shí)現(xiàn)中,RoPE逆頻率的調(diào)整是一個(gè)關(guān)鍵細(xì)節(jié)。原始Qwen3-8B模型的RoPE逆頻率為1,000,000,適用于相對(duì)較短的序列。為了支持128K的超長上下文,團(tuán)隊(duì)將這個(gè)參數(shù)調(diào)整為8,000,000。這個(gè)看似簡(jiǎn)單的數(shù)值改變,實(shí)際上重新定義了模型對(duì)序列長度的感知能力,類似于調(diào)整望遠(yuǎn)鏡的焦距來觀察更遠(yuǎn)的景物。
訓(xùn)練數(shù)據(jù)的配比優(yōu)化也體現(xiàn)了團(tuán)隊(duì)對(duì)細(xì)節(jié)的關(guān)注。在128K上下文訓(xùn)練階段,24%視頻、50%圖像、26%文本的數(shù)據(jù)配比是經(jīng)過反復(fù)實(shí)驗(yàn)確定的。這個(gè)配比既保證了視頻理解能力的提升,又維持了圖像理解和語言能力的平衡。過多的視頻數(shù)據(jù)可能會(huì)影響基礎(chǔ)的圖像處理能力,而過少則無法充分利用擴(kuò)展的上下文長度。
在訓(xùn)練過程的技術(shù)實(shí)現(xiàn)中,gradient accumulation和mixed precision training的組合使用確保了在有限的GPU內(nèi)存下也能處理大batch size的訓(xùn)練。這些技術(shù)就像在有限的廚房空間里通過精心安排來完成大型宴會(huì)的準(zhǔn)備,每個(gè)環(huán)節(jié)都需要精確協(xié)調(diào)。
十二、應(yīng)用前景與實(shí)際價(jià)值
Keye-VL 1.5的技術(shù)突破不僅僅是學(xué)術(shù)研究的成果,更重要的是它為實(shí)際應(yīng)用開辟了廣闊的可能性空間。這個(gè)系統(tǒng)就像一把萬能鑰匙,能夠開啟許多之前無法解決或解決得不夠好的實(shí)際問題,為各行各業(yè)帶來切實(shí)的價(jià)值。
在內(nèi)容創(chuàng)作和媒體行業(yè),這項(xiàng)技術(shù)的影響將是革命性的。目前的視頻內(nèi)容分析和標(biāo)注工作主要依賴人工完成,不僅成本高昂,而且效率低下。一個(gè)專業(yè)的視頻編輯人員可能需要幾個(gè)小時(shí)才能為一段長視頻制作準(zhǔn)確的字幕和摘要,而且容易出現(xiàn)遺漏或錯(cuò)誤。Keye-VL 1.5能夠自動(dòng)理解視頻內(nèi)容,生成準(zhǔn)確的描述、提取關(guān)鍵信息、甚至創(chuàng)建時(shí)間軸標(biāo)注,這將大大降低內(nèi)容制作的門檻和成本。
對(duì)于快手這樣的短視頻平臺(tái),這項(xiàng)技術(shù)的價(jià)值更是直接而巨大。平臺(tái)每天上傳的視頻內(nèi)容數(shù)以百萬計(jì),傳統(tǒng)的內(nèi)容審核和推薦系統(tǒng)很難做到精準(zhǔn)理解每個(gè)視頻的具體內(nèi)容。有了Keye-VL 1.5,系統(tǒng)能夠深度理解視頻中的場(chǎng)景、人物、動(dòng)作、情感表達(dá)等細(xì)節(jié)信息,從而實(shí)現(xiàn)更精準(zhǔn)的內(nèi)容分類、更智能的推薦算法、更有效的安全審核。
在教育領(lǐng)域,這項(xiàng)技術(shù)同樣具有巨大的應(yīng)用潛力。傳統(tǒng)的在線教育視頻往往缺乏互動(dòng)性,學(xué)生只能被動(dòng)觀看,很難實(shí)現(xiàn)個(gè)性化學(xué)習(xí)。Keye-VL 1.5能夠理解教育視頻的內(nèi)容結(jié)構(gòu),自動(dòng)生成章節(jié)劃分、知識(shí)點(diǎn)標(biāo)注、甚至針對(duì)特定內(nèi)容生成練習(xí)題。更進(jìn)一步,系統(tǒng)還能根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度和理解情況,智能推薦相關(guān)的視頻片段或補(bǔ)充材料。
在醫(yī)療健康領(lǐng)域,視頻分析技術(shù)也有著重要的應(yīng)用價(jià)值。醫(yī)學(xué)影像診斷、手術(shù)視頻分析、康復(fù)訓(xùn)練監(jiān)控等場(chǎng)景都需要對(duì)動(dòng)態(tài)視覺信息進(jìn)行準(zhǔn)確理解。Keye-VL 1.5的時(shí)間序列理解能力和細(xì)節(jié)識(shí)別能力,使其能夠輔助醫(yī)護(hù)人員進(jìn)行更準(zhǔn)確的診斷和治療方案制定。比如在康復(fù)訓(xùn)練中,系統(tǒng)能夠分析患者的運(yùn)動(dòng)視頻,評(píng)估動(dòng)作的標(biāo)準(zhǔn)程度,提供個(gè)性化的訓(xùn)練建議。
對(duì)于安防監(jiān)控行業(yè),這項(xiàng)技術(shù)帶來的改進(jìn)同樣顯著。傳統(tǒng)的監(jiān)控系統(tǒng)主要依賴人工監(jiān)看,既消耗大量人力資源,又容易出現(xiàn)疏漏。Keye-VL 1.5能夠?qū)崟r(shí)分析監(jiān)控視頻,自動(dòng)識(shí)別異常行為、追蹤特定目標(biāo)、甚至預(yù)測(cè)潛在的安全風(fēng)險(xiǎn)。更重要的是,系統(tǒng)能夠生成詳細(xì)的事件報(bào)告,為后續(xù)的調(diào)查取證提供有力支撐。
在智能交通領(lǐng)域,視頻理解技術(shù)對(duì)于交通流量分析、違章行為識(shí)別、事故預(yù)防等方面都有重要價(jià)值。Keye-VL 1.5能夠分析道路監(jiān)控視頻,識(shí)別車輛類型、統(tǒng)計(jì)交通流量、檢測(cè)違章行為、甚至分析交通事故的發(fā)生過程。這些信息對(duì)于城市交通管理部門制定更科學(xué)的交通策略具有重要意義。
在零售和電商領(lǐng)域,視頻內(nèi)容的理解能夠?yàn)樯唐吠扑]和營銷策略提供新的數(shù)據(jù)支撐。通過分析用戶上傳的產(chǎn)品使用視頻或購物體驗(yàn)分享,系統(tǒng)能夠提取出更豐富的用戶偏好信息,從而實(shí)現(xiàn)更精準(zhǔn)的個(gè)性化推薦。同時(shí),商家也能夠通過視頻分析更好地了解消費(fèi)者的使用習(xí)慣和滿意度。
對(duì)于科研和工業(yè)檢測(cè)領(lǐng)域,Keye-VL 1.5的精確分析能力同樣具有重要價(jià)值。在材料科學(xué)研究中,系統(tǒng)能夠分析實(shí)驗(yàn)過程的視頻記錄,自動(dòng)識(shí)別關(guān)鍵的變化時(shí)刻和異?,F(xiàn)象;在工業(yè)質(zhì)量檢測(cè)中,系統(tǒng)能夠分析生產(chǎn)線的監(jiān)控視頻,及時(shí)發(fā)現(xiàn)產(chǎn)品缺陷或設(shè)備異常。
這些應(yīng)用場(chǎng)景的實(shí)現(xiàn)不僅能夠提高工作效率、降低成本,更重要的是能夠釋放人類的創(chuàng)造力,讓人們從重復(fù)性的分析工作中解放出來,專注于更有價(jià)值的創(chuàng)新和決策工作。隨著技術(shù)的不斷完善和應(yīng)用領(lǐng)域的擴(kuò)大,我們有理由相信,像Keye-VL 1.5這樣的智能系統(tǒng)將成為推動(dòng)社會(huì)數(shù)字化轉(zhuǎn)型的重要引擎。
說到底,快手科技團(tuán)隊(duì)開發(fā)的Keye-VL 1.5代表了視頻理解技術(shù)的一個(gè)重要里程碑。通過"慢-快"雙眼系統(tǒng)的巧妙設(shè)計(jì),這個(gè)AI不僅學(xué)會(huì)了像人類一樣智能地分配注意力,還掌握了處理超長視頻內(nèi)容的能力。從技術(shù)創(chuàng)新到工程實(shí)現(xiàn),從基礎(chǔ)研究到實(shí)際應(yīng)用,這項(xiàng)成果展示了中國科技企業(yè)在人工智能領(lǐng)域的創(chuàng)新實(shí)力和工程能力。
更重要的是,這項(xiàng)技術(shù)的開源特性意味著全球的研究者和開發(fā)者都能夠在此基礎(chǔ)上繼續(xù)創(chuàng)新,推動(dòng)整個(gè)行業(yè)的發(fā)展。當(dāng)我們站在人工智能快速發(fā)展的時(shí)代節(jié)點(diǎn)上,像Keye-VL 1.5這樣的技術(shù)突破不僅僅是科技進(jìn)步的體現(xiàn),更是人類智慧和創(chuàng)造力的延伸。它讓我們看到了一個(gè)更加智能、更加便利的數(shù)字化未來。
對(duì)于普通用戶來說,這意味著未來的視頻應(yīng)用會(huì)變得更加智能和貼心。無論是觀看短視頻時(shí)的智能推薦,還是查找特定視頻內(nèi)容時(shí)的精準(zhǔn)搜索,亦或是自動(dòng)生成的視頻摘要和字幕,這些改進(jìn)都將讓我們的數(shù)字生活體驗(yàn)更加豐富和便捷。而對(duì)于內(nèi)容創(chuàng)作者、教育工作者、醫(yī)護(hù)人員等專業(yè)人士來說,這項(xiàng)技術(shù)將成為強(qiáng)有力的工作助手,幫助他們更高效地完成工作,創(chuàng)造更大的價(jià)值。
Q&A
Q1:快手Keye-VL 1.5的"慢-快"雙眼系統(tǒng)是怎么工作的?
A:這個(gè)系統(tǒng)模仿人類看視頻時(shí)的注意力分配機(jī)制。當(dāng)視頻畫面變化較大時(shí),"慢眼"會(huì)用高分辨率仔細(xì)觀察每個(gè)細(xì)節(jié);當(dāng)畫面相對(duì)穩(wěn)定時(shí),"快眼"會(huì)用較低分辨率但更廣的時(shí)間范圍進(jìn)行監(jiān)控。系統(tǒng)通過分析相鄰畫面間的相似性來自動(dòng)切換模式,相似度超過95%就啟用快速處理,這樣既節(jié)省計(jì)算資源又不會(huì)錯(cuò)過重要信息。
Q2:Keye-VL 1.5能處理多長時(shí)間的視頻內(nèi)容?
A:Keye-VL 1.5可以處理非常長的視頻內(nèi)容,其上下文處理能力從8K個(gè)信息單元擴(kuò)展到了128K個(gè)單元,相當(dāng)于注意力范圍擴(kuò)大了16倍。這意味著它不僅能理解短視頻,還能分析長達(dá)數(shù)小時(shí)的視頻內(nèi)容,建立完整的時(shí)空關(guān)系理解。這種長時(shí)間處理能力對(duì)于電影分析、教育視頻理解、監(jiān)控視頻分析等應(yīng)用場(chǎng)景非常重要。
Q3:普通用戶什么時(shí)候能體驗(yàn)到Keye-VL 1.5技術(shù)?
A:由于這是快手內(nèi)部開發(fā)的核心技術(shù),普通用戶最可能通過快手App或其相關(guān)產(chǎn)品來體驗(yàn)這項(xiàng)技術(shù)。目前研究團(tuán)隊(duì)已經(jīng)在GitHub上開源了相關(guān)代碼,開發(fā)者可以通過https://github.com/Kwai-Keye/Keye訪問。隨著技術(shù)的不斷完善,我們預(yù)計(jì)很快就能在快手的各種視頻功能中感受到更智能的內(nèi)容理解、更精準(zhǔn)的推薦和更準(zhǔn)確的搜索體驗(yàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。