近日,快手在短視頻評論開始內(nèi)測「快手AI玩評」,用戶可以通過輸入各種創(chuàng)意文字,一鍵生成海量風(fēng)格圖片,可以更輕松、便捷地在評論區(qū)進(jìn)行趣味互動。這是繼“AI對話”之后,快手在短視頻場景內(nèi)落地的又一AIGC能力。
據(jù)悉??焓?ldquo;AI玩評”依托于快手自研文生圖大模型“可圖”(Kolors)強(qiáng)大的圖像生成能力實(shí)現(xiàn)。可圖大模型能夠基于開放式文本生成風(fēng)格多樣、畫質(zhì)精美、創(chuàng)意十足的繪畫作品,讓用戶可以輕松高效地完成藝術(shù)創(chuàng)作。這也是快手AI團(tuán)隊(duì)在大語言模型「快意」之后,再次公布了其在AIGC領(lǐng)域的最新突破和布局。
隨著AI技術(shù)的不斷突破創(chuàng)新,AIGC未來會成為內(nèi)容創(chuàng)作者“突破邊界”的工具,它會讓更多“腦中有畫面,心中有故事”的人能夠進(jìn)行更輕松、高效的創(chuàng)作。據(jù)了解,可圖大模型的三大特點(diǎn)保證了出色的圖像生成效果:
首先,強(qiáng)大的文本理解能力??焓諥I構(gòu)建了數(shù)十億的圖文訓(xùn)練數(shù)據(jù),數(shù)據(jù)來自開源社區(qū)、內(nèi)部構(gòu)建和自研AI技術(shù)合成。這些數(shù)據(jù)覆蓋了常見的三千萬中文實(shí)體概念,兼具世界知識。在此基礎(chǔ)上訓(xùn)練研發(fā)了一個強(qiáng)大的中文CLIP模型,不僅懂我們的語言,也更懂中文世界的圖像;其次,快手AI利用自研的中文LLM,融合CLIP的圖文特征作為文生圖的文本理解模塊,不但實(shí)現(xiàn)了中文特色概念的理解,更解決了復(fù)雜概念、屬性混淆等文生圖領(lǐng)域常見問題。
其次,豐富的細(xì)節(jié)刻畫。快手AI研究團(tuán)隊(duì)更改了去噪算法的底層公式和加噪公式;同時精選了一批高細(xì)節(jié)、高美感的優(yōu)質(zhì)數(shù)據(jù),在模型學(xué)習(xí)的后期進(jìn)行有側(cè)重學(xué)習(xí)。實(shí)現(xiàn)了單一基座模型在主體完整的前提下,可生成具有豐富細(xì)節(jié)和紋理的圖片。同時,基座模型也實(shí)現(xiàn)了輸入圖片,輸出細(xì)節(jié)豐富圖片的圖生圖能力。
第三,多樣的風(fēng)格轉(zhuǎn)化??蓤D大模型具有基于Prompt的自動學(xué)習(xí)模型,基于知識的理解與擴(kuò)充,為用戶提供不同的風(fēng)格模版。依據(jù)提示詞自動擴(kuò)充模塊,可以豐富化用戶描述,包括風(fēng)格、構(gòu)圖、視覺要素等。配合強(qiáng)大的文生圖基座模型,Kolors 可以幫助用戶準(zhǔn)確理解自己的需求,通過簡單描述即可生成多樣化風(fēng)格的圖片。
在可圖大模型強(qiáng)大的圖像生成能力背后,是快手AI團(tuán)隊(duì)在多模態(tài)內(nèi)容理解和生成方面的長期積累,和在大模型領(lǐng)域的持續(xù)創(chuàng)新性探索。
據(jù)了解,從8月下旬開始,快手AI團(tuán)隊(duì)已在公司內(nèi)部開啟了可圖大模型平臺的內(nèi)測,面向內(nèi)部業(yè)務(wù)團(tuán)隊(duì)提供豐富全面的AI繪畫創(chuàng)作能力,并支持網(wǎng)頁版工具和標(biāo)準(zhǔn)化API兩種使用方式。
快手AI團(tuán)隊(duì)表示,「可圖」大模型仍在持續(xù)優(yōu)化效果、豐富能力。未來,可圖將會與快手的更多業(yè)務(wù)開展合作,用AI技術(shù)豐富業(yè)務(wù)的想象力,探索更多有趣、有價值的創(chuàng)新應(yīng)用落地,讓人機(jī)共創(chuàng)成為現(xiàn)實(shí)。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。