或許你對 Lightricks 這個名字并不熟悉,但對于活躍在社交媒體上、熟悉P圖的用戶來說,它旗下的 Facetune 幾乎是家喻戶曉的存在。這家總部位于以色列的公司,憑借 Facetune、Videoleap 等一系列橫跨圖片編輯和短視頻制作的成功產(chǎn)品,在全球消費級創(chuàng)意應用市場積累了深厚的技術(shù)實力和用戶基礎(chǔ)。
就在前兩天,Lightricks 正式發(fā)布了他們最新的AI視頻生成模型—— LTX Video 130億參數(shù)模型 (LTXV-13B)。模型一經(jīng)發(fā)布,便迅速在網(wǎng)絡(luò)上引起了熱潮。
LTXV-13B最引人注目的有兩點:第一,它在生成高質(zhì)量 AI 視頻方面的效率顯著提升,速度比現(xiàn)有同類模型快達 30 倍;第二也是更關(guān)鍵的是,它打破了高端硬件的桎梏,聲稱能夠運行在消費級 GPU 上,無需依賴昂貴的企業(yè)級設(shè)備。
這意味著什么?Lightricks 聯(lián)合創(chuàng)始人兼 CEO Zeev Farbman 在接受采訪時給出了他的解讀:“130 億參數(shù)的 LTX Video 模型是 AI 視頻生成領(lǐng)域的一個重要進展,它讓在消費級 GPU 上快速生成高質(zhì)量視頻成為可能。” 他進一步指出,這將使用戶能夠以更高的一致性、更好的質(zhì)量和更精細的控制來創(chuàng)作內(nèi)容。
突破“顯存”瓶頸:AI視頻普惠化的關(guān)鍵一步
我們不妨先回顧一下 AI 視頻生成當前面臨的核心技術(shù)挑戰(zhàn)。長期以來,高性能 GPU,尤其是其配備的大容量顯存(VRAM),一直是橫亙在普通用戶面前的一道“高墻”。像 Runway、Pika、Luma 等在文生視頻領(lǐng)域走在前沿的模型,通常需要依賴于配備 80GB 甚至更高顯存的企業(yè)級 GPU 集群進行訓練和推理。
對計算資源的極度依賴,導致這些模型大多部署在云端。對于絕大多數(shù)個體創(chuàng)作者或小型團隊而言,本地部署幾乎不現(xiàn)實,他們不得不依賴昂貴的云服務。這不僅推高了使用成本,按時計費的模式也在一定程度上限制了創(chuàng)作者自由探索和快速迭代的靈活性。
LTXV-13B 的核心價值,恰恰在于其對這一硬件瓶頸的突破性嘗試。Farbman 解釋說,消費級和企業(yè)級 GPU 最主要的分界線就在于顯存容量。例如,英偉達面向普通消費者的 RTX 3090 和 4090 最高顯存為 24GB,最新的 5090 也只有 32GB,與企業(yè)級顯卡動輒 80GB+ 的顯存相去甚遠。
Lightricks 的新模型,正是設(shè)計來在這些相對有限的顯存條件下高效運作。“即使是完整模型,無需任何量化或近似處理,也能在 RTX 3090、4090、5090 等頂級消費級 GPU 及其筆記本版本上運行。” Farbman 確認。這無疑是 AI 視頻生成走向“民主化”、降低門檻的關(guān)鍵一步。
“多尺度渲染”:從藝術(shù)家流程中汲取靈感
那么,LTXV-13B 是如何做到在有限顯存下實現(xiàn)高效運行的?其背后的技術(shù)“秘密武器”,是 Lightricks 稱之為“多尺度渲染”的創(chuàng)新方法。Farbman 將其描述為“本次發(fā)布中最大的技術(shù)突破”。
他解釋說:“這一技術(shù)使得模型能夠逐步細化生成過程。模型并非一次性渲染完整畫面,而是模仿藝術(shù)家的創(chuàng)作流程:先在粗略的網(wǎng)格上構(gòu)建場景和物體運動的初步框架,隨后將畫面分解成一個個區(qū)域或‘圖塊’,并對每個圖塊逐步添加高精度的細節(jié)。”
這種“分而治之”、逐層細化的渲染策略,巧妙地將模型的峰值顯存需求限制在處理單個“圖塊”所需的內(nèi)存,而非一次性處理整個最終輸出分辨率所需的內(nèi)存。顯存的占用峰值被有效控制在較低水平。
此外,模型采用了更緊湊的潛在空間(latent space)表示,進一步優(yōu)化了內(nèi)存使用效率,在保證生成質(zhì)量的同時,進一步減少了顯存需求。Lightricks 提供的性能數(shù)據(jù)顯示,LTXV-13B 生成一段視頻僅需 37.59 秒,相比競品動輒上千秒的耗時,速度提升近 40 倍,這正是其底層高效架構(gòu)和創(chuàng)新技術(shù)帶來的直接成果。
圖片來源:Lightricks
技術(shù)之外的棋局:開源、合規(guī)與獨特的商業(yè)模式
在技術(shù)層面實現(xiàn)突破的同時,Lightricks 在商業(yè)和生態(tài)策略上也走出了一條差異化路徑。在當前不少頂尖 AI 模型走向閉源或 API 收費的趨勢下,Lightricks 卻選擇將 LTXV-13B 完全開源,代碼托管在 Hugging Face 和 GitHub。
Farbman 對此的解釋是,開源能有效降低自身的研發(fā)成本,并借助全球開發(fā)者社區(qū)的力量加速模型迭代。通過社區(qū)的廣泛使用和貢獻,Lightricks 能夠更專注于模型的整體規(guī)劃和“策展”,發(fā)現(xiàn)和整合最有價值的改進方向。
另一個關(guān)鍵點是數(shù)據(jù)合規(guī)。隨著針對抓取數(shù)據(jù)訓練模型引發(fā)的法律爭議增多,模型的“純凈度”對商業(yè)應用至關(guān)重要。Lightricks 選擇與內(nèi)容巨頭 Getty Images 和 Shutterstock 建立合作,獲取授權(quán)數(shù)據(jù)進行模型訓練。
Farbman 坦言,盡管數(shù)據(jù)收集仍存在法律灰色地帶,但對于有嚴格合規(guī)要求的企業(yè)客戶而言,提供基于“干凈”數(shù)據(jù)的模型至關(guān)重要。這些合作旨在確保模型用于商業(yè)應用的法律合規(guī)性,尤其是在對版權(quán)要求嚴格的企業(yè)級市場,這構(gòu)成了 Lightricks 的差異化競爭優(yōu)勢。
在商業(yè)化模式上,Lightricks 更是采取了分層策略:對年收入低于 1000 萬美元的企業(yè),提供免費許可。
Farbman 坦言,這不是為了直接從小型創(chuàng)作者那里賺錢,而是為了快速擴大模型使用范圍,積累用戶和生態(tài),證明模型價值。真正的商業(yè)化目標是那些通過模型取得顯著商業(yè)成功(年收入超過 1000 萬美元)的大公司,屆時將參照游戲引擎等模式協(xié)商許可協(xié)議。這是一種典型的平臺或生態(tài)型商業(yè)策略,通過前端免費或低門檻,吸引海量用戶和應用,再從頂部的商業(yè)化項目中獲取回報。
AI 視頻生成正影響動畫制作領(lǐng)域
盡管 LTXV-13B 在硬件兼容性和效率上取得了顯著進展,F(xiàn)arbman 仍坦承,AI 視頻生成距離“好萊塢電影級”水準尚有距離。當前的生成效果可能在細節(jié)、一致性等方面仍有提升空間,但它已經(jīng)能在特定領(lǐng)域發(fā)揮價值。
LTXV-13B 模型在單個消費級 GPU 上渲染的兩只兔子 | 圖片來源:Lightricks
例如,模型當前就能在例如動畫制作中,大幅提升效率、降低成本。在高端動畫生產(chǎn)中,創(chuàng)意和故事構(gòu)思只占預算一小部分,而耗時耗力的關(guān)鍵幀繪制則消耗大量資源。AI 輔助關(guān)鍵幀生成,正是 AI 在實際生產(chǎn)流程中“降本增效”的典型應用場景。
展望未來,F(xiàn)arbman 預測下一代 AI 視頻模型將是“多模態(tài)”的,能夠整合視頻、音頻、音樂等不同數(shù)據(jù)類型,并在統(tǒng)一的潛在空間中協(xié)同工作。這將使得如唇語同步等復雜任務變得更加容易處理,實現(xiàn)更自然、更全面的內(nèi)容生成。
Lightricks LTXV-13B 模型作為其在這一領(lǐng)域的重要探索,現(xiàn)已開源,并計劃逐步集成到 Lightricks 旗下的創(chuàng)意應用平臺,比如面向故事創(chuàng)作的 LTX Studio。這一系列動作,不僅是技術(shù)上的迭代,更是 Lightricks 試圖在 AI 視頻生成這個新興賽道上,通過技術(shù)突破、開源策略和獨特的商業(yè)模式,重塑硬件邊界,構(gòu)建自身生態(tài)的關(guān)鍵棋步。
好文章,需要你的鼓勵
AIM Intelligence聯(lián)合多所知名大學揭示了音頻AI系統(tǒng)的重大安全漏洞,開發(fā)出名為WhisperInject的攻擊方法。這種攻擊能讓看似無害的音頻指令操控AI生成危險內(nèi)容,成功率超過86%,完全繞過現(xiàn)有安全機制。研究暴露了多模態(tài)AI系統(tǒng)的系統(tǒng)性安全風險,對全球數(shù)十億智能設(shè)備構(gòu)成潛在威脅。
新加坡國立大學研究團隊系統(tǒng)梳理了視覺強化學習領(lǐng)域的最新進展,涵蓋超過200項代表性工作。研究將該領(lǐng)域歸納為四大方向:多模態(tài)大語言模型、視覺生成、統(tǒng)一模型框架和視覺-語言-動作模型,分析了從RLHF到可驗證獎勵范式的政策優(yōu)化策略演進,并識別出樣本效率、泛化能力和安全部署等關(guān)鍵挑戰(zhàn),為這一快速發(fā)展的交叉學科提供了完整的技術(shù)地圖。
浙江大學研究團隊通過OmniEAR基準測試揭示了當前AI模型在物理世界推理方面的嚴重缺陷。測試顯示,即使最先進的AI在明確指令下能達到85-96%成功率,但面對需要從物理約束推斷行動的任務時,成功率驟降至56-85%。研究發(fā)現(xiàn)信息過載反而降低AI協(xié)作能力,監(jiān)督學習雖能改善單體任務但對多智能體協(xié)作效果甚微,表明當前架構(gòu)存在根本局限性。
紐約大學和Aimpoint Digital Labs的研究團隊首次揭示了Transformer模型訓練中"大規(guī)模激活"的完整發(fā)展軌跡。這些影響力比普通激活大千倍的"超級激活"遵循可預測的數(shù)學規(guī)律,研究者開發(fā)出五參數(shù)公式能以98.4%準確率預測其變化。更重要的是,通過調(diào)整模型架構(gòu)參數(shù)如注意力密度、寬深比等,可以在訓練前就預測和控制這些關(guān)鍵激活的行為,為設(shè)計更高效、量化友好的AI模型提供了全新工具。