或許你對 Lightricks 這個名字并不熟悉,但對于活躍在社交媒體上、熟悉P圖的用戶來說,它旗下的 Facetune 幾乎是家喻戶曉的存在。這家總部位于以色列的公司,憑借 Facetune、Videoleap 等一系列橫跨圖片編輯和短視頻制作的成功產(chǎn)品,在全球消費級創(chuàng)意應用市場積累了深厚的技術實力和用戶基礎。
就在前兩天,Lightricks 正式發(fā)布了他們最新的AI視頻生成模型—— LTX Video 130億參數(shù)模型 (LTXV-13B)。模型一經(jīng)發(fā)布,便迅速在網(wǎng)絡上引起了熱潮。
LTXV-13B最引人注目的有兩點:第一,它在生成高質量 AI 視頻方面的效率顯著提升,速度比現(xiàn)有同類模型快達 30 倍;第二也是更關鍵的是,它打破了高端硬件的桎梏,聲稱能夠運行在消費級 GPU 上,無需依賴昂貴的企業(yè)級設備。
這意味著什么?Lightricks 聯(lián)合創(chuàng)始人兼 CEO Zeev Farbman 在接受采訪時給出了他的解讀:“130 億參數(shù)的 LTX Video 模型是 AI 視頻生成領域的一個重要進展,它讓在消費級 GPU 上快速生成高質量視頻成為可能。” 他進一步指出,這將使用戶能夠以更高的一致性、更好的質量和更精細的控制來創(chuàng)作內容。
突破“顯存”瓶頸:AI視頻普惠化的關鍵一步
我們不妨先回顧一下 AI 視頻生成當前面臨的核心技術挑戰(zhàn)。長期以來,高性能 GPU,尤其是其配備的大容量顯存(VRAM),一直是橫亙在普通用戶面前的一道“高墻”。像 Runway、Pika、Luma 等在文生視頻領域走在前沿的模型,通常需要依賴于配備 80GB 甚至更高顯存的企業(yè)級 GPU 集群進行訓練和推理。
對計算資源的極度依賴,導致這些模型大多部署在云端。對于絕大多數(shù)個體創(chuàng)作者或小型團隊而言,本地部署幾乎不現(xiàn)實,他們不得不依賴昂貴的云服務。這不僅推高了使用成本,按時計費的模式也在一定程度上限制了創(chuàng)作者自由探索和快速迭代的靈活性。
LTXV-13B 的核心價值,恰恰在于其對這一硬件瓶頸的突破性嘗試。Farbman 解釋說,消費級和企業(yè)級 GPU 最主要的分界線就在于顯存容量。例如,英偉達面向普通消費者的 RTX 3090 和 4090 最高顯存為 24GB,最新的 5090 也只有 32GB,與企業(yè)級顯卡動輒 80GB+ 的顯存相去甚遠。
Lightricks 的新模型,正是設計來在這些相對有限的顯存條件下高效運作。“即使是完整模型,無需任何量化或近似處理,也能在 RTX 3090、4090、5090 等頂級消費級 GPU 及其筆記本版本上運行。” Farbman 確認。這無疑是 AI 視頻生成走向“民主化”、降低門檻的關鍵一步。
“多尺度渲染”:從藝術家流程中汲取靈感
那么,LTXV-13B 是如何做到在有限顯存下實現(xiàn)高效運行的?其背后的技術“秘密武器”,是 Lightricks 稱之為“多尺度渲染”的創(chuàng)新方法。Farbman 將其描述為“本次發(fā)布中最大的技術突破”。
他解釋說:“這一技術使得模型能夠逐步細化生成過程。模型并非一次性渲染完整畫面,而是模仿藝術家的創(chuàng)作流程:先在粗略的網(wǎng)格上構建場景和物體運動的初步框架,隨后將畫面分解成一個個區(qū)域或‘圖塊’,并對每個圖塊逐步添加高精度的細節(jié)。”
這種“分而治之”、逐層細化的渲染策略,巧妙地將模型的峰值顯存需求限制在處理單個“圖塊”所需的內存,而非一次性處理整個最終輸出分辨率所需的內存。顯存的占用峰值被有效控制在較低水平。
此外,模型采用了更緊湊的潛在空間(latent space)表示,進一步優(yōu)化了內存使用效率,在保證生成質量的同時,進一步減少了顯存需求。Lightricks 提供的性能數(shù)據(jù)顯示,LTXV-13B 生成一段視頻僅需 37.59 秒,相比競品動輒上千秒的耗時,速度提升近 40 倍,這正是其底層高效架構和創(chuàng)新技術帶來的直接成果。
圖片來源:Lightricks
技術之外的棋局:開源、合規(guī)與獨特的商業(yè)模式
在技術層面實現(xiàn)突破的同時,Lightricks 在商業(yè)和生態(tài)策略上也走出了一條差異化路徑。在當前不少頂尖 AI 模型走向閉源或 API 收費的趨勢下,Lightricks 卻選擇將 LTXV-13B 完全開源,代碼托管在 Hugging Face 和 GitHub。
Farbman 對此的解釋是,開源能有效降低自身的研發(fā)成本,并借助全球開發(fā)者社區(qū)的力量加速模型迭代。通過社區(qū)的廣泛使用和貢獻,Lightricks 能夠更專注于模型的整體規(guī)劃和“策展”,發(fā)現(xiàn)和整合最有價值的改進方向。
另一個關鍵點是數(shù)據(jù)合規(guī)。隨著針對抓取數(shù)據(jù)訓練模型引發(fā)的法律爭議增多,模型的“純凈度”對商業(yè)應用至關重要。Lightricks 選擇與內容巨頭 Getty Images 和 Shutterstock 建立合作,獲取授權數(shù)據(jù)進行模型訓練。
Farbman 坦言,盡管數(shù)據(jù)收集仍存在法律灰色地帶,但對于有嚴格合規(guī)要求的企業(yè)客戶而言,提供基于“干凈”數(shù)據(jù)的模型至關重要。這些合作旨在確保模型用于商業(yè)應用的法律合規(guī)性,尤其是在對版權要求嚴格的企業(yè)級市場,這構成了 Lightricks 的差異化競爭優(yōu)勢。
在商業(yè)化模式上,Lightricks 更是采取了分層策略:對年收入低于 1000 萬美元的企業(yè),提供免費許可。
Farbman 坦言,這不是為了直接從小型創(chuàng)作者那里賺錢,而是為了快速擴大模型使用范圍,積累用戶和生態(tài),證明模型價值。真正的商業(yè)化目標是那些通過模型取得顯著商業(yè)成功(年收入超過 1000 萬美元)的大公司,屆時將參照游戲引擎等模式協(xié)商許可協(xié)議。這是一種典型的平臺或生態(tài)型商業(yè)策略,通過前端免費或低門檻,吸引海量用戶和應用,再從頂部的商業(yè)化項目中獲取回報。
AI 視頻生成正影響動畫制作領域
盡管 LTXV-13B 在硬件兼容性和效率上取得了顯著進展,F(xiàn)arbman 仍坦承,AI 視頻生成距離“好萊塢電影級”水準尚有距離。當前的生成效果可能在細節(jié)、一致性等方面仍有提升空間,但它已經(jīng)能在特定領域發(fā)揮價值。
LTXV-13B 模型在單個消費級 GPU 上渲染的兩只兔子 | 圖片來源:Lightricks
例如,模型當前就能在例如動畫制作中,大幅提升效率、降低成本。在高端動畫生產(chǎn)中,創(chuàng)意和故事構思只占預算一小部分,而耗時耗力的關鍵幀繪制則消耗大量資源。AI 輔助關鍵幀生成,正是 AI 在實際生產(chǎn)流程中“降本增效”的典型應用場景。
展望未來,F(xiàn)arbman 預測下一代 AI 視頻模型將是“多模態(tài)”的,能夠整合視頻、音頻、音樂等不同數(shù)據(jù)類型,并在統(tǒng)一的潛在空間中協(xié)同工作。這將使得如唇語同步等復雜任務變得更加容易處理,實現(xiàn)更自然、更全面的內容生成。
Lightricks LTXV-13B 模型作為其在這一領域的重要探索,現(xiàn)已開源,并計劃逐步集成到 Lightricks 旗下的創(chuàng)意應用平臺,比如面向故事創(chuàng)作的 LTX Studio。這一系列動作,不僅是技術上的迭代,更是 Lightricks 試圖在 AI 視頻生成這個新興賽道上,通過技術突破、開源策略和獨特的商業(yè)模式,重塑硬件邊界,構建自身生態(tài)的關鍵棋步。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。