2025年,具備深度思考能力的DeepSeek的問世,讓大模型在商業(yè)落地過程中,有了處理復(fù)雜任務(wù)的能力。
然而,面對大模型技術(shù)的日新月異,當(dāng)越來越多開發(fā)者、開發(fā)團隊著手基于大模型開發(fā)應(yīng)用,乃至AI智能體時,如何用較低成本、開發(fā)出符合這個時代的AI智能體,就成了當(dāng)下大多數(shù)開發(fā)者不得不面對的問題。
也是在這樣的背景下,基于英特爾至強6性能核的火山引擎第四代計算實例g4il提出了“一杯咖啡的成本,在云上構(gòu)建專屬大模型知識庫”,似是有意解決這一問題。
近日,我們與英特爾技術(shù)專家進行了一次技術(shù)交流。
據(jù)英特爾技術(shù)專家透露,“英特爾已經(jīng)基于火山引擎第四代計算實例g4il進行了一系列測試,我們現(xiàn)在已經(jīng)能夠做到在一個云實例里,僅使用CPU就可以運行14B的大模型,這個門檻最低可以降到16vCPU或32vCPU,16vCPU在火山引擎官網(wǎng)的定價僅約3.8元/小時。”
這讓基于云計算的大模型應(yīng)用開發(fā)頗具誘惑力,也為大模型步入真正具備落地能力的Agentic AI時代奠定了基礎(chǔ)。
01 DeepSeek帶來的高效開發(fā)啟示
年初DeepSeek的出現(xiàn),不僅在各項能力上持續(xù)刷新業(yè)界對大模型潛能的認(rèn)知上限,更以其獨特的“深度思考”能力,為大模型應(yīng)用開發(fā)帶來了新思路。
DeepSeek的顯著特性之一是其高效的“蒸餾”技術(shù)。
通過這種技術(shù),即使是參數(shù)量相對較小(如7B或14B參數(shù))的大模型,也能夠展現(xiàn)出媲美甚至超越許多先前大模型的推理能力,這一點在DeepSeek-R1模型上得到了充分體現(xiàn)。
這種“小模型撬動大智慧”的特性,使得DeepSeek在學(xué)習(xí)和開發(fā)階段具有極高的性價比,為更廣泛的開發(fā)者和研究者提供了接觸和使用先進AI技術(shù)的機會。
面對大模型技術(shù)的飛速迭代,許多開發(fā)者和企業(yè)都感受到了前所未有的機遇與挑戰(zhàn)。
英特爾技術(shù)專家指出,“面對這股不可逆轉(zhuǎn)的趨勢,與其在大模型本身研發(fā)上進行‘內(nèi)卷’,不如將目光投向大模型應(yīng)用開發(fā)這一更廣闊的賽道。”
因為大模型本身往往需要與具體的應(yīng)用場景相結(jié)合,才能真正落地并發(fā)揮其價值。
投身大模型應(yīng)用開發(fā),不僅是緩解技術(shù)焦慮的有效途徑,更是提升自身價值、抓住時代機遇的關(guān)鍵一步。
然而,對于普通開發(fā)者而言,進入大模型應(yīng)用開發(fā)領(lǐng)域并非易事,RAG、MCP、A2A等技術(shù)名詞層出不窮,技術(shù)棧的演進速度也令人眼花繚亂,許多人因此望而卻步。
一方面認(rèn)為門檻過高,另一方面則苦于不知從何處入手,這種困境是當(dāng)前AI普惠化過程中亟待解決的現(xiàn)實問題。
DeepSeek的成功也為模型架構(gòu)的創(chuàng)新提供了啟示。
DeepSeek采用的MoE混合專家架構(gòu)雖然并非首創(chuàng),但卻有力地驗證了該架構(gòu)的有效性。
MoE架構(gòu)的特點在于,雖然模型總參數(shù)量可能大幅增加,但實際在推理過程中被激活的“有效參數(shù)”數(shù)量相對較少,這種機制使得模型能夠在不顯著增加算力需求的前提下,提升了性能和容量,實現(xiàn)了對計算資源的更高效利用。
英特爾技術(shù)專家特別指出,更值得關(guān)注的是DeepSeek所展現(xiàn)的“深度思考”能力,這意味著模型在處理復(fù)雜任務(wù)時,不再僅僅是簡單地根據(jù)輸入生成輸出,而是在內(nèi)部經(jīng)歷“規(guī)劃”和“思考”階段,然后再給出結(jié)果。
這種機制顯著提升了模型在復(fù)雜問題解決和邏輯推理能力,也為接下來大模型的應(yīng)用普及奠定了基礎(chǔ)。
然而,如何解決大模型在開發(fā)、測試、驗證過程中的算力開銷,降低大模型應(yīng)用的開發(fā)成本,依然是開發(fā)者不得不三思的問題。
前不久,火山引擎云基礎(chǔ)團隊官方表示,基于英特爾至強6性能核的火山引擎第四代計算實例g4il,已經(jīng)可以實現(xiàn)“一杯咖啡的成本,在云上構(gòu)建專屬大模型知識庫”。
這為大模型應(yīng)用開發(fā)者們帶來了一個低成本選項。
02 異構(gòu)計算趨勢下,CPU如何發(fā)光發(fā)熱?
同樣是做AI推理,如何比較CPU和GPU的性能差異?
這是大模型應(yīng)用開發(fā)者面臨的一個問題,也是英特爾這樣的算力供應(yīng)商需要考慮的問題。
英特爾技術(shù)專家指出,“本質(zhì)上CPU可以理解為一把‘瑞士軍刀’,是一個通用型計算設(shè)備,能夠執(zhí)行多種任務(wù),我們也對英特爾至強6性能核的AI推理進行了加強,使其相比其他CPU有了專門做矩陣運算的AI加速器,GPU則更像一個專注于并行計算和AI加速的‘專家工具’。”
不過,英特爾技術(shù)專家也指出,“當(dāng)前業(yè)界的普遍趨勢是采用異構(gòu)計算方案,即根據(jù)任務(wù)特性,讓CPU和GPU協(xié)同工作,各展所長。”
CPU的優(yōu)勢在于其低成本、易獲得性,以及能夠滿足多數(shù)場景下的基本AI推理需求,特別是在GPU資源有限或不易獲取,或者僅需進行小規(guī)模模型推理及特定AI場景應(yīng)用時。
即便在GPU資源充足的情況下,CPU依然可以與GPU協(xié)同工作,承擔(dān)數(shù)據(jù)預(yù)處理、任務(wù)調(diào)度、部分輕量級模型推理等任務(wù),而非簡單的替代關(guān)系。
CPU與GPU協(xié)同的異構(gòu)計算方案,實際上已經(jīng)是當(dāng)下技術(shù)發(fā)展的主流方向。
大模型應(yīng)用的生命周期通常包括開發(fā)、驗證和大規(guī)模生產(chǎn)部署三個階段,在對算力性能要求相對較低的開發(fā)和驗證階段,CPU的低成本和易獲得性使其成為理想的選擇。
正因如此,基于英特爾至強6性能核的火山引擎第四代計算實例g4il意在充分發(fā)揮CPU的這些優(yōu)勢,火山引擎聯(lián)合因特爾共同打造了面向大模型應(yīng)用的開發(fā)環(huán)境,并整合了豐富的應(yīng)用鏡像,將其包裝成一個完整的解決方案,旨在降低開發(fā)者入門的門檻。
英特爾技術(shù)專家指出,進行大模型應(yīng)用開發(fā)需要具備三大要素:
用于驗證和練習(xí)的硬件環(huán)境,主流軟件棧的兼容支持,以及一個好老師。
為了幫助開發(fā)者跨越這“第一步”,英特爾與火山引擎致基于g4il實例就三大要素進行了如下布局:
硬件環(huán)境方面,火山引擎g4il實例搭載了先進的英特爾至強6處理器,內(nèi)置AMX AI加速器,通過AMX的硬件加速能力,用戶在配置更低、更經(jīng)濟的虛擬機上也能獲得流暢的大模型應(yīng)用體驗。
例如,針對DeepSeek的7B、14B參數(shù)的小尺寸模型,通過軟硬件協(xié)同優(yōu)化,可以在不依賴GPU的情況下,僅使用CPU(如16vCPU或32vCPU的g4il實例)即可實現(xiàn)每秒7個token以上的流暢輸出速度。
據(jù)悉,基于英特爾至強6性能核的g4il實例已經(jīng)正式發(fā)售。
在火山引擎官網(wǎng)上,一個16vCPU的g4il實例定價約為每小時3.8元,極大地降低了開發(fā)者的硬件成本。
軟件棧方面,英特爾發(fā)起的OPEA開源社區(qū)致力于利用開放架構(gòu)和組件化、模塊化的思想,旨在為企業(yè)打造可擴展的AI應(yīng)用部署基礎(chǔ)。
OPEA社區(qū)積累了大量經(jīng)過預(yù)先驗證和優(yōu)化的開源應(yīng)用范例,可供用戶參考。
英特爾與火山引擎將這些范例和必要的軟件棧打包成虛擬機鏡像,用戶在火山引擎控制臺選擇g4il實例后,可以直接選用預(yù)置的知識庫問答等AI應(yīng)用鏡像,實現(xiàn)一鍵部署。
據(jù)英特爾技術(shù)專家透露,“通過一鍵部署,原本可能需要數(shù)天才能完成的環(huán)境搭建過程,如今可以縮短至3分鐘左右。”
課程指導(dǎo)方面,英特爾準(zhǔn)備了豐富的演示課程和技術(shù)文檔,內(nèi)容涵蓋從基礎(chǔ)環(huán)境搭建、代碼開發(fā)環(huán)境配置,到模型調(diào)優(yōu)、性能優(yōu)化等各個環(huán)節(jié)。
這些課程旨在幫助基礎(chǔ)相對薄弱的用戶補齊知識短板,理解技術(shù)原理,掌握實際操作技能,從而真正實現(xiàn)能力的進階。
據(jù)悉,這些課程在英特爾官網(wǎng)上免費開放給所有用戶。
正是基于這三大要素的構(gòu)建,火山引擎云基礎(chǔ)團隊有了提出“一杯咖啡的成本,在云上構(gòu)建專屬大模型知識庫”的底氣,也為開發(fā)者提供了一條云上新路徑,一條高效通向Agentic AI的路徑。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
關(guān)注智造、硬件、機器人。