去年,高通大事宣傳Cloud AI 100,并承諾它具有強(qiáng)大的性能和能效,可以在邊緣計(jì)算、自動(dòng)駕駛汽車和5G基礎(chǔ)設(shè)施中實(shí)現(xiàn)人工智能。今天,高通宣布現(xiàn)在正對(duì)該平臺(tái)進(jìn)行采樣,并計(jì)劃于2021年上半年實(shí)現(xiàn)批量出貨。
這就引出了一個(gè)問題:為什么一家以低功耗手機(jī)芯片和IP聞名的公司決定進(jìn)入數(shù)據(jù)中心市場(chǎng)?要知道那個(gè)市場(chǎng)里已經(jīng)有不少擁有幾十年歷史的老玩家了。
高通長(zhǎng)期以來(lái)一直關(guān)注數(shù)據(jù)中心解決方案,認(rèn)為該行業(yè)有吸引力的增長(zhǎng)和利潤(rùn)率是增加收入的潛在來(lái)源。它的電源效率和性能方案非常適合擴(kuò)展到數(shù)據(jù)中心產(chǎn)品,而人工智能的爆炸式增長(zhǎng)是一個(gè)理想的切入點(diǎn)。此外,高通5G調(diào)制解調(diào)器和Snapdragon應(yīng)用處理器可以幫助該公司構(gòu)建完整的解決方案,從而避免與僅有人工智能 SoC的、規(guī)模較小的公司正面進(jìn)行價(jià)格戰(zhàn)。高通估計(jì),到2025年,用于人工智能推理處理的SAM可能超過700億美元,其中約500億美元在Cloud AI 100的目標(biāo)市場(chǎng)空間中。
▲圖1: Cloud AI100瞄準(zhǔn)了中高性能應(yīng)用的高利潤(rùn)細(xì)分市場(chǎng)
高通宣布了什么?
除了宣布生產(chǎn)時(shí)間表外,高通還分享了AI 100芯片及其打算出售的交付平臺(tái)的技術(shù)細(xì)節(jié)和一些規(guī)格參數(shù)。高通計(jì)劃提供一系列設(shè)備,包括一個(gè)僅消耗15瓦TDP的70 TOPS M.2邊緣卡,一個(gè)以25W功率運(yùn)行的200 TOPS M.2卡以及一個(gè)數(shù)據(jù)中心級(jí)PCIe平臺(tái),能夠提供400 TOPS的性能,功耗僅為75W,能效高達(dá)8 TOPS/Watt。
▲圖2: 新的Cloud AI 100和Edge AI開發(fā)套件產(chǎn)品簡(jiǎn)介
高通還展示了新的5G開發(fā)套件,該套件計(jì)劃于下個(gè)月上市。新的Cloud Edge AI開發(fā)套件伴隨的是高通的X55 5G調(diào)制解調(diào)器-RF系統(tǒng)和頂級(jí)Snapdragon 865處理器。想了解有關(guān)該套件的更多規(guī)格信息,請(qǐng)參見圖2。
競(jìng)爭(zhēng)格局
英特爾至強(qiáng)系列處理器在人工智能推理市場(chǎng)上占據(jù)著主導(dǎo)地位,但是隨著人工智能模型變得越來(lái)越復(fù)雜,這種情況正在發(fā)生變化。行業(yè)組織ai.org估計(jì),人工智能模型的大小每3.5個(gè)月翻一番。這為英偉達(dá)之類的公司以及數(shù)十家初創(chuàng)企業(yè)創(chuàng)造了滿足這些計(jì)算要求的機(jī)會(huì)。盡管高通并沒有將Blaize和Tenstorrent的最新公告納入其中。就是說(shuō),Cloud AI100看起來(lái)在該領(lǐng)域具有領(lǐng)先優(yōu)勢(shì),在Resnet50模型上可以每秒處理約25,000張圖片,而功耗只需要75W。我要指出,Resnet50是一個(gè)很小的基準(zhǔn),尤其是與谷歌的BERT等自然語(yǔ)言處理模型相比的時(shí)候更是如此。但是,在相同基準(zhǔn)下,Cloud AI 100 M2的每瓦性能大約是前“推理之王”——英特爾Goya的每瓦性能的四倍,這仍然令人印象深刻。
▲圖3:高通提供的ResNet-50 Benchmark結(jié)果分析
在談到更大、更復(fù)雜的模型時(shí),高通顯然預(yù)計(jì)需要更多的內(nèi)存。該芯片的144MB片上SRAM補(bǔ)充了PCIe卡上高達(dá)32 GB的LPDDR4。此外,該芯片還支持一系列數(shù)字精度,包括8位和16位整數(shù)以及16位和32位浮點(diǎn)數(shù)學(xué)運(yùn)算。
至于軟件,通常會(huì)是人工智能初創(chuàng)企業(yè)的致命弱點(diǎn),Cloud AI 100充分利用了高通豐富的移動(dòng)推理生態(tài)系統(tǒng),并且已經(jīng)提供了完整的框架和優(yōu)化工具庫(kù)。
▲圖4:新AI芯片配備完整的軟件堆棧是非常不尋常的,但是高通Snapdragon為Cloud AI 100鋪平了道路
人工智能芯片的“寒武紀(jì)生命大爆炸”(Cambrian Explosion)持續(xù)不斷,隨著此次的新聞發(fā)布,新的重量級(jí)競(jìng)爭(zhēng)者出現(xiàn)了。如果高通宣布的400 TOPS性能得到了證實(shí),那這就將是我見過的、最快的用于推理處理的芯片。也就是說(shuō),我們將不得不等待GROQ的正式官宣,表明它的產(chǎn)品可能處于同一性能水平,但是功率卻要大得多,而Tenstorrent在最近的HotChips會(huì)議上提出了一些有趣的人工智能方法。此外,我們?nèi)匀辉诘却⑻貭柡蚐ambaNova等公司的詳細(xì)信息。我也非常有興趣獲得更多NVIDIA A100在多實(shí)例GPU功能方面的性能數(shù)據(jù),該功能可以在七個(gè)推理實(shí)例上分?jǐn)偞笮虶PU的成本和功能。我相信這種方法在數(shù)據(jù)中心具有巨大的潛力。
除了規(guī)格之外,我相信許多客戶會(huì)選擇與一家老牌半導(dǎo)體公司(例如高通)而不是與一家初創(chuàng)公司進(jìn)行業(yè)務(wù)往來(lái)——除非年輕的公司能夠提供好得多的性能和效率。高通憑借著多年在Snapdragon上的經(jīng)驗(yàn),為人工智能推理處理提供了堅(jiān)實(shí)的質(zhì)量、性能、效率、支持和完善的軟件生態(tài)系統(tǒng)。這是一個(gè)強(qiáng)大的前提,我期待看到更多的基準(zhǔn)測(cè)試結(jié)果。讓這場(chǎng)“寒武紀(jì)生命大爆炸”繼續(xù)下去吧!
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。