科技行者 1月7日 北京消息(文/于藝婉): 十幾天前華為智能計(jì)算大會(huì)上傳遞出來(lái)的一則信息,在今天擲地有聲。1月7日,華為將他們?cè)谥悄苡?jì)算領(lǐng)域的雄心轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)。繼面向智能終端的麒麟處理器和面向人工智能的昇騰處理器之后,華為宣布推出面向智能計(jì)算的業(yè)界最高性能ARM-based處理器-鯤鵬920(Kunpeng 920),并同步推出基于鯤鵬920的TaiShan系列服務(wù)器產(chǎn)品。
華為董事、戰(zhàn)略Marketing總裁徐文偉在開場(chǎng)時(shí)就表示,未來(lái)世界是一個(gè)智能世界,智能世界特征是萬(wàn)物感知、萬(wàn)物互聯(lián)、萬(wàn)物智能。未來(lái)信息量巨大,計(jì)算無(wú)處不在,計(jì)算應(yīng)用的場(chǎng)景多種多樣,而場(chǎng)景的多樣性會(huì)帶來(lái)數(shù)據(jù)的多樣性,進(jìn)而帶來(lái)異構(gòu)計(jì)算的需求。“華為本次發(fā)布鯤鵬920及TaiShan服務(wù)器,主要應(yīng)用于大數(shù)據(jù)、分布式存儲(chǔ)、ARM原生應(yīng)用等場(chǎng)景。華為將攜手全球合作伙伴,秉承開放、合作、共贏,促進(jìn)ARM生態(tài)發(fā)展,做大計(jì)算領(lǐng)域空間,擁抱多樣性計(jì)算時(shí)代!”
鯤鵬920到底為何方神圣?基于ARM架構(gòu)授權(quán),華為自研了ARM核,針對(duì)數(shù)據(jù)中心大數(shù)據(jù)、分布式存儲(chǔ)、ARM原生應(yīng)用等場(chǎng)景,通過(guò)優(yōu)化分支預(yù)測(cè)算法、提升運(yùn)算單元數(shù)量、改進(jìn)內(nèi)存子系統(tǒng)架構(gòu)等一系列微架構(gòu)設(shè)計(jì),大幅提高了處理器核性能。SPECint Benchmark提供的評(píng)分顯示,采用7nm制造工藝的鯤鵬920在典型主頻下得分超過(guò)930,將性能紀(jì)錄提升了25%。同時(shí),能效比優(yōu)于業(yè)界標(biāo)桿30%。鯤鵬920以更低功耗為數(shù)據(jù)中心提供了更強(qiáng)性能。
為了改善在低延時(shí)條件下高并發(fā)的能力, 華為在鯤鵬920上采用三項(xiàng)措施:首先,將業(yè)界DDR通道數(shù)量從6通道增加到8通道,速率從2667MHz提升至2933MHz, 總帶寬達(dá)到1.5T比特每秒,帶寬提升46%;其次,將PCIe從3.0升級(jí)到4.0,速率翻番,帶寬達(dá)到640Gbps, 比業(yè)界主流提升66%;第三,將網(wǎng)口帶寬從25G直接提升到100G,帶寬翻了4倍。
鯤鵬920不僅是一顆通用CPU,還同時(shí)集成了南橋、網(wǎng)卡、SAS存儲(chǔ)控制器等三種芯片,做到集成度業(yè)界第一,單顆芯片實(shí)現(xiàn)4顆芯片的功能。同時(shí),還可以釋放出更多槽位擴(kuò)展更多功能,大幅提高系統(tǒng)的集成度,也給客戶的TCO帶來(lái)收益。
再來(lái)看看基于鯤鵬920的TaiShan系列服務(wù)器產(chǎn)品。均衡型、存儲(chǔ)型和高密型三款機(jī)型的TaiShan系列服務(wù)器主要面向大數(shù)據(jù)、分布式存儲(chǔ)和ARM原生應(yīng)用等場(chǎng)景,可以發(fā)揮ARM架構(gòu)在多核、高能效等方面的優(yōu)勢(shì),為企業(yè)構(gòu)建高性能、低功耗的新計(jì)算平臺(tái)。以大數(shù)據(jù)場(chǎng)景為例,可實(shí)現(xiàn)多核高并發(fā)和資源調(diào)度調(diào)優(yōu),計(jì)算性能提升20%。
基于TaiShan服務(wù)器,華為云也將提供彈性云服務(wù)、裸金屬服務(wù)和云手機(jī)服務(wù)。云游戲就是云手機(jī)服務(wù)的一種應(yīng)用,以Gb為單位的游戲不用再占用手機(jī)內(nèi)存,也不用再對(duì)手機(jī)的其它硬件配置提出嚴(yán)苛要求,只需一個(gè)只有幾Mb的APP作為入口登陸云端,即可隨時(shí)隨地進(jìn)入游戲世界。這不僅緩解了消費(fèi)者對(duì)硬件的絕對(duì)依賴,同時(shí)也為游戲公司提升用戶體驗(yàn)拓展了新型模式。
云計(jì)算的興起,使得數(shù)據(jù)中心規(guī)模越來(lái)越大,從幾臺(tái)服務(wù)器、幾個(gè)機(jī)架演變成以萬(wàn)臺(tái)服務(wù)器為單位的數(shù)據(jù)中心集群。占地空間和能源消耗成為大型數(shù)據(jù)中心的重要影響因素,基于ARM架構(gòu)的鯤鵬920及TaiShan服務(wù)器的節(jié)能表現(xiàn)將更具實(shí)際意義。據(jù)華為介紹,在大規(guī)模數(shù)據(jù)中心業(yè)務(wù)實(shí)踐中,每萬(wàn)臺(tái)服務(wù)器可以每年省電1千萬(wàn)度,碳排放每年減少10,000噸。
低功耗是ARM能夠在智能終端領(lǐng)域叱咤風(fēng)云的看家本事,而計(jì)算及高性能服務(wù)器領(lǐng)域從來(lái)都是X86架構(gòu)的天下,華為在此刻推出基于ARM架構(gòu)的處理器和服務(wù)器產(chǎn)品,會(huì)不會(huì)走入一條死胡同?
對(duì)此,徐文偉給出了明確的答復(fù)。“沒(méi)有一個(gè)單一的計(jì)算架構(gòu)能夠滿足所有場(chǎng)景、所有數(shù)據(jù)類型的處理,各種CPU、DSP、GPU、AI芯片、FPGA等會(huì)同時(shí)存在,多種計(jì)算架構(gòu)共存的異構(gòu)計(jì)算,是未來(lái)的發(fā)展之路。隨著ARM技術(shù)不斷進(jìn)步,多核性能大幅提高,尤其是開放的生態(tài),ARM也從端和邊緣計(jì)算走向服務(wù)器和數(shù)據(jù)中心。當(dāng)下,ARM架構(gòu)在面向大數(shù)據(jù)、分布式存儲(chǔ)和ARM原生應(yīng)用等場(chǎng)景,不僅可以為企業(yè)構(gòu)建高性能、低功耗的新計(jì)算平臺(tái),也是計(jì)算發(fā)展的必然趨勢(shì)。”
華為GIV2025預(yù)測(cè),到2025年新增數(shù)據(jù)量180ZB,是2018年新增數(shù)據(jù)量的18倍,面對(duì)如此巨大的數(shù)據(jù)增長(zhǎng),對(duì)計(jì)算和存儲(chǔ)都提出了很高的要求。算力供應(yīng)問(wèn)題,存在嚴(yán)重的供需不平衡。而華為認(rèn)為在大數(shù)據(jù)、分布式存儲(chǔ)和ARM原生應(yīng)用等特定場(chǎng)景下,“ARM處理能力不行”的這頂帽子可以甩掉了。
雖然華為在力推鯤鵬920的TaiShan系列服務(wù)器,但是他們?cè)诎l(fā)布產(chǎn)品期間更多地談到了和英特爾之間的合作。徐文偉表示:“鯤鵬920不是要與Intel的CPU競(jìng)爭(zhēng),更不是替代。不同的產(chǎn)品在不同的領(lǐng)域發(fā)揮所長(zhǎng)。面向未來(lái)18倍海量數(shù)據(jù)的增長(zhǎng),以及每年10倍算力的遞增,帶來(lái)了大量異構(gòu)計(jì)算的需求。長(zhǎng)期以來(lái),華為和Intel一起合作取得了很好的成績(jī),為ICT產(chǎn)業(yè)發(fā)展做出積極貢獻(xiàn),華為和Intel也將長(zhǎng)期保持戰(zhàn)略合作,聚焦價(jià)值持續(xù)創(chuàng)新。”
同時(shí),華為也一再?gòu)?qiáng)調(diào),他們從未想過(guò)成為一家芯片公司,走自研芯片這條路的初衷是降低成本、提高產(chǎn)品性能并以開放的姿態(tài)致力于產(chǎn)業(yè)各界的合作創(chuàng)新。“麒麟980助力華為手機(jī)推向智慧新高度,基于昇騰310的產(chǎn)品和服務(wù)(如華為云)使能行業(yè)普惠AI;今天,華為以鯤鵬920,把計(jì)算帶入多核異構(gòu)的多樣性時(shí)代。今天,ARM產(chǎn)業(yè)迎來(lái)新的發(fā)展機(jī)會(huì),華為期待,產(chǎn)業(yè)伙伴緊密合作共同開創(chuàng)一個(gè)多樣性的計(jì)算時(shí)代。”徐文偉說(shuō)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。