對于人工智能應用程序的興奮情緒,讓已經24歲的英偉達成為科技界最熱門的企業(yè)之一,股價直線飆升,過去兩年內漲幅超過七倍,達到1000億美元,最近一個季度的收入暴增了56%。
勢如破竹的背后,你或許會好奇,曾經一個只是負責在屏幕上繪制圖像的“圖形處理單元”,如今為何能夠肩負起解決復雜計算問題的重任?GPU全面崛起,英偉達的答案很明確,一個有“強迫癥”的老板和十多年前的一次關鍵押注。
這家強勢增長的公司背后的掌舵者是創(chuàng)始人兼CEO黃仁勛(Jen-Hsun Huang)。他擁有敏銳的戰(zhàn)略直覺,個性出了名的嚴苛,常常穿深色的衣服,因此有人拿他來跟蘋果已故CEO史蒂夫·喬布斯(Steve Jobs)比較。(跟喬布斯一樣,黃仁勛也提出給公司打造富有吸引力的新總部大樓。該公司不久之后便將進駐新總部)
黃仁勛今年已經54歲,總是一身全黑,還經常披件皮外套,在辦公室里走路風風火火,員工一般很難跟上他的步伐。他出生在臺灣,從小和家人一起生活在美國。青少年時期他特別喜歡打乒乓球,后來還成了當?shù)芈劽捻敿饪旃デ騿T。Paddle Palace乒乓球公司的CEO也說,“他行動敏捷,打球流暢且有力量,要不是從商了,本來或許可以成為全國頂尖的乒乓球運動員。”
從斯坦福畢業(yè)后,第二年他就開始學習電子工程專業(yè)知識,與前Sun Microsystems工程師Chris Malachowsky和Curtis Priem共同創(chuàng)建了顯卡制造公司英偉達。
不久,英偉達迅速在市場上辟出了一席之地。經過與47家顯卡生產商的激烈爭奪后于1999年上市,而其他公司要不就是被收購了,要不就是倒閉了,只留下AMD還在和英偉達兩強相爭。
為了存活下來,黃仁勛告誡員工必須保持專注。他總是說如果不努力,公司可能一個月內就會破產,這讓每個員工都感受到了壓迫和緊張感。
黃仁勛的競爭“強迫癥”還反映在他總是向員工宣布好消息上。1997年的一次全體大會上,他向全體員工宣布英偉達銀行留存資金100萬美元左右。同時,公司已經將芯片RIVA 128投入量產。這種消息總是搞得員工的心情十分忐忑。接著他從自己口袋里拿出一張紙,向大家解釋這是STB系統(tǒng)下的3000萬美元顯卡訂單。那是英偉達第一次接到這么大筆單子,也標志著英偉達顯卡芯片已經成功打開了HP和DELL這類計算機制造商的市場,當時公司上下一片歡呼。
1998年,英偉達首次補上了季度利潤不足,當時黃仁勛還在辦公室給70個員工每人都發(fā)了一張1美元鈔票慶祝。
黃仁勛的“強迫癥”還是非常有效的。上市前后,英偉達經過了多次“瀕死”體驗。每次將芯片發(fā)給計算機制造商,員工總是面臨不立即行動會死人的截止期限。有時在臺灣生產的芯片被檢測出來有問題,寧愿損失一大筆錢也要全部回收殘次品。
黃仁勛的危機管理能力為他贏得了員工的敬重。1998年,英特爾推出了一款與英偉達競爭的顯卡,黃仁勛組織了一系列全體會議,指示員工寫出能提高玩游戲時的顯卡性能的軟件。后來還是保住了競爭優(yōu)勢。英特爾制造的威脅在英偉達看來其實從未實現(xiàn)。
同年,Silicon Graphics起訴英偉達專利侵權。黃仁勛再次迅速掌控了有利局勢,兩家公司最終同意授權對方專利。SGI后來還讓英偉達成為了自家計算機系統(tǒng)顯卡芯片的優(yōu)先選擇。黃仁勛的努力也幫助英偉達在首輪融資中吸引了眾多潛在投資者。
黃仁勛已經證明了他的“能屈能伸”。公司創(chuàng)建以來的24年時間里,英偉達數(shù)次面臨生存困境,包括新芯片出問題,和競爭對手打官司等,黃仁勛都帶領員工渡過了危機。
多年來,為了讓英偉達拓展新的市場領域,黃仁勛一直都會事先做好風險預估工作。就在10多年前,他下了一次關鍵性的賭注:押注一系列的改動和軟件開發(fā),來使得GPU能夠處理在電腦屏幕上繪畫以外的、更為復雜的任務。
然而,“此舉給公司帶來了極大的成本壓力。”黃仁勛說。他估計,該名為CUDA(統(tǒng)一計算設備架構)的項目每年需要花費5億美元,而當時公司的總營收規(guī)模在30億美元左右。自從CUDA推出以來,英偉達所有的支出都圍繞著將GPU轉化為更為通用計算工具,總額接近100億美元。
如此執(zhí)拗的霸道總裁真懷疑他是“處女座”。不過,CUDA取得今天所有成績,除了黃仁勛的堅持,還有一個人功不可沒,他就是伊恩·布克(Ian Buck),現(xiàn)任英偉達 GPU 計算軟件總經理。
Ian Buck于2004年加盟英偉達并創(chuàng)造了CUDA
Ian Buck對于GPU計算的研究最早起始于2000年。當時,Buck及其在斯坦福大學的一個小團隊敏銳觀察到了圖形處理器在性能方面的優(yōu)勢和發(fā)展趨勢。他表示,將GPU用于通用計算的想法是從GPU支持可編程開始的。
在最初幾年,他們遇到了非常大的困難。盡管初步試驗可以證實GPU用于通用計算的巨大潛力,推廣這個想法卻十分不易。 終于在2003年,由Ian Buck領導的研究團隊發(fā)布了Brook,這是第一個廣泛采用的使用數(shù)據并行架構擴展C的編程模型。同時,Brook也是 GPU 通用計算方面先驅項目。
2004年,斯坦福大學博士生Ian Buck進入英偉達實習,開始集合相關的硬件和軟件工程師創(chuàng)造GPGPU模型,這是CUDA研發(fā)的開端。當時,Buck曾參與一項涉及簡化利用GPU的眾多計算引擎過程的編程挑戰(zhàn)賽。
不久后,英偉達便對它的芯片作出改動,開發(fā)出軟件輔助工具,其中包括支持標準的編程語言,而非用于向圖形芯片發(fā)出指令的神秘工具。在Ian Buck率領下,于2006年正式推出——CUDA,這是全球首款GPU上的通用計算解決方案。
CUDA是由英偉達開發(fā)的用于圖形處理單元(GPU)上的通用計算的并行計算平臺和編程模型。利用CUDA,開發(fā)人員可以通過利用GPU的功能大大加快計算應用。事實上,在英偉達內部,CUDA是作為所有GPU系列的通用平臺。
在GPU加速的應用程序中,工作負載的順序部分在CPU上運行,針對單線程性能進行了優(yōu)化,而應用程序的計算密集型部分則并行運行在數(shù)千個GPU內核上。使用CUDA時,開發(fā)人員使用C,C ++,F(xiàn)ortran,Python和MATLAB等流行語言進行程序設計,并以幾個基本關鍵字的形式通過擴展表達并行性。CUDA工具包包括GPU加速庫,編譯器,開發(fā)工具和CUDA運行時。
CUDA的核心設計理念就是計算機中的線程。與傳統(tǒng)CPU中的4、8和16個線程不同,GPU中的線程可以多達幾萬個。
Buck表示,看起來這些線程的管理是一件十分復雜的事情。但實際上,編程人員主要的困難在于如何發(fā)揮這些線程的優(yōu)勢,而不是管理這些線程。早期,CUDA的性能主要依賴編程人員人工發(fā)現(xiàn)代碼中可并行計算的部分。
目前,隨著CUDA庫的發(fā)展,這方面的工作開始越來越自動化。CUDA團隊已經開發(fā)了很多石油、天然氣和國防等相關產業(yè)所使用的科學計算方面的庫。最終,2012年發(fā)布的Titan超級計算機使用了18688個英偉達Tesla K20 GPU作為協(xié)處理器,標志著GPGPU在高性能計算方面的成功推廣和應用。從2011年開始,Top 500的超級計算機中至少有50臺會使用GPU進行加速。而這些機器基本上也都出現(xiàn)在Green 500(全球節(jié)能超級計算機榜單)的列表中。
CUDA開始受到越來越多的關注,CUDA的應用也“百花齊放”。但Buck表示,其中最讓其影響深刻的就是,乳腺癌檢測和診斷的系統(tǒng)。與傳統(tǒng)方法相比,采用支持CUDA編程的Tesla GPU后,醫(yī)生能夠更早、更精確地發(fā)現(xiàn)乳腺癌。而美國國家癌癥研究所數(shù)據顯示,基于CUDA的系統(tǒng)在運行蛋白質配體運算(用于研發(fā)治療癌癥和老年癡呆癥的新藥)時只需要原來1/12的時間。
英偉達的新圖形芯片Volta,據估計開發(fā)成本高達30億美元
Buck還介紹說,他之前和來自很多工業(yè)界的人士交流發(fā)現(xiàn),他們寧愿犧牲性能,也不愿接受一門新的語言。為了能夠給相關編程人員提供很好的入門體驗,從而便于CUDA的推廣,CUDA采用了已經流行的C語言作為基礎。
這樣,編程人員就不需要去學習特定的顯示芯片的指令或是特殊的結構,即可編寫GPU上運行的程序,這毫無疑問促進了CUDA在程序員之間的流行。
此外,英偉達當年做出的一個決定也極為關鍵?,F(xiàn)在已是負責針對 GPU 計算的所有工程、第三方支持以及開發(fā)者營銷活動的 lan Buck 回憶說,英偉達讓自家消費級GPU和高端產品都支持CUDA。這就意味著只要研究人員、學生有筆記本電腦或者臺式機,就能在學校實驗室和宿舍里開發(fā)軟件。
英偉達還說服了許多大學開設課程,教學生用他們公司的最新編程技術。程序員們逐漸把GPU應用于氣候建模、勘探石油和天然氣等很多領域。
Buck表示,CUDA在超級計算領域的成功應用也迎來了很好的使用反饋。目前,Buck在英偉達的團隊就根據用戶反饋開始探索GPU內存的管理方式。CUDA6就推出了一個新的軟件內存管理特性,支持數(shù)據在CPU內存和GPU內存之間的自動轉移。計劃于2016年面世的英偉達 Pascal GPU 架構則將配備 NVLink,使 GPU 和 CPU 之間的數(shù)據傳輸速度較現(xiàn)有的 PCI-Express 標準加快5至12倍。
此外,為了進一步減少編程工作,Cray、PGI以及英偉達等領先的HPC供應商在2011年推出了OpenACC編程標準。該標準定義了一組標準化的、高層次的代碼注釋,使C/C++和Fortran編程人員可以利用GPU加速代碼運行。英偉達在2015年7月更是發(fā)布了全新OpenACC免費工具套件,讓相關研究人員能夠更多的關注科學本身。Buck也一再強調,OpenACC的初衷就是讓用戶“首先是個科學家,然后才是一個程序員”。
英偉達花了好幾年才讓CUDA牽住了客戶,不過CUDA也幫英偉達在高性能運算市場索回了相應的回報。2012年,CUDA和GPU與深度學習的神經網絡結合在一起,震驚了學術界。 當時,加拿大多倫多大學的Geoffrey Hinton帶著兩個學生,用GPU訓練深度神經網絡拿下了ImageNet圖像識別大賽的冠軍。
Buck表示,在此之前,要通過程序員制定的規(guī)則訓練系統(tǒng)在數(shù)百萬圖像中識別出一張面孔,需要耗費整整一個學期,而通過GPU,研究人員在短短幾周、幾天甚至幾個小時之內就能完成訓練過程。
這一幕,在不久前的GTC CHINA 2017大會上,黃仁勛便用 TensorRT (一款適用于CUDA GPU的優(yōu)化神經網絡編譯器 )進行了演示,搭配 Tesla V100 GPU 加速器的 TensorRT 每秒能夠識別多達 5700 張圖片,而如今所用的 CPU 則每秒僅能識別 140 張圖片。
企業(yè)數(shù)據中心是黃仁勛慧眼預見到的另一CUDA應用領域。 目前,Tesla V100 AI 平臺目前已經被諸多包括BAT、華為、浪潮、聯(lián)想在內的中國領軍IT企業(yè)采用,用以升級自身數(shù)據中心與云服務基礎設施。
不過,黃仁勛下的賭注也不是次次都能獲得回報。Tegra芯片本來是為智能手機和平板電腦研發(fā),但在這兩個市場并未奏效,后來只能轉移戰(zhàn)略目標。
現(xiàn)在,這位霸道總裁又將目光轉向了汽車制造行業(yè)。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。