應(yīng)用性能管理(APM)可能對于大多數(shù)國內(nèi)企業(yè)來說,還比較陌生。企業(yè)用戶利用APM可以對自身的關(guān)鍵業(yè)務(wù)應(yīng)用進(jìn)行監(jiān)測、告警與優(yōu)化,并不斷改善業(yè)務(wù)可靠性與穩(wěn)定性,提升核心競爭力。然而在研發(fā)出一款成功的APM產(chǎn)品背后,實(shí)際上也有較高的技術(shù)要求,更需要跨過很多技術(shù)難點(diǎn)。云智慧,作為一家專注于APM業(yè)務(wù)的SaaS服務(wù)供應(yīng)商,從創(chuàng)立伊始就開始不斷發(fā)揮著自身在技術(shù)上的基因優(yōu)勢,而這一點(diǎn),從活躍在產(chǎn)品一線領(lǐng)導(dǎo)技術(shù)團(tuán)隊(duì)研發(fā)產(chǎn)品的云智慧CEO殷晉身上就能不難看出。為了進(jìn)一步了解云智慧的技術(shù)優(yōu)勢與立足之本,以及國內(nèi)APM市場形勢與前景,InfoQ特意邀請了殷晉接受專訪,談一談云智慧及APM背后的那些事。
InfoQ:請您從云智慧研發(fā)經(jīng)驗(yàn)的角度,談一談APM現(xiàn)在的技術(shù)難點(diǎn)在于哪些方面?
殷晉:我認(rèn)為APM的技術(shù)難點(diǎn)主要在于兩方面。
第一個(gè)方面在于前端數(shù)據(jù)采集。在各種的語言及其運(yùn)行環(huán)境中采集用戶的數(shù)據(jù),還需要盡量不影響用戶系統(tǒng)本身的性能,這實(shí)際上難度是非常大的。各種語言有不同特點(diǎn),即使是比較單一的Java語言,就有Java6、Java7、Java8等各種不同的版本與運(yùn)行環(huán)境,而PHP則又是另一種模式,而且還要考慮各種運(yùn)行時(shí)容器、數(shù)據(jù)庫等。因此從不同的代碼里將用戶性能數(shù)據(jù)提取出來的工作就會(huì)變得非常復(fù)雜,再加上用戶最關(guān)心的問題——抓取數(shù)據(jù)時(shí)對系統(tǒng)運(yùn)行有什么影響?所以算法的優(yōu)化也會(huì)變得非常重要。
第二方面是后臺(tái)的大數(shù)據(jù)分析?,F(xiàn)在很多開源的大數(shù)據(jù)框架,比如Spark、Storm、ElasticSearch、還有Hadoop,都可以做離線的數(shù)據(jù)分析,無非是效率上的差異。但是如果涉及到實(shí)時(shí)的數(shù)據(jù)分析的話就會(huì)變得非常困難,尤其是在APM領(lǐng)域,還必須要考慮到用戶體驗(yàn)等因素。
InfoQ:像你剛才說的,APM的技術(shù)難點(diǎn)在于前端的數(shù)據(jù)采集與后端的數(shù)據(jù)分析上,那么如果把這些都放在云上的話,又會(huì)是有什么不一樣呢?
殷晉:如果針對客戶單獨(dú)開發(fā)一款軟件或是售賣許可證的話,實(shí)際產(chǎn)生的業(yè)務(wù)量都不會(huì)很大。但是當(dāng)我們的監(jiān)控服務(wù)遷移到云端,每天的數(shù)據(jù)量達(dá)到TB級,甚至更多的時(shí)候,存儲(chǔ)就會(huì)成為一個(gè)很大問題。這些海量的數(shù)據(jù)進(jìn)行存儲(chǔ)之后,還要進(jìn)行處理,并生成實(shí)時(shí)的分析報(bào)告。另外還要把用戶的數(shù)據(jù)無損的存入后端,而當(dāng)用戶規(guī)模比較大的時(shí)候,采集來自不同用戶的數(shù)據(jù)時(shí)如何有序的進(jìn)行區(qū)分整理,這些都是比較嚴(yán)峻的新挑戰(zhàn)。
InfoQ:可否詳細(xì)的談一談,云智慧這邊做了什么樣的大數(shù)據(jù)實(shí)踐?遇到了哪些問題?
殷晉:云智慧的底層系統(tǒng)實(shí)際是在大數(shù)據(jù)處理平臺(tái)的基礎(chǔ)之上也做了一些個(gè)性化的修改。比如存儲(chǔ)用到了Hive Database,還有個(gè)性化修改后的Elasticsearc,底層用分布式處理這種模式也做了很多水平擴(kuò)展。在前端采用了Kafka等等以接受不同來源、不同協(xié)議的數(shù)據(jù),云智慧利用這些不同的技術(shù)構(gòu)建了一套完整的框架。
當(dāng)前的瓶頸,主要還是在于實(shí)時(shí)的大數(shù)據(jù)處理。云智慧在底層的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)存儲(chǔ)方面做了很多工作。比如用戶可以使用一個(gè)叫做SmartView的工具,從不同角度來看數(shù)據(jù),也可以自己制定一個(gè)規(guī)則,然后去用一種近似于SQL的語言來查詢實(shí)時(shí)的數(shù)據(jù),并生成實(shí)時(shí)的分析報(bào)表。
InfoQ:對云服務(wù)來說,安全一直是一個(gè)固定話題,當(dāng)然也是用戶最關(guān)心的問題。那么云智慧在保護(hù)用戶隱私數(shù)據(jù)這方面做了什么樣的措施呢?
殷晉:保護(hù)用戶隱私數(shù)據(jù)可以為兩方面內(nèi)容,一是數(shù)據(jù)的獨(dú)立性,二是數(shù)據(jù)的安全性。數(shù)據(jù)獨(dú)立性,是指用戶不能看到其他用戶的數(shù)據(jù)。因?yàn)镾aaS是多租戶模式的,因此云智慧從系統(tǒng)架構(gòu)設(shè)計(jì)上做了一些保護(hù)措施,比如對用戶數(shù)據(jù)進(jìn)行了邏輯上的分區(qū),甚至是做物理上的分區(qū)。而在數(shù)據(jù)安全性方面,云智慧同樣也做了很多專門的部署,比如針對跨站腳本攻擊,或者是一些SQL注入攻擊,都采取了相應(yīng)的防護(hù)措施,防止用戶數(shù)據(jù)泄露。另外,云智慧還會(huì)定期測試自身系統(tǒng)的安全性,不斷對系統(tǒng)漏洞或設(shè)計(jì)缺陷進(jìn)行完善。
InfoQ:您認(rèn)為今年國內(nèi)的APM市場會(huì)有新的變化嗎?或者說有新的增長點(diǎn)出現(xiàn)?
殷晉:今年無論是對于云智慧還是其他APM同行來說都將是非常好的一年。首先要提的就是云計(jì)算發(fā)展的推動(dòng)作用。云智慧一直在做SaaS,從用戶量的增長,以及收入的各方面增長,都能明顯感覺到用戶對于SaaS的接受程度正變得越來越高。其次,國內(nèi)企業(yè)現(xiàn)在所有的業(yè)務(wù)都在強(qiáng)調(diào)互聯(lián)網(wǎng)+的概念,因此要想把業(yè)務(wù)都搬到互聯(lián)網(wǎng)上的話,就必須要依托強(qiáng)大的IT系統(tǒng),這時(shí)整個(gè)IT系統(tǒng)對于企業(yè)業(yè)務(wù)重要性就會(huì)提高,由此一來很多企業(yè)客戶就能非常清醒的認(rèn)識(shí)到,APM能夠讓企業(yè)的業(yè)務(wù)運(yùn)行的更好,從而開始接受APM產(chǎn)品。
InfoQ:前一段時(shí)間好像有新聞報(bào)道出來國外老牌廠商Compuware正在把APM業(yè)務(wù)撤出中國,你覺得這對整個(gè)國內(nèi)APM市場有什么意義?
殷晉:實(shí)際上我認(rèn)為,Compuware并沒有退出中國,也不會(huì)退出中國,只是可能正處在一個(gè)比較艱難的轉(zhuǎn)型期,在對自身的業(yè)務(wù)進(jìn)行調(diào)整,同時(shí)這也證明了APM對于企業(yè)用戶的重要性。而對于國內(nèi)的APM廠商來說,在短期內(nèi)肯定會(huì)出現(xiàn)更多的機(jī)會(huì)去搶占市場份額或是爭取到更多的用戶,特別是目前國內(nèi)APM市場正處于一個(gè)上升期。另一方面,國內(nèi)廠商也將有機(jī)會(huì)吸引來一些比較高端的技術(shù)人才。
但是從長遠(yuǎn)的角度來看,Compuware的轉(zhuǎn)型對于國內(nèi)市場來說也不完全是一件好事。許多國內(nèi)企業(yè)在IT方面都依賴于IOE或是其他國外的廠商,如果未來一段時(shí)間內(nèi)國產(chǎn)化進(jìn)程仍然沒有取得較大的進(jìn)展的話,等到Compuware完成轉(zhuǎn)型,以更加強(qiáng)大的實(shí)力卷土重來的話,那么國內(nèi)的APM廠商勢必將面臨更加嚴(yán)峻的挑戰(zhàn)。
高危漏洞頻發(fā),隱私泄露,普通開發(fā)者該如何避免和防范;開發(fā)者如何從邏輯上避免風(fēng)險(xiǎn)?在【QCon北京2015】“新時(shí)代的安全”專題中,在Pwn2Own 2015上奪冠的Keen Team安全研究員Peter Hlavaty將解讀內(nèi)核安全精髓;阿里巴巴安全專家祝建躍將分享互聯(lián)網(wǎng)全球最大DDoS攻擊防御實(shí)戰(zhàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對培養(yǎng)AI空間智能的重要價(jià)值。