5月27日支付寶才因為光纖事件一度導致應用無法使用,第二天,5月28日攜程又遭遇攻擊,連續(xù)兩天,大型互聯(lián)網(wǎng)公司出現(xiàn)不同的系統(tǒng)事故,“互聯(lián)網(wǎng)+”浪潮下的安全問題再次受到行業(yè)內(nèi)外拷問。
根據(jù)攜程官方的最新回應:經(jīng)技術(shù)排查,確認此次事件是由于員工錯誤操作,刪除了生產(chǎn)服務(wù)器上的執(zhí)行代碼導致,攜程也再次保證,數(shù)據(jù)和數(shù)據(jù)庫并未受到此次事件的影響,用戶訂單數(shù)據(jù)也完整無損,請用戶放心并繼續(xù)使用攜程網(wǎng)站及App,并表示其在系統(tǒng)上做了改進,規(guī)范并杜絕技術(shù)人員錯誤刪除生產(chǎn)服務(wù)器上代碼的操作。
攜程在微博上的回應內(nèi)容
到底是個怎么樣的內(nèi)部失誤呢?
為什么恢復的如此緩慢?之前也有業(yè)內(nèi)人士指出,除了攜程涉及較多業(yè)務(wù)和應用外,在平時的運維過程中,對于常見的故障都會有應急預案。但像攜程這次所有系統(tǒng)包括數(shù)據(jù)庫都需要重新部署的極端情況,顯然不可能在應急預案的范疇中。在倉促上陣應急的情況下,技術(shù)方案的評估和選擇問題,不同技術(shù)崗位之間的管理協(xié)調(diào)的問題,不同應用系統(tǒng)之間的耦合和依賴關(guān)系,還有很多平時欠下的技術(shù)債都集中爆發(fā)了,更不用說很多不常用的子系統(tǒng),可能上線之后就沒人動過,一時半會都找不到能處理的人。更要命的是,網(wǎng)站的核心系統(tǒng),可能會寫死依賴了這個平時根本沒人關(guān)注的應用,想繞開邊緣應用只恢復核心業(yè)務(wù)都做到。更別說在這樣的高壓之下,各種噪音和干擾很多,運維工程師的反應也沒有平時靈敏。
簡單的說,就算所有代碼和數(shù)據(jù)庫的備份都存在,想要快速恢復業(yè)務(wù),甚至比從0開始重新搭建一個攜程更困難。
多備份聯(lián)合創(chuàng)始人胡茂華向發(fā)表文章表示:“我記得當初在1號店負責運維時,因為1號店被沃爾瑪收購,作為上市企業(yè)的關(guān)聯(lián)交易公司,當時沃爾瑪派KPMG來做詳細的審計,核心崗位和管理層都被做了訪談,并出具了詳細的操作流程,我親自參與這個過程,審計是做了,但我們作為執(zhí)行人心中是非常沒有底氣的。在我呆過的幾個大的互聯(lián)網(wǎng)公司如騰訊、盛大和1號店,都有做數(shù)據(jù)管理流程和備份恢復服務(wù),但是因為這些安全業(yè)務(wù)比較邊緣,在整個公司關(guān)注程度很低,并沒有落到實處。”
他還說到,有理由相信,所有的公司都有做數(shù)據(jù)管理和備份,不論是小微企業(yè)老板自己手動用U盤或者硬盤拷貝、還是大的互聯(lián)網(wǎng)公司有專門的運維人員專項負責、傳統(tǒng)的中大型企業(yè)用專業(yè)的軟硬件工具,關(guān)鍵是99%的公司都沒有做數(shù)據(jù)管理流程、備份和恢復的演練,恢復的數(shù)據(jù)到底可不可用,如何快速的恢復等操作演練。
為什么恢復時間那么長?
對于為何12小時后才恢復正常,攜程解釋稱:類似攜程這樣的大型網(wǎng)站承載著繁多業(yè)務(wù),其后臺是一個由SOA(面向服務(wù))架構(gòu)組成的龐大服務(wù)器集群,看似簡單的一個頁面背后由上千個應用子系統(tǒng)以及上千個WebService組成,而每個應用子系統(tǒng)和每個WebService之間都存在著相互調(diào)用的依賴關(guān)系。
發(fā)生事件后,攜程的技術(shù)人員除了需要恢復生產(chǎn)服務(wù)器上的執(zhí)行代碼以外,還需要做的是恢復并確保每個應用子系統(tǒng)以及每個Web Service的功能正常,同時確保應用子系統(tǒng)與Web Service間的調(diào)用關(guān)系得以正常執(zhí)行。
這種驗證性的操作需要攜程的工程師及運維人員通力合作,盡快恢復生產(chǎn)代碼并通過反復地、持續(xù)性地調(diào)試以確保應用子系統(tǒng)與Web Service功能的正常運行。
攜程再次保證,數(shù)據(jù)和數(shù)據(jù)庫并未受到此次事件的影響,用戶訂單數(shù)據(jù)也完整無損,請用戶放心并繼續(xù)使用攜程網(wǎng)站及App。
攜程官方網(wǎng)站及APP已于28日23:29全面恢復正常。對用戶造成的不便,攜程再次深表歉意。”這也是繼2014年春節(jié)期間攜程被爆網(wǎng)站存在漏洞之后,連續(xù)兩年遭遇IT系統(tǒng)上的漏洞問題。此次事故除了導致攜程的股價應聲大跌外,按照攜程一季度財報公布的數(shù)據(jù),攜程宕機的損失為平均每小時106.48萬美元。對此這次事故的損失,大家算算吧!
雖然攜程連續(xù)回應稱此次事故是由于員工操作失誤導致,也得到了很多人的認同。但在事件發(fā)生時,攜程卻說由于不明攻擊所致,這樣的前后說法相差甚遠。
消失的微博,這是28日12:50攜程的回應,如今卻已刪除
這讓起先不明真相的筆者不得不驚呼,我們不僅要問,攜程你到底有沒有譜!
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。