研究稱,整個人類文明所獲得的全部數(shù)據(jù)量,有90%是最近兩年內(nèi)產(chǎn)生的。隨著移動互聯(lián)大潮的席卷,預(yù)計通過網(wǎng)路產(chǎn)生的數(shù)據(jù)量還將呈幾何級增長。龐大的數(shù)據(jù)資源蘊藏著無限的寶藏,過去的一年無論是企業(yè)、政府還是媒體,都在談?wù)摯髷?shù)據(jù)。有人說大數(shù)據(jù)是黃金、是競爭力,然而在這一切談?wù)摰谋澈髤s鮮有人關(guān)注數(shù)據(jù)質(zhì)量這個最根本的問題。
普元數(shù)據(jù)產(chǎn)品總監(jiān)王軒認(rèn)為,大數(shù)據(jù)處理的關(guān)鍵就是解決數(shù)據(jù)質(zhì)量問題,規(guī)避數(shù)據(jù)錯誤、保障數(shù)據(jù)質(zhì)量才能真正讓企業(yè)從大數(shù)據(jù)應(yīng)用中獲得利益。
保障數(shù)據(jù)質(zhì)量成為大數(shù)據(jù)發(fā)揮價值的先決條件
“企業(yè)做數(shù)據(jù)集成、數(shù)據(jù)處理的核心價值我認(rèn)為是兩個方面,首先當(dāng)然能為企業(yè)帶來更多的盈利,其次是規(guī)避風(fēng)險,而實現(xiàn)這兩個核心價值的關(guān)鍵就是解決數(shù)據(jù)質(zhì)量問題?,F(xiàn)在大數(shù)據(jù)環(huán)境也好,傳統(tǒng)數(shù)據(jù)環(huán)境也好,大家面臨很嚴(yán)重的問題在哪兒?我們做了很多數(shù)據(jù)分析和挖掘,這種分析挖掘到底對不對靠什么來衡量?有的企業(yè)是基于數(shù)據(jù)分析作出了一些營銷的趨勢性結(jié)論,但如果你的數(shù)據(jù)本身是錯的,分析出來的結(jié)論未必有用。” 普元數(shù)據(jù)產(chǎn)品總監(jiān)王軒表示,保證數(shù)據(jù)質(zhì)量是大數(shù)據(jù)為企業(yè)帶來價值的先決條件。
《大數(shù)據(jù)資產(chǎn):聰明的企業(yè)怎樣致勝于數(shù)據(jù)治理》一書的作者 Tony Fisher 曾提到,如果基本數(shù)據(jù)不可靠,大多數(shù)企業(yè)的大數(shù)據(jù)計劃要么會失敗,要么效果會低于預(yù)期。造成上述結(jié)果的關(guān)鍵原因在于,數(shù)據(jù)生命周期之中流入了不一致、不準(zhǔn)確、不可靠的數(shù)據(jù)。在數(shù)據(jù)領(lǐng)域最流行的一個說法是“更好的數(shù)據(jù)意味著更好的決策”,這句話從來不假,在當(dāng)今的大數(shù)據(jù)時代甚至更為真切。
“在我們接觸的眾多銀行案例中,經(jīng)常會遇到這種情況,做完一個數(shù)據(jù)倉庫,客戶信息重名的上萬個,一個人1000多個賬戶,這都是數(shù)據(jù)質(zhì)量的問題。為什么會出現(xiàn)這種數(shù)據(jù)問題呢?數(shù)據(jù)處理是一個復(fù)雜的過程,這其中有很多環(huán)節(jié),從前期的數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)集成到數(shù)據(jù)處理等等,任何一個環(huán)節(jié)出錯都有可能導(dǎo)致數(shù)據(jù)質(zhì)量問題。其中數(shù)據(jù)處理是清洗數(shù)據(jù)和規(guī)避數(shù)據(jù)風(fēng)險的重要環(huán)節(jié),在這個技術(shù)領(lǐng)域普元做得很專注,在業(yè)內(nèi)也是領(lǐng)先的。”王軒認(rèn)為除了現(xiàn)有數(shù)據(jù)的處理,規(guī)避實時數(shù)據(jù)風(fēng)險尤為重要的,如何在交易錯誤時即時阻斷數(shù)據(jù)錯誤是保障數(shù)據(jù)質(zhì)量的重要手段。由此普元早就提出大數(shù)據(jù)平臺產(chǎn)品線的概念,把所有這些環(huán)節(jié)需要的技術(shù)手段都囊括進來,這正是普元正在修煉的‘秘籍’。”
普元大數(shù)據(jù)產(chǎn)品家族 助力企業(yè)大數(shù)據(jù)淘金
一直以來,國內(nèi)大型企業(yè)主要采用國外的數(shù)據(jù)處理軟件,隨著技術(shù)的扁平化,國內(nèi)的數(shù)據(jù)處理軟件技術(shù)越來越純熟,價格相對于國外‘大佬’來說更具競爭力。在數(shù)據(jù)處理市場國產(chǎn)軟件越來越受青睞,一方面原因是企業(yè)成本,一方面則是信息安全。
“本土化的軟件更適合國內(nèi)企業(yè)的業(yè)務(wù)需求,自主掌握知識產(chǎn)權(quán)的產(chǎn)品對企業(yè)來說安全性更高,IT成本極大降低的同時安全性又得到了提高,企業(yè)何樂而不為。”王軒表示。
普元從2010年開始涉足大數(shù)據(jù)領(lǐng)域, “普元數(shù)據(jù)處理軟件平臺領(lǐng)先的技術(shù)和方法論可以從根本幫助用戶解決數(shù)據(jù)質(zhì)量的問題,普元的復(fù)雜事件處理平臺則幫助用戶實時規(guī)避數(shù)據(jù)風(fēng)險,普元完備的大數(shù)據(jù)產(chǎn)品家族提供從咨詢、數(shù)據(jù)集成、數(shù)據(jù)治理到可視化的‘一站式’服務(wù)更是解除了企業(yè)大數(shù)據(jù)應(yīng)用的后顧之憂。”王軒指出普元大數(shù)據(jù)產(chǎn)品已具備豐富的功能。
目前普元的大數(shù)據(jù)產(chǎn)品家族分為四大平臺,分別是智慧數(shù)據(jù)應(yīng)用平臺、復(fù)雜事件處理平臺、數(shù)據(jù)質(zhì)量平臺和元數(shù)據(jù)管理平臺。“普元的大數(shù)據(jù)產(chǎn)品線在業(yè)內(nèi)是一流和領(lǐng)先的,這一點并非空穴來風(fēng)。我們的產(chǎn)品在業(yè)內(nèi)特別是金融行業(yè)有多年的積淀,普元的數(shù)據(jù)平臺基礎(chǔ)軟件已經(jīng)應(yīng)用于國家開發(fā)銀行、中信銀行、北京銀行、上海銀行等國內(nèi)金融行業(yè)的重點企業(yè),普元數(shù)據(jù)線軟件產(chǎn)品也受到用戶的廣泛認(rèn)可。”王軒強調(diào)。
談到普元大數(shù)據(jù)產(chǎn)品在未來的發(fā)展方向時,王軒表示“普元的大數(shù)據(jù)產(chǎn)品家族是非常豐滿的,未來普元會持續(xù)加大在大數(shù)據(jù)研發(fā)方面的投入,繼續(xù)完善和擴充大數(shù)據(jù)產(chǎn)品,以適應(yīng)新技術(shù)時代企業(yè)不斷變化的數(shù)據(jù)應(yīng)用需求。”
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。