如何構(gòu)建數(shù)據(jù)服務(wù)平臺(tái)?如何讓數(shù)據(jù)服務(wù)平臺(tái)更好地為企業(yè)業(yè)務(wù)服務(wù)?【友盟+】基礎(chǔ)數(shù)據(jù)部技術(shù)總監(jiān)張金在2016中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)(DTCC)上,分享了【友盟+】的經(jīng)驗(yàn),他表示,整合數(shù)據(jù)是建立數(shù)據(jù)服務(wù)平臺(tái)的首要任務(wù);統(tǒng)一數(shù)據(jù)、統(tǒng)一服務(wù)、統(tǒng)一接口是建立數(shù)據(jù)服務(wù)平臺(tái)的三大目標(biāo)。
(圖為:【友盟+】基礎(chǔ)數(shù)據(jù)部技術(shù)總監(jiān) 張金)
整合數(shù)據(jù)是關(guān)鍵
數(shù)據(jù)打通是長(zhǎng)期困擾大數(shù)據(jù)領(lǐng)域的一道難題,由于數(shù)據(jù)的多源化、碎片化,以及數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)技術(shù)的差別,導(dǎo)致數(shù)據(jù)很難融通,大數(shù)據(jù)的價(jià)值并沒(méi)有充分挖掘出來(lái),同時(shí)也為構(gòu)建大數(shù)據(jù)平臺(tái)帶來(lái)了很多挑戰(zhàn)。張金表示,“在面對(duì)迅猛發(fā)展的數(shù)據(jù)業(yè)務(wù)時(shí),整合數(shù)據(jù)是建立數(shù)據(jù)服務(wù)平臺(tái)的首要任務(wù),這樣才能提升數(shù)據(jù)存儲(chǔ)效率和安全性,提升數(shù)據(jù)的使用效率和價(jià)值。以【友盟+】數(shù)據(jù)服務(wù)平臺(tái)為例,圍繞客戶(hù)關(guān)心的服務(wù)構(gòu)建整個(gè)數(shù)據(jù)服務(wù)平臺(tái)中的數(shù)據(jù)、算法和開(kāi)放三個(gè)子平臺(tái)。數(shù)據(jù)平臺(tái)是要解決“有什么”的問(wèn)題,解決數(shù)據(jù)的整合、清洗、打通、盤(pán)點(diǎn)。算法平臺(tái),解決“怎么用”的問(wèn)題,提供統(tǒng)一基礎(chǔ)設(shè)施解決方案。開(kāi)放平臺(tái),解決“方便性”的問(wèn)題,完備配套設(shè)施:安全、賬號(hào)、權(quán)限、計(jì)費(fèi)。統(tǒng)一數(shù)據(jù),統(tǒng)一服務(wù),統(tǒng)一接口是建立數(shù)據(jù)服務(wù)平臺(tái)的三大目標(biāo)。“
接下來(lái),張金進(jìn)一步給出了直指三個(gè)目標(biāo)的解決方案。
首先是統(tǒng)一數(shù)據(jù),至少要解決五方面的問(wèn)題:1、數(shù)據(jù)遷移整合,建立數(shù)據(jù)流轉(zhuǎn)通路2、制定數(shù)據(jù)規(guī)范,統(tǒng)一研發(fā)標(biāo)準(zhǔn),統(tǒng)一命名規(guī)則3、用戶(hù)ID打通,ID Mapping系統(tǒng)4、統(tǒng)一指標(biāo)和標(biāo)簽體系,確立標(biāo)準(zhǔn),消除二義性5、建立日常數(shù)據(jù)透視,隨時(shí)了解數(shù)據(jù)狀況。
以ID Mapping為例
【友盟+】數(shù)據(jù)服務(wù)平臺(tái)使用海量種類(lèi)豐富的ID配對(duì)數(shù)據(jù),通過(guò)算法對(duì)所有ID進(jìn)行關(guān)聯(lián)映射,將同一個(gè)體的多個(gè)用戶(hù)ID聚合在一起,最終實(shí)現(xiàn)Cookie、IMEI、IDFA、第三方賬號(hào)等不同場(chǎng)景下的用戶(hù)ID全打通,從而能夠全面分析全域范圍下的用戶(hù)行為。
以標(biāo)簽體系為例
【友盟+】數(shù)據(jù)服務(wù)平臺(tái)根據(jù)分類(lèi)梳理標(biāo)簽,即構(gòu)造完整的標(biāo)簽體系,挖掘分析出“人口屬性”、“長(zhǎng)期愛(ài)好”、“短期興趣”和“關(guān)鍵詞標(biāo)簽”等人群標(biāo)簽,以滿(mǎn)足各種數(shù)據(jù)應(yīng)用場(chǎng)景中的對(duì)精準(zhǔn)定向的需求。例如,一個(gè)跑步愛(ài)好者適合企業(yè)進(jìn)行長(zhǎng)期品牌影響,而一個(gè)馬上想買(mǎi)鞋的人可能就需要快速而精準(zhǔn)直接的商品推薦。
其次是統(tǒng)一接口,傳統(tǒng)的方法是為每一個(gè)功能包裝一個(gè)接口,這種方法存在的問(wèn)題是,混亂的接口設(shè)計(jì),錯(cuò)綜復(fù)雜的調(diào)用關(guān)系,苦、不靈活、重復(fù)勞動(dòng),【友盟+】摸索出的新方法讓業(yè)務(wù)開(kāi)發(fā)工程師只需要關(guān)心2件事情:1、統(tǒng)一的調(diào)用方式;2、清晰的邏輯數(shù)據(jù)表。
最后是統(tǒng)一服務(wù),提供統(tǒng)一基礎(chǔ)設(shè)施的解決方案。
以U-DMP為例
【友盟+】數(shù)據(jù)管理平臺(tái)(U-DMP),基于大數(shù)據(jù)分析的客戶(hù)洞察,讓企業(yè)能夠輕松洞察并定向目標(biāo)人群,從而更好地幫助企業(yè)進(jìn)行商業(yè)營(yíng)銷(xiāo)。張金舉例說(shuō):【友盟+】曾經(jīng)遇到一個(gè)經(jīng)典的案例,某著名電腦品牌對(duì)某款產(chǎn)品受眾定位是高端的白領(lǐng)女性,但經(jīng)過(guò)對(duì)購(gòu)買(mǎi)人群的畫(huà)像透視后,結(jié)果發(fā)現(xiàn)購(gòu)買(mǎi)者大相徑庭:大部分的受眾為男性青年中等收入者。而 U-DMP這時(shí)就發(fā)揮了重要的作用,一是可以幫助企業(yè)洞悉自己的目標(biāo)人群(如會(huì)員、曾經(jīng)的購(gòu)買(mǎi)者)。通過(guò)分析目標(biāo)人群的畫(huà)像,了解目標(biāo)人群的特質(zhì)(如地域分布、與其他品類(lèi)的重疊受眾)。從而在U-DMP上圈選出所需的特定人群,進(jìn)行推薦、EDM、甚至聯(lián)合營(yíng)銷(xiāo)等相關(guān)的營(yíng)銷(xiāo)手段。配合人群放大功能,進(jìn)一步擴(kuò)大營(yíng)銷(xiāo)受眾和影響力。這項(xiàng)服務(wù)讓企業(yè)能夠輕松洞察并定向目標(biāo)人群,從而最好地滿(mǎn)足這些需求來(lái)提升客戶(hù)體驗(yàn)。“
【友盟+】:全球領(lǐng)先的第三方全域大數(shù)據(jù)服務(wù)提供商,依托于自主研發(fā)的全域數(shù)據(jù)平臺(tái),為客戶(hù)提供一站式數(shù)據(jù)化解決方案。一方面提供數(shù)據(jù)產(chǎn)品,包括APP開(kāi)發(fā)工具、基礎(chǔ)統(tǒng)計(jì)工具、廣告效果監(jiān)測(cè)工具等,另一方面提供數(shù)據(jù)交換及專(zhuān)業(yè)的數(shù)據(jù)分析和咨詢(xún)服務(wù),包括DMP、垂直領(lǐng)域數(shù)據(jù)化解決方案、數(shù)據(jù)運(yùn)營(yíng)分析報(bào)告等。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。