如今,幾乎每家上市企業(yè)都在積極討論人工智能技術(shù)對(duì)自身運(yùn)營(yíng)方式的重大影響。從特斯拉使用AI技術(shù)改善自動(dòng)駕駛性能,到Levis通過(guò)AI強(qiáng)化產(chǎn)品決策能力,每個(gè)人都熱切想要在AI領(lǐng)域占據(jù)一席之地。
但要實(shí)現(xiàn)這一目標(biāo),組織的智能度必須進(jìn)一步提升。為了逐步發(fā)展出嚴(yán)肅AI,我們需要采用監(jiān)督學(xué)習(xí)方法,而監(jiān)督學(xué)習(xí)的效果又由標(biāo)記數(shù)據(jù)的質(zhì)量決定。原始數(shù)據(jù)需要經(jīng)過(guò)漫長(zhǎng)的標(biāo)記過(guò)程,而后方可用于增強(qiáng)監(jiān)督學(xué)習(xí)模型,由此產(chǎn)生的預(yù)算甚至可能給組織帶來(lái)可感受的壓力。過(guò)去十年以來(lái),組織高管在存儲(chǔ)數(shù)據(jù)并將數(shù)據(jù)轉(zhuǎn)化為收入方面,主要擁有三種選項(xiàng):
1.DIY并建立自己的定制數(shù)據(jù)標(biāo)記系統(tǒng)。為人力、技術(shù)及時(shí)間層面的重大投資做好準(zhǔn)備并調(diào)撥預(yù)算,借此建立起一套規(guī)模龐大、可永久保存的健壯生產(chǎn)系統(tǒng)。聽(tīng)起來(lái)不難?也許吧,畢竟谷歌和Facebook都成功了。但這一切未必適合您,因?yàn)槟切┛萍季揞^擁有出色的人才與幾乎無(wú)窮的IT預(yù)算,足以建立并維護(hù)這些復(fù)雜的標(biāo)記系統(tǒng)——換言之,這類(lèi)企業(yè)的預(yù)算甚至與世界上某些小國(guó)的GDP相當(dāng)。另外,即使您擁有充足的人力與時(shí)間來(lái)從零開(kāi)始構(gòu)建大規(guī)模生產(chǎn)系統(tǒng),您的組織能接受這項(xiàng)長(zhǎng)期延續(xù)的巨額投資嗎?
2. 外包。專(zhuān)業(yè)服務(wù)合作伙伴當(dāng)然很給力,但您仍然需要開(kāi)發(fā)自己的內(nèi)部工具。這種方式還可能帶來(lái)其它風(fēng)險(xiǎn),因?yàn)榇祟?lèi)解決方案要求將第三方數(shù)據(jù)與您自己的專(zhuān)有數(shù)據(jù)混合起來(lái),通過(guò)顯著擴(kuò)大數(shù)據(jù)樣本量在理論上獲取質(zhì)量更高的模型。您是否對(duì)自己的數(shù)據(jù)審計(jì)跟蹤能力有信心,保證其能夠在持久數(shù)據(jù)標(biāo)記要求的整個(gè)生命周期中保持專(zhuān)有性?即使您的供應(yīng)商倒閉,您在AI旅程中作為競(jìng)爭(zhēng)優(yōu)勢(shì)開(kāi)發(fā)出的流程是否可重復(fù)且始終可靠?您積累了數(shù)十的知識(shí)產(chǎn)權(quán)(數(shù)據(jù))可能因此而不慎泄露,導(dǎo)致其落入同樣與您合作伙伴聯(lián)手構(gòu)建系統(tǒng)的競(jìng)爭(zhēng)方手中。以自動(dòng)駕駛汽車(chē)行業(yè)為例,Scale.ai已經(jīng)成為領(lǐng)域中規(guī)模最大的服務(wù)商,幾乎所有相關(guān)機(jī)構(gòu)都與其保持合作關(guān)系。
3. 使用訓(xùn)練數(shù)據(jù)平臺(tái)(TDP)。這些屬于相對(duì)較新的市場(chǎng)解決方案,可提供一套統(tǒng)一平臺(tái),將負(fù)責(zé)收集、標(biāo)記并饋送數(shù)據(jù)的所有作業(yè)匯總至監(jiān)督學(xué)習(xí)模型當(dāng)中,或者幫助用戶(hù)自主構(gòu)建新模型。這種方法可幫助不同規(guī)模的組織獲得等同于Salesforce及Hubspot等客戶(hù)關(guān)系管理商的方式建立標(biāo)準(zhǔn)化工作流程。其中一些平臺(tái)還使用集成化機(jī)器學(xué)習(xí)算法自動(dòng)執(zhí)行復(fù)雜任務(wù),借此進(jìn)一步降低工作難度。更重要的是,TDP解決方案能夠幫助數(shù)據(jù)科學(xué)家擺脫繁重的任務(wù),將主要精力集中在構(gòu)建實(shí)際結(jié)構(gòu)(而非構(gòu)建及維護(hù)復(fù)雜而脆弱的定制化系統(tǒng))當(dāng)中。目前比較重要的TDP廠商包括Labelbox、Alegion以及Superb.ai。
我們?yōu)槭裁葱枰?xùn)練數(shù)據(jù)平臺(tái)
任何組織在開(kāi)啟自己的AI探索之旅前,首先需要明確一點(diǎn):數(shù)據(jù)標(biāo)記是監(jiān)督機(jī)器學(xué)習(xí)系統(tǒng)中成本最高、最為耗時(shí)的部分之一。隨著機(jī)器學(xué)習(xí)系統(tǒng)逐步發(fā)展成熟并可用于生產(chǎn)環(huán)境,數(shù)據(jù)標(biāo)記任務(wù)仍然不會(huì)停止。這項(xiàng)任務(wù)將永遠(yuǎn)存在并不斷增長(zhǎng)。無(wú)論選擇外包標(biāo)記還是內(nèi)部標(biāo)記,組織都需要選擇一套TDP進(jìn)行工作管理。
TDP旨在促進(jìn)整個(gè)數(shù)據(jù)標(biāo)記過(guò)程,加快產(chǎn)生高質(zhì)量數(shù)據(jù)的速度,由此幫助組織快速創(chuàng)建高性能的AI模型與應(yīng)用程序。如今,已經(jīng)有部分企業(yè)在強(qiáng)調(diào)TDP技術(shù)的重要性,但真正能被稱(chēng)為“TDP”的解決方案仍然非常有限。
其中有兩點(diǎn)非常重要:業(yè)務(wù)準(zhǔn)備情況與直觀的使用界面。如果未對(duì)業(yè)務(wù)做好充分準(zhǔn)備,IT部門(mén)將拒絕使用。如果界面不夠直觀,用戶(hù)也會(huì)尋找其他更易于使用的方案。此外,任何負(fù)責(zé)處理敏感的、對(duì)業(yè)務(wù)至關(guān)重要的信息的系統(tǒng),也都需要具備企業(yè)級(jí)的安全性與可伸縮性保障,否則同樣無(wú)法正常起效。而實(shí)際情況甚至證明,這類(lèi)目標(biāo)也許永遠(yuǎn)無(wú)法實(shí)現(xiàn)。IT消費(fèi)化至少已經(jīng)持續(xù)了十年,但I(xiàn)nstagram這類(lèi)簡(jiǎn)單易用的應(yīng)用都很難在組織內(nèi)普及。Salesforce的自動(dòng)化工具之所以能夠從Siebel手中奪取市場(chǎng),靠的就是輕松愉快的用戶(hù)體驗(yàn)與便捷的云交付。
除了這些基礎(chǔ)之外,數(shù)據(jù)注釋、管理與迭代同樣非常重要。如果候選系統(tǒng)無(wú)法滿(mǎn)足這三項(xiàng)要求,那么其同樣不能算是真正的TDP。下面來(lái)看關(guān)于這三項(xiàng)核心指標(biāo)的更多細(xì)節(jié):
注釋。TDP必須提供可用于智能自動(dòng)注釋功能的工具,即盡可能自動(dòng)做出更多標(biāo)記。高水平的TDP應(yīng)該能夠處理有限數(shù)量、帶有專(zhuān)業(yè)標(biāo)簽的數(shù)據(jù)。我們以放射科醫(yī)師處理的X光片為例,系統(tǒng)需要首先從圖像中識(shí)別出腫瘤,而后再做出預(yù)標(biāo)記。而審核人員的工作,就是糾正各類(lèi)錯(cuò)誤標(biāo)記問(wèn)題。機(jī)器會(huì)為標(biāo)記結(jié)果提供一項(xiàng)置信度輸出,例如特定標(biāo)簽正確標(biāo)記的可能性為80%。對(duì)審核人員來(lái)說(shuō),優(yōu)先級(jí)最高的工作應(yīng)該是檢查并糾正機(jī)器認(rèn)為置信度不足的標(biāo)簽。因此,組織應(yīng)努力推動(dòng)注釋自動(dòng)化并投入于相關(guān)專(zhuān)業(yè)服務(wù),確保數(shù)據(jù)標(biāo)記的準(zhǔn)確性與完整性。好消息是,目前與注釋相關(guān)的多數(shù)任務(wù)無(wú)需人工即可輕松完成。
管理。TDP應(yīng)該用作數(shù)據(jù)訓(xùn)練項(xiàng)目中的中央記錄系統(tǒng)。數(shù)據(jù)科學(xué)家與其他團(tuán)隊(duì)成員將在TDP中開(kāi)展協(xié)作,通過(guò)與傳統(tǒng)項(xiàng)目管理工具的集成、或者在平臺(tái)本體之內(nèi),創(chuàng)建工作流并分配任務(wù)。
由此得出的數(shù)據(jù)集,還可供后續(xù)項(xiàng)目使用。以美國(guó)為例,每年約30%的房屋會(huì)投保房屋保險(xiǎn)。為了預(yù)測(cè)風(fēng)險(xiǎn)并做出準(zhǔn)確定價(jià),保險(xiǎn)公司需要分析多種數(shù)據(jù)——例如房齡、是否有游戲池或者蹦床,或者房屋與樹(shù)木間的距離。為了推進(jìn)這個(gè)過(guò)程,企業(yè)現(xiàn)在使用計(jì)算機(jī)視覺(jué)通過(guò)衛(wèi)星圖像為保險(xiǎn)公司提供連續(xù)分析支持。在對(duì)新興市場(chǎng)中的房屋進(jìn)行分類(lèi)時(shí),企業(yè)應(yīng)該使用TDP重復(fù)使用現(xiàn)有數(shù)據(jù)集。例如,如果某家公司有意進(jìn)軍英國(guó)市場(chǎng),則應(yīng)該能夠重用來(lái)自美國(guó)的現(xiàn)有訓(xùn)練數(shù)據(jù),以此為基礎(chǔ)稍加更新以適應(yīng)當(dāng)?shù)夭町?例如英國(guó)本地的建筑材料選擇)。這些迭代周期,將使企業(yè)提供高準(zhǔn)確度數(shù)據(jù),同時(shí)迅速做出調(diào)整以適應(yīng)美國(guó)及其他地區(qū)的房屋情況變化。
這意味著您的TDP需要提供與其他軟件相集成的API,借此對(duì)接項(xiàng)目管理應(yīng)用、數(shù)據(jù)收集與處理工具,并幫助組織通過(guò)SDK建立自定義工具、擴(kuò)展TDP。
迭代。真正的TDP必須承認(rèn)這樣的現(xiàn)實(shí):帶有注釋的數(shù)據(jù)永遠(yuǎn)不會(huì)保持靜態(tài)。相反,數(shù)據(jù)會(huì)不斷變化,隨著更多數(shù)據(jù)加入數(shù)據(jù)集而持續(xù)迭代,并由模型提供關(guān)于數(shù)據(jù)有效性的反饋。而保持?jǐn)?shù)據(jù)準(zhǔn)確性、客觀性的關(guān)鍵,就是迭代。我們需要測(cè)試模型、改進(jìn)模型、再次測(cè)試、持續(xù)循環(huán)。拖拉機(jī)的智能?chē)婌F器能夠在50%的概率將除草劑準(zhǔn)確噴向雜草,而隨著訓(xùn)練數(shù)據(jù)中的雜草圖像越來(lái)越多,計(jì)算機(jī)視覺(jué)模型的后續(xù)迭代有望逐步將準(zhǔn)確率提升至90%或更高,同時(shí)幫助噴霧器更準(zhǔn)確地識(shí)別出那些不需要噴灑除草劑的植物。這個(gè)過(guò)程可能相當(dāng)耗時(shí),而且在高自動(dòng)化水平的支持下,往往仍需要審核人員的參與。通過(guò)一次次迭代,我們可以推動(dòng)模型逐步走向最佳狀態(tài)。而TDP的目的就是加速這種迭代,并確保每次迭代都能給模型帶來(lái)積極的改進(jìn),由此節(jié)約時(shí)間和金錢(qián)。
展望未來(lái)
正如十八世紀(jì)的標(biāo)準(zhǔn)化與可互換部件引發(fā)了工業(yè)革命一樣,用于定義TDP的標(biāo)準(zhǔn)框架也開(kāi)始將AI技術(shù)推向新的高度。盡管尚處于起步階段,但真正的TDP管理平臺(tái)能夠以更可靠的方式將原始數(shù)據(jù)(特別是寶貴的知識(shí)產(chǎn)權(quán))轉(zhuǎn)化為標(biāo)記數(shù)據(jù),由此幫助組織在所在行業(yè)中建立起實(shí)際競(jìng)爭(zhēng)優(yōu)勢(shì)。
在另一方面,高層管理人員還需要切實(shí)理解通過(guò)投資挖掘AI潛在財(cái)富的必要性。以往,組織只能在自主構(gòu)建、外包或者直接采購(gòu)之間做出選擇,三者都會(huì)帶來(lái)高昂的成本。更重要的是,自主構(gòu)建與外包還可能帶來(lái)巨大的隱性成本,導(dǎo)致組織難以成功邁入新的業(yè)務(wù)領(lǐng)域。真正的TDP能夠“降低”這一高成本決策的風(fēng)險(xiǎn),同時(shí)有效保護(hù)企業(yè)的核心競(jìng)爭(zhēng)優(yōu)勢(shì),即知識(shí)產(chǎn)權(quán)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。