
企業(yè)對(duì)AI科技的應(yīng)用不斷增長和擴(kuò)張,AI開發(fā)人員也在努力證明機(jī)器學(xué)習(xí)為不同業(yè)務(wù)區(qū)間增加價(jià)值的強(qiáng)勁能力。可以想見,作為一個(gè)關(guān)注以文本及視覺形式交流思想的行業(yè),新聞業(yè)必然要積極采用數(shù)據(jù)科學(xué)工具與技術(shù)以支持?jǐn)?shù)據(jù)分析及可視化。
《紐約時(shí)報(bào)》自2012年起就建立起數(shù)據(jù)科學(xué)小組,但這支隊(duì)伍經(jīng)過近十年的發(fā)展才剛剛走出實(shí)驗(yàn)階段,開始在企業(yè)之內(nèi)扮演重要角色——即通過機(jī)器學(xué)習(xí)增加價(jià)值。《紐約時(shí)報(bào)》數(shù)據(jù)科學(xué)總監(jiān)Colin Russel運(yùn)用自己在預(yù)測建模與設(shè)計(jì)方面的深厚背景,配合機(jī)器學(xué)習(xí)算法將《紐約時(shí)報(bào)》的大量數(shù)據(jù)融入模型及可視化體系當(dāng)中,借此為各個(gè)部門提供有力支持。
AI應(yīng)用
《紐約時(shí)報(bào)》已經(jīng)投資建立起多支機(jī)器學(xué)習(xí)團(tuán)隊(duì),將數(shù)據(jù)科學(xué)、數(shù)據(jù)分析與工程等要素結(jié)合起來。這些團(tuán)隊(duì)又具體分為不同的數(shù)據(jù)科學(xué)小組,一部分面向新聞編輯室工作、一部分面向團(tuán)隊(duì)營銷、也有一部分負(fù)責(zé)各類業(yè)務(wù)運(yùn)營。雖然各個(gè)小組分別只面向企業(yè)整體業(yè)務(wù)中的特定方面,但他們都在努力構(gòu)建起一套統(tǒng)一的機(jī)器學(xué)習(xí)平臺(tái),將所有彼此重疊的部署與基礎(chǔ)設(shè)施開發(fā)成果集中起來以供整體使用。
在傳統(tǒng)上,由于存在明顯的利益沖突,新聞編輯部及編輯業(yè)務(wù)往往與企業(yè)業(yè)務(wù)部門互不往來,在創(chuàng)收活動(dòng)及新聞活動(dòng)等工作上也明確保持分離。由于這種分離,大型企業(yè)在AI領(lǐng)域的探索往往面臨挑戰(zhàn),特別是難以在AI實(shí)施的流程與目標(biāo)方面進(jìn)行清晰且持續(xù)的跨部門溝通。
但面對(duì)阻力,《紐約時(shí)報(bào)》仍努力將運(yùn)用數(shù)據(jù)推動(dòng)決策及洞見的習(xí)慣在整個(gè)組織內(nèi)傳播,著力通過數(shù)據(jù)分析制定業(yè)務(wù)決策、培養(yǎng)新聞與編輯洞察能力。在如今這個(gè)多數(shù)人每天通過社交媒體獲取新聞的時(shí)代,新聞編輯室自然也需要關(guān)注數(shù)據(jù)、把握《紐約時(shí)報(bào)》受眾的興趣所在。同樣的,運(yùn)營部門也高度關(guān)注數(shù)據(jù)驅(qū)動(dòng)型洞見,希望提高廣告宣傳效果、向讀者提供優(yōu)化內(nèi)容,并提升各類運(yùn)營及產(chǎn)品宣傳的可見性。
AI技術(shù)
雖然不少企業(yè)選擇AI工具外包,但《紐約時(shí)報(bào)》更強(qiáng)調(diào)原研開發(fā)而非直接購買。AI技術(shù)的實(shí)施往往不是項(xiàng)目中最困難的部分,真正的挑戰(zhàn)大多來自在數(shù)據(jù)設(shè)計(jì)、組織及操作層面進(jìn)行有效建模。遙想立項(xiàng)之初,數(shù)據(jù)可謂無處不在,數(shù)據(jù)科學(xué)家只能從浩如煙海的記錄當(dāng)中逐一收集來自企業(yè)內(nèi)不同部門的憑證。數(shù)據(jù)獲取難度再加上確定適用于模型的具體數(shù)據(jù)內(nèi)容,反而令A(yù)I的具體實(shí)現(xiàn)技術(shù)成為相對(duì)簡單的部分。
由于企業(yè)內(nèi)不同部門間的關(guān)注重點(diǎn)與優(yōu)先事項(xiàng)各不相同,因此AI開發(fā)者必須弄清楚如何在相互競爭當(dāng)中取得平衡?!都~約時(shí)報(bào)》最近進(jìn)行了一輪大規(guī)模整改,希望能將數(shù)據(jù)整合至云端。如此一來,他們就能從零起步,輕松上傳不同部門的后續(xù)數(shù)據(jù)。
應(yīng)對(duì)變量
數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)模型都要經(jīng)歷驗(yàn)證與評(píng)估過程,旨在衡量基準(zhǔn)性能并測試開發(fā)中的模型、確定還有哪些改進(jìn)空間。AI應(yīng)用的一大難題,在于很難量化目標(biāo)并選定需要優(yōu)化的指標(biāo)。在新聞與雜志行業(yè),新聞周期本身就存在巨大的波動(dòng)性。例如,新冠疫情給企業(yè)帶來了突如其來的沖擊,要求民眾隨時(shí)都能免費(fèi)訪問疫情趨勢的相關(guān)新聞。這意味著原本以吸引付費(fèi)訂閱用戶為核心的業(yè)務(wù)體系,突然就具備了某種程度的公共服務(wù)屬性,甚至需要在發(fā)布大量可以免費(fèi)訪問的信息。這些都是新聞行業(yè)以往從未面對(duì)過的態(tài)勢。
另外,某些特定推薦算法在不同類型的新聞周期中反應(yīng)更好,因此需要根據(jù)協(xié)議對(duì)模型進(jìn)行重新訓(xùn)練,確保模型性能與新聞周期密切關(guān)聯(lián)。為了評(píng)估模型質(zhì)量,數(shù)據(jù)科學(xué)團(tuán)隊(duì)需要充分評(píng)估新聞周期與環(huán)境影響,這一切又延長了模型的籌備時(shí)間。目前Colin和他的團(tuán)隊(duì)正在努力攻克不同新聞周期中適用使用哪些模型這道現(xiàn)實(shí)難關(guān)。
對(duì)于任何企業(yè),AI與機(jī)器學(xué)習(xí)算法的實(shí)施和應(yīng)用都絕非易事,與之對(duì)應(yīng)的技術(shù)、指標(biāo)及數(shù)據(jù)確認(rèn)工作同樣復(fù)雜異常。《紐約時(shí)報(bào)》每天都在處理這類問題,并將在即將召開的Data for AI大會(huì)上分享更多細(xì)節(jié)與洞見,敬請(qǐng)期待。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。