成立一年之際,阿里巴巴前沿技術(shù)研究機(jī)構(gòu)達(dá)摩院又傳來新進(jìn)展。以色列理工學(xué)院著名計(jì)算機(jī)視覺科學(xué)家Lihi Zelnik-Manor教授,已入職達(dá)摩院以色列機(jī)器視覺實(shí)驗(yàn)室。
作為實(shí)驗(yàn)室負(fù)責(zé)人,她將帶領(lǐng)團(tuán)隊(duì)推動達(dá)摩院計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)研究,以及新零售、智慧城市等廣泛領(lǐng)域的應(yīng)用結(jié)合。
以色列機(jī)器視覺研究實(shí)驗(yàn)室,是達(dá)摩院遍布全球的科研機(jī)構(gòu)之一,也是達(dá)摩院首支完全由外籍科學(xué)家組成的研發(fā)團(tuán)隊(duì),成員來自于Intel、三星、特拉維夫大學(xué)等世界級研究機(jī)構(gòu)。
作為全球領(lǐng)先的創(chuàng)新之國與科技中心,以色列一直以從0到1的科技創(chuàng)新著稱全球,而中國則在先進(jìn)技術(shù)的大范圍普及運(yùn)用上積累了豐富經(jīng)驗(yàn)。未來,達(dá)摩院設(shè)立在以色列的研發(fā)實(shí)驗(yàn)室將扮演創(chuàng)新樞紐的角色,結(jié)合中以兩國各自的創(chuàng)新優(yōu)勢,促進(jìn)技術(shù)普惠與新商業(yè)模式的孵化。
機(jī)器視覺實(shí)驗(yàn)室正在研發(fā)的計(jì)算機(jī)視覺技術(shù),能有效提升計(jì)算機(jī)對外部物理世界的理解能力,在城市大腦、新零售等領(lǐng)域都有豐富的應(yīng)用場景。
諸如,通過視頻理解技術(shù),能有效提升城市大腦對對車輛行駛動作、行人行為的識別判斷能力,提升城市道路的管理效率。而在新零售場景,智能貨架與AI收銀機(jī)能更精確的識別消費(fèi)者的購買動作,從而實(shí)現(xiàn)自動結(jié)賬、智能防損等應(yīng)用。
圖說:達(dá)摩院以色列機(jī)器視覺實(shí)驗(yàn)室負(fù)責(zé)人 Lihi Zelnik-Manor 教授
加盟達(dá)摩院之前,Lihi Zelnik-Manor在以色列理工學(xué)院電氣工程系擔(dān)任副教授,領(lǐng)導(dǎo)該校的計(jì)算圖像與多媒體實(shí)驗(yàn)室。以色列理工學(xué)院也被譽(yù)為以色列的麻省理工,是以色列重要的基礎(chǔ)科學(xué)與計(jì)算機(jī)科技研究中心。
Lihi教授曾多次榮獲IEEE與ICCV的杰出論文獎,并連續(xù)多年擔(dān)任ECCV 與CVPR等計(jì)算機(jī)視覺大會的主席,此外她還是頂級學(xué)術(shù)期刊TPAMI的核心編輯。她還榮獲了以色列理工學(xué)院的Gutwirth獎,以表彰她在計(jì)算機(jī)視覺領(lǐng)域取得的杰出成就。
除了以色列外,達(dá)摩院已在新加坡、美國等多個國家與地區(qū)設(shè)立研發(fā)中心與實(shí)驗(yàn)室,并與新加坡南洋理工大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校、清華大學(xué)、浙江大學(xué)、中國科學(xué)院成立多個聯(lián)合研究基地。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。