CNET科技資訊網(wǎng) 7月28日 北京消息:今天,阿里巴巴的“NASA大腦”iDST(Institute of Data Science Technology)表示,《Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding》入選2017年國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)ICCV,即計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)會(huì)議之一。
這也是阿里巴巴本月內(nèi)第三次公布論文入選國(guó)際頂級(jí)學(xué)術(shù)會(huì)議的好消息。
據(jù)了解,這篇論文涉及的是計(jì)算機(jī)視覺(jué)(Vision)和自然語(yǔ)言處理(Language)兩個(gè)獨(dú)立領(lǐng)域結(jié)合的學(xué)術(shù)研究,提出了對(duì)圖像(或圖像顯著區(qū)域)更為細(xì)致精確的描述,顯示出阿里巴巴在Vision&Language研究方向的持續(xù)挖掘。
該論文通過(guò)創(chuàng)新的多模態(tài)、層次化的遞歸神經(jīng)網(wǎng)絡(luò)(Hierarchical Multimodal LSTM)方法,可以將整個(gè)句子、句子中的短語(yǔ)、整幅圖像及圖像中的顯著區(qū)域同時(shí)嵌入語(yǔ)義空間,并且自動(dòng)學(xué)習(xí)出“句子-圖像”及“短語(yǔ)-圖像區(qū)域”間的對(duì)應(yīng)關(guān)系,生成包含更多形容詞的稠密語(yǔ)義空間,對(duì)圖像或圖像區(qū)域進(jìn)行更詳細(xì)和生動(dòng)的描述。
也就是說(shuō),計(jì)算機(jī)以后不僅能說(shuō)“一只鳥(niǎo)站在樹(shù)枝上”,還能說(shuō)出“一只羽翼未豐的小鳥(niǎo)站在春天抽芽的樹(shù)枝上”、“一只張嘴乞食的小鳥(niǎo)”、“一只小鳥(niǎo)站在抽芽的樹(shù)枝上,撲騰翅膀?qū)W習(xí)飛翔”這樣更為生動(dòng)復(fù)雜的句子。
論文作者介紹,這一研究將被用于“看圖說(shuō)話(huà)(Image Captioning)”任務(wù)及其他頗有意義的應(yīng)用場(chǎng)景。如應(yīng)用于自動(dòng)導(dǎo)盲系統(tǒng),將拍攝的圖像轉(zhuǎn)換成文字和語(yǔ)音,以便提示盲人避障。
此外,還能用于“跨模態(tài)檢索(Cross-media Retrieval)”任務(wù),當(dāng)用戶(hù)在電商搜索引擎中輸入一段描述性文字如“夏季寬松波西米亞大擺沙灘裙”,系統(tǒng)就能為用戶(hù)提供最相關(guān)的商品。
ICCV全稱(chēng)為IEEE International Conference on Computer Vision,與CVPR(計(jì)算機(jī)視覺(jué)模式識(shí)別會(huì)議)和ECCV(歐洲計(jì)算機(jī)視覺(jué)會(huì)議)并稱(chēng)計(jì)算機(jī)視覺(jué)方向的三大頂級(jí)會(huì)議。
在本月早些時(shí)候,阿里巴巴先后發(fā)布三篇論文入選國(guó)際多媒體會(huì)議ACM MM,四篇論文入選國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議CVPR的消息。
今年3月,阿里巴巴宣布啟動(dòng)NASA計(jì)劃,要為未來(lái)20年研發(fā)核心科技。在這一計(jì)劃的號(hào)召下,阿里正在人工智能領(lǐng)域全面發(fā)力,在機(jī)器學(xué)習(xí)、視覺(jué)識(shí)別等領(lǐng)域不斷追趕世界頂尖的學(xué)術(shù)水平。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。