OpenAI再次投下一顆重磅炸彈。
本月初,曾于去年夏季推出高人氣語言模型GPT-3的OpenAI研究小組再次公布一套名為DALL-E的全新AI模型。雖然它在熱度上不及GPT-3,但卻很可能對AI的未來發(fā)展擁有更加深遠的影響。
簡而言之,DALL-E能夠?qū)⑽谋久枋鲎鳛檩斎耄瑩?jù)此生成原始圖像輸出。(DALL-E這一名稱,源自對超現(xiàn)實主義藝術(shù)家薩爾瓦多·達利及皮克斯工作室創(chuàng)造的可愛機器人形象WALL-E的致敬。)
例如,當輸入“五角形綠色時鐘”、“火球”或者“建筑物墻面上的藍色南瓜壁畫”之后,DALL-E即可生成令人震驚的準確視覺效果。
▲ 在要求生成“建筑物墻面上的藍色南瓜壁畫”后,OpenAI的全新深度學習模型DALL-E能夠生成以上原始圖像
DALL-E為什么意義重大?
首先,它預示著一種所謂“多模AI”的全新AI范式的出現(xiàn)。這種范式似乎代表著人工智能的未來面貌。以DALL-E為例,多模AI系統(tǒng)能夠?qū)Χ喾N信息模式進行解釋、合成與翻譯,由此把情境、語言與圖像映射起來。雖然DALL-E并不是第一套多模AI方案,但卻擁有迄今為止最令人驚嘆的實際效果。
OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever總結(jié)道,“這個世界不僅由文字 構(gòu)成。人類在表達之余,還會訴諸視覺。視覺元素非常重要。”
目前存在的大部分AI系統(tǒng)只能處理一種數(shù)據(jù)類型。以自然語言處理模型(NLP模型,例如GPT-3)只能處理文本;計算機視覺模型(例如人臉識別系統(tǒng))只能處理圖像。但人腦所表現(xiàn)出的智能明顯適應性更強,所能處理的信息也更為靈活。
人類能夠不斷從五種感官處接收并整合信息——我們也正是通過視覺、聽覺、觸覺、嗅覺與味覺的結(jié)合理解周遭世界。以此為基礎(chǔ),我們又以語音、文本、肢體表達、面部表情與音樂等多種形式將信息傳遞回這個豐富多彩的世界。
通過將自然語言理解與視覺表示生成的能力結(jié)合起來(也就是將「閱讀」與「視覺」相結(jié)合),DALL-E再次證明多模AI中蘊藏的巨大潛力。
這還僅僅只是開始。在之后的幾個月乃至幾年中,新的AI系統(tǒng)有望將音頻、視頻、語音、圖像、書面文本、觸覺以及其他要素無縫銜接起來。隨著AI學會以越來越復雜的方式將多種信息結(jié)合起來,其理解世界并產(chǎn)生新穎洞見的能力也將迎來爆發(fā)式增長。
DALL-E還有另一層,或者說更為根本的重要意義:人類越來越無法否認人工智能中蘊含的巨大創(chuàng)造力。
DALL-E生成的圖像遠超人類的想象力范疇。這絕不只是對互聯(lián)網(wǎng)上的現(xiàn)成圖像進行簡單修改——相反,這些是前所未有的效果圖,其中的巧妙性與獨創(chuàng)性足以令藝術(shù)家們?yōu)橹潎@。事實上,就連DALL-E的創(chuàng)造者們往往也理解不了其生成原理。
下面來看DALL-E的幾幅作品。首先是“一碗拉面表情符號”,接下來的一幅是“牛油果組成的企鵝”。如果這些成果來自人類設(shè)計師,我們無疑會將其視為實實在在的創(chuàng)作產(chǎn)物。既然如此,我們還有理由否定或者拒絕DALL-E嗎?
▲ DALL-E根據(jù)“一碗拉面表情符號”輸出的圖像
▲ DALL-E根據(jù)“牛油果組成的企鵝”生成的圖像
憑借這種強大的創(chuàng)造力,DALL-E足以在產(chǎn)品設(shè)計、時尚以及建筑等領(lǐng)域證明AI技術(shù)的現(xiàn)實意義。不久之后,人類設(shè)計師也許會習慣使用DALL-E等AI系統(tǒng)作為構(gòu)思助手甚至是靈感來源。
舉個例子,在要求設(shè)計“甜甜圈風格的扶手椅”時,DALL-E帶來了種種富有構(gòu)圖的選擇。當然,它的設(shè)計與外觀還頗具水準。不難想象,未來一定會有家具設(shè)計師反復使用DALL-E以探索模型輸出,調(diào)整輸入文本進行設(shè)計迭代,最終將AI元素引入自己的作品當中。從汽車到燈具、從珠寶到房屋,類似的創(chuàng)意過程將適用于眾多產(chǎn)品。
▲ DALL-E根據(jù)“甜甜圈風格的扶手椅”生成的輸出圖像
當然,DALL-E還遠非完美,它所生成的圖像也并不總能準確表現(xiàn)輸入文本:例如,它經(jīng)常會在顏色、數(shù)量或空間關(guān)系方面犯錯誤。
OpenAI公開發(fā)布的DALL-E工作示例已經(jīng)由CLIP神經(jīng)網(wǎng)絡(luò)進行排序與篩選。對于每項文本輸入,篩選后系統(tǒng)將僅顯示512個樣本中置信度最高前32個樣本。換句話說,DALL-E實際生成的圖像更多,只是其中大部分效果不佳。
綜上所述,DALL-E的創(chuàng)造能力令人驚訝,而這項技術(shù)本身也仍在快速迭代當中。
與AI技術(shù)的其他重大發(fā)展一樣,DALL-E再次讓我們想起一個古老的問題:機器的智能水平是否越來越接近人類?
一方面,DALL-E的誕生激發(fā)起關(guān)于超級智能技術(shù)的夸張表述。但在另一方面,以著名深度學習評論家Gary Marcus為代表的懷疑論者,則認為DALL-E并沒有給AI技術(shù)的發(fā)展帶來任何切實推動。
Marcus的觀點值得認真對待。深度學習(包括為DALL-E、GPT-3提供基礎(chǔ)的前沿transformer架構(gòu))在智能概念建模方面仍然存在著嚴重的局限性。
但從某種意義上講,這場爭論其實偏離了真正的重點。無論OpenAI的新模型是否代表著邁向“人工通用智能”的下一步,也無論深度學習能否真正帶來與人類擁有同等認知水平的機器智能成果,DALL-E本身仍然具備非凡的新能力——這已經(jīng)成為不爭的事實。
DALL-E及其后續(xù)方案有望在人與機器間的創(chuàng)造關(guān)系中帶來新的可能性,并由此衍生出巨大的經(jīng)濟價值,為新一波創(chuàng)新型初創(chuàng)企業(yè)及產(chǎn)品奠定基礎(chǔ)。
面對無限的可能,我們只需要充滿期待。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術(shù)普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關(guān)系領(lǐng)域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。