作者|周雅
有AI的地方,就是一個江湖。
還是那個圓形劇場(Shoreline Amphitheatre),五月的氣候嗖嗖灌著穿堂風(fēng),但現(xiàn)場氣氛絲毫未受到影響。
反倒是因為在24小時之前,OpenAI帶著GPT-4o來了場截胡式官宣,把谷歌的這場I/O架在一個非常尷尬的位置,此刻大家似乎都在等著看谷歌“閣下又該如何應(yīng)對”。
于是谷歌用了整場兩小時的時間,來了場特種兵式的發(fā)布,一次性回應(yīng)所有的聲音。
如果用一個詞形容今年的I/O,那一定是「全」,你能想到的幾乎所有AI場景,谷歌這次都有涉及到:
從基礎(chǔ)模型Gemini的性能增強(包括輕量級模型Gemini 1.5 Flash、200萬tokens超長上下文的Gemini 1.5 Pro);到開源模型Gemma的進展(劇透下一代開源模型Gemma 2);到支持超過1分鐘、1080P的視頻生成模型Veo;與ChatGPT-4o一樣“長了眼和嘴”的擁有視覺語音交互功能的Gemini Live;還有文生圖模型imagen 3;AI音樂創(chuàng)作工具Music AI Sandbox;以及向其他AI Agent貼臉開大的Project Astra。
這么全,又這么多首發(fā),很難不讓人猜想,谷歌難道一直在憋大招?
留意到此前Madrona Venture Group合伙人、Amazon Web Services前人工智能高管Jon Turow說,谷歌這次的發(fā)布時間表較慢是可以理解的,因為谷歌 "比其他公司(如OpenAI)承擔(dān)更大的責(zé)任",谷歌是在自家有著數(shù)十億用戶的現(xiàn)有業(yè)務(wù)上做文章,不是從零開始,所以更慎重。“當(dāng)一個產(chǎn)品達到其他公司(如OpenAI)可以發(fā)布的標準時,谷歌也不能草率地發(fā)布。"
總之,“AI全家桶”這個名號,谷歌這次實至名歸。
Gemini的完全形態(tài):多模態(tài)、長上下文、AI Agent
當(dāng)谷歌CEO桑達爾·皮查伊上臺,好戲正式開始。
谷歌CEO桑達爾·皮查伊(Sundar Pichai)
“Gemini”“Gemini”“Gemini”這恐怕是整場出現(xiàn)頻率最高的詞,作為谷歌目前最核心的基礎(chǔ)模型,Gemini盡顯谷歌在AI時代的野心。
1年前,Gemini問世時谷歌對它定位就很明確:多模態(tài)模型。在那之后,Gemini就朝著該定位,開始火速迭代。去年12月,谷歌推出Gemini 1.0,共有三個版本:Ultra、Pro 和 Nano。兩個月后,谷歌又推出Gemini 1.5 Pro,有了更強的性能、100萬token的長上下文。
“谷歌正式邁向Gemini時代(Google is fully in Gemini era)”,皮查伊直奔主題說:
目前有超過150萬開發(fā)者在工具中使用Gemini,有20億用戶產(chǎn)品在使用Gemini,而谷歌推出安卓和iOS上可用的Gemini Advanced在發(fā)布三個月后就已經(jīng)收獲超過100萬用戶。
此外,Gemini 1.5 Pro還從原本的100萬token升級到200萬token,這意味著能處理1500頁PDF、3萬行代碼、或1小時視頻文件,即日起Gemini 1.5 Pro將通過Gemini Advanced向全球150多個國家的用戶正式推送,且支持35種語言。
Gemini 1.5的 200 萬token能力橫評對比
而在現(xiàn)場,Gemini又有更新:谷歌發(fā)布針對端側(cè)的模型Gemini 1.5 flash,同樣有100萬和200萬token版本。相比此前的Gemini 1.5 Pro,該模型的特點是輕量級:更快速高效、多通道推理、長上下文。
價格方面,Gemini 1.5 Pro為7美元/100萬tokens,對于128k以下的輸入,將降價50%至3.5美元/100萬tokens,比 OpenAI 的 GPT-4o 便宜約 30%;Gemini 1.5 Flash的價格為0.35美元/100萬tokens,比OpenAI的任何大模型都便宜。
除了Gemini本身的更新之外,更重要的是,谷歌把Gemini植入到所有產(chǎn)品中,包括搜索、地圖、照片、Workspace、安卓等等。
· 搜索大不同
作為搜索巨頭,要想讓Gemini成長,谷歌自然不會放過搜索這個現(xiàn)成的數(shù)據(jù)庫,所以,你現(xiàn)在在谷歌的每一次搜索,背后都有Gemini在工作。這個功能被稱為「AI Overview(AI概述)」,是指AI會根據(jù)你的搜索,給出最佳答案,提升搜索體驗。
相比傳統(tǒng)的搜索引擎,AI Overviews功能將為用戶呈現(xiàn)出包括觀點、見解、鏈接的完整答案。谷歌強調(diào)其三大獨特優(yōu)勢:實時信息、排名和質(zhì)量體系、Gemini能力。谷歌引入多步推理功能(Multi-step reasoning),把大問題一步步分解,并按優(yōu)先順序提供。
例如,用戶想找一個合適的普拉提工作室,需要考慮時間、價格、距離等因素,就可以在谷歌搜索輸入:“在波士頓找到最好的瑜伽工作室,并顯示優(yōu)惠詳情,以及從我家過去的步行時間”。最終,谷歌搜索將提煉整合出信息,并呈現(xiàn)在AI Overviews中,為用戶節(jié)省時間。
· 今夏上線的Ask Photos
當(dāng)然,不僅谷歌搜索有Gemini,照片搜索中也有Gemini。皮查伊現(xiàn)場演示了Gemini在Google Photos(谷歌相冊)里如何整活兒,比如你在停車場給車拍了照之后,找不到車停哪兒時,可以直接問 Gemini “我的車在哪”,它就能幫你自動識別相關(guān)照片中的信息,告訴你車的具體位置。
這個功能被稱為「Ask Photos」,將于今年夏天正式發(fā)布。
而正是因為Gemini的多模態(tài)和“長”上下文,Ask Photos不僅能搜索照片,甚至能理解搜出來的內(nèi)容。比如,你在回憶女兒Lucia的高光時刻,可以直接問Gemini:“Lucia是啥時候?qū)W會游泳的?”甚至問更復(fù)雜的問題:“Lucia的游泳進步了奪少?”
在這背后,Gemini可以根據(jù)“Lucia在游泳池里游泳,到在海洋里浮潛,再到游泳證書上的文字和日期”一系列內(nèi)容,最后告訴你答案。
這一切,都是因為Gemini的兩大能力——多模態(tài)+長上下文。“多模態(tài)可以解鎖更多知識,并輸出更多答案。而長上下文就能輸入更多信息:數(shù)百頁的文本,數(shù)小時的音頻,1小時的視頻,完整的代碼庫……甚至,如果你愿意,引入96個Cheesecake Factory菜單(編者注:美國的芝樂坊餐廳)也不是不可以。”皮查伊開玩笑說。
有了上述倆特長,Gemini也被植入到谷歌的辦公套件中。包括在Google Meet中生成會議紀要,在Gmail的所有郵件中提取關(guān)鍵信息,自動整理郵件中的表格,甚至生成一張數(shù)據(jù)分析表格。
當(dāng)然,僅僅是多模態(tài)+長上下文還不夠,谷歌為Gemini注入了最后一股力量:AI Agent(AI智能體)。
皮查伊舉了一個“網(wǎng)購”的例子。買鞋是件很有趣的事,但是當(dāng)鞋子不合腳的時候,退貨就沒那么有趣了。而因為有了AI智能體,Gemini可以替你完成所有的退貨步驟:在收件箱里搜索收據(jù)-從購買記錄里找訂單號-填退貨單-安排快遞上門取貨,一氣呵成。
至此,Gemini的終極形態(tài)初現(xiàn)——多模態(tài)、長上下文、AI Agent。
Project Astra扛大旗:看似Agent,實則通向AGI
第二位上場的嘉賓,作為AI界大神級的人物,Google DeepMind創(chuàng)始人Demis Hassabis首次出現(xiàn)在I/O的舞臺上,收獲了臺下陣陣掌聲。
Google DeepMind創(chuàng)始人Demis Hassabis
自從被谷歌收購之后,DeepMind早已成為谷歌的左膀右臂。去年,Google DeepMind實驗室成立,將兩家公司的AI人才整合,也收獲了不少成績,比如上周問世的用于預(yù)測幾乎所有生物分子結(jié)構(gòu)和相互作用的AlphaFold 3就是其中之一。
與現(xiàn)場高漲氣氛相呼應(yīng)的,Demis Hassabis的發(fā)布也相當(dāng)轟動,其中就包括一個AI Agent(AI智能體)新項目——Project Astra。
從現(xiàn)場的演示視頻來看,其中的一幕是,演示者拿著手機,讓AI實時收集周邊環(huán)境信息,然后在辦公室轉(zhuǎn)了一圈突然問:“你記得我的眼鏡在哪里嗎?”只見它立刻回答:“記得,在桌子上的紅蘋果旁邊。”
要知道,在實際場景中,哪怕兩個人類對話,也可能會忽略這些細節(jié),但演示中的AI卻精準捕捉到了眼鏡的位置。這種強大的通用語言與環(huán)境理解能力,瞬間讓現(xiàn)場響起雷鳴掌聲。
Hassabis特別提到,這些演示并非“僅供參考”的演示效果,都是在一次性拍攝中實時捕捉。他坦言,其中最受挑戰(zhàn)的是“將響應(yīng)時間縮短為對話式的內(nèi)容”,為此,DeepMind在Gemini的基礎(chǔ)上開發(fā)了原型Agent,通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中并緩存,以確保能快速有效調(diào)用,從而更快地處理信息。
“過去幾年里,我們一直在改進模型的感知、推理和對話方式,使交互的速度和質(zhì)量更自然。”Hassabis說,有了Astra項目,大家未來可以在手機或眼鏡上擁有專業(yè)的AI助手。
伴隨著Astra的發(fā)布,Hassabis也強調(diào)了他們的最終目的——AGI。“計算機能像人一樣思考,這件事從小就讓我著迷,這也是我研究神經(jīng)科學(xué)的原因,2010年我創(chuàng)辦DeepMind時,終極目標就是AGI,我相信如果負責(zé)任地開發(fā)這項技術(shù),它對人類的影響將會是無比深遠的。”
當(dāng)然,除了對AGI的探索之外,谷歌還介紹了在多模態(tài)領(lǐng)域的新進展,從圖像、到音頻、到視頻這三個主要內(nèi)容源全面出擊:包括能夠生成超過1分鐘、1080P 的視頻生成模型Voe、文生圖模型Imagen 3、以及面向?qū)I(yè)音樂創(chuàng)作者的AI音樂創(chuàng)作工具 Music AI Sandbox。
由谷歌的文生圖模型Imagen 3生成
從Voe的演示視頻來看,它能理解很多電影術(shù)語,如“延時”“景觀航拍”“時光倒流(Timelapse)”。谷歌指出,Veo 建立在多年的生成視頻模型的基礎(chǔ)上,包括生成查詢網(wǎng)絡(luò)(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere,以及Transformer 架構(gòu)和Gemini。未來,谷歌還將把Veo的一些功能引入YouTube Shorts和其他產(chǎn)品。
而在AI音樂創(chuàng)作方面,谷歌通過Music AI Sandbox跟音樂家合作,音樂家可以把一段哼唱或彈奏的靈感片段發(fā)給AI,AI生成一首歌或旋律。
有“軟”也有“硬”
作為專門面向開發(fā)者的I/O,除了軟件的密集發(fā)布之外,硬件的同步更新也一直是I/O的保留項目。
這次,谷歌發(fā)布了第六代 TPU 硬件Trilium,計算能力相比前代提升 4.7 倍,預(yù)計將在 2024 年底面向用戶推出,谷歌這次發(fā)布的Veo、Imagen 3、Gemini 1.5 Pro 等幾乎所有產(chǎn)品,都是基于這款新硬件。
十多年前,谷歌就意識到,需要一款用于機器學(xué)習(xí)的芯片。2013年,谷歌開始開發(fā)世界上第一款專用AI加速器TPU v1,隨后在2017年推出了第一個云TPU。如果沒有TPU,谷歌大量的服務(wù)(如實時語音搜索、照片對象識別、交互式語言翻譯),以及最先進的基礎(chǔ)模型(如Gemini、Imagen和Gemma)將不可能實現(xiàn)。
當(dāng)然,除了硬件,安卓系統(tǒng)也不能忽略,尤其是 Gemini 的融入,是否會讓安卓系統(tǒng)煥然一新?
這次 Gemini 在 Android 上的最新進展是——Gemini Live,主打一個用文本、語音或影像等多模態(tài)的交互體驗,在實際對話過程中,你甚至可以像與真人對話一樣,通過打斷對話、提出新問題的方式來更高效的溝通。并且,谷歌透露,基于 Project Astra 實現(xiàn)的攝像視頻識別功能也將在今年年內(nèi)發(fā)布,所以用戶可以打開攝像頭,讓AI看見周圍的世界并做出實時響應(yīng)。
在演講接近尾聲時,皮查伊提到此前I/O玩過的一個舊梗:“今天肯定有人數(shù),我說了多少次AI?”。
“不用數(shù)了,因為Gemini數(shù)完了。”他接著說。
然后大屏幕顯示120次。
“我竟然說了這么多次AI。”皮查伊笑道。
在皮查伊說出這句話的同時,屏幕上的數(shù)字變成了 121。
現(xiàn)場笑聲一片。
整場圍觀下來,此次I/O密集的發(fā)布,與其被網(wǎng)傳的說是競爭壓力下的緊迫感,不如看成是面向AI變革下的一種隨時準備好的從容。
在這場活動結(jié)束的數(shù)小時后,谷歌玩了個“AI點評AI”:
谷歌用剛剛發(fā)布的Astra,解說此前OpenAI發(fā)布會上現(xiàn)場演示的ChatGPT-4o。(也就是用谷歌的AI去評判OpenAI的AI)
從視頻來看,效果拉滿。Astra站在上帝視角,作為觀察者,準確解讀了被觀察者ChatGPT-4o的動作,預(yù)判后者行動。
最有意思的來了,當(dāng)01分02秒時,Astra提前解出方程,然后說,“讓我們看ChatGPT-4o能不能算出來”(帶著傲嬌氣),不過,接下來在02分20秒時,Astra又開啟了夸夸模式,把氣氛拉了回來。
看完之后,一句話出現(xiàn)在我的腦海里:
“人類總是互相競爭,但AIs help AIs?”
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友,左手硬核科技,右手浪漫主義。