av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

2024-12-12 11:11
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2024-12-12 11:11 ? 周雅

作者|周雅

這邊OpenAI持續(xù)12天的直播連續(xù)劇還沒完結,那邊谷歌已經(jīng)坐不住了開始放大招,火藥味溢出屏幕。

就在北京時間12月11日深夜23:30,谷歌正式發(fā)布Gemini 2.0,標志著其向能夠獨立完成復雜任務的AI系統(tǒng)邁出了雄心勃勃的一步。并且谷歌基于這次版本更新,一次性發(fā)布多個AI Agent(智能體)成果,包括:

用多模態(tài)理解現(xiàn)實世界的智能體「Project Astra」這次升級了技能;發(fā)布Project Mariner,一個建立在 Gemini 2.0之上的新智能體,可以幫忙瀏覽網(wǎng)頁,并處理復雜任務;發(fā)布Jules,一個由 Gemini 2.0驅動的新型編碼智能體,主要面向開發(fā)者;以及發(fā)布一些用于游戲、機器人、深度研究場景的智能體,用實力詮釋什么叫做“要啥有啥”。除了智能體系列霸屏之外,谷歌此次還官宣了第六代TPU——Trillium正式面向客戶開放。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

Google 和 Alphabet 首席執(zhí)行官 Sundar Pichai(桑達爾·皮查伊)在寄語里直言:“Gemini 2.0是谷歌迄今為止最強大的模型,它能夠構建新的AI智能體,從而讓我們離構建通用助手的愿景更進一步。”桑達爾·皮查伊第一時間發(fā)了推文,向開發(fā)者安利這款模型。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

Google 和 Alphabet 首席執(zhí)行官 Sundar Pichai(桑達爾·皮查伊)的社交平臺截圖

不難看出,這次谷歌的強勢出手,都是圍繞一個主軸——AI智能體(Agent)。其實不止谷歌,很多AI巨頭,尤其是以 OpenAI、Anthropic 和谷歌為首,一直是AI智能體的布道者。桑達爾·皮查伊在這次發(fā)布的致辭中,將AI智能體描述為“能夠更多地了解你周圍的世界、提前思考多個步驟、并在你的監(jiān)督下代表你采取行動的模型”。

在這次發(fā)布前夕的媒體溝通會上,Google DeepMind Gemini產(chǎn)品管理總監(jiān)Tulsee Doshi指出:“Google DeepMind研究AI智能體能力已經(jīng)有很長一段時間了,我認為這個特定詞在過去幾個月已經(jīng)有了新的含義。”以Project Astra為例,它的核心原則是擁有眼睛、耳朵和聲音的智能體,可以識別并理解物理世界,并與人交互,幫人做事。

談及背后邏輯,Google DeepMind Project Astra項目產(chǎn)品經(jīng)理徐Bibo Xu在采訪中指出,在技術發(fā)展方向上,谷歌正在平衡兩個關鍵領域:一方面繼續(xù)擴大模型規(guī)模,提升基礎性能;另一方面,加強后期訓練優(yōu)化和推理技術的改進,尤其關注多模態(tài)能力的提升,希望讓AI能更好地理解和處理各類信息。

Google DeepMind團隊透露,明年初將推出Gemini 2.0系列模型的更多版本,大家很快就能見識到Gemini更強大的表現(xiàn)。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

Gemini 2.0:為Agent而生

去年年底,Gemini 1.0問世。Gemini 1.0和1.5是谷歌第一個基于多模態(tài)的模型,它支持多模態(tài)和長上下文,可以理解文本、視頻、圖像、音頻和代碼中的信息,并處理更多信息。

一年后的今天,谷歌發(fā)布 Gemini 2.0 系列模型中的第一個版本:Gemini 2.0 Flash 體驗版。在MMLU-Pro基準測試中,2.0 Flash的速度是1.5 Pro的兩倍。

在功能方面,2.0 Flash 除了能夠支持圖片、視頻和音頻等多模態(tài)輸入,它還可以支持多模態(tài)輸出,例如可以直接生成圖像與文本混合的內(nèi)容,以及原生生成可控的多語言文本轉語音(TTS)音頻。而且,它還可以原生調(diào)用 Google Search、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

谷歌特別強調(diào)了對開發(fā)者的賦能。官網(wǎng)資料里提到,Gemini 2.0 Flash 現(xiàn)在可以通過谷歌的兩款生成式AI產(chǎn)品—— Google AI Studio 和 Vertex AI 中的 Gemini API 獲取,所有開發(fā)者均可使用「多模態(tài)輸入」和「文本輸出」,可使用原生文本轉語音和圖像的生成功能。該產(chǎn)品將于2025年1月份上市,到時候Gemini 2.0將迎來更多版本型號。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

為了幫助開發(fā)者構建動態(tài)和交互式應用程序,谷歌還發(fā)布了最新 Multimodal Live API,它具有實時音頻、視頻流輸入、以及使用多個組合工具的能力。

谷歌強調(diào),在接下來的幾個月里,將把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平臺。開發(fā)人員可以在Gemini Code Assist中注冊使用Gemini 2.0 Flash,以便在流行的ide(如Visual Studio Code、IntelliJ、PyCharm等)中增強編碼輔助功能。

而對于更廣泛的個人用戶,全球的 Gemini 用戶可以通過在電腦端和移動端網(wǎng)頁的模型下拉菜單中進行選擇,來體驗2.0 Flash 體驗版,并且該版本將很快在 Gemini 移動應用中推出。2025年初,谷歌還會將 Gemini 2.0 擴展到更多產(chǎn)品中。

比如,Gemini 2.0 的高級推理能力將融入谷歌搜索中的AI概覽(AI Overviews),以攻克更復雜的主題和多步驟問題,包括高等數(shù)學方程、多模態(tài)查詢和編碼。該功能本周已經(jīng)進行了小范圍測試,明年初將在更大范圍推出。

Agent!Agent!還是Agent!

這次發(fā)布或許最重要的是,谷歌推出了一批基于 Gemini 2.0 架構的原型 AI智能體,展示了在該領域的野心。其中包括:

1、Project Astra大幅升級,用于探索未來通用AI助手能力的研究原型。

Project Astra的首次亮相是在今年5月份的Google I/O 大會上,當時科技行者在現(xiàn)場目睹了那次發(fā)布,在演示視頻中,Project Astra通過手機攝像頭能看見、能識別、能理解物理世界的周圍環(huán)境,還能解答用戶提問并提供即時反饋。當時在現(xiàn)場收獲了一陣掌聲。

而現(xiàn)在,基于 Gemini 2.0 版本的Project Astra,進行了一系列升級,谷歌對此又發(fā)了一支演示視頻。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

看起來,進化后的Project Astra與人交互更自然了,這次的更新具體而言覆蓋了方方面面:

首先,它實現(xiàn)了更流暢的對話。演示視頻中可見,Project Astra可以在多種語言之間進行自然對話,比如法語和泰米爾語,能理解不同口音和生僻單詞。

其次,它能調(diào)用新工具。看起來是通過文本、語音、圖像和視頻回答問題并執(zhí)行任務,并在需要時調(diào)用現(xiàn)有的谷歌應用,如搜索、地圖和攝像頭。“它融合了我們這個時代一些最強大的信息檢索系統(tǒng)。”Bibo Xu在這次媒體溝通會上說道。

第三,它有了更強的記憶力。演示視頻中,Project Astra 能夠記住門禁密碼,并且過了一段時間被問到時,還是能準確回憶起門禁密碼。在整個測試過程中,即使經(jīng)過多個不同場景的對話,Project Astra仍能準確調(diào)取之前存儲的信息。

關于Project Astra的記憶能力,Bibo Xu在媒體溝通會上介紹,Project Astra 擁有兩種記憶能力,一個是「圖形記憶能力」,最多可以記住10分鐘內(nèi)看到的每一個畫面像素;另一個是「對話記憶能力」,最多可以存儲60段歷史對話,并在需要時調(diào)用這些內(nèi)容。

據(jù)悉,谷歌正在將Project Astra的功能植入自家產(chǎn)品中,比如Gemini app、智能眼鏡等。而且即將開放給一批“受信任的測試人員”,測試 Project Astra 在原型智能眼鏡上的表現(xiàn)。

2、除了Project Astra的升級之外,谷歌此次還發(fā)布一個新的智能體Project Mariner。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

Project Mariner能夠理解和推理瀏覽器頁面中的信息(包括像素、文本、代碼、圖像和表單等),然后通過Chrome 擴展程序使用這些信息,為用戶完成復雜任務。

谷歌指出,在 WebVoyager 基準測試(該測試針對智能體在端到端的真實世界網(wǎng)頁任務的性能)中,Project Mariner 作為單個智能體設置實現(xiàn)了 83.5% 的工作效率,達到了最先進的水平。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!


從安全性的角度考慮,谷歌在博客中強調(diào):“正在積極研究新型風險和應對措施,始終保持有人類的參與和監(jiān)督。例如,Project Mariner 只能在瀏覽器上的活動標簽頁中鍵入、滾動或單擊,而它在采取某些敏感操作(如購買某物)之前,會要求用戶進行最終確認。”

3、面向開發(fā)者的編碼智能體Jules。

谷歌這次發(fā)布的另一個新智能體,是專門面向開發(fā)者的編碼智能體Jules,它可以直接集成到 GitHub 工作流程中來協(xié)助開發(fā)者工作。

對于開發(fā)者來說,比寫代碼更頭疼的可能是找bug,而現(xiàn)在,可以將Python和Javascript編碼任務交給Jules,Jules可以處理bug修復和其他耗時的任務,它可以有效修改多個文件,甚至拉取請求來直接將修復返回到GitHub,那么開發(fā)者就可以專注于其他任務。

4、更多“智能體們”,用于游戲、機器人、研究等更多領域。

除了上述“叫得上名字的”智能體之外,谷歌這次還演示了一些內(nèi)置在Gemini 2.0的“智能體們”,用于游戲、機器人、研究等更多領域。

“Google DeepMind 一直以來都在利用游戲幫助AI模型更好地遵守規(guī)則、進行規(guī)劃、并運用邏輯思維。”谷歌在官網(wǎng)資料里指出。比如在上周,谷歌推出了Genie 2,一個可以從單個圖像創(chuàng)建無限多種可玩 3D 世界的 AI 模型。

而這次,谷歌基于Gemini 2.0 構建了一些智能體,專門用于游戲場景。演示視頻中可見,該智能體可以根據(jù)屏幕上的實時畫面,分析游戲情況,并提供下一步操作建議;此外,當被用戶問到游戲知識時,它還能調(diào)用搜索,檢索到相關知識并給出建議。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

為了進一步探索智能體在游戲領域的應用,谷歌正在與Supercell等游戲開發(fā)團隊合作,通過測試它們在《部落沖突》、《海島奇兵》等各種游戲中的表現(xiàn),來評估智能體們理解游戲規(guī)則、應對挑戰(zhàn)的能力。

除了探索虛擬世界的智能體能力外,谷歌還將 Gemini 2.0 的空間推理能力應用于機器人領域,嘗試讓智能體在現(xiàn)實世界中提供幫助。不過谷歌方面指出,這項研究仍處于初期階段。

此外,谷歌在 Gemini Advanced 中還引入了一項名為“深度研究(Deep Research)”的新代理功能,這是一個研究助手,可以深入研究復雜主題并為創(chuàng)建包含相關來源鏈接的報告。該功能自今日起對 Gemini Advanced 用戶開放。

“思維鏈是我們思考如何構建模型的重要組成部分。”Tulsee Doshi在媒體采訪中指出,比如AlphaCode和AlphaProof,這些都是能夠展示深度思維和推理時間的真正強大模型,它們能夠在代碼和數(shù)學方面提升性能。

值得一提的是,谷歌這次依然特別強調(diào)了安全與責任的重要性,為此制定了“負責任的AI”原則,在數(shù)據(jù)處理、模型訓練等各個環(huán)節(jié)都實施了嚴格的安全把關。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

谷歌在對外發(fā)布資料里強調(diào)了秉持“負責任的AI”原則

Gemini 2.0背后的功臣:第六代Trillium

如此密集的AI智能體們,以及承載這些智能體的AI大模型們,給硬件基礎設施帶來了特殊挑戰(zhàn)。因為這些模型需要巨大的計算能力和專門的硬件來有效地處理訓練、微調(diào)和推理。

十多年前,谷歌開始開發(fā)定制的人工智能加速器——張量處理單元(TPU),它集成了軟硬件、機器學習框架、以及大模型,以滿足人工智能工作負載不斷增長的需求,為多模態(tài)人工智能鋪平道路。

桑達爾·皮查伊在寄語里把Gemini 2.0的進展一部分歸功于TPU。他寫道:“Gemini 2.0 的進展得益于我們所特有的長達 10 年全棧式 AI 創(chuàng)新研究的投入,它基于我們定制的硬件第六代 TPU Trillium 構建而成。TPU 為 Gemini 2.0 的訓練和推理提供 100% 算力支持。”谷歌第六代TPU Trillium發(fā)布于今年5月份的Google I/O大會上。

而現(xiàn)在,谷歌宣布第六代 TPU Trillium正式面向客戶開放。

相比于上一代,第六代Trillium訓練成績提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,每個芯片的峰值計算性能提高了4.7倍,HBM (High Bandwidth Memory)容量翻倍,ICI (Interchip Interconnect)帶寬增加一倍。

谷歌Cloud計算與人工智能基礎設施副總裁Mark Lohmeyer在官方資料里指出,這些增強功能使Trillium能夠在廣泛的人工智能工作負載中脫穎而出,包括:擴展AI訓練工作量、培訓法學碩士包括密集和混合專家(MoE)模型、推理性能和集合調(diào)度、Embedding-intensive模型、提供培訓和推理性價比等。

OpenAI持續(xù)12天發(fā)布會過半,谷歌深夜截胡式炸場:Gemini 2.0來了,一切為了Agent!

谷歌第六代 TPU Trillium

結合這次整場發(fā)布可以看出,谷歌正在努力平衡AI的加度和深度思考能力,希望找到一個既能快速響應、又能進行深度推理的平衡點,目標是將這些先進技術以最實用的方式帶給用戶和產(chǎn)業(yè)。這個過程雖然充滿挑戰(zhàn),但也充滿希望。

就像桑達爾·皮查伊在寄語里寫道:“信息是人類進步的基石。26 年來,我們始終專注于我們的使命——整合全球信息,供大眾使用,讓人人受益。這也是我們持續(xù)拓展人工智能前沿領域的原因。我們整合來自世界各地的信息,并通過多樣化的輸出方式,讓這些信息觸手可及,真正為你所用。”

分享至
2贊

好文章,需要你的鼓勵

周雅

Miranda
關注科技創(chuàng)新、技術投資。以文會友,左手硬核科技,右手浪漫主義。
推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-