av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

首頁(yè)
對(duì)話(huà)創(chuàng)新
對(duì)話(huà)科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

香港中文大學(xué)和字節(jié)跳動(dòng)聯(lián)合發(fā)布：用一個(gè)神奇的"翻譯器"讓AI同時(shí)看懂和畫(huà)出圖片

視覺(jué)理解與生成多模態(tài)大語(yǔ)言模型統(tǒng)一表示學(xué)習(xí)

香港中文大學(xué)和字節(jié)跳動(dòng)聯(lián)合發(fā)布：用一個(gè)神奇的"翻譯器"讓AI同時(shí)看懂和畫(huà)出圖片

作者：科技行者

2025-06-26 12:52

分享至：

香港中文大學(xué)和字節(jié)跳動(dòng)聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出名為T(mén)ar的統(tǒng)一多模態(tài)框架，通過(guò)文本對(duì)齊分詞器（TA-Tok）創(chuàng)建共享的離散語(yǔ)義表示空間，讓AI能用同一種"語(yǔ)言"處理圖像理解和生成任務(wù)。該技術(shù)在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，為多模態(tài)AI發(fā)展提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-26 12:52 ? 科技行者

這項(xiàng)由香港中文大學(xué)多媒體實(shí)驗(yàn)室的韓佳明和字節(jié)跳動(dòng)種子實(shí)驗(yàn)室的陳昊領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)表于2025年6月的arXiv預(yù)印本服務(wù)器，有興趣深入了解的讀者可以通過(guò)https://tar.csuhan.com訪(fǎng)問(wèn)完整論文和相關(guān)代碼。

在人工智能的世界里，一直存在著一個(gè)有趣的現(xiàn)象。當(dāng)我們要求AI看懂一張圖片時(shí)，它需要用一種方式來(lái)理解圖像；而當(dāng)我們要求它畫(huà)出一張圖片時(shí)，它又需要用另一種完全不同的方式來(lái)生成圖像。這就像是一個(gè)人在理解漢語(yǔ)時(shí)用漢語(yǔ)思維，但在說(shuō)英語(yǔ)時(shí)卻必須切換到英語(yǔ)思維一樣，顯得既復(fù)雜又低效。

研究團(tuán)隊(duì)把這個(gè)問(wèn)題想象成了一個(gè)有趣的比喻：如果把視覺(jué)理解和圖像生成看作是兩種不同的"方言"，那么能不能找到一種通用的"普通話(huà)"讓AI在處理這兩種任務(wù)時(shí)都能流利交流呢？他們的答案是開(kāi)發(fā)一種叫做"文本對(duì)齊表示"（Text-aligned representation，簡(jiǎn)稱(chēng)Tar）的方法，就像是給AI裝上了一個(gè)萬(wàn)能翻譯器。

這個(gè)研究的核心創(chuàng)新在于設(shè)計(jì)了一個(gè)名為"文本對(duì)齊分詞器"（TA-Tok）的系統(tǒng)。如果把傳統(tǒng)的AI處理圖像比作兩個(gè)不同的廚師，一個(gè)專(zhuān)門(mén)品嘗食物（理解圖像），另一個(gè)專(zhuān)門(mén)制作食物（生成圖像），那么TA-Tok就像是一本通用的菜譜，讓同一個(gè)廚師既能品嘗出食物的精妙，又能按照同樣的標(biāo)準(zhǔn)制作出美味佳肴。

研究團(tuán)隊(duì)面臨的第一個(gè)挑戰(zhàn)是如何讓AI用同一種"語(yǔ)言"來(lái)處理看圖和畫(huà)圖這兩個(gè)看似截然不同的任務(wù)。傳統(tǒng)方法就像是讓一個(gè)翻譯官在中文和英文之間反復(fù)切換，不僅效率低下，還容易出錯(cuò)。他們的解決方案是創(chuàng)建一個(gè)基于大語(yǔ)言模型詞匯表的統(tǒng)一表示空間，這就像是建立了一個(gè)所有語(yǔ)言都能理解的通用符號(hào)系統(tǒng)。

具體來(lái)說(shuō)，TA-Tok的工作原理可以這樣理解：當(dāng)你給它一張照片時(shí)，它首先用一個(gè)叫做SigLIP2的視覺(jué)編碼器將圖像轉(zhuǎn)換成連續(xù)的特征表示，就像是把一幅畫(huà)描述成一系列詳細(xì)的文字。然后，這些描述會(huì)通過(guò)一個(gè)"規(guī)模自適應(yīng)池化"的過(guò)程進(jìn)行調(diào)整，這個(gè)過(guò)程就像是用不同的放大鏡來(lái)觀察同一個(gè)物體，可以選擇看大致輪廓還是精細(xì)細(xì)節(jié)。

接下來(lái)是最關(guān)鍵的步驟：文本對(duì)齊編碼本的運(yùn)用。研究團(tuán)隊(duì)沒(méi)有使用隨機(jī)初始化的編碼本，而是直接借用了大語(yǔ)言模型中已經(jīng)訓(xùn)練好的詞匯嵌入。這就像是不重新發(fā)明輪子，而是直接使用已經(jīng)成熟的零件來(lái)組裝新機(jī)器。他們從Qwen2.5語(yǔ)言模型的15萬(wàn)個(gè)詞匯中精選出6萬(wàn)5千個(gè)最具代表性的詞嵌入，然后通過(guò)一個(gè)可學(xué)習(xí)的投影矩陣將視覺(jué)特征映射到這些詞嵌入空間中。

這種設(shè)計(jì)帶來(lái)了一個(gè)巧妙的效果：圖像中的每個(gè)部分都能用語(yǔ)言模型能夠理解的"詞匯"來(lái)表示，這樣AI在處理圖像時(shí)就能像處理文字一樣自然流暢。研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)規(guī)模自適應(yīng)解碼器來(lái)確保這個(gè)轉(zhuǎn)換過(guò)程的準(zhǔn)確性，它會(huì)重建出原始的視覺(jué)特征，并與教師模型的輸出進(jìn)行對(duì)比，確保信息沒(méi)有丟失。

為了解決從這些語(yǔ)義詞匯回到真實(shí)圖像的問(wèn)題，研究團(tuán)隊(duì)開(kāi)發(fā)了兩種互補(bǔ)的"生成式去分詞器"。第一種是自回歸去分詞器，它的工作方式就像是一個(gè)畫(huà)家按照既定順序一筆一劃地繪制圖像，每一筆都基于前面已經(jīng)畫(huà)好的內(nèi)容。這種方法的優(yōu)點(diǎn)是速度快，且與語(yǔ)言模型的工作方式完全一致。

第二種是擴(kuò)散去分詞器，它的工作原理更像是先在畫(huà)布上鋪一層噪聲，然后逐漸去除噪聲來(lái)顯現(xiàn)出最終的圖像。這種方法的優(yōu)勢(shì)在于能夠利用現(xiàn)有的強(qiáng)大擴(kuò)散模型，只需要簡(jiǎn)單地將原本的文本條件替換為T(mén)A-Tok生成的視覺(jué)詞匯即可。雖然這種方法在推理時(shí)需要更多計(jì)算資源，但它能夠生成質(zhì)量極高的圖像，特別適合處理復(fù)雜場(chǎng)景。

研究團(tuán)隊(duì)在統(tǒng)一多模態(tài)建模方面也有重要?jiǎng)?chuàng)新。他們將文本和圖像都表示為共享詞匯表中的離散標(biāo)記，通過(guò)擴(kuò)展語(yǔ)言模型的文本嵌入矩陣來(lái)包含視覺(jué)標(biāo)記集合。這個(gè)過(guò)程就像是在原有的字典中添加新的詞匯條目，讓AI能夠在同一個(gè)"語(yǔ)言"框架內(nèi)理解和生成不同類(lèi)型的內(nèi)容。

特別值得注意的是，研究團(tuán)隊(duì)在預(yù)訓(xùn)練階段引入了兩種新的任務(wù)類(lèi)型：圖像到圖像生成和文本圖像到圖像生成。第一種任務(wù)讓AI學(xué)會(huì)根據(jù)一張圖像生成類(lèi)似的圖像，這就像是讓畫(huà)家學(xué)會(huì)臨摹和風(fēng)格遷移。第二種任務(wù)更加復(fù)雜，它要求AI同時(shí)理解文本描述和參考圖像，然后生成符合要求的新圖像，這就像是給畫(huà)家一個(gè)詳細(xì)的委托和一張參考圖片，讓他創(chuàng)作出既符合要求又保持風(fēng)格一致的作品。

在數(shù)據(jù)準(zhǔn)備方面，研究團(tuán)隊(duì)采用了一個(gè)高效的合成數(shù)據(jù)生成流程。他們首先使用Qwen2.5-VL模型為各種圖像數(shù)據(jù)集生成豐富詳細(xì)的描述，然后使用FLUX模型根據(jù)這些描述生成高質(zhì)量的圖像。這個(gè)過(guò)程就像是先讓一個(gè)文學(xué)家描述畫(huà)作，然后讓另一個(gè)畫(huà)家根據(jù)這些描述重新創(chuàng)作，最終獲得了2300萬(wàn)個(gè)高質(zhì)量的文本-圖像對(duì)用于訓(xùn)練。

研究結(jié)果顯示，Tar模型在各種視覺(jué)理解和生成任務(wù)上都取得了令人矚目的表現(xiàn)。在視覺(jué)理解方面，1.5B參數(shù)的Tar模型超越了大多數(shù)同規(guī)模的理解專(zhuān)用模型和統(tǒng)一模型，7B參數(shù)的模型更是達(dá)到了與Janus-Pro-7B相當(dāng)?shù)男阅芩?。這證明了使用完全離散的語(yǔ)義表示進(jìn)行統(tǒng)一建模的可行性。

在視覺(jué)生成方面，Tar在GenEval和DPG Bench兩個(gè)基準(zhǔn)測(cè)試中都表現(xiàn)出色。特別是在GenEval測(cè)試中，Tar-7B達(dá)到了0.84的總體得分，在DPG Bench中也取得了84.19的優(yōu)異成績(jī)。研究團(tuán)隊(duì)還開(kāi)發(fā)了一種"自我反思"策略，利用模型自身的視覺(jué)理解能力來(lái)評(píng)估生成圖像與文本提示的匹配度，進(jìn)一步提升了生成質(zhì)量。

為了驗(yàn)證設(shè)計(jì)選擇的有效性，研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們比較了文本對(duì)齊表示與其他幾種視覺(jué)表示方法，包括傳統(tǒng)的VQVAE、Janus風(fēng)格的分離表示和混合表示。結(jié)果顯示，文本對(duì)齊表示在視覺(jué)生成任務(wù)上明顯優(yōu)于其他方法，同時(shí)在理解任務(wù)上也能保持競(jìng)爭(zhēng)力。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，使用文本對(duì)齊編碼本初始化多模態(tài)語(yǔ)言模型的視覺(jué)嵌入比隨機(jī)初始化效果更好，這驗(yàn)證了他們?cè)O(shè)計(jì)思路的正確性。此外，規(guī)模自適應(yīng)池化的設(shè)計(jì)讓模型能夠根據(jù)不同任務(wù)的需求靈活調(diào)整視覺(jué)細(xì)節(jié)的粒度，這在實(shí)際應(yīng)用中非常有價(jià)值。

在技術(shù)實(shí)現(xiàn)層面，研究團(tuán)隊(duì)使用siglip2-so400m-patch14-384作為視覺(jué)編碼器，采用三層ViT結(jié)構(gòu)作為解碼器。他們從Qwen2.5的詞匯表中選擇了65536個(gè)標(biāo)記作為文本對(duì)齊編碼本的基礎(chǔ)。對(duì)于不同分辨率的圖像，系統(tǒng)可以生成不同數(shù)量的標(biāo)記：384×384的圖像在不同尺度下可以生成729、169或81個(gè)標(biāo)記。

自回歸去分詞器采用LLaMA架構(gòu)實(shí)現(xiàn)，從頭開(kāi)始訓(xùn)練。研究團(tuán)隊(duì)首先在256像素分辨率上訓(xùn)練基礎(chǔ)模型，然后逐步微調(diào)到512像素和1024像素。擴(kuò)散去分詞器則基于預(yù)訓(xùn)練的SANA-0.6B模型，只需要微調(diào)交叉注意力和條件嵌入層即可。

在訓(xùn)練數(shù)據(jù)方面，TA-Tok使用了來(lái)自L(fǎng)AION的2億張圖像進(jìn)行訓(xùn)練，其中包括1億張?jiān)季W(wǎng)絡(luò)圖像和1億張美學(xué)過(guò)濾圖像，以平衡模型在通用圖像理解和高質(zhì)量圖像生成方面的能力。自回歸去分詞器使用5000萬(wàn)張美學(xué)圖像和2300萬(wàn)張合成圖像進(jìn)行訓(xùn)練，而擴(kuò)散去分詞器主要在2300萬(wàn)張合成圖像上進(jìn)行微調(diào)。

多模態(tài)語(yǔ)言模型的預(yù)訓(xùn)練采用了多種數(shù)據(jù)類(lèi)型的混合，包括標(biāo)準(zhǔn)的圖像到文本、文本到圖像任務(wù)，以及新提出的圖像到圖像和文本圖像到圖像任務(wù)。在監(jiān)督微調(diào)階段，研究團(tuán)隊(duì)使用了來(lái)自L(fǎng)LaVA系列的指令調(diào)優(yōu)數(shù)據(jù)集，以及從預(yù)訓(xùn)練數(shù)據(jù)中篩選出的高質(zhì)量子集。

通過(guò)詳細(xì)的消融實(shí)驗(yàn)，研究團(tuán)隊(duì)驗(yàn)證了各個(gè)設(shè)計(jì)組件的重要性。他們發(fā)現(xiàn)，相比傳統(tǒng)的隨機(jī)初始化編碼本，文本對(duì)齊編碼本在理解任務(wù)上帶來(lái)了顯著提升，在生成任務(wù)上也保持了競(jìng)爭(zhēng)力。規(guī)模自適應(yīng)池化讓模型能夠在效率和細(xì)節(jié)之間找到最佳平衡點(diǎn)，而兩種去分詞器的組合則提供了速度和質(zhì)量之間的靈活選擇。

研究還揭示了一個(gè)有趣的現(xiàn)象：當(dāng)使用共享表示進(jìn)行聯(lián)合訓(xùn)練時(shí)，視覺(jué)理解和生成任務(wù)能夠相互促進(jìn)。這與一些使用分離表示的方法形成鮮明對(duì)比，后者在聯(lián)合訓(xùn)練時(shí)往往無(wú)法獲得這種互益效果。這進(jìn)一步證明了統(tǒng)一表示方法的優(yōu)勢(shì)。

值得一提的是，通過(guò)引入新的預(yù)訓(xùn)練任務(wù)，Tar模型展現(xiàn)出了一些令人驚喜的涌現(xiàn)能力，比如主體驅(qū)動(dòng)生成和基于參考的風(fēng)格遷移。這些能力讓模型能夠理解和操作圖像中的語(yǔ)義概念，為未來(lái)的應(yīng)用開(kāi)辟了新的可能性。

在實(shí)際應(yīng)用中，Tar模型的靈活性體現(xiàn)在多個(gè)方面。它可以根據(jù)計(jì)算預(yù)算和質(zhì)量要求選擇不同的配置：使用較少的視覺(jué)標(biāo)記以獲得更快的推理速度，或使用更多標(biāo)記以獲得更精細(xì)的細(xì)節(jié)。兩種去分詞器的存在也為不同應(yīng)用場(chǎng)景提供了選擇：自回歸版本適合需要快速響應(yīng)的應(yīng)用，而擴(kuò)散版本則適合對(duì)圖像質(zhì)量有更高要求的場(chǎng)景。

研究團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)有趣的"自我反思"機(jī)制，讓模型能夠評(píng)估自己生成的圖像質(zhì)量。這個(gè)機(jī)制利用了統(tǒng)一模型既能理解又能生成圖像的特性，讓AI能夠像人類(lèi)藝術(shù)家一樣審視自己的作品并進(jìn)行改進(jìn)。這種能力在提升生成質(zhì)量的同時(shí)，也為模型的自我改進(jìn)提供了新的途徑。

在模型的可擴(kuò)展性方面，研究結(jié)果表明，隨著訓(xùn)練數(shù)據(jù)量的增加，文本對(duì)齊表示展現(xiàn)出了良好的擴(kuò)展性。這一點(diǎn)對(duì)于實(shí)際應(yīng)用非常重要，因?yàn)樗馕吨Ｐ偷男阅軙?huì)隨著更多數(shù)據(jù)的加入而持續(xù)改善。

說(shuō)到底，這項(xiàng)研究最讓人興奮的地方在于它展示了一種全新的思路來(lái)解決多模態(tài)AI的統(tǒng)一問(wèn)題。通過(guò)巧妙地利用語(yǔ)言模型的詞匯空間作為視覺(jué)和文本的橋梁，研究團(tuán)隊(duì)不僅簡(jiǎn)化了模型架構(gòu)，還提升了性能。這就像是找到了一種通用語(yǔ)言，讓不同類(lèi)型的AI任務(wù)能夠在同一個(gè)框架內(nèi)協(xié)同工作。

當(dāng)然，這個(gè)方法也有一些局限性。由于使用了向量量化技術(shù)，不可避免地會(huì)引入一些量化誤差，這在需要精細(xì)視覺(jué)理解的任務(wù)（如光學(xué)字符識(shí)別）中可能會(huì)造成一定影響。此外，使用生成模型作為去分詞器雖然能產(chǎn)生高質(zhì)量圖像，但在重建輸入圖像的準(zhǔn)確性方面還有改進(jìn)空間。

歸根結(jié)底，這項(xiàng)研究為多模態(tài)AI的發(fā)展開(kāi)辟了一條新路徑。它展示了統(tǒng)一表示的強(qiáng)大潛力，也為未來(lái)的研究提供了寶貴的經(jīng)驗(yàn)和啟發(fā)。隨著技術(shù)的不斷改進(jìn)和完善，我們有理由相信，這種"視覺(jué)方言"的統(tǒng)一方法將在更多領(lǐng)域發(fā)揮重要作用，讓AI在理解和創(chuàng)造視覺(jué)內(nèi)容方面變得更加智能和高效。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以訪(fǎng)問(wèn)https://tar.csuhan.com獲取完整的代碼、模型和數(shù)據(jù)資源。

Q&A

Q1：什么是文本對(duì)齊表示（Tar），它能解決什么問(wèn)題？ A：Tar是一種讓AI用同一種"語(yǔ)言"既能看懂圖片又能畫(huà)出圖片的技術(shù)。傳統(tǒng)方法需要兩套不同的系統(tǒng)分別處理理解和生成任務(wù)，而Tar通過(guò)統(tǒng)一的表示方法讓一個(gè)模型就能勝任兩種工作，就像給AI裝上了萬(wàn)能翻譯器，提高了效率和性能。

Q2：這個(gè)技術(shù)會(huì)不會(huì)讓AI畫(huà)圖變得更簡(jiǎn)單？ A：是的，Tar讓AI畫(huà)圖變得更加智能化。它不僅能生成高質(zhì)量圖像，還能理解文本描述并據(jù)此創(chuàng)作，甚至能夠評(píng)估自己畫(huà)作的質(zhì)量。這為藝術(shù)創(chuàng)作、設(shè)計(jì)制作等領(lǐng)域提供了強(qiáng)大工具，讓非專(zhuān)業(yè)人士也能輕松獲得專(zhuān)業(yè)級(jí)的視覺(jué)創(chuàng)作能力。

Q3：普通人能使用這項(xiàng)技術(shù)嗎？有什么實(shí)際用途？ A：雖然目前還是研究階段，但技術(shù)已經(jīng)相當(dāng)成熟。未來(lái)可能應(yīng)用于智能設(shè)計(jì)助手、教育工具、內(nèi)容創(chuàng)作等多個(gè)領(lǐng)域。比如幫助老師制作教學(xué)圖片、協(xié)助設(shè)計(jì)師快速構(gòu)思方案，或者讓普通人通過(guò)文字描述就能生成所需的圖像內(nèi)容。

視覺(jué)理解與生成多模態(tài)大語(yǔ)言模型統(tǒng)一表示學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

計(jì)算機(jī)視覺(jué)
注意力機(jī)制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺(jué)AI如何學(xué)會(huì)聰明地觀察世界

這項(xiàng)研究提出了"高效探測(cè)"方法，解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制，該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升，在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼，推動(dòng)技術(shù)普及應(yīng)用。
檢索增強(qiáng)生成
層次化分析
爭(zhēng)議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭(zhēng)議，不再簡(jiǎn)單判"真假"

伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng)，通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話(huà)題的分析框架，識(shí)別不同觀點(diǎn)及其支撐證據(jù)，為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
人工智能
情感認(rèn)知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類(lèi)一樣理解和表達(dá)情感的新方法

清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu)，在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
人工智能
多智能體強(qiáng)化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類(lèi)一樣通過(guò)"玩游戲"學(xué)會(huì)復(fù)雜推理

哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力，在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺(jué)AI如何學(xué)會(huì)聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺(jué)AI如何學(xué)會(huì)聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭(zhēng)議，不再簡(jiǎn)單判"真假"

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭(zhēng)議，不再簡(jiǎn)單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類(lèi)一樣理解和表達(dá)情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類(lèi)一樣理解和表達(dá)情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類(lèi)一樣通過(guò)"玩游戲"學(xué)會(huì)復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類(lèi)一樣通過(guò)"玩游戲"學(xué)會(huì)復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話(huà)：010-62641205　涉未成年人舉報(bào)專(zhuān)線(xiàn)：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn

<blockquote id="jvl51"></blockquote>

<u id="jvl51"><acronym id="jvl51"></acronym></u>

<wbr id="jvl51"></wbr>