av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<output id="px6vy"></output>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

UFT：統(tǒng)一監(jiān)督式和強化式微調(diào)，打破大語言模型學(xué)習(xí)與思考的隔閡

大語言模型微調(diào)方法推理能力

UFT：統(tǒng)一監(jiān)督式和強化式微調(diào)，打破大語言模型學(xué)習(xí)與思考的隔閡

作者：科技行者

2025-05-30 11:15

分享至：

這篇來自麻省理工學(xué)院研究團隊的論文提出了"統(tǒng)一微調(diào)"(UFT)方法，創(chuàng)新性地融合了監(jiān)督式微調(diào)(SFT)和強化式微調(diào)(RFT)的優(yōu)勢。傳統(tǒng)上，SFT擅長讓模型"記憶"標準答案但易過擬合，RFT則培養(yǎng)模型"思考"能力但依賴基礎(chǔ)模型強度。UFT通過部分解答提示和混合目標函數(shù)，讓模型同時獲得"學(xué)習(xí)"和"思考"的能力，實驗證明它在不同規(guī)模模型和各類推理任務(wù)上均優(yōu)于現(xiàn)有方法，且理論上能將RFT的指數(shù)級采樣復(fù)雜度降至多項式級，大幅提升訓(xùn)練效率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 11:15 ? 科技行者

大語言模型（LLMs）在完成訓(xùn)練后，經(jīng)常需要進一步的"后訓(xùn)練"階段來增強其推理能力。麻省理工學(xué)院電氣工程與計算機科學(xué)系（EECS）LIDS實驗室的研究團隊Mingyang Liu、Gabriele Farina和Asuman Ozdaglar在2025年5月22日發(fā)表于arXiv（arXiv:2505.16984v1）的論文中，提出了一種創(chuàng)新性的后訓(xùn)練方法——統(tǒng)一微調(diào)（Unified Fine-Tuning，UFT）。這項研究旨在解決當(dāng)前大語言模型微調(diào)中的一個根本性問題：如何在"記憶"和"思考"之間取得平衡。

正如論文開篇引用的孔子名言所說："學(xué)而不思則罔，思而不學(xué)則殆"（Learning without thinking leads to confusion; thinking without learning is perilous）。這句古老的智慧恰好點明了當(dāng)前大語言模型后訓(xùn)練的核心挑戰(zhàn)。目前，大語言模型的后訓(xùn)練主要分為兩大類：監(jiān)督式微調(diào)（Supervised Fine-Tuning，SFT）和強化式微調(diào)（Reinforcement Fine-Tuning，RFT）。簡單來說，SFT就像是讓模型"死記硬背"標準答案，而RFT則是讓模型"自己思考"并從嘗試中學(xué)習(xí)。

在人類學(xué)習(xí)過程中，我們通常會結(jié)合這兩種方式：在做題時自己思考（類似RFT），遇到困難時參考解答（類似SFT）。然而，在當(dāng)前的大語言模型訓(xùn)練中，這兩種學(xué)習(xí)方式卻被人為地分離開來。傳統(tǒng)做法要么全程使用SFT，要么全程使用RFT，或者先用SFT再用RFT（稱為SFT-RFT），就像是強制學(xué)生要么只做題不看答案，要么只看答案不做題，這顯然不是最佳的學(xué)習(xí)方式。

研究團隊提出的UFT方法巧妙地將這兩種學(xué)習(xí)模式融合起來，讓模型既能通過自己探索答案獲得思考能力，又能從標準答案中獲取知識。這就像給學(xué)生一道數(shù)學(xué)題，先讓他自己嘗試解決，但同時提供部分解題步驟作為提示，隨著學(xué)習(xí)的深入，逐漸減少提示的數(shù)量，最終讓學(xué)生能夠完全獨立思考。

研究表明，無論模型大小如何，UFT都能取得比SFT和RFT更好的表現(xiàn)。對于較小的模型（如0.5B參數(shù)），UFT能幫助模型更好地"記憶"解題步驟；對于較大的模型（如3B參數(shù)），UFT則能保持RFT的泛化能力，避免SFT容易導(dǎo)致的過擬合問題。更令人興奮的是，研究團隊通過理論證明，UFT能夠?qū)FT在長序列推理任務(wù)上的指數(shù)級采樣復(fù)雜度降低到多項式級別，這意味著訓(xùn)練效率的極大提升。

讓我們一起深入了解這項創(chuàng)新研究，看看它如何改變大語言模型的訓(xùn)練方式，以及為什么這種"學(xué)習(xí)"與"思考"的統(tǒng)一方法對于未來AI的發(fā)展具有重要意義。

一、問題背景：大語言模型微調(diào)中的兩難困境

目前，大語言模型的微調(diào)主要有兩種方法：監(jiān)督式微調(diào)（SFT）和強化式微調(diào)（RFT）。這兩種方法各有優(yōu)缺點，就像學(xué)習(xí)中的"記憶"和"思考"兩種能力。

SFT就像是傳統(tǒng)的教科書學(xué)習(xí)法。想象一下，老師給你一道數(shù)學(xué)題和它的完整解答，然后讓你反復(fù)記憶這個解答過程。SFT的做法是讓模型通過最大化已知解答的對數(shù)似然（log-likelihood）來"記住"標準答案。這種方法簡單高效，特別適合參數(shù)量較小的模型。但問題是，如果模型只會"背誦"而不會"思考"，遇到稍微變形的新問題就可能束手無策。

RFT則像是鼓勵自主探索的學(xué)習(xí)方法。想象老師只告訴你一道題的最終答案是對是錯，但不告訴你解題步驟，你需要通過不斷嘗試來找到正確的解法。RFT讓模型自己探索解決方案，然后根據(jù)最終結(jié)果的正確與否來調(diào)整自己的策略。這種方法能夠培養(yǎng)模型的"思考能力"，對于較大的模型來說，通常能獲得更好的泛化效果。但RFT的問題是，如果模型基礎(chǔ)知識不夠扎實（比如參數(shù)量太小），可能會因為探索空間太大而難以找到正確答案。

研究者們發(fā)現(xiàn)，當(dāng)模型較小時（如Qwen2.5-0.5B），SFT往往表現(xiàn)更好，因為這些模型通過預(yù)訓(xùn)練獲得的知識有限，難以通過自主探索找到正確答案。而當(dāng)模型較大時（如Qwen2.5-3B），RFT則通常更勝一籌，因為這些模型已經(jīng)具備了足夠的基礎(chǔ)知識，能夠更好地進行自主推理。

這就形成了一個兩難困境：對于不同規(guī)模的模型，我們需要使用不同的微調(diào)策略。而業(yè)界常見的解決方案是先使用SFT再使用RFT（即SFT-RFT），就像先讓學(xué)生背誦公式，再讓他們自己解題。但這種方法仍然是將"記憶"和"思考"人為分開，而不是像人類學(xué)習(xí)那樣自然地融合兩者。

這正是UFT要解決的核心問題：如何設(shè)計一種微調(diào)方法，能夠融合SFT的知識獲取能力和RFT的推理泛化能力，讓模型既能"學(xué)"又能"思"？

二、UFT方法：統(tǒng)一"記憶"與"思考"的創(chuàng)新框架

UFT（統(tǒng)一微調(diào)）的核心思想是將監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)融合在一個統(tǒng)一的框架中，就像將"看答案"和"自己做題"這兩種學(xué)習(xí)方式有機結(jié)合。這種方法主要包含兩個關(guān)鍵創(chuàng)新：一是基于提示的探索機制，二是混合目標函數(shù)。

### 基于提示的探索機制

在傳統(tǒng)的RFT中，模型需要從頭開始生成整個解決方案，這就像讓學(xué)生完全靠自己解決一道復(fù)雜的數(shù)學(xué)題。對于基礎(chǔ)知識不足的小模型來說，這個任務(wù)太過艱巨，導(dǎo)致很難找到正確答案。

而UFT引入了"提示"（hint）的概念，它是完整解答的一部分。想象一下，老師不是直接給你整個解答，而是根據(jù)你的學(xué)習(xí)進度，提供部分解題步驟作為提示，讓你在此基礎(chǔ)上繼續(xù)思考。這種方式既給了你一定的指導(dǎo)，又保留了思考的空間。

具體來說，UFT在訓(xùn)練過程中，會將問題和部分解答（提示）連接起來，讓模型從這個部分解答的位置開始，繼續(xù)生成剩余的解題步驟。這樣，模型就能更容易地探索到正確的解決方案，大大提高了強化學(xué)習(xí)的效率。

為了讓模型逐漸學(xué)會獨立思考，UFT采用了一種平滑的提示長度調(diào)度策略。在訓(xùn)練初期，提供較長的提示，讓模型容易成功；隨著訓(xùn)練的進行，提示長度逐漸減少，直到最后模型完全不依賴提示，能夠獨立生成完整解答。這就像學(xué)習(xí)騎自行車時，開始時有輔助輪，隨著技能的提升，逐漸減少輔助，最終獨立騎行。

研究團隊采用了余弦退火（cosine annealing）策略來調(diào)度提示長度，比起階段性調(diào)整提示長度（如Xi等人的R?方法）或固定提示長度分布（如均勻分布），這種平滑過渡的方式避免了訓(xùn)練過程中的劇烈分布變化，使得模型學(xué)習(xí)更加穩(wěn)定。

### 混合目標函數(shù)

UFT的第二個創(chuàng)新是混合目標函數(shù)，它將SFT的監(jiān)督學(xué)習(xí)信號和RFT的強化學(xué)習(xí)信號融合在一起。

傳統(tǒng)的RFT只關(guān)注最終答案是否正確，而忽略了解題過程的正確性。這就像老師只告訴你"答案錯了"，但不指出哪一步出了問題。這種反饋信息太少，學(xué)習(xí)效率低下。

而UFT的混合目標函數(shù)包含三部分： 1. 最大化模型在探索過程中獲得的獎勵（RFT的目標） 2. 最小化模型策略與參考策略的KL散度（保持探索的穩(wěn)定性） 3. 最大化提示部分的對數(shù)似然（SFT的目標）

第三部分是UFT的關(guān)鍵創(chuàng)新，它讓模型不僅關(guān)注最終答案的正確性，還要學(xué)習(xí)解題的正確步驟。這就像老師不僅告訴你答案對錯，還指導(dǎo)你解題的方法。

通過這種混合目標函數(shù)，UFT使得模型能夠同時從監(jiān)督信號和強化信號中學(xué)習(xí)，既獲取知識，又培養(yǎng)推理能力。當(dāng)提示長度為零時，UFT等同于標準的RFT；當(dāng)提示長度等于解答全長時，UFT等同于標準的SFT。這種平滑過渡的設(shè)計，使得UFT能夠兼顧兩種方法的優(yōu)點。

### UFT的技術(shù)細節(jié)

從技術(shù)角度看，UFT的目標函數(shù)可以表示為：

J_UFT = E[J_value - β∑(KL(π(·|s_h)∥π_ref(·|s_h))) + β∑(log π(a*_h|s*_h))]

其中，第一項J_value代表強化學(xué)習(xí)的價值函數(shù)，第二項是策略與參考策略的KL散度（常見于RLHF），第三項是提示部分的對數(shù)似然（SFT的目標）。

通過這個統(tǒng)一的目標函數(shù)，UFT在訓(xùn)練過程中自然地將"記憶"（監(jiān)督學(xué)習(xí)）和"思考"（強化學(xué)習(xí)）融合在一起，讓模型能夠在探索的同時學(xué)習(xí)已知的知識，提高學(xué)習(xí)效率。

三、理論突破：從指數(shù)級到多項式級的效率提升

UFT的一個重要理論貢獻是證明了它能夠?qū)鹘y(tǒng)RFT在長序列推理任務(wù)上的指數(shù)級采樣復(fù)雜度降低到多項式級別，這意味著訓(xùn)練效率的巨大提升。

想象一下，你在玩一個迷宮游戲，每個十字路口有多個方向可以選擇。如果你完全隨機地探索，那么找到出口的難度將隨著迷宮的復(fù)雜度指數(shù)級增加。這就是RFT面臨的問題：解題步驟越長，探索空間就呈指數(shù)級增長，找到正確解法的難度也隨之飆升。

研究團隊通過理論分析證明，對于任何分支因子為B、高度為H的搜索樹（可以理解為一個解題過程），標準RFT需要至少B^H/4次探索才能達到50%的成功率。這意味著，解題步驟每增加一步，所需的探索次數(shù)就會乘以分支因子B。

然而，當(dāng)引入UFT方法后，研究團隊證明所需的探索次數(shù)可以降低到O(B·H^5·(log B)^2/Δ^2)，其中Δ是子最優(yōu)解與最優(yōu)解之間的獎勵差距。這是一個多項式級別的復(fù)雜度，意味著解題步驟增加時，所需的探索次數(shù)不再呈指數(shù)級增長，而是以一個更加可控的速度增長。

這一理論突破解釋了為什么UFT在長序列推理任務(wù)上能夠取得如此顯著的性能提升。通過提供部分解答作為提示，UFT大大縮小了模型需要探索的空間，使得即使是小模型也能有效地學(xué)習(xí)復(fù)雜的推理任務(wù)。

四、實驗結(jié)果：UFT在各種模型和任務(wù)上的優(yōu)勢

研究團隊在多種模型和任務(wù)上進行了廣泛的實驗，以驗證UFT的有效性。他們使用了不同規(guī)模的模型，包括Qwen2.5-0.5B/1.5B/3B和Llama3.2-1B/3B，在三種典型的推理任務(wù)上進行測試：

1. Countdown（倒計時游戲）：使用給定的數(shù)字和基本算術(shù)運算（加、減、乘、除）得到目標數(shù)字。 2. MATH(3,4,5)：難度等級為3-5的數(shù)學(xué)問題集。 3. Logic（Knights and Knaves邏輯謎題）：需要復(fù)雜的邏輯推理能力的謎題。

實驗結(jié)果令人印象深刻：UFT在不同規(guī)模的模型和不同類型的任務(wù)上，都表現(xiàn)出了顯著的優(yōu)勢。

對于小模型（如Qwen2.5-0.5B），傳統(tǒng)的RFT幾乎無法有效學(xué)習(xí)，因為模型難以通過隨機探索找到正確答案。而UFT通過提供部分解答作為提示，大大提高了探索的成功率，使得即使是小模型也能有效地學(xué)習(xí)復(fù)雜的推理任務(wù)。實驗顯示，在Logic任務(wù)上，RFT幾乎無法探索到正確答案，而UFT能夠在每一步都成功探索，從而實現(xiàn)有效學(xué)習(xí)。

對于大模型（如Qwen2.5-3B），SFT容易導(dǎo)致過擬合，而RFT則能獲得更好的泛化效果。UFT繼承了RFT的優(yōu)勢，同時通過混合目標函數(shù)進一步提升了性能。

研究者還對Llama3.2系列模型進行了測試，發(fā)現(xiàn)UFT能夠顯著提升這些模型的表現(xiàn)，特別是在Countdown任務(wù)上，甚至讓Llama3.2-1B的表現(xiàn)超過了經(jīng)過RFT訓(xùn)練的Llama3.2-3B。這說明UFT不僅能提高模型的推理能力，還能幫助模型獲取新知識，突破模型預(yù)訓(xùn)練時獲得的知識上限。

與其他方法的比較也很有說服力。UFT不僅優(yōu)于傳統(tǒng)的SFT和RFT，還超過了SFT-RFT組合方法和R?（反向課程強化學(xué)習(xí)）方法。這表明，UFT的統(tǒng)一框架確實能夠更有效地融合監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的優(yōu)勢。

五、UFT的實現(xiàn)細節(jié)：讓"學(xué)習(xí)"與"思考"自然融合

UFT的實現(xiàn)涉及幾個關(guān)鍵技術(shù)細節(jié)，這些細節(jié)共同保證了方法的有效性。

首先是提示長度的調(diào)度策略。UFT采用余弦退火（cosine annealing）策略，使提示長度從訓(xùn)練初期的較高值平滑地降低到訓(xùn)練后期的零。具體來說，在每一步訓(xùn)練中，提示長度的期望值p按以下公式計算：

p(t) = plow + (phigh - plow)/2 · (1 + cos((t+1)/Thint · π))

其中，plow和phigh分別是提示長度的最低和最高比例，Thint是設(shè)定的有提示訓(xùn)練步數(shù)。這種平滑過渡的方式避免了訓(xùn)練過程中的劇烈分布變化，使得模型學(xué)習(xí)更加穩(wěn)定。

實際的提示長度是從二項分布中采樣得到的，即l ~ Binomial(L, p)，其中L是解答的總長度。這確保了提示長度的期望值與設(shè)定的比例p一致，同時引入了一定的隨機性，有助于模型的泛化能力。

其次是混合目標函數(shù)的實現(xiàn)。UFT的目標函數(shù)包含三部分：最大化獎勵、保持策略穩(wěn)定性和最大化提示部分的對數(shù)似然。在實現(xiàn)上，研究者使用了GRPO（一種策略梯度算法）作為基礎(chǔ)強化學(xué)習(xí)算法，并在其目標函數(shù)中添加了提示部分的對數(shù)似然項。

最后是訓(xùn)練過程的設(shè)計。UFT的訓(xùn)練分為兩個主要階段：有提示階段和無提示階段。在有提示階段（t < Thint），模型會獲得長度逐漸減少的提示；在無提示階段（t ≥ Thint），模型完全依靠自己的能力生成解答。這種設(shè)計使得模型能夠平滑地從依賴提示過渡到完全獨立推理。

通過這些技術(shù)細節(jié)的精心設(shè)計，UFT實現(xiàn)了"學(xué)習(xí)"與"思考"的自然融合，使得模型既能從監(jiān)督信號中獲取知識，又能通過強化學(xué)習(xí)培養(yǎng)推理能力。

六、UFT對不同大小模型的影響：適應(yīng)性強的統(tǒng)一框架

一個特別有趣的發(fā)現(xiàn)是，UFT對不同大小的模型都能起到積極作用，但作用機制有所不同。

對于小模型（如Qwen2.5-0.5B），UFT主要是通過提高"記憶"能力來提升性能。這些模型通過預(yù)訓(xùn)練獲得的知識有限，難以通過純粹的探索找到正確解法。UFT通過提供部分解答作為提示，大大提高了探索的成功率，同時通過混合目標函數(shù)中的監(jiān)督學(xué)習(xí)項，幫助模型更有效地"記住"正確的解題步驟。

實驗數(shù)據(jù)顯示，在Countdown任務(wù)上，Qwen2.5-0.5B經(jīng)過UFT訓(xùn)練后的準確率達到了13.18%，遠高于RFT的3.78%和SFT的4.92%。這說明對于小模型來說，UFT主要是通過提高"記憶"能力來彌補其"思考"能力的不足。

對于大模型（如Qwen2.5-3B），UFT則主要是通過保持"思考"能力來避免過擬合。這些模型通過預(yù)訓(xùn)練已經(jīng)獲得了相當(dāng)豐富的知識，具備一定的推理能力。SFT容易導(dǎo)致這些模型過度擬合訓(xùn)練數(shù)據(jù)，失去泛化能力。而UFT通過強化學(xué)習(xí)組件保持了模型的探索能力，避免了過擬合問題。

實驗數(shù)據(jù)顯示，在MATH(3,4,5)任務(wù)上，Qwen2.5-3B經(jīng)過UFT訓(xùn)練后的準確率達到了47.04%，高于RFT的45.74%和SFT的24.32%。這說明對于大模型來說，UFT主要是通過保持"思考"能力來提升其性能。

最令人驚喜的是，UFT對Llama3.2系列模型也表現(xiàn)出強大的提升效果。特別是在Countdown任務(wù)上，經(jīng)過UFT訓(xùn)練的Llama3.2-1B在250步訓(xùn)練后的表現(xiàn)甚至超過了經(jīng)過RFT訓(xùn)練的Llama3.2-3B。這表明UFT不僅能提高模型的推理能力，還能幫助模型獲取新知識，突破模型預(yù)訓(xùn)練時獲得的知識上限。

這些結(jié)果表明，UFT作為一個統(tǒng)一的微調(diào)框架，能夠根據(jù)模型的不同特性，自動平衡"記憶"和"思考"的比例，為不同大小的模型提供最適合的學(xué)習(xí)方式。這種適應(yīng)性強的特性，使得UFT在各種場景下都能發(fā)揮優(yōu)勢。

七、總結(jié)與展望：統(tǒng)一"學(xué)習(xí)"與"思考"的未來方向

UFT的提出，標志著大語言模型微調(diào)技術(shù)的一個重要進步。通過統(tǒng)一監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)，UFT創(chuàng)造性地解決了"記憶"與"思考"之間的平衡問題，使得模型能夠更有效地學(xué)習(xí)復(fù)雜的推理任務(wù)。

回顧UFT的主要貢獻：

首先，UFT提出了一種統(tǒng)一的微調(diào)框架，將監(jiān)督信號和獎勵信號融合在一起。這種框架不僅保留了SFT的知識獲取能力和RFT的推理泛化能力，還通過兩者的互補作用，創(chuàng)造了1+1>2的效果。

其次，UFT在理論上證明了，通過引入提示機制，可以將傳統(tǒng)RFT在長序列推理任務(wù)上的指數(shù)級采樣復(fù)雜度降低到多項式級別。這一突破性的理論結(jié)果，解釋了為什么UFT能夠在實踐中取得如此顯著的性能提升。

第三，UFT在各種模型和任務(wù)上的廣泛實驗，驗證了其方法的有效性和穩(wěn)健性。無論是小模型還是大模型，無論是簡單任務(wù)還是復(fù)雜任務(wù)，UFT都表現(xiàn)出了顯著的優(yōu)勢。

從更廣泛的角度來看，UFT的成功提示我們，大語言模型的訓(xùn)練不應(yīng)該將"學(xué)習(xí)"和"思考"人為分開，而應(yīng)該像人類學(xué)習(xí)那樣，自然地融合這兩種能力。這種思路不僅適用于微調(diào)階段，也可能對預(yù)訓(xùn)練和其他訓(xùn)練范式有所啟發(fā)。

當(dāng)然，UFT也有一些局限性。首先，它需要高質(zhì)量的人類標注解答作為監(jiān)督信號，這在某些領(lǐng)域可能難以獲取。其次，當(dāng)前的實驗主要集中在數(shù)學(xué)和邏輯推理任務(wù)上，UFT在其他類型任務(wù)上的效果還需要進一步驗證。

未來的研究方向可能包括：將UFT與其他先進的SFT和RFT技術(shù)結(jié)合，如使用大模型生成的長鏈式思考（long chain-of-thoughts）作為監(jiān)督信號，或者采用更先進的強化學(xué)習(xí)算法如REINFORCE++和DAPO；探索UFT在更廣泛的任務(wù)類型上的應(yīng)用；研究如何減少對人類標注數(shù)據(jù)的依賴，可能通過半監(jiān)督或自監(jiān)督的方式獲取監(jiān)督信號。

總的來說，UFT開創(chuàng)了一種新的思路，將大語言模型的"學(xué)習(xí)"與"思考"能力有機地融合在一起，為未來的模型訓(xùn)練提供了一個更加自然、更加高效的范式。正如孔子所言："學(xué)而不思則罔，思而不學(xué)則殆"，只有將學(xué)習(xí)和思考有機結(jié)合，才能培養(yǎng)出真正智能的系統(tǒng)。

大語言模型微調(diào)方法推理能力

分享至

0贊

好文章，需要你的鼓勵

推薦文章

計算機視覺
注意力機制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點"？揭秘視覺AI如何學(xué)會聰明地觀察世界

這項研究提出了"高效探測"方法，解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制，該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升，在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼，推動技術(shù)普及應(yīng)用。
檢索增強生成
層次化分析
爭議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng)，通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架，識別不同觀點及其支撐證據(jù)，為科學(xué)和政治爭議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
人工智能
情感認知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達情感的新方法

清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu)，在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
人工智能
多智能體強化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力，在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點"？揭秘視覺AI如何學(xué)會聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點"？揭秘視覺AI如何學(xué)會聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)新突破：讓機器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<nobr id="1wzye"><strong id="1wzye"></strong></nobr>

<del id="1wzye"><b id="1wzye"><small id="1wzye"></small></b></del>