這項(xiàng)由微軟亞洲研究院和臺(tái)灣大學(xué)聯(lián)合完成的研究發(fā)表于2025年7月,研究團(tuán)隊(duì)包括蔣程瀚、王小飛、李林杰等多位學(xué)者。這一開創(chuàng)性成果通過論文《STITCH: 同步思考與對(duì)話的分塊推理語音模型》向?qū)W界公開,感興趣的讀者可以通過論文編號(hào)arXiv:2507.15375獲取完整研究資料,項(xiàng)目演示頁面可訪問https://d223302.github.io/STITCH。
人類在對(duì)話時(shí)有一個(gè)很自然的能力:我們可以一邊說話,一邊在腦海里思考接下來要說什么。比如你在解數(shù)學(xué)題的時(shí)候,嘴里可能在說"首先我們需要計(jì)算這個(gè)值",但大腦已經(jīng)在琢磨后面幾步的計(jì)算過程了。然而,現(xiàn)有的AI語音助手卻做不到這一點(diǎn)——它們要么像背書一樣直接回答,要么需要先完整地"想"完整個(gè)答案再開口說話,這就像一個(gè)人必須把整篇演講稿在心里默念完才能開始講話一樣。
微軟研究團(tuán)隊(duì)注意到了這個(gè)問題?,F(xiàn)在的語音大模型雖然能夠聽懂人話并用語音回答,但它們?nèi)鄙偃祟惸欠N內(nèi)在的思考過程。當(dāng)你問它一個(gè)復(fù)雜的數(shù)學(xué)題時(shí),它往往會(huì)立即給出答案,沒有展現(xiàn)出推理和思考的過程。更糟糕的是,如果讓AI先進(jìn)行完整的思考再回答,用戶就得等很長時(shí)間才能聽到回應(yīng),這在實(shí)際對(duì)話中是不可接受的。
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一個(gè)叫做STITCH的新系統(tǒng),這個(gè)名字代表"同步思考與對(duì)話的分塊推理"。這個(gè)系統(tǒng)的巧妙之處在于,它利用了一個(gè)簡(jiǎn)單但重要的時(shí)間差:當(dāng)AI生成一小段語音并播放給用戶聽的時(shí)候,播放這段音頻需要的時(shí)間(比如2秒)遠(yuǎn)比AI生成對(duì)應(yīng)文字內(nèi)容的時(shí)間(可能只需要0.5秒)要長得多。那么剩下的1.5秒時(shí)間里,AI能做什么呢?STITCH的答案是:思考!
這就像一個(gè)經(jīng)驗(yàn)豐富的播音員,當(dāng)他在播報(bào)第一條新聞的時(shí)候,眼睛已經(jīng)在瀏覽第二條新聞的內(nèi)容,腦子里在組織第三條新聞的語言。STITCH讓AI學(xué)會(huì)了類似的多線程處理能力。
一、讓AI學(xué)會(huì)分段思考
STITCH系統(tǒng)的核心創(chuàng)新在于將AI的思考過程切分成小塊,就像把一個(gè)大蛋糕切成許多小片一樣。傳統(tǒng)的AI要么完全不思考就回答,要么必須把整個(gè)思考過程完成后才開始說話。而STITCH采用了第三種方式:思考一小段、說一小段、再思考一小段、再說一小段。
為了更好地理解這個(gè)過程,可以把它想象成一個(gè)廚師在直播做菜。傳統(tǒng)的AI就像一個(gè)廚師要么不準(zhǔn)備就開始做菜(結(jié)果可能一團(tuán)糟),要么把所有準(zhǔn)備工作都做完才開始直播(觀眾等得不耐煩)。而STITCH就像一個(gè)聰明的廚師,一邊做菜一邊介紹,同時(shí)腦子里還在想接下來的步驟。
具體來說,當(dāng)用戶提出一個(gè)數(shù)學(xué)問題時(shí),STITCH會(huì)先進(jìn)行一小段推理(比如100個(gè)思考步驟),然后說出一小段回答,在播放這段回答的過程中,它又開始下一輪的推理。這樣循環(huán)下去,直到完整地回答了用戶的問題。
研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)版本的STITCH。第一個(gè)版本叫STITCH-R(R代表推理優(yōu)先),它會(huì)先思考一小段再開口說話,所以第一次響應(yīng)會(huì)有一點(diǎn)延遲。第二個(gè)版本叫STITCH-S(S代表說話優(yōu)先),它會(huì)立即開始回答,然后在說話的過程中進(jìn)行思考,這樣就完全沒有額外的延遲了。
二、技術(shù)實(shí)現(xiàn)的巧思
要讓這個(gè)系統(tǒng)工作起來,研究團(tuán)隊(duì)需要解決幾個(gè)技術(shù)挑戰(zhàn)。首先是如何訓(xùn)練AI學(xué)會(huì)這種"邊說邊想"的能力。他們采用了一個(gè)很聰明的方法:把原本完整的推理過程打碎,然后重新組合成交替的形式。
比如原本的訓(xùn)練數(shù)據(jù)可能是這樣的:完整推理過程 + 完整回答?,F(xiàn)在他們把它改造成:推理片段1 + 回答片段1 + 推理片段2 + 回答片段2 + 推理片段3 + 回答片段3...
這就像把一本書的章節(jié)重新排列:原來是"思考篇"全部寫完再寫"行動(dòng)篇",現(xiàn)在改成"思考1 + 行動(dòng)1 + 思考2 + 行動(dòng)2..."的形式。AI通過學(xué)習(xí)這種新的模式,掌握了在說話和思考之間切換的能力。
為了確保系統(tǒng)的時(shí)間同步,研究團(tuán)隊(duì)還精確計(jì)算了各種時(shí)間參數(shù)。他們發(fā)現(xiàn),在A100-80G這樣的GPU上,AI每秒能夠生成大約80個(gè)詞匯單元。而播放26個(gè)語音單元(大約對(duì)應(yīng)13個(gè)文字詞匯)需要約2秒時(shí)間。這意味著在播放語音的2秒內(nèi),AI可以生成160個(gè)詞匯單元,減去必需的39個(gè)詞匯單元用于下一段話的準(zhǔn)備,還剩余121個(gè)詞匯單元的"思考時(shí)間"。研究團(tuán)隊(duì)保守地將每次思考設(shè)定為100個(gè)詞匯單元,確保系統(tǒng)的穩(wěn)定運(yùn)行。
三、實(shí)驗(yàn)驗(yàn)證與效果評(píng)估
為了驗(yàn)證STITCH的效果,研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn)。他們使用了多種數(shù)學(xué)推理數(shù)據(jù)集,包括AddSub、MultiArith、SinglEq、SVAMP和GSM8K,這些都是評(píng)估AI數(shù)學(xué)能力的標(biāo)準(zhǔn)測(cè)試。結(jié)果顯示,STITCH在數(shù)學(xué)推理任務(wù)上的表現(xiàn)顯著超越了不進(jìn)行推理的基準(zhǔn)模型。
在最具挑戰(zhàn)性的GSM8K數(shù)學(xué)題目中,STITCH-S的準(zhǔn)確率達(dá)到了56.72%,而不進(jìn)行推理的基準(zhǔn)模型只有35.73%,提升幅度接近60%。這個(gè)結(jié)果特別令人鼓舞,因?yàn)镾TITCH-S的響應(yīng)延遲與基準(zhǔn)模型完全相同,也就是說,在不增加任何等待時(shí)間的情況下,獲得了顯著的性能提升。
更有趣的是,研究團(tuán)隊(duì)還測(cè)試了STITCH在非數(shù)學(xué)任務(wù)上的表現(xiàn),比如知識(shí)問答和日常對(duì)話。結(jié)果發(fā)現(xiàn),即使在不需要復(fù)雜推理的任務(wù)上,STITCH的表現(xiàn)也與基準(zhǔn)模型相當(dāng),并沒有因?yàn)樵黾恿送评磉^程而變差。這說明這種"邊想邊說"的能力不會(huì)干擾AI在簡(jiǎn)單任務(wù)上的表現(xiàn)。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的實(shí)驗(yàn):測(cè)試STITCH能否在推理過程中調(diào)整思考的"深度"。他們發(fā)現(xiàn),可以在不重新訓(xùn)練模型的情況下,調(diào)整每次思考的詞匯數(shù)量(從60到100個(gè)詞匯單元)。當(dāng)思考時(shí)間減少時(shí),性能會(huì)有所下降,但仍然比完全不思考的模型要好很多。這種靈活性對(duì)實(shí)際應(yīng)用很有價(jià)值,因?yàn)椴煌挠布l件可能需要不同的配置。
四、質(zhì)量評(píng)估與用戶體驗(yàn)
除了客觀的準(zhǔn)確率測(cè)試,研究團(tuán)隊(duì)還評(píng)估了STITCH生成語音的質(zhì)量。他們使用了UTMOSv2這個(gè)專門評(píng)估語音質(zhì)量的工具,發(fā)現(xiàn)STITCH生成的語音在感知質(zhì)量上與基準(zhǔn)模型沒有差別,都維持在3分以上的良好水平(滿分5分)。同時(shí),通過GPT-4o評(píng)估文本的流暢度,STITCH的表現(xiàn)也很理想,說明這種"切塊"的思考和表達(dá)方式并沒有影響語言的自然度。
從用戶體驗(yàn)的角度來看,STITCH帶來了質(zhì)的提升。以往用戶向AI提問復(fù)雜問題時(shí),要么得到一個(gè)快速但可能錯(cuò)誤的答案,要么需要等待很長時(shí)間才能得到經(jīng)過深思熟慮的回答。STITCH找到了這兩者之間的平衡點(diǎn):用戶幾乎不需要額外等待,就能獲得經(jīng)過推理的、更加準(zhǔn)確的答案。
五、技術(shù)細(xì)節(jié)與創(chuàng)新突破
STITCH的訓(xùn)練過程采用了GLM-4-Voice-9B作為基礎(chǔ)模型,這是一個(gè)已經(jīng)具備語音理解和生成能力的大型AI系統(tǒng)。研究團(tuán)隊(duì)在此基礎(chǔ)上增加了推理能力,使用了大約40萬個(gè)訓(xùn)練樣本,涵蓋了日常對(duì)話、數(shù)學(xué)推理和知識(shí)問答三類任務(wù)。
在具體的實(shí)現(xiàn)中,系統(tǒng)使用了特殊的標(biāo)記符號(hào)來區(qū)分不同類型的內(nèi)容。推理內(nèi)容被[SOPR](開始部分推理)和[EOPR](結(jié)束部分推理)標(biāo)記包圍,當(dāng)整個(gè)推理完成時(shí)會(huì)出現(xiàn)[EOR](結(jié)束推理)標(biāo)記。這些標(biāo)記就像交通信號(hào)燈一樣,告訴AI什么時(shí)候應(yīng)該思考,什么時(shí)候應(yīng)該說話。
研究團(tuán)隊(duì)還探索了使用外部模型來輔助推理的可能性。他們發(fā)現(xiàn),可以用其他專門的推理模型(如GPT-4、Llama系列模型)來生成推理內(nèi)容,然后讓STITCH基于這些推理來組織回答。這種方式在某些情況下能進(jìn)一步提升回答的質(zhì)量,特別是當(dāng)推理輔助模型比STITCH本身更強(qiáng)大時(shí)。
六、實(shí)際應(yīng)用場(chǎng)景與意義
STITCH的突破性意義不僅僅在于技術(shù)本身,更在于它為AI助手的實(shí)際應(yīng)用開辟了新的可能性。在教育場(chǎng)景中,一個(gè)能夠展現(xiàn)推理過程的AI老師可以更好地幫助學(xué)生理解問題的解決思路。學(xué)生不僅能得到正確答案,還能觀察到AI是如何一步步分析和推理的,這對(duì)培養(yǎng)學(xué)生的思維能力很有價(jià)值。
在客戶服務(wù)領(lǐng)域,STITCH技術(shù)能夠讓AI客服在處理復(fù)雜問題時(shí)表現(xiàn)得更像人類專家。當(dāng)客戶提出一個(gè)涉及多個(gè)環(huán)節(jié)的問題時(shí),AI可以一邊分析情況一邊與客戶溝通,而不是讓客戶干等或給出草率的回答。
對(duì)于需要實(shí)時(shí)交互的應(yīng)用場(chǎng)景,比如智能汽車的語音助手或家庭智能設(shè)備,STITCH技術(shù)能夠在不影響響應(yīng)速度的前提下提供更可靠的服務(wù)。司機(jī)在駕駛過程中詢問復(fù)雜的導(dǎo)航或計(jì)算問題時(shí),能夠快速得到經(jīng)過推理的準(zhǔn)確回答,而不會(huì)影響行車安全。
七、局限性與未來發(fā)展
雖然STITCH取得了顯著進(jìn)展,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前系統(tǒng)的局限性。首先,系統(tǒng)的推理能力仍然受到基礎(chǔ)模型能力的限制。雖然STITCH改進(jìn)了推理的組織方式,但如果基礎(chǔ)模型本身在某個(gè)領(lǐng)域的知識(shí)有限,STITCH也無法創(chuàng)造出不存在的知識(shí)。
其次,當(dāng)前的實(shí)現(xiàn)主要針對(duì)數(shù)學(xué)推理等相對(duì)結(jié)構(gòu)化的問題。對(duì)于更加開放性的創(chuàng)意任務(wù)或情感理解任務(wù),STITCH的優(yōu)勢(shì)可能沒有那么明顯。這是因?yàn)檫@些任務(wù)的推理過程往往更加靈活和非線性,不太適合分塊處理。
在技術(shù)層面,STITCH對(duì)硬件性能有一定要求。雖然研究團(tuán)隊(duì)已經(jīng)優(yōu)化了時(shí)間配置,但在性能較低的設(shè)備上,可能需要進(jìn)一步調(diào)整推理塊的大小,這可能會(huì)影響推理的深度和準(zhǔn)確性。
未來的發(fā)展方向包括幾個(gè)方面。研究團(tuán)隊(duì)正在探索如何讓STITCH適應(yīng)更多類型的任務(wù),特別是那些需要?jiǎng)?chuàng)造性思維的任務(wù)。他們也在研究如何動(dòng)態(tài)調(diào)整推理的深度,根據(jù)問題的復(fù)雜程度自動(dòng)決定需要多少思考時(shí)間。
另一個(gè)有趣的發(fā)展方向是多模態(tài)推理。目前STITCH主要處理語音和文字,未來可能擴(kuò)展到圖像、視頻等其他模態(tài),讓AI能夠在處理多媒體內(nèi)容時(shí)也展現(xiàn)出類似的同步思考能力。
八、對(duì)AI發(fā)展的啟示
STITCH的成功揭示了AI系統(tǒng)設(shè)計(jì)中一個(gè)重要的原則:模仿人類認(rèn)知過程的自然節(jié)奏往往能帶來更好的用戶體驗(yàn)。人類的思維本身就是多線程的——我們可以一邊說話一邊思考,一邊聽別人說話一邊準(zhǔn)備自己的回應(yīng)。AI系統(tǒng)如果能夠捕捉到這種自然的認(rèn)知流程,就能提供更加流暢和智能的交互體驗(yàn)。
這項(xiàng)研究也說明了在AI系統(tǒng)優(yōu)化中,時(shí)間維度的重要性經(jīng)常被忽視。很多AI研究專注于提高模型的準(zhǔn)確性或減少計(jì)算量,但較少考慮如何優(yōu)化時(shí)間的使用效率。STITCH通過巧妙地利用語音播放的時(shí)間間隙,在不增加總體延遲的情況下顯著提升了系統(tǒng)性能,這種"時(shí)間套利"的思路值得在其他AI應(yīng)用中借鑒。
從更廣泛的角度來看,STITCH代表了AI系統(tǒng)從"單步處理"向"流水線處理"的演進(jìn)。就像現(xiàn)代工廠的生產(chǎn)線一樣,不同的處理步驟可以同時(shí)進(jìn)行,而不必等待前一個(gè)步驟完全結(jié)束。這種并行化的思維方式可能會(huì)成為未來AI系統(tǒng)設(shè)計(jì)的重要范式。
歸根結(jié)底,STITCH的價(jià)值不僅在于技術(shù)創(chuàng)新,更在于它讓AI助手變得更像一個(gè)真正的對(duì)話伙伴。當(dāng)AI能夠展現(xiàn)出思考的過程,能夠在交流中體現(xiàn)出智慧的深度,人機(jī)交互就會(huì)變得更加自然和富有意義。雖然我們還沒有達(dá)到科幻電影中那種完美的AI伙伴,但STITCH無疑是朝著這個(gè)方向邁出的重要一步。
研究團(tuán)隊(duì)在論文中還提到,他們已經(jīng)將相關(guān)代碼和演示系統(tǒng)開放給學(xué)術(shù)界和開發(fā)者社區(qū),希望更多的研究者能夠基于這項(xiàng)工作進(jìn)行進(jìn)一步的創(chuàng)新。這種開放的態(tài)度也體現(xiàn)了現(xiàn)代AI研究的協(xié)作精神,通過分享和合作,加速整個(gè)領(lǐng)域的發(fā)展進(jìn)程。
對(duì)于普通用戶來說,STITCH技術(shù)的普及意味著我們即將迎來一個(gè)新的AI交互時(shí)代。不久的將來,當(dāng)你向手機(jī)或智能音箱提出復(fù)雜問題時(shí),你會(huì)發(fā)現(xiàn)它們的回答不僅更加準(zhǔn)確,而且響應(yīng)速度依然很快。這種技術(shù)進(jìn)步最終會(huì)讓AI助手從簡(jiǎn)單的工具變成真正的智能伙伴,能夠陪伴我們思考、學(xué)習(xí)和解決問題。
Q&A
Q1:STITCH是什么?它和普通AI語音助手有什么區(qū)別? A:STITCH是微軟開發(fā)的一種新型AI語音技術(shù),讓AI能夠像人類一樣邊說話邊思考。普通AI要么直接回答(可能不夠準(zhǔn)確),要么先想完再說(用戶等待時(shí)間長)。而STITCH能在播放語音的同時(shí)進(jìn)行推理思考,既保證了回答質(zhì)量又不增加等待時(shí)間。
Q2:這項(xiàng)技術(shù)會(huì)讓AI變得更聰明嗎? A:是的,特別是在需要推理的任務(wù)上。實(shí)驗(yàn)顯示,STITCH在數(shù)學(xué)題上的準(zhǔn)確率比普通AI提高了近60%,而且響應(yīng)速度沒有變慢。它讓AI能夠展現(xiàn)思考過程,回答更加深思熟慮。
Q3:普通人什么時(shí)候能用上這種技術(shù)? A:目前STITCH還處于研究階段,研究團(tuán)隊(duì)已經(jīng)開放了技術(shù)資料和演示系統(tǒng)。雖然還沒有商業(yè)化產(chǎn)品,但考慮到微軟等大公司的推廣能力,預(yù)計(jì)在不久的將來就會(huì)集成到實(shí)際的AI助手產(chǎn)品中。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。