在口語交流中,我們不僅通過詞匯傳遞信息,還通過語調(diào)、情感和重音表達更深層次的含義。當我們強調(diào)句子中的特定詞語時,這種"句子重音"能夠傳達說話者的真正意圖,對語言理解至關(guān)重要。近日,來自以色列耶路撒冷希伯來大學計算機科學與工程學院的研究團隊Iddo Yosha、Dorin Shteyman和Yossi Adi在這一領(lǐng)域取得了重要突破,他們開發(fā)了一種名為WHISTRESS的創(chuàng)新方法,能夠在語音識別過程中自動檢測句子重音,從而生成更加豐富、更接近人類自然表達的文本轉(zhuǎn)錄。這項研究成果已發(fā)表并可通過項目頁面(https://pages.cs.huji.ac.il/adiyoss-lab/whistress)了解詳情。
語言學研究長期以來將句子重音分為兩種理論視角。第一種視角認為,正常的重音是一種默認模式,遵循特定的語音規(guī)則,與語義無關(guān);第二種視角則將句子重音視為一種語義工具,說話者可以對任何詞語施加重音以突顯其語義重要性。從聲學角度來看,句子重音主要通過語音信號中的持續(xù)時間、振幅和音高變化來體現(xiàn)。
想象一下,當你說"我沒有偷那輛車"這句話時,根據(jù)你強調(diào)的詞語不同,整句話的含義會發(fā)生微妙變化。如果你強調(diào)"我",表示不是你而是別人偷了車;如果強調(diào)"偷",可能表示你只是借用而非偷竊;如果強調(diào)"那輛",則暗示你可能偷了其他車輛。這些微妙的語調(diào)變化在面對面交流中很容易捕捉,但在語音識別技術(shù)中卻常常被忽略。
現(xiàn)有的句子重音檢測模型大多依賴于聲學特征,而語言信息的整合則相對有限。一些模型需要在推理過程中提供口語話語的轉(zhuǎn)錄文本、通過強制對齊或手動標注獲取的詞邊界等先驗信息,這不僅增加了模型的復雜性,還使其性能受到強制對齊器準確性、轉(zhuǎn)錄質(zhì)量和數(shù)據(jù)可擴展性的影響。
WHISTRESS的獨特之處在于它采用了一種"無需對齊"的方法。研究團隊基于流行的Whisper語音識別模型,增加了一個額外的重音檢測組件,該組件能夠為每個詞元預測重音目標,從而在不影響原始模型性能的前提下生成更具信息量的轉(zhuǎn)錄文本。這就像是給語音識別系統(tǒng)配備了一雙能聽出"言外之音"的耳朵,讓它不僅能聽懂你說了什么,還能理解你想表達的強調(diào)點。
為了訓練這樣一個高性能的模型,研究團隊面臨著數(shù)據(jù)質(zhì)量和一致性的挑戰(zhàn)?,F(xiàn)有的句子重音檢測模型大多依賴于封閉源數(shù)據(jù)、帶有非標準重音標注的數(shù)據(jù)集,或通過眾包方式依靠人類標注者判斷來標記重音詞語,這些方法都可能導致數(shù)據(jù)質(zhì)量參差不齊,從而影響模型的表現(xiàn)。
為解決這個問題,研究團隊開發(fā)了TINYSTRESS-15K,這是一個專為句子重音檢測設計的可擴展合成數(shù)據(jù)集,包含約15小時的語音。這個數(shù)據(jù)集是如何創(chuàng)建的呢?首先,研究團隊從TinyStories數(shù)據(jù)集中提取句子作為基礎文本;然后,他們指導GPT-4o-mini為每個句子提供兩種不同的重音詞選項,確保所選詞語能夠反映自然的句子重音,即在語義上顯著影響句子的解釋;最后,他們使用Google文本到語音API合成帶有強調(diào)的語音,通過調(diào)整重音詞的音量、持續(xù)時間和音高來模擬自然的語音重音。
這個自動化的數(shù)據(jù)生成流程就像是為AI模型創(chuàng)建了一本"說話的藝術(shù)"教材,教它如何辨識人類說話時的微妙語調(diào)變化。通過這種方式,研究團隊能夠生成大量多樣化的數(shù)據(jù),專門用于訓練重音檢測模型。
WHISTRESS模型的架構(gòu)由兩個主要組件組成:作為骨干的Whisper模型和新增的重音檢測頭部。Whisper模型負責將原始音頻處理成隱藏表示,這些表示編碼了語音、語言和韻律特征,既用于重音檢測頭部的輸入,也用于生成Whisper的語音轉(zhuǎn)錄。重音檢測頭部則是一個可學習的組件,包含一個Whisper解碼器塊和一個全連接神經(jīng)網(wǎng)絡分類器。解碼器塊在Whisper模型的骨干編碼器和解碼器隱藏狀態(tài)之間應用交叉注意力,學習有助于重音檢測的聲學和語言特征。分類器則是一個兩層全連接神經(jīng)網(wǎng)絡,處理額外解碼器塊的輸出,為每個詞元分配重音標簽(重音為1,非重音為0)。
在訓練過程中,研究團隊采用了一種巧妙的標簽對齊程序。首先,將詞級別的重音標簽轉(zhuǎn)換為與無錯誤轉(zhuǎn)錄詞元對齊的詞元級別標簽。然而,Whisper生成的隱藏狀態(tài)可能包含轉(zhuǎn)錄錯誤,這些錯誤會通過移動解碼器輸入詞元而導致重音標簽錯位。為了保留這些在詞級別仍具有聲學信息價值的樣本,研究團隊過濾掉了Whisper生成的轉(zhuǎn)錄詞長度與地面真實詞長度不同的訓練樣本,同時允許詞級別的轉(zhuǎn)錄錯誤。這種長度過濾方法可以減輕重音詞的錯誤標記,從而確??煽康谋O(jiān)督。
與先前的方法不同,WHISTRESS的標簽對齊程序僅依賴于訓練前地面真實(即重音標簽)和生成轉(zhuǎn)錄之間的松散詞到詞匹配作為預處理步驟,在推理過程中不需要對齊。值得注意的是,在任何階段,它都不需要詞級別的時間戳(即不需要時間對齊),因為Whisper本身就能將生成的詞元與音頻特征對齊。
為了深入了解WHISTRESS如何識別句子重音,研究團隊分析了Whisper的內(nèi)部表示,確定了哪些層捕獲了語調(diào)特征,特別是音高、能量和持續(xù)時間。他們使用CREMA-D數(shù)據(jù)集的一個子集進行分析,該子集包含具有不同情感內(nèi)容的語音樣本,使語調(diào)特征在信號中更加突出。
對于能量和音高目標的分析,研究團隊利用了Whisper編碼器嵌入,這些嵌入捕獲了純聲學特征,不受轉(zhuǎn)錄的條件約束。他們在75毫秒的窗口中計算基頻(F0)和均方根(RMS)能量,步長為20毫秒,以與音頻嵌入的幀率對齊。為了構(gòu)建目標,他們對300毫秒窗口的F0應用最大池化,對RMS能量應用平均池化。對于每個窗口,在每一層,他們池化平均編碼器嵌入,形成每個編碼器層的相應嵌入和目標。
對于持續(xù)時間的分析,研究團隊分析了Whisper解碼器嵌入,假設持續(xù)時間與通過交叉注意力學習的文本-語音對齊相關(guān)。為了生成目標持續(xù)時間,他們使用WhisperX強制對齊語音信號,并提取轉(zhuǎn)錄中每個詞的持續(xù)時間。然后,他們計算對應于每個詞的平均解碼器嵌入,為每個解碼器層形成嵌入和目標。
研究結(jié)果顯示,Whisper的更深層在其嵌入中捕獲的語調(diào)信息較少。然而,當研究團隊進一步探索語調(diào)信息與重音檢測之間的關(guān)系時,他們發(fā)現(xiàn)使用中間層(第9層)的嵌入效果最佳,這表明在語調(diào)信息和語言知識的編碼之間可能存在權(quán)衡。這一發(fā)現(xiàn)與之前關(guān)于wav2vec 2.0語音表示變換器模型的研究一致,該研究觀察到聲學和語義相關(guān)性在各層之間呈現(xiàn)相反的趨勢。
為了評估WHISTRESS的性能,研究團隊將其與多個競爭基線進行了比較,并在不同的數(shù)據(jù)集上進行了測試。他們使用了包括精確度、召回率和F1分數(shù)在內(nèi)的標準分類指標,如果WHISTRESS模型將詞的至少一個詞元標記為重音,則認為該詞被強調(diào)。
在TINYSTRESS-15K數(shù)據(jù)集上,WHISTRESS實現(xiàn)了0.909的F1分數(shù),明顯優(yōu)于基線方法。在Aix-MARSEC語料庫上,WHISTRESS也取得了0.961的F1分數(shù),超過了先前的BLSTM分層網(wǎng)絡和CRF模型。更令人印象深刻的是,盡管只在合成數(shù)據(jù)上訓練,WHISTRESS在Expresso和EmphAssess基準測試中展示了強大的零樣本泛化能力,在Expresso上超過了EmphaClass的性能。
這些結(jié)果證明了WHISTRESS方法的有效性和泛化能力。通過消除對強制對齊或人工標注的需求,WHISTRESS提供了一種更干凈、更易于使用的方法來將句子重音檢測集成到自動語音識別系統(tǒng)中。
總的來說,WHISTRESS代表了語音識別技術(shù)的一個重要進步,它不僅能識別說話者所說的內(nèi)容,還能捕捉到如何說的微妙之處。這種能力對于各種應用都至關(guān)重要,從虛擬助手到語言學習工具,再到輔助聽力障礙人士的技術(shù),都能從中受益。隨著語音交互在我們?nèi)粘I钪凶兊迷絹碓狡毡?,WHISTRESS這樣能夠理解人類語言細微差別的技術(shù)將成為構(gòu)建更自然、更人性化的人機交互系統(tǒng)的關(guān)鍵一步。
對于希望進一步探索這項研究的讀者,完整的代碼、WHISTRESS模型權(quán)重和TINYSTRESS-15K數(shù)據(jù)集已經(jīng)公開發(fā)布,可以通過項目頁面(https://pages.cs.huji.ac.il/adiyoss-lab/whistress)獲取。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。