這項(xiàng)令人矚目的研究由來自Spotify遍布全球的科學(xué)家團(tuán)隊(duì)共同完成,包括荷蘭代爾夫特的Gustavo Penha、西班牙馬德里的Edoardo D'Amico、丹麥哥本哈根的Marco De Nadai等十一位研究者。該研究發(fā)表于2025年9月22-26日在捷克布拉格舉行的第十九屆ACM推薦系統(tǒng)會(huì)議(RecSys '25),論文詳細(xì)信息可通過DOI:10.1145/3705328.3759300獲取,感興趣的讀者也可以在arXiv:2508.10478v1上找到預(yù)印本版本。
在我們每天使用音樂應(yīng)用搜索歌曲或接收個(gè)性化推薦時(shí),背后其實(shí)隱藏著一個(gè)復(fù)雜的技術(shù)難題。傳統(tǒng)上,搜索功能和推薦功能就像兩個(gè)各司其職的廚師,一個(gè)專門處理你主動(dòng)提出的需求(比如"我想聽周杰倫的歌"),另一個(gè)則根據(jù)你的口味歷史為你準(zhǔn)備驚喜菜品。但問題在于,這兩個(gè)廚師使用完全不同的菜譜和工具,不僅增加了廚房的復(fù)雜性,還可能錯(cuò)過很多美妙的搭配機(jī)會(huì)。
現(xiàn)在,基于大型語言模型的生成式AI技術(shù)為統(tǒng)一這兩個(gè)功能提供了可能,就像找到了一位既能按需制作又能創(chuàng)意搭配的全能廚師。然而,要讓這位全能廚師正常工作,首先需要解決一個(gè)關(guān)鍵問題:如何為每首歌曲、每個(gè)商品創(chuàng)建一個(gè)既適合搜索又適合推薦的"身份證"。
傳統(tǒng)的做法是給每個(gè)物品分配一個(gè)簡單的數(shù)字編號(hào),就像給每道菜一個(gè)菜譜編號(hào)。但這種方法有個(gè)致命缺陷:當(dāng)有新菜品加入時(shí),整個(gè)系統(tǒng)都需要重新學(xué)習(xí),成本極高。更糟糕的是,這些編號(hào)本身沒有任何含義,無法幫助系統(tǒng)理解不同物品之間的關(guān)系。
為了解決這個(gè)問題,研究者們提出了"語義身份證"的概念。與傳統(tǒng)的數(shù)字編號(hào)不同,語義身份證是由多個(gè)有意義的代碼組成的,這些代碼來源于物品的內(nèi)容特征。打個(gè)比方,傳統(tǒng)方法給一首抒情民謠的編號(hào)可能是"10086",而語義身份證可能是"溫柔-吉他-治愈-夜晚"這樣的組合。這樣,即使是新加入的歌曲,只要具有相似的特征,就能共享部分代碼,讓系統(tǒng)快速理解其特性。
不過,這種語義身份證的構(gòu)建面臨一個(gè)根本性的矛盾:針對搜索任務(wù)優(yōu)化的身份證在推薦任務(wù)中表現(xiàn)糟糕,反之亦然。這就像一把專門切蔬菜的刀可能不適合切肉一樣。Spotify的研究團(tuán)隊(duì)通過系統(tǒng)性的實(shí)驗(yàn)發(fā)現(xiàn)了這個(gè)問題的嚴(yán)重性:當(dāng)使用專門為搜索優(yōu)化的身份證時(shí),搜索效果提升了五倍,但推薦效果卻下降了60%;而使用推薦優(yōu)化的身份證時(shí),情況正好相反。
一、多樣化的身份證構(gòu)建策略
面對這個(gè)兩難困境,研究團(tuán)隊(duì)設(shè)計(jì)了多種不同的策略來構(gòu)建語義身份證,這些策略可以分為兩大類:任務(wù)專用方法和跨任務(wù)融合方法。
任務(wù)專用方法相對簡單直接。搜索專用方法會(huì)訓(xùn)練一個(gè)專門的模型,讓它學(xué)習(xí)如何理解用戶的查詢意圖和歌曲內(nèi)容之間的匹配關(guān)系。這個(gè)過程類似于訓(xùn)練一個(gè)音樂專家,讓他能夠準(zhǔn)確理解用戶說"我想聽輕松的音樂"時(shí)應(yīng)該推薦什么。訓(xùn)練時(shí),研究者會(huì)給模型提供大量的查詢-歌曲配對樣本,讓模型學(xué)會(huì)將相似的查詢和歌曲在語義空間中放置得更近。
推薦專用方法則采用了完全不同的訓(xùn)練思路。它使用協(xié)同過濾技術(shù),專注于學(xué)習(xí)用戶的行為模式。如果兩個(gè)用戶經(jīng)常聽相似的歌曲,那么模型就會(huì)認(rèn)為他們的口味相近,從而為其中一個(gè)用戶推薦另一個(gè)用戶喜歡的歌曲。這種方法更像是觀察人群的消費(fèi)習(xí)慣,通過發(fā)現(xiàn)"買了A商品的人通常也會(huì)買B商品"這樣的規(guī)律來工作。
然而,這兩種任務(wù)專用方法都有明顯的局限性:它們只針對單一任務(wù)進(jìn)行了優(yōu)化,在需要同時(shí)處理搜索和推薦的統(tǒng)一系統(tǒng)中表現(xiàn)不佳。這促使研究團(tuán)隊(duì)探索能夠平衡兩種任務(wù)需求的跨任務(wù)方法。
跨任務(wù)方法的思路更加復(fù)雜和有趣。其中一種被稱為"分離式"的方法,為每個(gè)物品同時(shí)創(chuàng)建兩套不同的身份證:一套專門用于搜索,一套專門用于推薦。在實(shí)際使用時(shí),搜索任務(wù)只使用搜索專用的身份證,推薦任務(wù)只使用推薦專用的身份證。這種方法的優(yōu)點(diǎn)是保持了各自的優(yōu)化效果,但缺點(diǎn)也很明顯:身份證的數(shù)量翻倍,大大增加了系統(tǒng)的復(fù)雜性和存儲(chǔ)成本。
另一種名為"前綴共享"的方法試圖在保持任務(wù)特異性的同時(shí)減少重復(fù)。這種方法將身份證分為三個(gè)部分:一個(gè)所有任務(wù)共享的基礎(chǔ)部分,加上兩個(gè)任務(wù)專用的擴(kuò)展部分。就像給每首歌設(shè)計(jì)一個(gè)基礎(chǔ)標(biāo)簽(比如"流行音樂"),然后根據(jù)不同用途添加特定的后綴(搜索時(shí)加上"節(jié)奏明快",推薦時(shí)加上"適合運(yùn)動(dòng)")。
最具創(chuàng)新性的是幾種"融合式"方法。第一種直接將搜索和推薦兩種embedding連接起來,形成一個(gè)更長的綜合表示。這就像將兩個(gè)專家的意見合并成一份更全面的報(bào)告。第二種方法認(rèn)識(shí)到不同embedding的維度差異可能造成偏向,因此先用數(shù)學(xué)方法將它們調(diào)整到相同的維度,再進(jìn)行元素級的加法融合。
最引人注目的是"多任務(wù)"方法,它從根本上改變了訓(xùn)練思路。不再分別訓(xùn)練搜索和推薦專用的模型,而是訓(xùn)練一個(gè)能夠同時(shí)處理兩種任務(wù)的統(tǒng)一模型。在訓(xùn)練過程中,模型需要同時(shí)學(xué)習(xí)查詢-歌曲匹配(搜索任務(wù))和用戶行為預(yù)測(推薦任務(wù)),通過平衡這兩個(gè)目標(biāo)來形成更加通用的物品表示。
二、實(shí)驗(yàn)設(shè)計(jì)的精妙之處
為了全面評估這些不同的身份證構(gòu)建策略,研究團(tuán)隊(duì)精心設(shè)計(jì)了一套實(shí)驗(yàn)框架。他們選擇了MovieLens25M數(shù)據(jù)集作為研究基礎(chǔ),這是一個(gè)包含62,138部電影、124萬次用戶交互的大型數(shù)據(jù)集。值得注意的是,研究團(tuán)隊(duì)沒有使用現(xiàn)成的查詢數(shù)據(jù),而是使用Google的Gemini-2.0-flash模型為每部電影生成了20個(gè)自然語言查詢(訓(xùn)練集10個(gè),測試集10個(gè))。
這種數(shù)據(jù)準(zhǔn)備方式有其深層考慮。在實(shí)際應(yīng)用中,搜索查詢的熱門程度分布往往與推薦中的物品流行度分布存在差異。為了消除這種差異對實(shí)驗(yàn)結(jié)果的干擾,研究團(tuán)隊(duì)為每部電影生成了相同數(shù)量的查詢,創(chuàng)造了一個(gè)"公平競爭"的環(huán)境。雖然這與真實(shí)世界的分布有所不同,但研究者指出,在實(shí)際應(yīng)用中,如果搜索和推薦的流行度分布存在一定相似性,效果可能會(huì)更好。
查詢生成的過程也頗具匠心。研究團(tuán)隊(duì)設(shè)計(jì)了詳細(xì)的提示模板,要求AI生成的查詢必須真實(shí)反映用戶可能的搜索行為,涵蓋電影的不同方面(主題、類型、情感色調(diào)等),同時(shí)避免直接包含電影標(biāo)題。生成的查詢既包括"尋找一部關(guān)于時(shí)間旅行的科幻電影"這樣的寬泛描述,也包括"想看一部讓人深思的獨(dú)立電影"這樣的情感導(dǎo)向查詢。
在技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)使用了Google的flan-t5-base作為核心的生成式語言模型。這個(gè)模型需要同時(shí)處理搜索和推薦兩種完全不同類型的任務(wù):對于搜索任務(wù),模型接收用戶查詢,輸出相關(guān)電影的身份證;對于推薦任務(wù),模型根據(jù)用戶的歷史行為,預(yù)測用戶可能喜歡的電影身份證。
為了確保生成結(jié)果的多樣性,研究團(tuán)隊(duì)采用了一種名為"多樣化束搜索"的技術(shù)。傳統(tǒng)的生成方法往往會(huì)產(chǎn)生相似度很高的結(jié)果,就像一個(gè)人在回答問題時(shí)總是給出最"安全"的答案。多樣化束搜索通過引入多樣性懲罰機(jī)制,鼓勵(lì)模型生成更加豐富和多元的結(jié)果,這對于推薦系統(tǒng)來說尤其重要。
身份證的具體構(gòu)建采用了一種叫做RQ-KMeans的聚類方法。簡單來說,這種方法會(huì)將相似的物品embedding聚集在一起,然后為每個(gè)聚類分配一個(gè)代表性的代碼。一個(gè)物品的身份證就由多個(gè)這樣的代碼組成,通常使用兩個(gè)大小為256的碼書,總共512個(gè)可能的代碼。這種設(shè)計(jì)既保證了表達(dá)能力,又控制了復(fù)雜度。
三、令人意外的實(shí)驗(yàn)發(fā)現(xiàn)
實(shí)驗(yàn)結(jié)果揭示了一些既在意料之中又頗為意外的發(fā)現(xiàn)。正如研究團(tuán)隊(duì)預(yù)期的那樣,任務(wù)專用的身份證在各自的任務(wù)中表現(xiàn)最佳,但在另一項(xiàng)任務(wù)中的表現(xiàn)卻極為糟糕。搜索優(yōu)化的身份證將搜索效果提升到了0.072(R@30指標(biāo)),但推薦效果只有0.026;而推薦優(yōu)化的身份證將推薦效果提升到了0.062,搜索效果卻慘不忍睹,只有0.004。
這種巨大的性能差異反映了兩個(gè)任務(wù)的本質(zhì)不同。搜索任務(wù)更依賴于內(nèi)容相似性:用戶查詢"浪漫喜劇"時(shí),系統(tǒng)需要找到真正屬于這個(gè)類別的電影。而推薦任務(wù)更關(guān)注行為模式:系統(tǒng)需要發(fā)現(xiàn)"喜歡A電影的用戶通常也會(huì)喜歡B電影"這樣的隱含關(guān)系,即使A和B在內(nèi)容上看起來毫無關(guān)聯(lián)。
在跨任務(wù)方法中,最令人驚訝的發(fā)現(xiàn)是多任務(wù)方法的優(yōu)異表現(xiàn)。這種方法在搜索任務(wù)中達(dá)到了0.046的效果,在推薦任務(wù)中達(dá)到了0.049的效果,雖然都沒有達(dá)到各自任務(wù)專用方法的最高水平,但提供了最佳的整體平衡。這個(gè)結(jié)果具有重要的實(shí)際意義:在需要統(tǒng)一處理搜索和推薦的系統(tǒng)中,多任務(wù)方法提供了一個(gè)幾乎不需要權(quán)衡的解決方案。
分離式方法的表現(xiàn)則驗(yàn)證了研究團(tuán)隊(duì)的另一個(gè)假設(shè):簡單地為每個(gè)任務(wù)分配獨(dú)立的身份證雖然能夠避免任務(wù)間的沖突,但也失去了任務(wù)間相互學(xué)習(xí)的機(jī)會(huì)。這種方法的搜索效果(0.028)和推薦效果(0.032)都處于中等水平,而且大幅增加了系統(tǒng)的復(fù)雜性。
融合方法的結(jié)果展現(xiàn)了embedding組合的微妙之處。直接連接兩種embedding的方法(Fusedconcat)在搜索方面表現(xiàn)不錯(cuò)(0.048),但推薦效果較差(0.018)。研究團(tuán)隊(duì)分析認(rèn)為,這是因?yàn)樗阉鲗S玫膃mbedding維度(386維)遠(yuǎn)大于推薦專用的embedding維度(256維),導(dǎo)致搜索信息在融合后占據(jù)主導(dǎo)地位。
為了驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)嘗試了維度平衡的融合方法(FusedSVD)。通過數(shù)學(xué)方法將兩種embedding調(diào)整到相同維度后再融合,推薦效果確實(shí)有所提升(0.038),但搜索效果有所下降(0.033)。這個(gè)結(jié)果表明,簡單的數(shù)學(xué)融合雖然能夠平衡不同信息源的貢獻(xiàn),但可能會(huì)在融合過程中丟失一些重要信息。
前綴共享方法的表現(xiàn)最為令人失望,搜索和推薦效果都很低(0.007和0.021)。進(jìn)一步分析發(fā)現(xiàn),這主要是由于底層的量化方法不夠理想。研究團(tuán)隊(duì)進(jìn)行的量化方法對比實(shí)驗(yàn)證實(shí)了這一點(diǎn):RQ-KMeans方法顯著優(yōu)于其他幾種方法,包括廣泛使用的RQ-VAE方法。
四、深入的性能分析
為了更深入地理解不同方法的特點(diǎn),研究團(tuán)隊(duì)還按照電影的流行程度進(jìn)行了分層分析。他們將數(shù)據(jù)集中最受歡迎的1%電影定義為"頭部"內(nèi)容,其余99%定義為"長尾"內(nèi)容。這種分析揭示了一些有趣的模式。
在頭部內(nèi)容的推薦中,基于推薦優(yōu)化的方法表現(xiàn)極為突出,達(dá)到了0.170的高分。這并不令人意外,因?yàn)闊衢T內(nèi)容有更多的用戶行為數(shù)據(jù),協(xié)同過濾方法能夠更好地捕捉這些模式。然而,對于長尾內(nèi)容,基于搜索的方法反而表現(xiàn)更好(0.070),這表明當(dāng)缺乏足夠的行為數(shù)據(jù)時(shí),內(nèi)容相似性成為更可靠的指導(dǎo)原則。
多任務(wù)方法在這種分層分析中展現(xiàn)了其均衡性的另一面。雖然它在頭部內(nèi)容中的表現(xiàn)(0.135)不如推薦專用方法,在長尾內(nèi)容中的表現(xiàn)(0.024)也不如搜索專用方法,但它在兩個(gè)層次都保持了相對穩(wěn)定的性能。這種特性對于實(shí)際應(yīng)用來說非常重要,因?yàn)楝F(xiàn)實(shí)中的系統(tǒng)需要同時(shí)處理熱門和冷門內(nèi)容。
搜索任務(wù)的結(jié)果相對簡單,因?yàn)檠芯繄F(tuán)隊(duì)刻意創(chuàng)造了沒有流行度偏差的查詢分布。但這種"公平"的設(shè)計(jì)反而突出了不同方法在內(nèi)容理解能力上的差異。搜索專用方法的優(yōu)異表現(xiàn)(0.072)表明,針對性的訓(xùn)練確實(shí)能夠顯著提升系統(tǒng)對查詢意圖的理解能力。
五、技術(shù)細(xì)節(jié)的重要啟示
研究團(tuán)隊(duì)對量化方法的對比分析提供了重要的技術(shù)啟示。傳統(tǒng)觀點(diǎn)認(rèn)為,基于神經(jīng)網(wǎng)絡(luò)的自編碼器方法(如RQ-VAE)應(yīng)該比簡單的聚類方法表現(xiàn)更好,因?yàn)樗鼈兡軌驅(qū)W習(xí)更復(fù)雜的數(shù)據(jù)分布。然而,實(shí)驗(yàn)結(jié)果顯示RQ-KMeans方法顯著優(yōu)于RQ-VAE和其他學(xué)習(xí)式方法。
這個(gè)發(fā)現(xiàn)并非孤例。其他研究也報(bào)告了RQ-VAE在某些場景下的不穩(wěn)定性問題。研究團(tuán)隊(duì)推測,這可能是因?yàn)樵谏矸葑C構(gòu)建這個(gè)特定任務(wù)中,簡單而穩(wěn)定的聚類方法比復(fù)雜的生成模型更加可靠。這提醒我們,在選擇技術(shù)方案時(shí),復(fù)雜性并不總是等同于更好的性能。
embedding模型的選擇也展現(xiàn)了內(nèi)容理解和行為建模的不同優(yōu)勢。搜索任務(wù)中使用的是基于all-mpnet-base-v2的語義embedding,這種模型擅長理解文本內(nèi)容的語義相似性。推薦任務(wù)中使用的ENMF(高效神經(jīng)矩陣分解)模型則專注于挖掘用戶-物品交互中的潛在模式。
多任務(wù)方法的成功很大程度上歸功于其訓(xùn)練策略的巧妙設(shè)計(jì)。通過同時(shí)優(yōu)化兩個(gè)不同的損失函數(shù)(查詢-物品匹配損失和協(xié)同過濾損失),模型學(xué)會(huì)了在內(nèi)容相似性和行為相似性之間找到平衡點(diǎn)。這種平衡使得生成的身份證既能反映物品的內(nèi)容特征,又能捕捉用戶行為中的隱含偏好。
生成式模型的訓(xùn)練也需要特殊考慮。與傳統(tǒng)的分類或回歸任務(wù)不同,生成式推薦需要模型輸出離散的代碼序列。這要求模型不僅要理解輸入(用戶查詢或歷史行為),還要能夠準(zhǔn)確生成對應(yīng)的身份證代碼。多樣化束搜索的使用確保了生成結(jié)果的豐富性,避免模型總是輸出最"安全"但可能單調(diào)的答案。
六、實(shí)際應(yīng)用的深遠(yuǎn)影響
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范圍,它為整個(gè)推薦系統(tǒng)行業(yè)提供了重要的發(fā)展方向。目前,大多數(shù)大型互聯(lián)網(wǎng)公司都維護(hù)著分離的搜索和推薦系統(tǒng),這不僅增加了技術(shù)復(fù)雜性,還可能錯(cuò)失兩個(gè)系統(tǒng)間協(xié)同效應(yīng)的機(jī)會(huì)。
Spotify作為全球領(lǐng)先的音樂流媒體平臺(tái),每天需要處理數(shù)億次的搜索請求和個(gè)性化推薦。用戶可能在搜索特定歌手的作品后,期望推薦系統(tǒng)能夠理解這種偏好并在后續(xù)推薦中體現(xiàn)出來。反過來,推薦系統(tǒng)發(fā)現(xiàn)的用戶潛在興趣也應(yīng)該能夠改進(jìn)搜索結(jié)果的相關(guān)性。這種雙向的信息流動(dòng)正是統(tǒng)一系統(tǒng)的核心價(jià)值所在。
從技術(shù)架構(gòu)的角度,統(tǒng)一的生成式系統(tǒng)能夠顯著簡化服務(wù)端的復(fù)雜性。傳統(tǒng)架構(gòu)中,搜索和推薦通常需要不同的特征工程、模型訓(xùn)練和服務(wù)部署流程。統(tǒng)一系統(tǒng)則可以共享大部分基礎(chǔ)設(shè)施,不僅降低了維護(hù)成本,還提升了系統(tǒng)的一致性和可靠性。
對于新物品的處理,統(tǒng)一系統(tǒng)的優(yōu)勢更加明顯。傳統(tǒng)的基于ID的推薦系統(tǒng)面臨嚴(yán)重的冷啟動(dòng)問題:新歌曲、新電影往往需要積累足夠的用戶交互數(shù)據(jù)后才能被有效推薦。而基于語義身份證的系統(tǒng)能夠立即理解新物品的內(nèi)容特征,即使沒有任何用戶行為數(shù)據(jù),也能基于內(nèi)容相似性進(jìn)行合理的推薦和搜索匹配。
這種能力對于內(nèi)容創(chuàng)作者來說意義重大。新晉藝術(shù)家的作品不再需要等待漫長的"冷啟動(dòng)期",系統(tǒng)能夠基于音樂的風(fēng)格、情感特征等語義信息,立即將其推薦給可能喜歡的用戶群體。這有助于形成更加多元化的內(nèi)容生態(tài),而不是被頭部內(nèi)容所主導(dǎo)的馬太效應(yīng)。
研究結(jié)果還揭示了個(gè)性化技術(shù)發(fā)展的一個(gè)重要趨勢:從簡單的協(xié)同過濾向多模態(tài)、多任務(wù)的綜合智能發(fā)展。未來的推薦系統(tǒng)不僅要理解用戶的歷史行為,還要能夠理解用戶的即時(shí)意圖、情感狀態(tài)、使用場景等多維度信息。語義身份證為這種綜合理解提供了技術(shù)基礎(chǔ)。
從用戶體驗(yàn)的角度,統(tǒng)一系統(tǒng)能夠提供更加連貫和智能的服務(wù)。用戶不再需要在搜索和發(fā)現(xiàn)之間切換不同的交互模式,系統(tǒng)能夠在用戶的整個(gè)使用過程中保持上下文的連續(xù)性。比如,用戶搜索"適合跑步的音樂"后,系統(tǒng)不僅能夠返回相關(guān)結(jié)果,還能在后續(xù)的推薦中持續(xù)關(guān)注用戶的運(yùn)動(dòng)音樂偏好。
七、面臨的挑戰(zhàn)和未來展望
盡管研究結(jié)果令人鼓舞,但將這種技術(shù)應(yīng)用于實(shí)際生產(chǎn)環(huán)境仍面臨諸多挑戰(zhàn)。首要問題是計(jì)算復(fù)雜性。生成式模型,特別是基于大型語言模型的系統(tǒng),通常需要比傳統(tǒng)推薦系統(tǒng)更多的計(jì)算資源。在需要毫秒級響應(yīng)的在線服務(wù)中,如何平衡模型復(fù)雜性和響應(yīng)速度是一個(gè)關(guān)鍵問題。
數(shù)據(jù)質(zhì)量和標(biāo)注成本也是重要考量。多任務(wù)訓(xùn)練需要高質(zhì)量的搜索查詢-物品配對數(shù)據(jù)和用戶行為數(shù)據(jù)。雖然用戶行為數(shù)據(jù)相對容易獲取,但高質(zhì)量的查詢數(shù)據(jù)往往需要人工標(biāo)注或者像本研究中使用大型語言模型生成。如何在大規(guī)模應(yīng)用中獲得足夠的高質(zhì)量訓(xùn)練數(shù)據(jù),仍然是一個(gè)開放性問題。
模型的可解釋性是另一個(gè)挑戰(zhàn)。傳統(tǒng)的推薦系統(tǒng)雖然復(fù)雜,但其決策過程相對容易分析和調(diào)試。生成式系統(tǒng)的黑盒特性使得理解和改進(jìn)系統(tǒng)行為變得更加困難。當(dāng)推薦結(jié)果不符合預(yù)期時(shí),如何快速定位和修復(fù)問題,需要新的工具和方法論。
隱私保護(hù)在統(tǒng)一系統(tǒng)中也面臨新的考驗(yàn)。搜索查詢通常包含用戶的即時(shí)意圖信息,而行為數(shù)據(jù)反映用戶的長期偏好模式。如何在利用這些信息進(jìn)行聯(lián)合建模的同時(shí)保護(hù)用戶隱私,需要更加精細(xì)的隱私保護(hù)策略。
從技術(shù)演進(jìn)的角度,研究團(tuán)隊(duì)提出了幾個(gè)值得進(jìn)一步探索的方向。首先是更加高效的embedding融合方法。當(dāng)前的簡單連接或加權(quán)融合可能無法充分利用不同信息源的互補(bǔ)性?;谧⒁饬C(jī)制或者元學(xué)習(xí)的融合方法可能帶來更好的效果。
其次是動(dòng)態(tài)的身份證更新機(jī)制。隨著用戶行為的變化和內(nèi)容理解的深入,物品的語義表示也應(yīng)該相應(yīng)更新。如何設(shè)計(jì)一個(gè)既穩(wěn)定又能適應(yīng)變化的身份證系統(tǒng),是一個(gè)有趣的研究方向。
多語言和跨文化的泛化能力也值得關(guān)注。當(dāng)前的研究主要基于英文內(nèi)容,但實(shí)際應(yīng)用中需要處理多種語言和文化背景的內(nèi)容。如何構(gòu)建能夠跨語言泛化的語義身份證,對于全球化的服務(wù)提供商來說至關(guān)重要。
最后,隨著大型語言模型技術(shù)的快速發(fā)展,如何將更強(qiáng)大的預(yù)訓(xùn)練模型集成到推薦系統(tǒng)中,也是一個(gè)充滿機(jī)會(huì)的方向。GPT、BERT等模型的不斷進(jìn)化可能為語義理解和生成帶來新的突破。
說到底,這項(xiàng)研究為我們展示了人工智能技術(shù)發(fā)展的一個(gè)重要趨勢:從專用系統(tǒng)向通用系統(tǒng)的演進(jìn)。就像當(dāng)年智能手機(jī)統(tǒng)一了電話、相機(jī)、音樂播放器等多個(gè)設(shè)備的功能一樣,統(tǒng)一的生成式推薦系統(tǒng)可能會(huì)成為未來內(nèi)容服務(wù)的標(biāo)準(zhǔn)架構(gòu)。雖然這條路上還有許多技術(shù)挑戰(zhàn)需要克服,但Spotify研究團(tuán)隊(duì)的工作為我們指明了一個(gè)充滿希望的方向。對于每一個(gè)使用數(shù)字內(nèi)容服務(wù)的普通用戶來說,這意味著更智能、更連貫、更個(gè)性化的體驗(yàn)正在向我們走來。
Q&A
Q1:什么是語義身份證,它和傳統(tǒng)的商品編號(hào)有什么區(qū)別?
A:語義身份證是由多個(gè)有意義代碼組成的物品標(biāo)識(shí),這些代碼來源于物品的內(nèi)容特征。傳統(tǒng)編號(hào)就像給每首歌分配"10086"這樣的數(shù)字,而語義身份證可能是"溫柔-吉他-治愈-夜晚"的組合。最大優(yōu)勢是新物品能立即共享相似特征的代碼,無需重新訓(xùn)練整個(gè)系統(tǒng),還能幫助AI理解物品間的關(guān)系。
Q2:為什么搜索和推薦不能用同一套身份證系統(tǒng)?
A:搜索和推薦關(guān)注的重點(diǎn)完全不同。搜索更看重內(nèi)容相似性,用戶搜"浪漫喜劇"時(shí)需要找到真正屬于這類的電影。推薦更關(guān)注行為模式,發(fā)現(xiàn)"喜歡A電影的人通常也喜歡B電影"的隱含關(guān)系,即使A和B內(nèi)容毫不相關(guān)。專門優(yōu)化一個(gè)任務(wù)會(huì)犧牲另一個(gè)任務(wù)的效果,這就是兩難困境。
Q3:Spotify的多任務(wù)方法是如何平衡搜索和推薦效果的?
A:多任務(wù)方法訓(xùn)練一個(gè)能同時(shí)處理兩種任務(wù)的統(tǒng)一模型,在訓(xùn)練時(shí)同時(shí)優(yōu)化查詢-歌曲匹配和用戶行為預(yù)測兩個(gè)目標(biāo)。通過平衡內(nèi)容相似性和行為相似性,生成的身份證既能理解歌曲內(nèi)容特征,又能捕捉用戶偏好模式。雖然單項(xiàng)效果不如專用方法,但提供了最佳整體平衡,搜索和推薦效果都達(dá)到了0.046和0.049的良好水平。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對培養(yǎng)AI空間智能的重要價(jià)值。