在當(dāng)今的數(shù)字時(shí)代,高質(zhì)量的合成數(shù)據(jù)已成為研究、創(chuàng)新和政策制定的關(guān)鍵推動(dòng)力,特別是在隱私保護(hù)、法律限制或物流障礙使真實(shí)數(shù)據(jù)難以獲取的情況下。麥吉爾大學(xué)的唐義宏(Yihong Tang)、孔夢(mèng)林(Menglin Kong)和孫立軍(Lijun Sun)教授團(tuán)隊(duì)最近在預(yù)印本平臺(tái)arXiv上發(fā)表了一項(xiàng)突破性研究"Large Language Models for Data Synthesis"(大語(yǔ)言模型用于數(shù)據(jù)合成),論文于2025年5月20日提交,目前正在審核中。這項(xiàng)研究提出了一種名為L(zhǎng)LMSYNTHOR的創(chuàng)新框架,利用大語(yǔ)言模型(LLMs)的強(qiáng)大能力來(lái)生成高質(zhì)量的合成數(shù)據(jù)。研究團(tuán)隊(duì)已將相關(guān)代碼開(kāi)源在GitHub上,供研究社區(qū)使用和驗(yàn)證。
想象一下,如果你在玩拼圖游戲,但手中的拼圖不是固定形狀的,而是能夠根據(jù)需要自由變形。傳統(tǒng)的數(shù)據(jù)合成方法就像是用固定形狀的拼圖試圖重現(xiàn)一幅畫(huà)作,往往無(wú)法完美還原原畫(huà)的復(fù)雜細(xì)節(jié)。而LLMSYNTHOR則像是擁有了一支"魔法畫(huà)筆",能夠精準(zhǔn)捕捉并重現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)特性,就像藝術(shù)家能夠精確復(fù)制名畫(huà)的筆觸和色彩一樣。
在數(shù)據(jù)分析領(lǐng)域,傳統(tǒng)的數(shù)據(jù)合成方法通常依賴(lài)強(qiáng)參數(shù)假設(shè)或需要手動(dòng)設(shè)計(jì)結(jié)構(gòu),在處理高維度或異構(gòu)數(shù)據(jù)時(shí)往往力不從心。雖然深度學(xué)習(xí)模型在捕捉非線(xiàn)性結(jié)構(gòu)方面取得了進(jìn)展,但它們訓(xùn)練不穩(wěn)定,控制性有限,并且難以在不同數(shù)據(jù)格式之間泛化。與此同時(shí),大型語(yǔ)言模型在近年來(lái)展現(xiàn)出作為靈活、高維度先驗(yàn)分布的潛力,但當(dāng)應(yīng)用于數(shù)據(jù)合成時(shí),標(biāo)準(zhǔn)的LLM采樣效率低下,受到固定上下文長(zhǎng)度的限制,并且無(wú)法確保統(tǒng)計(jì)一致性。
研究團(tuán)隊(duì)提出的LLMSYNTHOR框架巧妙地將LLM轉(zhuǎn)變?yōu)橛煞植挤答佉龑?dǎo)的結(jié)構(gòu)感知模擬器。這個(gè)框架將LLM視為一個(gè)非參數(shù)copula模擬器,用于建模高階依賴(lài)關(guān)系,并引入了"LLM提案采樣"(LLM Proposal Sampling)機(jī)制,生成扎實(shí)的提案分布,提高采樣效率,同時(shí)無(wú)需使用拒絕采樣。通過(guò)在摘要統(tǒng)計(jì)空間中最小化差異,迭代合成循環(huán)逐步對(duì)齊真實(shí)和合成數(shù)據(jù),同時(shí)逐漸發(fā)現(xiàn)并精煉潛在的生成結(jié)構(gòu)。
為了驗(yàn)證LLMSYNTHOR的實(shí)用性,研究團(tuán)隊(duì)在電子商務(wù)、人口和移動(dòng)性等隱私敏感領(lǐng)域的異構(gòu)數(shù)據(jù)集上進(jìn)行了測(cè)試。結(jié)果顯示,LLMSYNTHOR生成的合成數(shù)據(jù)具有高度的統(tǒng)計(jì)保真度、實(shí)際效用和跨數(shù)據(jù)適應(yīng)性,使其成為經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)、城市研究等多個(gè)領(lǐng)域的寶貴工具。
讓我們深入了解這項(xiàng)突破性研究的細(xì)節(jié),看看LLMSYNTHOR如何改變我們合成高質(zhì)量數(shù)據(jù)的方式。
一、研究背景與挑戰(zhàn)
在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的世界中,高質(zhì)量的合成數(shù)據(jù)就像是研究者和政策制定者的"秘密武器"。想象你是城市規(guī)劃師,需要模擬緊急情況下的人群疏散方案,但又不能使用真實(shí)的個(gè)人移動(dòng)軌跡數(shù)據(jù)以保護(hù)隱私。這時(shí),能夠準(zhǔn)確反映真實(shí)人群移動(dòng)模式的合成數(shù)據(jù)就顯得尤為珍貴。
麥吉爾大學(xué)的研究團(tuán)隊(duì)在論文開(kāi)篇就指出,高質(zhì)量的合成數(shù)據(jù)對(duì)于研究、創(chuàng)新和政策制定至關(guān)重要,特別是在隱私、法律或物流限制真實(shí)數(shù)據(jù)獲取的情況下。當(dāng)這些合成數(shù)據(jù)在統(tǒng)計(jì)上忠實(shí)地反映真實(shí)情況時(shí),它們可以支持有意義的分析而不會(huì)泄露敏感信息。在復(fù)雜的高維度領(lǐng)域(如人類(lèi)移動(dòng)性)尤其如此,這些領(lǐng)域的詳細(xì)數(shù)據(jù)對(duì)城市規(guī)劃和基礎(chǔ)設(shè)施設(shè)計(jì)至關(guān)重要,但同時(shí)也帶來(lái)嚴(yán)重的隱私風(fēng)險(xiǎn)。
傳統(tǒng)的數(shù)據(jù)合成方法就像是用固定的模具制作工藝品,雖然可以大批量生產(chǎn),但難以捕捉精細(xì)的細(xì)節(jié)。這些方法包括參數(shù)模型和基于規(guī)則的模擬器,它們雖然提供了可解釋性和控制性,但依賴(lài)強(qiáng)假設(shè),且難以擴(kuò)展到復(fù)雜的依賴(lài)關(guān)系或高維度數(shù)據(jù)。比如,傳統(tǒng)統(tǒng)計(jì)方法就像用一把老式尺子測(cè)量一個(gè)不規(guī)則形狀的湖泊面積,只能得到粗略的近似值。
而深度生成模型,如GAN、VAE和擴(kuò)散模型,則像是更先進(jìn)的建模工具,能夠捕捉非線(xiàn)性結(jié)構(gòu),但它們?cè)谟?xùn)練上不穩(wěn)定,控制性有限,且在不同格式之間的泛化能力差。研究團(tuán)隊(duì)總結(jié)道,大多數(shù)現(xiàn)有方法都緊密耦合到特定數(shù)據(jù)類(lèi)型,需要重新訓(xùn)練或手動(dòng)適應(yīng)新領(lǐng)域,這限制了它們的實(shí)用性。就像一個(gè)只會(huì)彈奏古典音樂(lè)的鋼琴家,遇到爵士樂(lè)就束手無(wú)策。
研究團(tuán)隊(duì)提供了一個(gè)清晰的對(duì)比表,展示了不同合成數(shù)據(jù)生成方法之間的權(quán)衡,突出了缺乏一個(gè)統(tǒng)一的、分布感知的合成框架,該框架應(yīng)該是格式無(wú)關(guān)的、可擴(kuò)展的且健壯的。這些限制呼吁一種新方法,它能夠統(tǒng)一高容量生成先驗(yàn)與顯式統(tǒng)計(jì)對(duì)齊、高效采樣和跨域適用性。
近期大語(yǔ)言模型(LLMs)的進(jìn)展提供了一個(gè)新方向。這些在多樣化、大規(guī)模語(yǔ)料庫(kù)上預(yù)訓(xùn)練的模型展示了強(qiáng)大的結(jié)構(gòu)先驗(yàn),能夠在零樣本設(shè)置中生成語(yǔ)義連貫的數(shù)據(jù)。就像一個(gè)博學(xué)多才的講故事高手,能夠根據(jù)幾個(gè)關(guān)鍵詞構(gòu)建出完整、連貫的故事。這使它們成為合成數(shù)據(jù)生成的理想通用先驗(yàn)。然而,標(biāo)準(zhǔn)的LLM采樣仍然存在根本限制:它缺乏全局分布對(duì)齊,生成樣本效率低下且相互獨(dú)立,并且由于上下文長(zhǎng)度限制而無(wú)法生成大型數(shù)據(jù)集。這些限制阻止了LLM作為可靠的統(tǒng)計(jì)對(duì)齊合成工具的應(yīng)用。
二、LLMSYNTHOR:架構(gòu)創(chuàng)新與工作原理
為了應(yīng)對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)提出了LLMSYNTHOR,這是一個(gè)將大語(yǔ)言模型重新定位為結(jié)構(gòu)感知模擬器的通用框架,嵌入在分布引導(dǎo)的推理循環(huán)中。想象LLMSYNTHOR就像一位經(jīng)驗(yàn)豐富的廚師,不只是按照食譜機(jī)械地烹飪,而是能夠根據(jù)食材的特性和客人的口味偏好不斷調(diào)整烹飪過(guò)程,最終做出令人滿(mǎn)意的菜肴。
LLMSYNTHOR的核心創(chuàng)新在于將LLM視為一個(gè)非參數(shù)copula模擬器,捕捉潛在依賴(lài)關(guān)系并支持邊緣和聯(lián)合對(duì)齊。它不是直接從模型采樣,而是利用摘要統(tǒng)計(jì)來(lái)指導(dǎo)生成過(guò)程。為了實(shí)現(xiàn)跨域使用,LLMSYNTHOR將連續(xù)和離散變量映射到統(tǒng)一的、類(lèi)型無(wú)關(guān)的摘要空間,允許對(duì)統(tǒng)計(jì)結(jié)構(gòu)進(jìn)行可解釋的比較。這確保了在不同數(shù)據(jù)類(lèi)型上的一致性能,無(wú)需重新訓(xùn)練或重新設(shè)計(jì)。
為了提高效率,研究團(tuán)隊(duì)引入了"LLM提案采樣",其中LLM輸出結(jié)構(gòu)化、可采樣的分布,而不是單個(gè)記錄。這就像廚師不是一次只做一道菜,而是設(shè)計(jì)整個(gè)菜單并指導(dǎo)團(tuán)隊(duì)同時(shí)準(zhǔn)備多道菜肴。為了克服上下文限制并確保全數(shù)據(jù)集覆蓋,他們實(shí)現(xiàn)了一個(gè)迭代細(xì)化過(guò)程,使用真實(shí)和合成數(shù)據(jù)在統(tǒng)一摘要空間中的差異信號(hào)來(lái)指導(dǎo)生成。這一理論基礎(chǔ)的機(jī)制使得可擴(kuò)展、類(lèi)型無(wú)關(guān)的生成能夠跨結(jié)構(gòu)化和非結(jié)構(gòu)化格式,無(wú)需重新訓(xùn)練。
LLMSYNTHOR統(tǒng)一了LLM的語(yǔ)義靈活性與嚴(yán)格的統(tǒng)計(jì)控制,實(shí)現(xiàn)了細(xì)粒度、高保真度的跨域合成。它支持分布對(duì)齊、結(jié)構(gòu)感知泛化和無(wú)拒絕采樣,構(gòu)成了一個(gè)靈活且可擴(kuò)展的框架。
讓我們?cè)敿?xì)了解LLMSYNTHOR的工作原理。該方法通過(guò)迭代合成循環(huán)進(jìn)行,由四個(gè)關(guān)鍵階段組成:
首先是統(tǒng)計(jì)匯總階段。給定數(shù)據(jù)集D(真實(shí)或合成),計(jì)算其摘要統(tǒng)計(jì)s(D),包括所有邊緣統(tǒng)計(jì)和推斷的聯(lián)合統(tǒng)計(jì),這些共同代表結(jié)構(gòu)信號(hào)并作為比較基礎(chǔ)。這就像醫(yī)生不僅測(cè)量患者的體溫和血壓,還要考慮這些指標(biāo)之間的關(guān)系,以獲得全面的健康狀況圖像。
第二階段是依賴(lài)推斷。這將LLM建模為非參數(shù)copula模擬器,推斷聯(lián)合結(jié)構(gòu)組件C = {c1, c2, ...},其中每個(gè)ci指定相關(guān)變量的子集。這相當(dāng)于識(shí)別數(shù)據(jù)中的潛在模式和關(guān)系,就像偵探尋找案件中的關(guān)鍵線(xiàn)索。
第三階段是結(jié)構(gòu)建立。比較真實(shí)和合成數(shù)據(jù)的摘要統(tǒng)計(jì),使用差異函數(shù)Q(·, ·),產(chǎn)生差異信號(hào)δ = Q(s(Dsynth), s(Dreal)),并使用δ來(lái)建立生成過(guò)程。這就像園丁根據(jù)植物的生長(zhǎng)狀況調(diào)整澆水和施肥方案。
最后是LLM提案采樣。以C、s(Dreal)和δ為條件,LLM生成一組提案分布{π(i)}ki=1。從這些分布中抽取的樣本被合并到合成數(shù)據(jù)集Dsynth中,用于下一次迭代。這類(lèi)似于廚師根據(jù)顧客反饋調(diào)整菜譜,以提高下一輪烹飪的質(zhì)量。
整個(gè)過(guò)程通過(guò)直接最小化摘要統(tǒng)計(jì)空間中的差異來(lái)細(xì)化和豐富Dsynth,產(chǎn)生忠實(shí)反映真實(shí)數(shù)據(jù)集Dreal統(tǒng)計(jì)分布的合成數(shù)據(jù)。
在更詳細(xì)的層面上,LLMSYNTHOR解決了明確的問(wèn)題定義。我們觀察到的真實(shí)世界數(shù)據(jù)集表示為Dreal = {xi}ni=1,其中每個(gè)樣本xi包含全局變量集V = {vj}|V|j=1的值,這些變量可能包括非結(jié)構(gòu)化或嵌套字段。每個(gè)xi獨(dú)立同分布地從潛在生成過(guò)程中抽取,xi ~ P(x | φ?),φ? ∈ Φ,其中φ?表示管理數(shù)據(jù)生成的真實(shí)但未知結(jié)構(gòu)參數(shù)。
由于生成模型的復(fù)雜性,似然函數(shù)P(x | φ)在分析上不可處理。然而,我們可以訪(fǎng)問(wèn)隱式生成模擬器Gφ,它由參數(shù)φ參數(shù)化,誘導(dǎo)模擬分布Pφ并允許抽取合成樣本。目標(biāo)是使用模擬器Gφ生成合成數(shù)據(jù)集Dsynth = {xj}mj=1,使Dsynth的分布緊密匹配Dreal的分布。
在LLMSYNTHOR框架中,Gφ被實(shí)例化為預(yù)訓(xùn)練的LLM,作為非參數(shù)模擬器,其行為隱式地由提示φ控制。在每次迭代中,基于當(dāng)前的φ生成新的合成樣本,并積累形成合成數(shù)據(jù)集Dsynth。每次迭代后,使用從Dreal和不斷演變的Dsynth之間摘要統(tǒng)計(jì)的差異中獲得的反饋更新φ,逐步引導(dǎo)合成數(shù)據(jù)向與真實(shí)數(shù)據(jù)在摘要統(tǒng)計(jì)空間中結(jié)構(gòu)對(duì)齊,從而促進(jìn)整體分布對(duì)齊。
為了實(shí)現(xiàn)有效的統(tǒng)計(jì)匯總,研究團(tuán)隊(duì)采用了一種類(lèi)型無(wú)關(guān)的方法。對(duì)于連續(xù)變量,他們提取具有分位數(shù)范圍的經(jīng)驗(yàn)矩。對(duì)于離散變量,他們計(jì)算頻率表。他們還使用適當(dāng)?shù)姆窒洳呗詾檫B續(xù)變量計(jì)算聯(lián)合頻率分布,以捕捉混合變量之間的聯(lián)合依賴(lài)關(guān)系。這保證了匯總過(guò)程是可擴(kuò)展的、類(lèi)型無(wú)關(guān)的、完全自動(dòng)化的,同時(shí)仍然適用于異構(gòu)的真實(shí)世界數(shù)據(jù),可被LLM解釋?zhuān)橄掠谓Y(jié)構(gòu)推斷提供信息。
研究團(tuán)隊(duì)在理論上證明,在溫和條件下,所提出的迭代程序逐步減少合成和真實(shí)數(shù)據(jù)之間的局部結(jié)構(gòu)差異。他們定義了一組假設(shè),確保算法的收斂性和統(tǒng)計(jì)一致性,并提供了詳細(xì)的證明,展示了LLMSYNTHOR如何實(shí)現(xiàn)局部結(jié)構(gòu)一致性。
三、實(shí)驗(yàn)驗(yàn)證:三大應(yīng)用場(chǎng)景下的表現(xiàn)
為了證明LLMSYNTHOR的實(shí)用性,研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)實(shí)際任務(wù),涵蓋不同的數(shù)據(jù)格式、內(nèi)在分布和科學(xué)領(lǐng)域。所有實(shí)驗(yàn)都使用相同的提示和代碼,它們不直接用作數(shù)據(jù)接口。除非另有說(shuō)明,實(shí)驗(yàn)使用OpenAI的GPT-4.1-nano模型在聊天完成模式下進(jìn)行。
第一個(gè)任務(wù)是電子商務(wù)交易合成。電子商務(wù)交易數(shù)據(jù)包含連續(xù)和離散變量,具有復(fù)雜的依賴(lài)關(guān)系。這些數(shù)據(jù)在經(jīng)濟(jì)上非常有價(jià)值,支持動(dòng)態(tài)定價(jià)、推薦和欺詐檢測(cè)等應(yīng)用。為了評(píng)估LLMSYNTHOR的可控性和保真度,研究團(tuán)隊(duì)構(gòu)建了一個(gè)基于已知概率過(guò)程的完全合成任務(wù)。
想象一個(gè)電子商務(wù)平臺(tái),需要測(cè)試新的推薦算法,但又不能使用真實(shí)客戶(hù)數(shù)據(jù)以免侵犯隱私。LLMSYNTHOR可以生成行為與真實(shí)用戶(hù)相似的"虛擬客戶(hù)"數(shù)據(jù),幫助平臺(tái)優(yōu)化算法而不觸及敏感信息。
在這個(gè)受控環(huán)境中,每個(gè)合成交易都是從六個(gè)變量的封閉形式貝葉斯網(wǎng)絡(luò)中抽樣的:{vA, vG, vL, vC, vX, vM},分別代表用戶(hù)年齡、性別、位置層級(jí)、產(chǎn)品類(lèi)別、價(jià)格和支付方式。生成過(guò)程遵循結(jié)構(gòu)化的概率圖模型,聯(lián)合分布因式分解為p(vA, vG, vL, vC, vX, vM) = p(vA) p(vG) p(vL) p(vC | vA, vG) p(vX | vC) p(vM | vL)。這種設(shè)置使得可以精確控制依賴(lài)結(jié)構(gòu),并允許嚴(yán)格評(píng)估每個(gè)模型捕捉邊緣和條件分布的能力。
研究團(tuán)隊(duì)生成了2000個(gè)樣本的參考數(shù)據(jù)集作為合成的目標(biāo)分布。所有模型都在相同的數(shù)據(jù)上訓(xùn)練和評(píng)估,使用多個(gè)隨機(jī)種子報(bào)告平均性能。他們將LLMSYNTHOR與代表主要生成范式的基線(xiàn)進(jìn)行比較:TVAE和CTGAN(基于VAE和GAN的模型);CopulaGAN(具有基于copula的依賴(lài)建模的GAN);GReaT(用于表格生成的自回歸Transformer);以及TabSyn(基于擴(kuò)散的模型)。這些方法涵蓋了多種歸納偏置,作為評(píng)估保真度和可控性的強(qiáng)基線(xiàn)。為公平比較,他們對(duì)基線(xiàn)應(yīng)用拒絕采樣以確保樣本的真實(shí)性,而LLMSYNTHOR不需要這種后處理。
研究團(tuán)隊(duì)從兩個(gè)角度評(píng)估合成數(shù)據(jù)質(zhì)量:統(tǒng)計(jì)保真度和下游效用。他們報(bào)告了邊緣和聯(lián)合分布度量,評(píng)估每個(gè)模型如何保持個(gè)體變量分布和結(jié)構(gòu)化依賴(lài)關(guān)系。他們使用Wasserstein距離(W)用于連續(xù)變量,總變異距離(TVD)用于離散變量,以及分類(lèi)器雙樣本測(cè)試(C2ST)Gap(|acc - 0.5|)作為通用目的的散度度量?;谡鎸?shí)貝葉斯網(wǎng)絡(luò)選擇聯(lián)合子集。
結(jié)果令人印象深刻。LLMSYNTHOR在幾乎所有統(tǒng)計(jì)指標(biāo)上都優(yōu)于基線(xiàn)方法,顯示出最低的散度和間隙分?jǐn)?shù)。具體來(lái)說(shuō),在連續(xù)變量(如價(jià)格)上,LLMSYNTHOR的Wasserstein距離顯著低于其他方法,表明它能更準(zhǔn)確地捕捉分布形狀。在離散變量(如性別、位置和產(chǎn)品類(lèi)別)上,它也實(shí)現(xiàn)了最低的總變異距離,證明了對(duì)類(lèi)別分布的精確建模能力。
研究團(tuán)隊(duì)還評(píng)估了合成數(shù)據(jù)的實(shí)際效用。他們引入了兩個(gè)基于經(jīng)濟(jì)理論的派生變量:折扣傾向(基于需求價(jià)格彈性)和生命周期價(jià)值段(客戶(hù)生命周期價(jià)值的簡(jiǎn)化代理)。這些變量的完整定義在論文附錄中提供。他們?cè)诿糠N方法生成的數(shù)據(jù)上訓(xùn)練邏輯回歸、決策樹(shù)和隨機(jī)森林模型。結(jié)果顯示,LLMSYNTHOR生成的數(shù)據(jù)在泛化到真實(shí)數(shù)據(jù)方面表現(xiàn)最好,證明了其高保真度和效用。
第二個(gè)任務(wù)是人口合成。人口合成生成真實(shí)的微觀數(shù)據(jù),保留人口統(tǒng)計(jì)和家庭屬性的聯(lián)合分布。這對(duì)交通規(guī)劃、城市模擬和政策分析等應(yīng)用至關(guān)重要,在這些應(yīng)用中需要真實(shí)人口數(shù)據(jù)的隱私保護(hù)替代品。
想象一個(gè)城市規(guī)劃團(tuán)隊(duì)需要評(píng)估新建社區(qū)對(duì)不同年齡段和收入水平居民的影響。使用LLMSYNTHOR生成的合成人口數(shù)據(jù),他們可以模擬各種人口群體的行為模式,而不需要收集可能引發(fā)隱私擔(dān)憂(yōu)的真實(shí)居民數(shù)據(jù)。
研究團(tuán)隊(duì)使用美國(guó)社區(qū)調(diào)查(ACS)的人口微觀數(shù)據(jù),專(zhuān)注于南加州的家庭。數(shù)據(jù)集包括家庭和個(gè)人級(jí)別的屬性,由于家庭規(guī)模不同,導(dǎo)致非結(jié)構(gòu)化記錄。預(yù)處理后,他們獲得了約15,000個(gè)家庭的結(jié)構(gòu)化數(shù)據(jù)集,包含九個(gè)關(guān)鍵變量。任務(wù)是生成保留人口統(tǒng)計(jì)和家庭特征聯(lián)合分布的合成人口。
為了評(píng)估真實(shí)世界的效用,他們定義了16個(gè)政策相關(guān)查詢(xún),涵蓋六個(gè)類(lèi)別:公平、脆弱性、就業(yè)、家庭、人口統(tǒng)計(jì)和流動(dòng)性。每個(gè)查詢(xún)計(jì)算一個(gè)有意義模式的中位數(shù)或比例(例如,多代家庭的比例),作為分布保真度的代理。
研究團(tuán)隊(duì)將LLMSYNTHOR與一系列強(qiáng)大的人口合成基線(xiàn)進(jìn)行比較:CP(應(yīng)用非負(fù)張量分解并標(biāo)準(zhǔn)化為類(lèi)別乘積的混合);HMM(通過(guò)期望最大化(EM)估計(jì)的層次混合模型,使用潛在家庭和成員類(lèi)別,以Dirichlet先驗(yàn)正則化的類(lèi)別分布);以及NVI(具有攤銷(xiāo)神經(jīng)編碼器和Gumbel-Softmax重參數(shù)化的變分框架,通過(guò)隨機(jī)梯度變分推斷(SGVI)優(yōu)化)。這些基線(xiàn)涵蓋了經(jīng)典張量方法、概率生成模型和深度學(xué)習(xí)方法,在保真度、可擴(kuò)展性和結(jié)構(gòu)感知合成方面提供了多樣化的比較點(diǎn)。
結(jié)果顯示,LLMSYNTHOR在每個(gè)類(lèi)別中都實(shí)現(xiàn)了最低的相對(duì)誤差,通常是以很大的優(yōu)勢(shì)。例如,在與公平相關(guān)的查詢(xún)中,誤差從4.23(HMM)降至0.25。人口統(tǒng)計(jì)、就業(yè)、流動(dòng)性和脆弱性指標(biāo)也出現(xiàn)了類(lèi)似的提升。雖然LLMSYNTHOR并非在每個(gè)單獨(dú)查詢(xún)上都獲得最佳結(jié)果,但它在大多數(shù)查詢(xún)和每個(gè)聚合類(lèi)別上都優(yōu)于所有基線(xiàn)。這些發(fā)現(xiàn)證實(shí)了LLMSYNTHOR更準(zhǔn)確地捕捉了真實(shí)人口數(shù)據(jù)中存在的高階、非線(xiàn)性聯(lián)合依賴(lài)關(guān)系,產(chǎn)生了具有優(yōu)越實(shí)際效用的合成人口。
第三個(gè)任務(wù)是移動(dòng)性合成。移動(dòng)性合成生成真實(shí)的時(shí)空旅行和活動(dòng)數(shù)據(jù),同時(shí)保護(hù)隱私。這對(duì)城市應(yīng)用如交通規(guī)劃、需求預(yù)測(cè)和應(yīng)急響應(yīng)至關(guān)重要,在這些應(yīng)用中真實(shí)移動(dòng)軌跡的訪(fǎng)問(wèn)通常受到限制。
想象一個(gè)交通部門(mén)需要規(guī)劃公共交通路線(xiàn),但不想侵犯居民的出行隱私。LLMSYNTHOR可以生成反映真實(shí)城市移動(dòng)模式的合成出行數(shù)據(jù),幫助優(yōu)化公交路線(xiàn)和班次,而不需要跟蹤真實(shí)居民的移動(dòng)。
研究團(tuán)隊(duì)通過(guò)整合兩個(gè)互補(bǔ)的來(lái)源定義了移動(dòng)性合成任務(wù)。從OpenPFLOW中,他們提取了一天的旅行記錄(起點(diǎn)、終點(diǎn)、時(shí)間戳)并使用固定分布分配交通方式。由于OpenPFLOW缺乏活動(dòng)標(biāo)簽,他們納入了來(lái)自L(fǎng)LMob的時(shí)間-活動(dòng)模式來(lái)建??缭捶植?。這個(gè)任務(wù)評(píng)估了對(duì)齊異構(gòu)時(shí)空和行為數(shù)據(jù)的能力。
由于現(xiàn)有方法在沒(méi)有顯著修改的情況下無(wú)法處理混合源合成,研究團(tuán)隊(duì)專(zhuān)注于定性評(píng)估。他們?cè)跂|京生成了一天內(nèi)的30,000次旅行,以匹配兩個(gè)分布。
結(jié)果顯示,LLMSYNTHOR生成的合成數(shù)據(jù)在三個(gè)視圖上與真實(shí)移動(dòng)性模式緊密匹配。在時(shí)間-活動(dòng)熱圖中,合成數(shù)據(jù)準(zhǔn)確捕捉了"交通與運(yùn)輸"的通勤高峰和"購(gòu)物與服務(wù)"的中午上升。在早上6-9點(diǎn),LLMSYNTHOR生成了更多的"食品"和"購(gòu)物與服務(wù)"活動(dòng),這可能反映了LLM對(duì)早晨例行活動(dòng)的先驗(yàn)知識(shí)。雖然這看起來(lái)像是一個(gè)限制,但這種偏差也可能揭示或糾正真實(shí)數(shù)據(jù)中的審查偏差。
在早高峰期(6-9點(diǎn))的OD流強(qiáng)度熱圖中,合成旅行復(fù)制了關(guān)鍵的空間模式,匹配住宅和商業(yè)區(qū)域的高密度起點(diǎn)和終點(diǎn)區(qū)域。研究團(tuán)隊(duì)還演示了控制性移動(dòng)性合成用于事件模擬。通過(guò)在東京巨蛋添加"將有一個(gè)從20-24點(diǎn)的音樂(lè)會(huì)"的提示,LLMSYNTHOR生成了到事件地點(diǎn)的旅行激增,緊密匹配真實(shí)世界模式,同時(shí)保留現(xiàn)實(shí)的背景流量。這證明了LLMSYNTHOR的可控性及其在隱私保護(hù)合成框架中進(jìn)行"假設(shè)"情景規(guī)劃的潛力。
四、討論與未來(lái)展望
研究團(tuán)隊(duì)的實(shí)驗(yàn)證明,LLMSYNTHOR在不同領(lǐng)域始終實(shí)現(xiàn)高統(tǒng)計(jì)保真度、強(qiáng)結(jié)構(gòu)對(duì)齊和實(shí)際效用。但就像任何突破性技術(shù)一樣,LLMSYNTHOR也有其局限性和未來(lái)的發(fā)展方向。
首先,LLM編碼了強(qiáng)行為先驗(yàn),這有時(shí)可能引入與真實(shí)世界數(shù)據(jù)不一致的偏差。這類(lèi)似于一位有著自己烹飪風(fēng)格的廚師,即使按照食譜烹飪,也可能無(wú)意中加入個(gè)人風(fēng)格。這種情況可以通過(guò)更嚴(yán)格的提示設(shè)計(jì)或在生成過(guò)程中移除語(yǔ)義線(xiàn)索來(lái)緩解。
其次,由于框架的性能取決于LLM的上下文窗口和推理能力,LLMSYNTHOR尚未很好地?cái)U(kuò)展到極高維度的設(shè)置(例如,具有數(shù)百或數(shù)千個(gè)變量的數(shù)據(jù)集)。不過(guò),隨著未來(lái)模型的進(jìn)步,這一點(diǎn)將會(huì)改善。就像早期的智能手機(jī)存儲(chǔ)容量有限,但隨著技術(shù)發(fā)展,這一限制已經(jīng)大大減輕。
第三,雖然LLMSYNTHOR對(duì)混合類(lèi)型i.i.d.數(shù)據(jù)有效,但它不太適合感知數(shù)據(jù)或序列數(shù)據(jù),如圖像或時(shí)間序列。然而,它可以作為高級(jí)控制器來(lái)指導(dǎo)這些模態(tài)的領(lǐng)域特定生成器。就像一位藝術(shù)總監(jiān)可能不親自創(chuàng)作每幅畫(huà)作,但可以指導(dǎo)專(zhuān)業(yè)畫(huà)家團(tuán)隊(duì)創(chuàng)作出具有一致風(fēng)格和質(zhì)量的作品。
最后,雖然LLMSYNTHOR沒(méi)有明確納入差分隱私等正式隱私保證,但其合成過(guò)程基于對(duì)齊摘要統(tǒng)計(jì),而不是記憶或復(fù)制個(gè)體記錄,這本質(zhì)上降低了直接重新識(shí)別和敏感數(shù)據(jù)暴露的風(fēng)險(xiǎn)。就像創(chuàng)建一個(gè)基于真實(shí)事件的小說(shuō),但改變了所有角色的名字和具體細(xì)節(jié),以保護(hù)真實(shí)人物的隱私。
研究團(tuán)隊(duì)的工作為未來(lái)開(kāi)辟了幾個(gè)有希望的方向。隨著語(yǔ)言模型的持續(xù)發(fā)展,LLMSYNTHOR框架的通用性和可擴(kuò)展性將使更廣泛的應(yīng)用受益。未來(lái)的工作可能會(huì)探索將LLMSYNTHOR與特定領(lǐng)域的生成器集成,以處理更廣泛的數(shù)據(jù)類(lèi)型,或者納入正式的隱私保護(hù)機(jī)制,進(jìn)一步增強(qiáng)其在敏感領(lǐng)域的適用性。
五、結(jié)論:數(shù)據(jù)合成的新范式
在這項(xiàng)開(kāi)創(chuàng)性研究中,麥吉爾大學(xué)的團(tuán)隊(duì)展示了LLMSYNTHOR如何將大型語(yǔ)言模型轉(zhuǎn)變?yōu)槟軌虍a(chǎn)生高保真度、統(tǒng)計(jì)上可靠的合成數(shù)據(jù)的結(jié)構(gòu)感知模擬器。通過(guò)統(tǒng)一LLM的語(yǔ)義豐富性和推理能力與嚴(yán)格的分布引導(dǎo)推理,LLMSYNTHOR克服了靈活性、統(tǒng)計(jì)對(duì)齊和可擴(kuò)展性之間的長(zhǎng)期權(quán)衡,這些權(quán)衡一直挑戰(zhàn)著現(xiàn)有方法。
LLMSYNTHOR就像是一位既了解食材科學(xué)又精通烹飪藝術(shù)的大廚,能夠根據(jù)特定需求和口味偏好創(chuàng)造出令人驚嘆的菜肴。它不僅能制作出看起來(lái)像真實(shí)數(shù)據(jù)的合成數(shù)據(jù),還能捕捉數(shù)據(jù)中復(fù)雜的統(tǒng)計(jì)關(guān)系和內(nèi)在結(jié)構(gòu),使生成的數(shù)據(jù)在下游任務(wù)中表現(xiàn)出色。
跨電子商務(wù)、人口和移動(dòng)性數(shù)據(jù)的結(jié)果證明了該模型在結(jié)構(gòu)保真度和下游相關(guān)性方面的一致收益,突出了其作為支持?jǐn)?shù)據(jù)驅(qū)動(dòng)研究、模擬和政策制定的通用數(shù)據(jù)合成工具的潛力。這項(xiàng)工作為科學(xué)研究、政策制定和數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新領(lǐng)域開(kāi)辟了新途徑,在語(yǔ)言模型繼續(xù)發(fā)展的同時(shí),LLMSYNTHOR方法的通用性和可擴(kuò)展性將為更廣泛的應(yīng)用賦能。
對(duì)于研究人員、政策制定者和數(shù)據(jù)科學(xué)家來(lái)說(shuō),LLMSYNTHOR提供了一個(gè)強(qiáng)大的工具,可以在保護(hù)隱私和遵守法規(guī)的同時(shí),利用合成數(shù)據(jù)的力量。隨著數(shù)據(jù)隱私法規(guī)變得更加嚴(yán)格,對(duì)高質(zhì)量、統(tǒng)計(jì)上準(zhǔn)確的合成數(shù)據(jù)的需求只會(huì)增加,使LLMSYNTHOR這樣的創(chuàng)新框架在我們?nèi)找鏀?shù)據(jù)驅(qū)動(dòng)的世界中變得更加寶貴。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。