如果你曾經(jīng)試著和ChatGPT這樣的AI助手溝通,可能會(huì)發(fā)現(xiàn)一個(gè)有趣現(xiàn)象:同樣的問題,用不同方式表達(dá),AI的回答質(zhì)量可能天差地別。就像和一個(gè)外國朋友交流,你說話的方式、用詞的順序,甚至標(biāo)點(diǎn)符號(hào)的位置,都可能影響對(duì)方的理解程度。
這篇由微軟研究院的張雨格、陳楠、許嘉航、楊雨晴等研究人員共同完成的論文,發(fā)表于2025年4月的arXiv平臺(tái)上(論文編號(hào):arXiv:2508.13948v1 [cs.HC]),就專門研究了這個(gè)令人頭疼的問題。有興趣深入了解的讀者可以通過https://arxiv.org/abs/2508.13948訪問完整論文。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)在的AI對(duì)話就像是在沒有統(tǒng)一格式的情況下填寫復(fù)雜表格。有時(shí)候你需要讓AI處理一個(gè)Excel表格的數(shù)據(jù),有時(shí)候需要它閱讀PDF文檔,有時(shí)候還要它同時(shí)看圖片和文字。但問題是,每次你都得手動(dòng)把這些材料"喂"給AI,而且稍微改變一下表達(dá)方式,AI的理解就可能出現(xiàn)偏差。
為了解決這個(gè)問題,微軟研究團(tuán)隊(duì)開發(fā)了一套名為POML(Prompt Orchestration Markup Language,提示編排標(biāo)記語言)的全新系統(tǒng)。簡單來說,這就像是為和AI對(duì)話制作了一套標(biāo)準(zhǔn)化的"填空模板"。就好比你去銀行辦事時(shí)填寫的標(biāo)準(zhǔn)表格,每個(gè)信息都有固定的位置和格式,不會(huì)因?yàn)槟愕淖謱懙闷吝€是難看而影響銀行工作人員的理解。
POML的核心思想就是把和AI的對(duì)話變成一種結(jié)構(gòu)化的"配方"。當(dāng)你想讓AI分析一份市場報(bào)告時(shí),不用再費(fèi)心思考該怎么描述這個(gè)任務(wù),而是直接使用預(yù)設(shè)的模板:告訴AI它現(xiàn)在的"角色"是數(shù)據(jù)分析師,"任務(wù)"是分析市場趨勢(shì),然后把PDF文檔、Excel表格等材料按照標(biāo)準(zhǔn)格式"裝"進(jìn)去就行。
這套系統(tǒng)最巧妙的地方在于,它把內(nèi)容和樣式完全分開了。打個(gè)比方,這就像Word文檔的樣式功能:你寫好文章內(nèi)容后,可以隨時(shí)切換不同的格式樣式,讓同一篇文章看起來像正式報(bào)告、商務(wù)信件或者學(xué)術(shù)論文。POML也是如此,同樣的對(duì)話內(nèi)容可以根據(jù)不同AI模型的"喜好"調(diào)整格式,確保每個(gè)AI都能最好地理解你的意圖。
研究團(tuán)隊(duì)不僅開發(fā)了這套語言系統(tǒng),還為程序員們制作了配套的開發(fā)工具。就像現(xiàn)在的代碼編輯器會(huì)自動(dòng)提示語法錯(cuò)誤、補(bǔ)全代碼一樣,POML也有自己的智能編輯環(huán)境,能實(shí)時(shí)預(yù)覽效果、檢查錯(cuò)誤,甚至直接測(cè)試AI的響應(yīng)結(jié)果。
為了驗(yàn)證POML的實(shí)用性,研究團(tuán)隊(duì)進(jìn)行了兩個(gè)有趣的實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)開發(fā)了一個(gè)名為PomLink的iPhone應(yīng)用原型,這個(gè)應(yīng)用能讓用戶輕松地把各種文件(文檔、圖片、表格等)"喂給"AI,然后進(jìn)行對(duì)話。令人驚訝的是,使用POML開發(fā)這樣一個(gè)復(fù)雜應(yīng)用竟然只用了兩天時(shí)間,而且大部分時(shí)間還是花在界面設(shè)計(jì)上,真正的AI對(duì)話邏輯編寫非常簡單。
第二個(gè)實(shí)驗(yàn)更是揭示了一個(gè)令人震驚的發(fā)現(xiàn):同樣的問題,僅僅是改變一下格式和表達(dá)方式,不同AI模型的準(zhǔn)確率差異竟然能達(dá)到驚人的程度。比如GPT-3.5-Turbo在某種格式下的準(zhǔn)確率只有6%,但換個(gè)格式就能達(dá)到61.8%,提升了整整9倍多。這就好比同一道數(shù)學(xué)題,用不同方式提問,有的學(xué)生完全不會(huì)做,有的卻能輕松解答。
通過對(duì)8個(gè)不同AI模型進(jìn)行10萬次測(cè)試,研究團(tuán)隊(duì)發(fā)現(xiàn)每個(gè)AI都有自己獨(dú)特的"理解偏好"。有些AI喜歡看到數(shù)據(jù)用CSV格式呈現(xiàn),有些則偏愛HTML表格,還有些對(duì)JSON格式情有獨(dú)鐘。POML系統(tǒng)能夠自動(dòng)識(shí)別這些偏好,為每個(gè)AI"量身定制"最適合的對(duì)話格式。
更有趣的是,研究團(tuán)隊(duì)還邀請(qǐng)了7位不同背景的志愿者來測(cè)試POML的易用性。這些志愿者包括軟件工程師、研究人員和學(xué)生,他們對(duì)AI應(yīng)用開發(fā)的經(jīng)驗(yàn)各不相同。測(cè)試結(jié)果顯示,即使是沒有相關(guān)經(jīng)驗(yàn)的新手,也能在很短時(shí)間內(nèi)學(xué)會(huì)使用POML創(chuàng)建復(fù)雜的AI對(duì)話場景。
志愿者們對(duì)POML最贊賞的功能是它處理各種文件格式的能力。一位測(cè)試者表示:"以前想讓AI讀取PDF文檔或Excel表格簡直是噩夢(mèng),現(xiàn)在就像插入一張圖片一樣簡單。"另一位測(cè)試者則對(duì)實(shí)時(shí)預(yù)覽功能贊不絕口:"我可以立刻看到AI會(huì)收到什么樣的信息,不用反復(fù)試錯(cuò)了。"
當(dāng)然,POML也不是完美無缺的。一些志愿者反映,對(duì)于非常簡單的對(duì)話,使用POML可能有點(diǎn)"大材小用"的感覺,就像用專業(yè)相機(jī)拍個(gè)朋友圈照片一樣。此外,系統(tǒng)在處理超大文檔時(shí)偶爾會(huì)出現(xiàn)性能問題,需要等待較長時(shí)間。
從技術(shù)角度來看,POML采用了類似網(wǎng)頁開發(fā)的三層結(jié)構(gòu):內(nèi)容層負(fù)責(zé)定義對(duì)話的邏輯結(jié)構(gòu),樣式層控制格式呈現(xiàn),工具層提供開發(fā)支持。這種設(shè)計(jì)讓整個(gè)系統(tǒng)既靈活又穩(wěn)定,程序員可以像搭積木一樣組合不同功能,而不用擔(dān)心牽一發(fā)而動(dòng)全身。
研究團(tuán)隊(duì)在論文中坦承,POML目前還處于起步階段,有很多可以改進(jìn)的地方。比如對(duì)殘障人士的無障礙支持還不夠完善,需要更好的屏幕閱讀器兼容性。同時(shí),他們也承認(rèn)測(cè)試規(guī)模相對(duì)有限,需要更多真實(shí)場景下的驗(yàn)證。
但這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)本身。隨著AI助手在我們生活中扮演越來越重要的角色,如何更好地與它們交流成為了一個(gè)迫切需要解決的問題。POML提供了一種標(biāo)準(zhǔn)化的解決方案,讓普通人也能像專家一樣與AI進(jìn)行高效對(duì)話。
展望未來,研究團(tuán)隊(duì)計(jì)劃將POML開源,讓更多開發(fā)者能夠使用和改進(jìn)這套系統(tǒng)。他們還設(shè)想POML能夠應(yīng)用到更廣泛的領(lǐng)域,比如教育工具、企業(yè)應(yīng)用,甚至成為AI系統(tǒng)之間相互交流的通用語言。
說到底,POML就是在AI時(shí)代為人類提供了一套更好的"說話方式"。就像我們學(xué)會(huì)了使用搜索引擎的技巧一樣,掌握了與AI高效溝通的方法,我們就能更好地利用這些強(qiáng)大的工具來解決實(shí)際問題。這項(xiàng)研究為我們打開了一扇新的大門,讓我們看到了人機(jī)交流的新可能。
Q&A
Q1:POML是什么?它能解決什么問題?
A:POML是微軟研究院開發(fā)的一套標(biāo)準(zhǔn)化AI對(duì)話語言,就像給AI制作了統(tǒng)一的"填空模板"。它主要解決現(xiàn)在與AI對(duì)話時(shí)格式混亂、效果不穩(wěn)定的問題,讓用戶能更高效地與AI交流,特別是處理復(fù)雜任務(wù)時(shí)。
Q2:使用POML需要編程基礎(chǔ)嗎?
A:不需要很強(qiáng)的編程基礎(chǔ)。研究團(tuán)隊(duì)的測(cè)試顯示,即使是沒有AI開發(fā)經(jīng)驗(yàn)的新手也能快速上手。POML采用了類似HTML的簡單標(biāo)記語言,配有智能編輯器提供實(shí)時(shí)幫助和錯(cuò)誤檢查。
Q3:POML對(duì)不同AI模型的效果真的差別很大嗎?
A:是的,研究發(fā)現(xiàn)同一個(gè)問題用不同格式表達(dá),AI的準(zhǔn)確率差異可以達(dá)到9倍以上。每個(gè)AI都有自己的"理解偏好",POML能自動(dòng)適配這些偏好,確保每個(gè)AI都能發(fā)揮最佳性能。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。