在人工智能和機器人領域,讓機器理解人類的自然語言指令一直是一個巨大挑戰(zhàn)。想象一下,你對家里的廚房機器人說:"幫我把蛋糕放在盤子上。"如果廚房里有多個盤子,機器人應該如何選擇?它應該主動詢問你想用哪個盤子,還是自己做決定?這種情況就是我們所說的"指令歧義"問題。
2025年6月,莫斯科物理技術學院(MIPT)和人工智能研究所(AIRI)的研究團隊,包括Anastasiia Ivanova、Eva Bakaeva、Zoya Volovikova、Alexey K. Kovalev和Aleksandr I. Panov,在arXiv上發(fā)表了一篇題為"AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment"的研究論文(arXiv:2506.04089v1),專門解決這一問題。這項研究為大型語言模型(LLM)在理解模糊指令方面的能力評估提供了一個全新的標準。
近年來,大型語言模型(如GPT系列、Llama等)已經(jīng)展現(xiàn)出了優(yōu)秀的指令理解能力,可以幫助機器人規(guī)劃完成各種任務。然而,當我們的指令不夠明確時,這些模型往往會遇到困難。比如,當我們說"把水燒開"時,機器人應該用水壺還是微波爐?當我們說"切點水果"時,應該切哪些水果?應該切多大的塊?這些看似簡單的問題,對于人類來說可能很容易通過常識或經(jīng)驗來解決,但對于機器人來說卻可能變成嚴重的障礙。
雖然已經(jīng)有一些研究團隊開發(fā)了詢問用戶反饋的方法,但這些方法通常針對的是問答任務,而不是實體代理(即具有物理形態(tài)的機器人)所面臨的特殊挑戰(zhàn)。實體代理與純虛擬的聊天機器人相比,需要在物理世界中運作,考慮安全性、物體意識和交互適應性等因素。
為了推動這一領域的研究,我們需要專門的數(shù)據(jù)集來評估和比較不同的方法。雖然已經(jīng)存在一些包含歧義任務的數(shù)據(jù)集,如DialFred和TEACh,但它們?nèi)狈iT支持歧義檢測研究的充分注釋。而KnowNo數(shù)據(jù)集雖然是純文本的,但其中的歧義任務只占很小一部分(170個樣本),且沒有提供解決歧義的問題或提示。
因此,MIPT和AIRI的研究團隊創(chuàng)建了AmbiK(Ambiguous Tasks in Kitchen Environment),這是一個完全基于文本的英語數(shù)據(jù)集,專門用于檢測和處理廚房環(huán)境中的歧義指令。AmbiK包含1000對任務(共2000個任務),每對包含一個歧義指令和一個無歧義的對應版本,以及環(huán)境描述、澄清問題和答案、用戶意圖和任務計劃。
AmbiK的獨特之處在于它根據(jù)解決歧義所需的知識類型將歧義任務分為三類:
首先是"偏好類"(Human Preferences),這類歧義涉及用戶的個人偏好,例如"請把牛奶倒入杯子里",當環(huán)境中有多個杯子時,機器人需要詢問用戶想要使用哪個杯子。對于這類歧義,一個優(yōu)秀的模型應該總是詢問用戶,因為人類的偏好是變化多端且不可預測的。
其次是"常識知識類"(Common Sense Knowledge),這類歧義需要常識知識來解決,例如"請烤面包",機器人需要知道烤面包通常使用烤面包機而不是烤箱或微波爐。對于這類歧義,模型應該限制其提問頻率,只在真正必要時才詢問。
第三類是"安全類"(Safety),涉及安全規(guī)則的知識,例如"請加熱水牛城雞翅",機器人需要知道應該使用微波安全的盤子。與常識知識類似,模型應該只在必要時詢問,但由于安全問題的嚴重性,詢問明顯的安全問題比詢問常識問題更可接受。
研究團隊對AmbiK數(shù)據(jù)集進行了詳細的統(tǒng)計分析,發(fā)現(xiàn)其中42%的任務對屬于偏好類,42.5%屬于常識知識類,15.5%屬于安全類。AmbiK的任務在語言上非常豐富多樣,非重復詞匯占比較低,表明任務復雜度高。平均來說,無歧義任務包含26.21個單詞,而歧義任務包含21.23個單詞。
為了創(chuàng)建這個數(shù)據(jù)集,研究團隊首先手動創(chuàng)建了一個包含750多種廚房物品和食物的列表,按照物品相似性分組。然后隨機抽樣構建了1000個廚房環(huán)境,每個環(huán)境從2-5個食物組和2-5個廚房物品組中抽取至少3個物品?;A廚房設備如冰箱、烤箱、廚房桌子、微波爐、洗碗機、水槽和茶壺在每個環(huán)境中都存在。然后,研究團隊使用Mistral模型生成無歧義任務,并使用ChatGPT為每個無歧義任務生成對應的歧義版本以及問答對。最后,團隊根據(jù)專門創(chuàng)建的注釋指南對所有答案進行人工審核,三位團隊成員的注釋一致性超過95%。
為了驗證AmbiK數(shù)據(jù)集的實用性,研究團隊對三種基于混淆預測(Conformal Prediction, CP)的方法(KnowNo、LAP和LofreeCP)和兩種基準方法(Binary和No Help)進行了評估。實驗在四種LLM上進行:GPT-3.5、GPT-4、Llama-2-7B和Llama-3-8B。
結果顯示,所有測試的方法在AmbiK上表現(xiàn)都不佳,表明AmbiK確實提出了嚴峻的挑戰(zhàn)。No Help方法表現(xiàn)最差,僅依賴模型的最高置信度預測是不夠的。沒有任何方法的集合大小正確率(SSC)達到20%,表明CP集合與實際歧義集合不一致。此外,大多數(shù)情況下,機器人要么從不請求幫助,要么總是請求幫助,表明它們無法有效處理歧義。令人驚訝的是,簡單的Binary方法在大多數(shù)情況下產(chǎn)生的預測集比基于CP的方法更準確。
研究團隊還發(fā)現(xiàn),不依賴模型內(nèi)部信息的方法(Binary和LofreeCP)表現(xiàn)優(yōu)于基于logit的方法,這支持了之前的觀察,即模型logit通常校準不良并導致性能下降。此外,大多數(shù)方法很少觸發(fā)人類干預,這可能是因為模型(特別是GPT)給予最高置信度選項的分數(shù)遠高于其他選項,導致CP集合通常只包含一個選項。
研究團隊進一步驗證了將相同的方法應用于KnowNo數(shù)據(jù)集的表現(xiàn)。結果表明,所有方法在KnowNo上的表現(xiàn)都優(yōu)于在更復雜的AmbiK上的表現(xiàn),這證實了創(chuàng)建更具挑戰(zhàn)性的基準的必要性。
此外,研究團隊還比較了向LLM提供完整計劃上下文與僅提供單一操作的效果。結果表明,提供先前操作可能對基于CP的方法有益,可能是因為LLM獲得了更多上下文。
總的來說,AmbiK數(shù)據(jù)集提供了一個全新的、高質(zhì)量的標準,用于評估大型語言模型在處理廚房環(huán)境中歧義指令的能力。盡管最先進的方法在AmbiK上面臨挑戰(zhàn),但這正是推動研究進步的機會。通過AmbiK,研究人員可以更好地理解模型的局限性,并開發(fā)更強大的方法來處理實際應用中的歧義情況。未來的研究可以探索更多的家庭任務和環(huán)境,使數(shù)據(jù)集更加多樣化,同時也可以考慮文化和語言的變異性。
這項研究的數(shù)據(jù)集和所有實驗代碼都已在GitHub上公開發(fā)布(https://github.com/cog-model/AmbiK-dataset),歡迎感興趣的研究者進一步探索和使用。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。