近日,一項由斯坦福大學Omar Shaikh、Shardul Sapkota、Joon Sung Park、Diyi Yang和Michael S. Bernstein,微軟研究院Eric Horvitz,以及獨立研究者Shan Rizvi共同完成的研究在計算機人機交互領域引起了廣泛關注。這項研究名為"Creating General User Models from Computer Use"(從計算機使用中創(chuàng)建通用用戶模型),發(fā)表于2025年5月的arXiv預印本(arXiv:2505.10831v2),提出了一種全新的人機交互方式,讓計算機能夠通過觀察用戶的日常使用行為,逐漸學習并理解用戶的習慣、偏好和需求。
人機交互領域長期以來都有一個美好的愿景:讓技術真正理解我們是誰、我們在做什么,以及什么對我們有幫助。早在1991年,馬克·韋瑟(Mark Weiser)在他著名的論文《21世紀的計算機》中描繪了一個能夠感知用戶即將醒來并主動提供咖啡的鬧鐘。同樣,蘋果公司1987年展示的"知識導航員"(Knowledge Navigator)概念視頻中,計算機能夠在用戶思考問題時查找有用的支持信息,并在用戶專注工作時阻擋不必要的電話。這些愿景描繪了一種了解用戶足夠多、能夠在恰當時機做出恰當事情的技術。
然而,盡管在用戶建模、推薦系統(tǒng)和情境感知系統(tǒng)方面取得了進展,但這些愿景在今天仍然遙不可及。當前的用戶模型過于狹窄,它們可能了解我們的音樂偏好,或者我們在單個應用程序內的工具使用情況,或者我們可能會觀看的下一個電視節(jié)目。即使是跨多個應用程序整合數(shù)據(jù)的用戶模型,整合也僅停留在表面層次;用戶模型無法在新環(huán)境中推理或做出推斷。
我們對技術的愿景需要廣泛的用戶模型,能夠推理從我們的一般偏好到我們當前的信息需求的一切,并能夠跨上下文應用這些見解,從工作相關任務到休閑活動。今天的應用程序之所以失敗,是因為它們對用戶的了解非常有限:韋瑟的無處不在計算愿景需要能夠推理家庭、朋友和工作的模型——而不僅僅是一個應用程序,也不僅僅通過一維信號。
斯坦福大學的研究團隊提出了通用用戶模型(General User Model,簡稱GUM)的架構:這是一種計算模型,可以跨領域和時間尺度具象化有關用戶的信息和推斷。GUM允許用戶通過將非結構化觀察(例如,屏幕共享)輸入到利用大型多模態(tài)模型(如視覺和語言模型,即VLM)的推理架構中,構建用戶自己行為、知識、信念和偏好的私人計算表示。
這個架構貢獻了三個主要元素:Propose(提議)模塊將非結構化觀察轉化為關于用戶偏好、上下文和意圖的帶有置信度權重的命題。Retrieve(檢索)模塊對這些命題進行索引和搜索,以返回給定查詢的最相關子集。最后,使用Retrieve的結果,Revise(修訂)模塊會在新觀察到來時重新評估和優(yōu)化命題。團隊還使用情境完整性(contextual integrity)的Audit(審計)模塊對所有觀察進行審計,以防止隱私侵犯。該模塊利用GUM本身來估計和過濾掉用戶預期不會記錄到GUM中的信息。所有數(shù)據(jù)都安全地保存在用戶的設備上,在具備條件的硬件上支持本地推理。
操作系統(tǒng)、應用程序或用戶本身可以實時查詢GUM,實現(xiàn)類似于人機交互基礎研究中設想的廣泛應用。作為GUM的一部分,研究團隊引入了一個接口,使應用程序能夠查詢GUM的底層命題。GUM看到的任何非結構化觀察都可以被調用來驅動交互式應用程序。無論互動如何,用戶都能直接和本地控制GUM的底層命題,允許編輯、刪除或添加。
在最簡單的層面上,GUM可以插入信息以在應用程序和用戶之間建立共同基礎:例如,在提示像ChatGPT這樣的語言模型時自動添加相關上下文。有了GUM,任何LLM現(xiàn)在都可以直接引用你幾分鐘前正在閱讀的研究論文,當你詢問其方法論時,無需你明確引用或總結論文內容。除了提示LLM外,任何應用程序都可以直接查詢GUM來調整其體驗,實現(xiàn)長期以來人機交互的愿景。例如,使用GUM增強的操作系統(tǒng)可以在會議期間只優(yōu)先處理真正相關的通知——在抑制食譜郵件的同時顯示迫在眉睫的會議注冊截止日期。連接到GUM的電子郵件客戶端可以根據(jù)觀察到的用戶優(yōu)先級自動對消息進行排序,而無需額外的特定應用程序訓練。
GUM還使能創(chuàng)建全新類別的主動交互系統(tǒng)。研究團隊通過一個名為Gumbo的助手來展示這一點,該助手通過連續(xù)私密捕獲用戶計算機屏幕的截圖來學習GUM。使用GUM,Gumbo不斷發(fā)現(xiàn)根據(jù)用戶的上下文,哪些建議會有所幫助。此外,Gumbo使用底層GUM來確定是否以及何時干預并執(zhí)行建議可能有用。通過調用用戶的上下文,Gumbo可以主動發(fā)現(xiàn)一系列有用的建議并適當過濾重要的建議。
對于本論文的第一作者,Gumbo在觀察到他朋友的婚禮邀請后,主動找到了一個可以租西裝的地方(考慮到作者的預算)。Gumbo還在開發(fā)過程中發(fā)現(xiàn)并提出了系統(tǒng)本身的漏洞修復方案;并根據(jù)與合作者的互動提出了對本論文的潛在修改建議。對于評估中的參與者,Gumbo構思了將新的理論框架整合到正在進行的研究中的方法,創(chuàng)建了針對跨國搬遷的高度個性化的搬家計劃,并幫助組織來自分散通信的電子郵件存檔——所有這些都是主動的,僅基于對用戶的觀察。
在技術評估中,研究團隊首先關注驗證GUM的準確性。他們在最近的電子郵件互動上訓練GUM,將每封電子郵件(元數(shù)據(jù)、附件、鏈接和回復)按順序輸入到GUM中。18名參與者評判由GUM生成的命題總體上準確且校準良好:在不正確時不自信,在正確時自信。高置信度命題(置信度=10)被評為100%準確,而平均而言,所有命題(包括低置信度的命題)都相當準確(76.15%)。從消融研究來看,所有GUM組件對準確性都至關重要。然后,他們部署Gumbo與5名參與者一起使用了5天,系統(tǒng)觀察參與者的屏幕。這種縱向評估重現(xiàn)了底層GUM的結果。此外,參與者確定了Gumbo完成的大量有用且執(zhí)行良好的建議。五名參與者中有兩名在研究結束后特別看重該系統(tǒng),并要求繼續(xù)在他們的計算機上運行。評估還突出了GUM和Gumbo的局限性和邊界條件,包括隱私考慮和過于坦率的命題。
總結來說,這項研究貢獻了通用用戶模型(GUMs):用戶行為、知識、信念和偏好的計算表示,從對用戶的非結構化觀察中構建。研究團隊展示了GUM的實現(xiàn),一個允許應用程序查詢GUM的接口,一個名為Gumbo的示例助手應用程序,通過非結構化電子郵件互動進行的技術評估,通過非結構化屏幕捕獲進行的縱向評估,以及對這類應用程序的規(guī)范和含義的反思。
這項研究向我們展示了一個令人興奮的未來,在這個未來中,計算機系統(tǒng)可以通過觀察我們的日常工作方式,真正理解我們是誰、我們在做什么以及什么對我們有幫助,從而提供無縫、智能的支持,實現(xiàn)人機交互領域長久以來的愿景。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。