近日,阿里巴巴國(guó)際數(shù)字商務(wù)部門(mén)與哈爾濱工業(yè)大學(xué)(深圳)的研究團(tuán)隊(duì)聯(lián)合推出了一款名為"ComfyUI-Copilot"的創(chuàng)新工具,該論文于2025年6月5日發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2506.05010v1)。這個(gè)基于大型語(yǔ)言模型的插件旨在提升ComfyUI平臺(tái)的可用性和效率,為AI藝術(shù)創(chuàng)作提供強(qiáng)大支持。對(duì)于想要親自體驗(yàn)的讀者,可以通過(guò)GitHub(https://github.com/AIDC-AI/ComfyUI-Copilot)訪問(wèn)ComfyUI-Copilot的安裝包和演示視頻。
想象一下,你剛剛接觸一款強(qiáng)大的AI藝術(shù)創(chuàng)作工具,卻不知道從何入手。這就像你走進(jìn)一間有著成千上萬(wàn)種原料和工具的廚房,但沒(méi)有食譜指導(dǎo)你該如何開(kāi)始烹飪。ComfyUI正是這樣一個(gè)開(kāi)源平臺(tái),雖然功能強(qiáng)大且界面友好,但對(duì)新手來(lái)說(shuō)仍有不少挑戰(zhàn):文檔分散、模型配置復(fù)雜,更不用說(shuō)創(chuàng)建一個(gè)好的工作流程需要多少專業(yè)知識(shí)了。
ComfyUI-Copilot就像是你身邊的專業(yè)廚師助手,它不僅能推薦合適的"食材"(節(jié)點(diǎn)和模型),還能一鍵幫你生成完整的"食譜"(工作流程)。這款智能助手的核心是一個(gè)分層的多代理框架,由一個(gè)負(fù)責(zé)任務(wù)分配的中央助手代理和幾個(gè)專門(mén)處理不同用途的工作代理組成,所有這些都由團(tuán)隊(duì)精心策劃的ComfyUI知識(shí)庫(kù)提供支持。
研究團(tuán)隊(duì)通過(guò)離線定量評(píng)估和在線用戶反饋驗(yàn)證了ComfyUI-Copilot的有效性,結(jié)果顯示它能準(zhǔn)確推薦節(jié)點(diǎn)并加速工作流程開(kāi)發(fā)。實(shí)際使用案例也證明,ComfyUI-Copilot降低了初學(xué)者的入門(mén)門(mén)檻,同時(shí)提高了有經(jīng)驗(yàn)用戶的工作流程效率。
自2025年2月23日在GitHub上發(fā)布以來(lái),ComfyUI-Copilot已吸引了超過(guò)1.6K的星標(biāo),處理了來(lái)自22個(gè)國(guó)家19K用戶的85K多次查詢,成為人工智能藝術(shù)創(chuàng)作領(lǐng)域的一大助力。
ComfyUI:開(kāi)源AI藝術(shù)創(chuàng)作的挑戰(zhàn)與機(jī)遇
在當(dāng)今AI生成內(nèi)容(AIGC)蓬勃發(fā)展的時(shí)代,像ComfyUI這樣的開(kāi)源框架正成為低代碼AI工作流開(kāi)發(fā)的關(guān)鍵工具。ComfyUI擁有超過(guò)400萬(wàn)活躍用戶,背后有一個(gè)充滿活力的社區(qū)貢獻(xiàn)了12K多個(gè)組件,包括SDXL、ControlNet等,用戶可以通過(guò)拖放組件來(lái)靈活編排工作流程,實(shí)現(xiàn)文本到圖像生成、換臉、視頻編輯等多模態(tài)任務(wù)。
然而,就像一個(gè)配有各種高級(jí)烹飪?cè)O(shè)備的廚房對(duì)沒(méi)有烹飪經(jīng)驗(yàn)的人來(lái)說(shuō)可能令人生畏一樣,ComfyUI對(duì)新手也存在幾個(gè)潛在障礙。這些挑戰(zhàn)包括安裝依賴節(jié)點(diǎn)和模型的復(fù)雜性、在論壇和GitHub問(wèn)題中分散的文檔。即使是有經(jīng)驗(yàn)的用戶也需要大量專業(yè)知識(shí)來(lái)調(diào)試和構(gòu)建一個(gè)設(shè)計(jì)良好的工作流程。最近關(guān)于自動(dòng)工作流構(gòu)建的研究也有局限性,如不穩(wěn)定性(生成無(wú)法處理的工作流)以及主要關(guān)注文本到圖像生成任務(wù)的狹窄焦點(diǎn)。
ComfyUI-Copilot:智能助手的核心功能
ComfyUI-Copilot就像是給這個(gè)復(fù)雜廚房配備了一位經(jīng)驗(yàn)豐富的主廚助手,它提供三個(gè)關(guān)鍵功能來(lái)解決上述挑戰(zhàn):
首先是自動(dòng)工作流生成。想象你告訴助手:"我想做一道海鮮意面",而助手能立即理解你的意圖,找到適合的食譜,并將所有需要的原料和工具準(zhǔn)備好。ComfyUI-Copilot就是這樣工作的——它能識(shí)別用戶意圖,檢索或合成適當(dāng)?shù)墓ぷ髁鞒?,然后將其集成到ComfyUI畫(huà)布中。例如,當(dāng)用戶描述想要?jiǎng)?chuàng)建一種特定風(fēng)格的圖像時(shí),系統(tǒng)會(huì)建議多個(gè)適合的工作流程,用戶只需一鍵點(diǎn)擊即可將選定的工作流程加載到畫(huà)布上。
第二個(gè)關(guān)鍵功能是節(jié)點(diǎn)和模型推薦。繼續(xù)烹飪的比喻,這就像廚師助手根據(jù)你正在制作的菜肴,推薦最適合的刀具(節(jié)點(diǎn))和原料(模型)。ComfyUI-Copilot可以根據(jù)用戶指令建議合適的節(jié)點(diǎn),推薦相關(guān)的檢查點(diǎn)和LoRA模型,使得工作流程構(gòu)建變得更加直觀和高效。
第三個(gè)功能是ComfyUI相關(guān)問(wèn)答。這相當(dāng)于助手不僅告訴你使用哪種刀具和原料,還詳細(xì)解釋每種工具的使用方法和每種原料的特性。ComfyUI-Copilot提供選定節(jié)點(diǎn)和模型的詳細(xì)教程,包括使用指南、安裝步驟和參數(shù)解釋。它還可以為選定節(jié)點(diǎn)提供多個(gè)可行的下游子圖,進(jìn)一步簡(jiǎn)化工作流程設(shè)計(jì)過(guò)程。
除了這些核心功能外,研究團(tuán)隊(duì)還引入了旨在增強(qiáng)工作流程調(diào)試和優(yōu)化的新功能,包括提示詞編寫(xiě)和參數(shù)搜索,就像廚師助手幫你調(diào)整食譜和烹飪溫度以獲得最佳口感一樣。
技術(shù)架構(gòu):多代理框架與知識(shí)庫(kù)
ComfyUI-Copilot的架構(gòu)就像一個(gè)精心組織的廚房團(tuán)隊(duì),有一位主廚(助手代理)協(xié)調(diào)各個(gè)專業(yè)廚師(工作代理)的工作,并有一本詳盡的食譜集(知識(shí)庫(kù))供參考。
這個(gè)框架以基于大型語(yǔ)言模型的助手代理為中心,該代理與各種專門(mén)的工作代理和知識(shí)庫(kù)協(xié)調(diào)工作。根據(jù)查詢,助手代理可能直接回答用戶問(wèn)題,或?qū)⑷蝿?wù)委派給適當(dāng)?shù)墓ぷ鞔?。研究團(tuán)隊(duì)開(kāi)發(fā)了三個(gè)主要的工作代理,專注于工作流程生成、節(jié)點(diǎn)和模型推薦。
為支持這些代理,團(tuán)隊(duì)構(gòu)建了涵蓋7K節(jié)點(diǎn)、62K模型和9K工作流程的龐大知識(shí)庫(kù)。這些知識(shí)庫(kù)通過(guò)利用大型語(yǔ)言模型的代碼理解能力進(jìn)行自動(dòng)文檔生成得到增強(qiáng),并且每天持續(xù)擴(kuò)展和更新。與以往僅針對(duì)文本到圖像生成的工作不同,團(tuán)隊(duì)知識(shí)庫(kù)中的資源擴(kuò)展到條件多模態(tài)生成任務(wù),確保系統(tǒng)能夠準(zhǔn)確地適應(yīng)各種任務(wù)和最新模塊。
知識(shí)庫(kù)的構(gòu)建過(guò)程十分精細(xì)。對(duì)于缺乏結(jié)構(gòu)化文檔的節(jié)點(diǎn),團(tuán)隊(duì)會(huì)設(shè)置一個(gè)沙盒環(huán)境來(lái)運(yùn)行ComfyUI,克隆GitHub倉(cāng)庫(kù)并安裝必要的依賴。成功導(dǎo)入節(jié)點(diǎn)后,他們提取元數(shù)據(jù),包括節(jié)點(diǎn)類型、輸入和輸出參數(shù)。然后將GitHub代碼分段成塊,使用BGE-M3嵌入進(jìn)行編碼,隨后進(jìn)行檢索以找到每個(gè)節(jié)點(diǎn)的相關(guān)代碼。通過(guò)將元數(shù)據(jù)與代碼結(jié)合,他們使用大型語(yǔ)言模型生成關(guān)于節(jié)點(diǎn)用法和參數(shù)含義的文檔。
對(duì)于工作流生成代理,團(tuán)隊(duì)不僅使用模塊召回管道,還探索了基于代碼大語(yǔ)言模型從頭生成工作流程的可能性。工作流可以表示為三種常見(jiàn)格式:ComfyUI流圖、JSON和代碼。團(tuán)隊(duì)采用代碼作為主要工作流表示,因?yàn)樗哂胸S富的邏輯和語(yǔ)義信息,以及與大型語(yǔ)言模型代碼生成能力的自然兼容性。
用戶界面與實(shí)際應(yīng)用
ComfyUI-Copilot的界面設(shè)計(jì)非常直觀,就像一個(gè)響應(yīng)迅速的廚房助手一樣隨時(shí)待命。用戶只需在ComfyUI界面左側(cè)邊欄點(diǎn)擊ComfyUI-Copilot圖標(biāo),即可啟動(dòng)服務(wù)。激活后,聊天框顯示用戶輸入和助手的回應(yīng)。用戶可以進(jìn)行多輪對(duì)話,并在DeepSeek-V3和GPT-4o等底層大型語(yǔ)言模型之間切換。
自動(dòng)工作流生成功能就像是一鍵烹飪方案。ComfyUI-Copilot響應(yīng)用戶指令,呈現(xiàn)召回的前三個(gè)工作流程。點(diǎn)擊"接受"后,選定的工作流程就會(huì)加載到畫(huà)布上。如果系統(tǒng)檢測(cè)到缺少任何所需節(jié)點(diǎn),它會(huì)提供安裝指南并引導(dǎo)用戶到官方GitHub倉(cāng)庫(kù)進(jìn)行簡(jiǎn)單設(shè)置。
ComfyUI相關(guān)問(wèn)答功能則像是隨時(shí)可用的專家顧問(wèn)。用戶可以點(diǎn)擊任何節(jié)點(diǎn),詢問(wèn)關(guān)于其用法、參數(shù)和推薦的下游節(jié)點(diǎn)的快捷問(wèn)題。例如,用戶詢問(wèn)"KSampler"節(jié)點(diǎn)的輸入和輸出參數(shù)時(shí),ComfyUI-Copilot不僅解釋這些參數(shù),還建議相關(guān)的下游節(jié)點(diǎn),如用于換臉和圖像放大的子圖,以簡(jiǎn)化工作流程構(gòu)建。系統(tǒng)還支持多語(yǔ)言查詢和響應(yīng),增強(qiáng)了全球用戶的可訪問(wèn)性。
節(jié)點(diǎn)和模型推薦功能則是上下文感知的,考慮工作流程中組件之間的依賴關(guān)系。例如,某些LoRA模型與特定的擴(kuò)散模型配合效果最佳。當(dāng)用戶請(qǐng)求用于文本到圖像生成的LoRA模型時(shí),ComfyUI-Copilot會(huì)提示用戶指定正在使用的擴(kuò)散模型,然后再建議兼容的LoRA模型。界面顯示每個(gè)推薦節(jié)點(diǎn)的詳細(xì)描述和GitHub星數(shù),用戶只需單擊即可將首選選項(xiàng)添加到畫(huà)布。
除了這些核心功能外,ComfyUI-Copilot還提供提示詞編寫(xiě)功能,幫助用戶完善文本到圖像生成的提示,產(chǎn)生更生動(dòng)的圖像。例如,給定像"一只貓"這樣簡(jiǎn)單的指令,系統(tǒng)會(huì)提出幾個(gè)詳細(xì)的提示,每一個(gè)都能產(chǎn)生高質(zhì)量的輸出。
參數(shù)搜索功能則允許用戶通過(guò)改變關(guān)鍵參數(shù)并批處理圖像進(jìn)行并行實(shí)驗(yàn),以便高效比較。在給定的例子中,使用原始工作流生成的圖像與源沙發(fā)圖像不相似。通過(guò)嘗試不同的參數(shù)組合(特別是KSampler節(jié)點(diǎn)中的"cfg"和"denoise"),生成的圖像可以并排比較,讓用戶輕松識(shí)別最能保留所需屬性的最佳參數(shù)。
評(píng)估與用戶反饋
為了評(píng)估ComfyUI-Copilot的性能,研究團(tuán)隊(duì)設(shè)計(jì)了基于工作流知識(shí)庫(kù)的130個(gè)用戶指令用于工作流召回,以及基于節(jié)點(diǎn)知識(shí)庫(kù)的104個(gè)節(jié)點(diǎn)推薦指令。例如,工作流指令如"我需要一個(gè)適合快速放大和圖像質(zhì)量恢復(fù)的工作流",節(jié)點(diǎn)推薦指令如"我想在AI藝術(shù)應(yīng)用中增強(qiáng)圖像美感和分辨率,推薦一個(gè)合適的節(jié)點(diǎn)"。
實(shí)驗(yàn)結(jié)果表明,在召回前三個(gè)工作流和節(jié)點(diǎn)時(shí),無(wú)論是使用GPT-4o還是DeepSeek-V3,該框架都實(shí)現(xiàn)了很高的召回率(超過(guò)88.5%)。這證明了多代理框架的穩(wěn)健性和有效性。對(duì)不成功的工作流案例進(jìn)行錯(cuò)誤分析表明,即使未召回確切的目標(biāo)工作流,所建議的工作流通常仍能滿足用戶的預(yù)期功能。
自2025年2月23日在GitHub上發(fā)布ComfyUI-Copilot以來(lái),在線用戶反饋顯示推薦節(jié)點(diǎn)的接受率為65.4%,而建議工作流的接受率高達(dá)85.9%。作為首個(gè)ComfyUI助手插件的開(kāi)源項(xiàng)目,ComfyUI-Copilot已迅速吸引了不斷增長(zhǎng)的用戶群體,獲得了超過(guò)1.6K的GitHub星標(biāo),處理了來(lái)自22個(gè)國(guó)家19K用戶的85K多次查詢。研究團(tuán)隊(duì)通過(guò)GitHub問(wèn)題收集了寶貴的反饋,并積極更新功能以更好地滿足用戶需求。
結(jié)論與未來(lái)展望
歸根結(jié)底,ComfyUI-Copilot是一個(gè)強(qiáng)大的工具,它通過(guò)降低ComfyUI的入門(mén)門(mén)檻,使AI藝術(shù)創(chuàng)作變得更加平易近人。就像一位隨時(shí)準(zhǔn)備協(xié)助的廚房助手能讓初學(xué)者也能烹飪出美味佳肴一樣,這個(gè)系統(tǒng)讓初學(xué)者能夠輕松創(chuàng)建復(fù)雜的AI藝術(shù)作品,同時(shí)也提高了有經(jīng)驗(yàn)用戶的工作效率。
ComfyUI-Copilot的多代理架構(gòu),結(jié)合其廣泛的知識(shí)庫(kù)和用戶友好的界面,為AI工作流程自動(dòng)化開(kāi)發(fā)了一個(gè)新的可能性領(lǐng)域。通過(guò)提供智能節(jié)點(diǎn)和模型推薦,以及一鍵式工作流構(gòu)建,它大大簡(jiǎn)化了ComfyUI的使用體驗(yàn)。
展望未來(lái),研究團(tuán)隊(duì)計(jì)劃整合開(kāi)源社區(qū)的反饋,并持續(xù)更新功能以更好地解決用戶需求,如自動(dòng)工作流和參數(shù)優(yōu)化等。隨著越來(lái)越多的用戶加入這個(gè)開(kāi)源項(xiàng)目,ComfyUI-Copilot有望成為AI藝術(shù)創(chuàng)作領(lǐng)域的重要工具,進(jìn)一步推動(dòng)了AI生成內(nèi)容的民主化進(jìn)程。
對(duì)于想要親自體驗(yàn)這一創(chuàng)新工具的讀者,可以通過(guò)訪問(wèn)GitHub倉(cāng)庫(kù)(https://github.com/AIDC-AI/ComfyUI-Copilot)下載ComfyUI-Copilot的安裝包并觀看演示視頻,開(kāi)始您自己的AI藝術(shù)創(chuàng)作之旅。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。