av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 對話偉景智能董霄劍:走一條不同于VLA的路,讓人形機器人落地商用

對話偉景智能董霄劍:走一條不同于VLA的路,讓人形機器人落地商用

2025-04-17 07:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-17 07:51 ? 金旺

對話偉景智能董霄劍:走一條不同于VLA的路,讓人形機器人落地商用

作者| 金旺

欄目| 機器人新紀元

2024年,就在人形機器人紛紛涌入工廠時,一款人形機器人卻悄悄進入到了農業(yè)場景,從網上公開視頻來看,這款人形機器人可以借助雙目立體視覺系統和靈巧手在農場中執(zhí)行西紅柿采摘任務。

這款人形機器人名為曉唯,由偉景智能研發(fā)。

偉景智能成立于2016年,自2017年開始研發(fā)人形機器人,2019年第一代人形機器人在WRC 2019上亮相后,又在2021年研發(fā)出了第二代人形機器人。

盡管憑借自研的靈巧手、關節(jié)模組、控制系統,以及立體視覺系統,偉景智能當時的人形機器人已經可以進行自主操作,但是偉景智能創(chuàng)始人蕫霄劍對這一代人形機器人并不滿意,他認為,這樣的人形機器人還無法成為真正走向商用化的產品。

在近日的第二屆中國人形機器人與具身智能產業(yè)大會上,蕫霄劍表示,“偉景智能將在2025年5月推出雙足版和AGV版人形機器人,這代人形機器人是能夠滿足小規(guī)模商用、具有自主操作能力和自主意識的人形機器人。”

也是在本屆大會上,我們與蕫霄劍進行了一場對話,談了談他對人形機器人的看法,以及偉景智能人形機器人不一樣的技術路線。

01 高精度立體視覺系統,是精細化操作關鍵

問:工業(yè)用到的立體視覺系統與人形機器人用到的有什么差異?

董霄劍:工業(yè)立體視覺系統與人形機器人用到的基本相同,唯一不同的是幀率,工業(yè)場景只需要一次建模就可以進行后續(xù)工作,人形機器人需要做連續(xù)的動態(tài)跟蹤,所以幀率需要高一些。

我們現在在人形機器人上用到的立體視覺系統幀率做到了20幀,要比正常工業(yè)場景用到的高很多。

問:偉景智能的立體視覺系統在工業(yè)場景中采集到的數據,是如何遷移到人形機器人上的?

董霄劍:我們研發(fā)的飛虎平臺是一個共享操作平臺,該平臺本身由兩部分組成,一個是立體視覺系統,另一個是工業(yè)機器人系統,我們的飛虎平臺已經把這兩部分集成在了一起并在平臺上進行了打通。

對話偉景智能董霄劍:走一條不同于VLA的路,讓人形機器人落地商用

問:機器人在工業(yè)場景的泛化性如何實現?

董霄劍:偉景智能目前對外銷售的立體視覺工業(yè)相機已經超過1.5萬套,這些工業(yè)相機每臺每天至少要工作一兩百次,由此會產生大量實際工業(yè)數據。

但是我并不認為真正的機器人要走一條靠堆砌大數據來實現自主操作的路,這種大數據和機器人自己感知得到的數據不一樣,機器人通過立體視覺系統可以識別各類物體,這是機器人感知系統的意義。

我不認為機器人操作這件事也需要依賴大數據來實現,我們走的是一條不同的技術路線,就像我們的機器人充電走的是“插電路線”一樣——機器人在電量不足時可以自己取下插頭,找到插座,插上插頭自己充電,是完全類人的。

這樣的認知系統的建立需要一個非常好的感知系統,我們的高精度立體視覺相機目前已經可以在任意自然光照條件下實現1m以內0.2mm的感知精度。

對話偉景智能董霄劍:走一條不同于VLA的路,讓人形機器人落地商用

而如果你真要做精細化操作,就必須要具備高精度的立體視覺系統。

02 擁抱大模型,但不走VLA路線

問:這樣的技術路線與VLA路線有何不同?

董霄劍:如果感知系統不好,就需要大量工作做認知系統的構建,這就像一位近視600度的人類不戴眼鏡和一位正常視力的人類寫出來的字不一樣,由于看不清楚,就需要寫很多遍、做大量的訓練。

而由于沒有很好的感知系統,無法進行任務收斂,寫不同字時還需要重新進行訓練。

我們有大量的工業(yè)場景數據,但我們走的并不是以大數據為基礎的機器人運動控制訓練(VLA)路徑,而是基于高精度立體視覺的路徑。

我們現在基于飛虎平臺和人形機器人產品,構建一個為汽車充電或加油的機器人僅僅需要半小時就能完成功能開發(fā),如果沒有小于1mm的感知精度,這一功能的開發(fā)難度將會成倍提升。

問:大模型為偉景智能帶來了怎樣的機會?

董霄劍:如今的大模型核心還是語言大模型,它基本上掌握了人類90%以上的知識,這讓基于語言的理解控制已經可以實現。

對話偉景智能董霄劍:走一條不同于VLA的路,讓人形機器人落地商用

問:2021年之前,偉景智能在做前兩代機器人時做了哪些應用測試?

董霄劍:我們2021年研發(fā)出的人形機器人的能力就已經超出了現在新勢力所做的這些機器人的能力,我們那時做出的人形機器人已經能夠實現打招呼、人臉識別、自主講解等能力。

不過,我當時認為那一代人形機器人距離我對人形機器人的要求還差很遠,我當時認為,人形機器人應該能夠像人一樣執(zhí)行任務,當時最欠缺的是自然交互能力,但現在的大模型讓機器人的交互已經變得很自然。

對話偉景智能董霄劍:走一條不同于VLA的路,讓人形機器人落地商用

就是因為這一點,我當時沒有把它推向大規(guī)模商業(yè)化,這是令我非常遺憾的事。

但是現在回過頭來看,我也不確定那時如果真將人形機器人推向商業(yè)化,沒有像現在這樣一個人形機器人風口,是不是也能賣出去。

03 人形機器人有泡沫,但沒有吹到偉景智能

問:去年偉景智能有嘗試將人形機器人用到農業(yè)采摘場景,為什么會選擇這個場景?

董霄劍:因為農業(yè)人口在中國有8億,它的市場甚至要比工廠場景還要大。

實際上,我們的人形機器人現在已經在面向科研、政務、展館、農業(yè)等場景出貨。

我們現在的售價在20萬元左右,我們認為未來要真正進入家庭服務場景,售價一定在15萬元以內,這也是我們未來的一個目標市場。

問:今年5月偉景智能將發(fā)布正式商用的人形機器人,這代機器人能直立站立不耗電是如何實現的?

董霄劍:我們的人形機器人沒有采用關節(jié)模組,而是采用了絲杠結構,這讓我們的人形機器人的腿是可以百分之百直立的,而且掉電以后推都推不動。

采用關節(jié)模組的人形機器人,要保證腿部直立狀態(tài),關節(jié)模組必須一直處于上電狀態(tài),這就帶來了一個問題,要保持站姿,關節(jié)模組會產生大量的熱能,這就會導致電機發(fā)熱嚴重,這也是為什么很多人形機器人在不行走時需要吊著的原因。

問:偉景智能的人形機器人前期有進入工廠做測試嗎?

蕫霄劍:我們在農業(yè)采摘、農業(yè)裝備等場景有做測試。

前幾天我也考察了我們一個潛在客戶的電路板組裝廠,他們組裝廠的每一個車間里有上百位組裝工人在打螺絲,而這種打螺絲場景對于我們來說是最簡單的事。

我們今年會正式將我們的人形機器人推向商用市場做這些事。

問:如何看當下人形機器人發(fā)展階段?機器人市場有沒有泡沫?

董霄劍:我覺得泡沫是非常明顯的,但泡沫并沒有吹到偉景智能。

從現在人形機器人融資環(huán)境來看,只要能攢出一臺人形機器人,有的團隊甚至連技術路線都沒想好就能拿到上億融資,這顯然是存在泡沫的。

我認為,現在的人形機器人首先應該具備完全自主操作能力,否則就是個玩具,而自主操作能力一定要有自主認知系統,要有自主認知系統就必須要有很好的自主感知系統。

我們現在做的人形機器人已經細化到通過設計散熱風道,為人形機器人本體增加散熱系統,這些都是將人形機器人推向商業(yè)市場之前需要考慮和解決的問題。

分享至
0贊

好文章,需要你的鼓勵

金旺

Wille
關注智造、硬件、機器人。
推薦文章
  • LLM情境調節(jié)與持續(xù)工作流程提示:革新化學分子式的多模態(tài)驗證技術

    LLM情境調節(jié)與持續(xù)工作流程提示:革新化學分子式的多模態(tài)驗證技術

    這項研究探索了如何通過"LLM情境調節(jié)"和"持續(xù)工作流程提示"技術來提高大型語言模型在驗證化學分子式時的準確性。研究者發(fā)現,普通提示方法往往不可靠,因為LLM傾向于自動"糾正"錯誤而非指出它們。然而,通過精心設計的情境調節(jié)提示,研究成功引導Gemini 2.5 Pro不僅識別出文本中的錯誤,還發(fā)現了之前人工審閱未察覺的圖像中的分子式錯誤。這一概念驗證研究表明,即使不修改模型本身,也能通過適當的提示策略顯著提高LLM在科學技術文檔細節(jié)驗證中的表現。

  • 微生物顯微圖像分割新突破:復旦大學研究團隊借助多模態(tài)大語言模型統一顯微鏡下的"萬物分割"

    微生物顯微圖像分割新突破:復旦大學研究團隊借助多模態(tài)大語言模型統一顯微鏡下的"萬物分割"

    復旦大學研究團隊開發(fā)的uLLSAM模型成功將多模態(tài)大語言模型(MLLMs)與分割一切模型(SAM)結合,解決了顯微鏡圖像分析的跨域泛化難題。通過創(chuàng)新的視覺-語言語義對齊模塊(VLSA)和語義邊界正則化(SBR)技術,該模型在9個領域內數據集上提升了7.71%的分割準確度,在10個從未見過的數據集上也展現了10.08%的性能提升。這一統一框架能同時處理光學和電子顯微鏡圖像,大大提高了生物醫(yī)學圖像分析的效率和準確性,為科研人員提供了強大的自動化分析工具。

  • 用強化學習讓大語言模型為匯編代碼提速:斯坦福團隊的優(yōu)化探索

    用強化學習讓大語言模型為匯編代碼提速:斯坦福團隊的優(yōu)化探索

    斯坦福大學等機構研究團隊利用強化學習訓練大語言模型,使其能夠優(yōu)化匯編代碼性能。研究構建了8,072個程序的數據集,并通過近端策略優(yōu)化(PPO)訓練模型生成既正確又高效的匯編代碼。實驗表明,訓練后的Qwen2.5-Coder-7B-PPO模型實現了96.0%的測試通過率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在內的所有其他模型。研究發(fā)現模型能識別編譯器忽略的優(yōu)化機會,如用單一指令替代整個循環(huán),為性能敏感應用提供了有價值的優(yōu)化途徑。

  • 播放師傅變聲魔術:讓你的錄音遵循參考風格的推理時間優(yōu)化新方法

    播放師傅變聲魔術:讓你的錄音遵循參考風格的推理時間優(yōu)化新方法

    這項研究提出了一種改進的聲樂效果風格遷移方法,通過在推理時間優(yōu)化過程中引入高斯先驗知識,解決了傳統ST-ITO方法忽視參數合理性的問題。研究團隊基于DiffVox數據集構建了專業(yè)效果器參數分布模型,將風格遷移轉化為最大后驗概率估計問題。實驗結果表明,該方法顯著優(yōu)于基準方法,參數均方誤差降低了33%,并在主觀聽感測試中獲得最高評分。這一創(chuàng)新為音頻處理領域融合數據驅動和專業(yè)知識提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-