av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 OpenAI借助深度神經(jīng)網(wǎng)絡(luò),用50小時讓機(jī)器人學(xué)會用手指抓東西

OpenAI借助深度神經(jīng)網(wǎng)絡(luò),用50小時讓機(jī)器人學(xué)會用手指抓東西

2018-08-01 15:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2018-08-01 15:43 ? 科技行者

“手動操作”對于人類來說輕而易舉,因?yàn)槲覀兡軌蛟诓患偎妓鞯那闆r下自如地適應(yīng)并協(xié)調(diào)自己的手指,運(yùn)用手掌皮膚的摩擦力與重力特性,單手完成諸多工作。但對于機(jī)器人而言,這卻非常困難。

OpenAI利用模擬環(huán)境訓(xùn)練機(jī)器人執(zhí)行現(xiàn)實(shí)中的復(fù)雜物理操作

人類從嬰兒時期開始,就經(jīng)歷了多年的學(xué)習(xí)與演練才慢慢掌握這種強(qiáng)大的手動操作能力; 相比之下,機(jī)器人顯然沒有那么多時間。其中的挑戰(zhàn)在于,我們必須找到一種速度更快且效率更高的學(xué)習(xí)方法,不僅能夠讓機(jī)器人以手動方式實(shí)現(xiàn)反復(fù)操作,同時意識到哪些動作有效、哪些動作無效。

為此,OpenAI的研究人員正在利用強(qiáng)化學(xué)習(xí)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),從而控制一支擁有五根手指的Shadow手臂進(jìn)行物體操控,而這整個學(xué)習(xí)過程只有短短50個小時。通過在模擬當(dāng)中進(jìn)行操作學(xué)習(xí),加上經(jīng)過精心設(shè)計的隨機(jī)化模擬方法,更好地匹配現(xiàn)實(shí)世界中的場景需求。如此一來,即使從未接觸過任何真實(shí)物體,Shadow手臂仍然能夠順利學(xué)會手動操作的精髓所在。

在理想情況下,只要有足夠的計算能力,所有機(jī)器人都可以接受模擬訓(xùn)練。但問題在于,現(xiàn)實(shí)世界無法被完全精確地模擬出來,特別是在涉及摩擦、順應(yīng)性以及物體間相互作用等細(xì)小因素時,精確模擬將變得更為困難。因此,在可接受的狀態(tài)內(nèi)進(jìn)行模擬雖然效果不錯,但模擬成功與現(xiàn)實(shí)世界成功之間始終還存在著巨大的鴻溝。這會在某種程度上降低模擬訓(xùn)練的價值。

為了解決這類問題,很多研究人員會選擇盡可能提升模擬場景的準(zhǔn)確性,以便從中提取出一些有用的成果。但OpenAI卻反其道而行之,選擇了以可變性為主、準(zhǔn)確性為輔,為仿真模擬提供一系列略有不同的參數(shù)調(diào)整方案,從而確保通過訓(xùn)練形成的行為方式足以在模擬場景之外起效。該項(xiàng)目名為“Dactyl”。

需要重申的是,OpenAI非常清楚其所使用的模擬場景并不足以精確反映各項(xiàng)重要指標(biāo)——例如摩擦系數(shù)以及機(jī)器人手指隨時間推移而表現(xiàn)出的運(yùn)動方式等。為了讓機(jī)器人準(zhǔn)確概括其當(dāng)前學(xué)習(xí)的內(nèi)容,OpenAI盡可能引入更多模擬方面,從而覆蓋一切無法良好建模的可變性因素。其中包括物體的質(zhì)量與尺寸、物體表面與機(jī)器人指尖的摩擦力、機(jī)器人關(guān)節(jié)的阻尼水平、執(zhí)行器力度、關(guān)節(jié)限制、電機(jī)間隙以及噪音大小等。這些因素會對物體施加較小的隨機(jī)力以獲得額外的未建模動態(tài)參數(shù)。當(dāng)然,這一切僅僅是在操作層面——在物體姿態(tài)估計當(dāng)中,OpenAI也以多種變化方式訓(xùn)練RGB相機(jī),從而降低可視化的實(shí)現(xiàn)門檻。

OpenAI將此稱為“域隨機(jī)化”。在談到手動操作時,OpenAI方面表示:“我們希望了解,經(jīng)過擴(kuò)展的域隨機(jī)化方案能否解決遠(yuǎn)超現(xiàn)有機(jī)器人技術(shù)實(shí)現(xiàn)方法的任務(wù)。”在這方面,OpenAI構(gòu)建了兩套獨(dú)立的神經(jīng)訓(xùn)練網(wǎng)絡(luò),其中一個負(fù)責(zé)視覺,另一個負(fù)責(zé)操作,通過相互配合觀察方塊物體的姿態(tài)并以多種方式對其進(jìn)行操控,如下圖:

OpenAI利用模擬環(huán)境訓(xùn)練機(jī)器人執(zhí)行現(xiàn)實(shí)中的復(fù)雜物理操作

系統(tǒng)得到的惟一反饋(模擬與IRL)就是方塊的位置以及手臂指尖的位置。在這項(xiàng)實(shí)驗(yàn)中,系統(tǒng)最初并不具備任何方塊抓取概念或者操縱方法認(rèn)知。因此,必須從零開始總結(jié)經(jīng)驗(yàn),包括手指旋轉(zhuǎn)、多指協(xié)調(diào)、配合重力條件的力量控制與調(diào)整等。該系統(tǒng)整合了人類在進(jìn)行手動操作時使用的所有技術(shù),并對其做出了一系列細(xì)小且有趣的修改,比如:

對于精確抓取,其策略傾向于使用小指而非食指或中指。這可能是因?yàn)榕c食指、中指以及無名指相比,Shadow Dexterous機(jī)械手的小指具有額外的自由活動空間,因此更加靈巧。但在人類身上,食指與中指則通常更為靈巧。這意味著該系統(tǒng)能夠準(zhǔn)確發(fā)現(xiàn)人類的抓取動作與習(xí)慣,但同時也能很好地結(jié)合自身的限制與能力特性進(jìn)行調(diào)整。

這個過程經(jīng)過了50個小時、累計收集了超過100年的機(jī)器人模擬經(jīng)驗(yàn),使得6144個CPU核心與8個GPU成功完成了50次方塊的抓取動作。

OpenAI利用模擬環(huán)境訓(xùn)練機(jī)器人執(zhí)行現(xiàn)實(shí)中的復(fù)雜物理操作

此外,研究人員還發(fā)現(xiàn),機(jī)械手與人類在手指旋轉(zhuǎn)的方式中存在著一種有趣的區(qū)別——也就是機(jī)器人是用兩根手指夾起物體,并以其為軸進(jìn)行旋轉(zhuǎn)。而在人類中,幼兒由于運(yùn)動水平還沒有發(fā)展成熟,因此更傾向于使用手指的近端或中間指骨旋轉(zhuǎn)物體。只有在達(dá)到一定年齡后,他們才會大量使用遠(yuǎn)端指骨,形成成人習(xí)慣。

以上研究結(jié)果證明,我們確實(shí)能夠立足模擬環(huán)境訓(xùn)練機(jī)器人執(zhí)行復(fù)雜的物理操作,并將這些來自模擬環(huán)境的技能應(yīng)用于真實(shí)世界。這一點(diǎn)非常重要,因?yàn)槟M訓(xùn)練的速度要遠(yuǎn)遠(yuǎn)高于真實(shí)世界訓(xùn)練。

以下是IEEE Spectrum與OpenAI機(jī)器人技術(shù)主管Jonas Schneider的文字訪談記錄:

IEEE Spectrum: 為什么手動操作對機(jī)器人而言會成為一個難以克服的巨大挑戰(zhàn)?

對于擁有強(qiáng)大操作靈活性的機(jī)器人而言,一切操作都發(fā)生在非常緊湊的空間當(dāng)中。成功的操縱策略要求對這些自由度因素進(jìn)行適當(dāng)協(xié)調(diào),因此與簡單的交互類型(例如抓?。┫啾?,其對誤差的容忍度更低。此外,手動操作還涉及與對象物體的大量接觸。對此類關(guān)聯(lián)進(jìn)行建模往往非常困難且容易出錯。與此同時,執(zhí)行期間發(fā)生的錯誤,必須在策略運(yùn)行中及時得到糾正; 而目前眾多基于規(guī)模的傳統(tǒng)方法都在這方面遇到了問題,因?yàn)槠淇赡苤痪哂芯€性反饋,而無法捕捉到非線性接觸動態(tài)。

IEEE Spectrum:聽起來,隨機(jī)性是在現(xiàn)實(shí)世界中使用模擬場景下獲得的策略的關(guān)鍵。您如何決定隨機(jī)化條件,又怎樣判斷隨機(jī)化的程度呢?

我們會進(jìn)行校準(zhǔn)以觀察“正確”物理參數(shù)的大致水平,同時確定哪些參數(shù)對于將模擬行動遷移為真實(shí)世界行動時具有最大的影響。此后,我們會將這些參數(shù)設(shè)置為校準(zhǔn)值,并圍繞該平均值進(jìn)行隨機(jī)化。隨機(jī)化的實(shí)際范圍取決于我們的確定性,例如,對象大小由于能夠準(zhǔn)確測量而屬于高確定性參數(shù),因此我們只是稍微進(jìn)行隨機(jī)化。

一部分隨機(jī)化方向源自觀察經(jīng)驗(yàn)。例如,我們發(fā)現(xiàn)在投擲物體時,機(jī)器有時會選擇先降低手腕,而非直接松手放開物體。但由于低級控制器的問題,這樣的操作執(zhí)行有時會存在數(shù)百毫秒的延遲。雖然我們可以投入精力為控制器賦予完全確定的時序,但我們最終還是選擇在模擬中對各控制器時間步長的周期進(jìn)行隨機(jī)化處理。從更高的層面來講,我們認(rèn)為這可能成為未來機(jī)器人設(shè)計與工程技術(shù)中的有趣方法; 對于某些具體問題與應(yīng)用,精確的硬件設(shè)計可能帶來高昂的成本,但這種硬件缺陷完全可以利用更強(qiáng)大的算法予以糾正。

IEEE Spectrum: 假如將模擬時長由100年提升至1000年,那您認(rèn)為結(jié)果可能會有多大的改善?

在具體任務(wù)上,這一點(diǎn)比較難以說明,因?yàn)槲覀儚膩頉]有進(jìn)行過超過50輪測試。目前尚不清楚其漸近效能曲線究竟是什么樣的,但我們認(rèn)為該項(xiàng)目已經(jīng)完成,因?yàn)榧词怪粚?shí)現(xiàn)一次手指旋轉(zhuǎn),這樣的結(jié)果也已經(jīng)超出了當(dāng)前其它最先進(jìn)方法的水平。之所以最初選擇了50次作為成功指標(biāo),是因?yàn)槲覀冋J(rèn)為25次即可清晰證明已經(jīng)實(shí)現(xiàn)了目標(biāo),再額外加上100%的安全邊際,就是50次。如果大家希望優(yōu)化真正的長序列并獲得高可靠性,那么增加訓(xùn)練時間也許會有所幫助。但在某些情況下,我們認(rèn)為策略在過度適應(yīng)模擬場景之后可能反而在現(xiàn)實(shí)世界中表現(xiàn)更差,即使引入大量隨機(jī)化因素也無法解決這個問題;。在這種情況下,大家實(shí)際上需要添加更多隨機(jī)化因素,從而提升模擬場景的難度,而這將再次提升所得出策略的穩(wěn)健性。

IEEE Spectrum:您的研究結(jié)果在推廣方面表現(xiàn)如何?例如,操作較小的方塊時需要進(jìn)行多少次重新訓(xùn)練,操作柔軟或者更光滑的物體時又會如何?使用不同的攝像頭配合又會如何影響操作能力?

實(shí)際上,我們曾經(jīng)嘗試?yán)孟嗤牟呗圆倏v較小且柔軟的泡沫方塊,但這只是出于好奇。確實(shí),其性狀與固態(tài)方塊完全不同。我們還在模塊中使用了不同大小的方塊進(jìn)行實(shí)驗(yàn)(一些很小,也有一些頗為巨大),基于這樣新的設(shè)置基礎(chǔ)上進(jìn)行重新訓(xùn)練,其同樣運(yùn)作良好。為此,我們還將訓(xùn)練中的對象大小作為一項(xiàng)隨機(jī)化指標(biāo)。雖然沒有具體嘗試,但我認(rèn)為我們應(yīng)該能夠比較輕松地增加方塊大小的隨機(jī)化范圍,而后利用相同的策略操作不同大小的方塊。

在攝像頭方面,視覺模型需要進(jìn)行單獨(dú)訓(xùn)練,現(xiàn)在我們只是在很小的范圍內(nèi)進(jìn)行攝像機(jī)位置隨機(jī)擺放,因此每次移動攝像機(jī)時都會進(jìn)行重新訓(xùn)練。

IEEE Spectrum:您認(rèn)為模擬訓(xùn)練與使用大量物理機(jī)器人進(jìn)行暴力測試的方法有何不同?

利用模擬方法推進(jìn)機(jī)器人技術(shù)發(fā)展的思路對于機(jī)器人應(yīng)用尤為重要,但很多傳統(tǒng)的機(jī)器人研究人員都不相信這種方法能夠在現(xiàn)實(shí)世界中發(fā)揮作用。其中的核心問題在于,模擬場景在物理層面并不是非常準(zhǔn)確(即使通過人眼觀察已經(jīng)很難發(fā)現(xiàn)區(qū)別),同時,更精確的模擬工具也會帶來更高的計算成本。因此,我們要做的是設(shè)置一套新的基準(zhǔn),同時配合一套復(fù)雜的硬件平臺,以此應(yīng)對模擬場景下所存在的一切限制性因素。

然而,這并不是說機(jī)器人在物理層面上的學(xué)習(xí)將變得毫無用處; 事實(shí)上,模擬場景中也存在著一些難以捉摸的限制性因素,例如如何模擬可變形物體及液體等等。

IEEE Spectrum:您的系統(tǒng)存在哪些短板?

就目前來講,我認(rèn)為最薄弱的一點(diǎn)在于手動設(shè)計與特定任務(wù)中的隨機(jī)化能力。未來我們可能會嘗試?yán)脵C(jī)器學(xué)習(xí)技術(shù)探索這種隨機(jī)化方式,從而通過另一個“外部層”優(yōu)化目前需要進(jìn)行手動完成的隨機(jī)化操作(即“嘗試多次隨機(jī)化,觀察其結(jié)果如何”)。另外,我們還有可能進(jìn)一步利用各智能代理進(jìn)行彼此對抗(但不要過度)。這種方式有望帶來更強(qiáng)大的方案,因?yàn)楫?dāng)其操作能力提升后,對抗一方也需要增強(qiáng)自身水平方能與之抗衡,如此反復(fù)將顯著優(yōu)化操作能力。

IEEE Spectrum:您說您的最終目標(biāo)是為現(xiàn)實(shí)世界構(gòu)建機(jī)器人。在這方面,您認(rèn)為還有哪些準(zhǔn)備工作需要完成?

我們要做的是在無約束環(huán)境中擴(kuò)展機(jī)器人能力。在這樣的環(huán)境中,我們無法事先了解所有影響因素并為每個對象建立模型。此外,我們也沒辦法在實(shí)驗(yàn)室之外的物體上全部旋轉(zhuǎn)特殊標(biāo)記。因此,我們的機(jī)器人必須學(xué)會處理這么多情況,并在遭遇前所未見的情況時仍做出合理的選擇。

IEEE Spectrum:您的下一步計劃是什么?

我們將繼續(xù)努力,幫助機(jī)器人實(shí)現(xiàn)更復(fù)雜的行為能力。從長遠(yuǎn)角度來看,我們希望為機(jī)器人提供一般性的操控能力,以便它們通過把玩附近的物體理解周遭環(huán)境。我們認(rèn)為,智能的基礎(chǔ)在于與現(xiàn)實(shí)世界的互動,為了完成構(gòu)建安全人工智能的使命,我們必須能夠從現(xiàn)實(shí)世界的感官體驗(yàn)與模擬數(shù)據(jù)當(dāng)中汲取經(jīng)驗(yàn),從而完成學(xué)習(xí)目標(biāo)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-