av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 OpenAI機器手自學(xué)解魔方,下一步要實現(xiàn)「自主機器人」

OpenAI機器手自學(xué)解魔方,下一步要實現(xiàn)「自主機器人」

2019-10-24 23:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2019-10-24 23:35 ? 科技行者

科技行者 10月24日 北京消息:雖然能夠像人類一樣靈活處理問題的「機器人」遠(yuǎn)沒有出現(xiàn),但AI技術(shù)的加速發(fā)展讓我們比以往任何時候都更接近這一愿景。今年9月份的一篇論文中,谷歌公司的一支科學(xué)家團隊利用機械手臂進(jìn)行測試,旨在以最少的訓(xùn)練數(shù)據(jù)學(xué)會破解魔方;在今年6月份的一次計算機視覺會議上,麻省理工學(xué)院也展示了一套AI模型,僅憑視覺數(shù)據(jù)片段能夠預(yù)測物理對象的觸覺感受。

如今,OpenAI(由伊隆·馬斯克牽頭創(chuàng)立的AI研究公司,得到LinkedIn聯(lián)合創(chuàng)始人里德·霍夫曼以及Y Combinator總裁薩姆·奧特曼等人的支持,總部位于舊金山)表示,正在著力解決機器人技術(shù)與AI系統(tǒng)領(lǐng)域的一大重要挑戰(zhàn):破解魔方。不同于加州大學(xué)歐文分校等其他區(qū)域性團隊所取得的原有突破(采用定制化機器快速操縱魔方體),OpenAI研究人員的基本思路在于:使用常規(guī)五指人形機械手臂,經(jīng)過13000年經(jīng)驗積累的訓(xùn)練量數(shù)據(jù),所打造的AI模型,負(fù)責(zé)提供指揮。值得一提的是,這套模型此前曾被用于操作Dota游戲,當(dāng)時的訓(xùn)練量積累相當(dāng)于人類選手40000年的經(jīng)驗水平。

這套模型基于今年早些時候由騰訊公司以及香港中文大學(xué)開展的實驗,具體包括:一款靈巧的人形機械手,一套AI軟件模型(用于識別魔方體的最佳移動序列),以及一個魔方操作器(最多可控制五根手指)。該團隊報告稱,基于模型與無模型的兩大規(guī)劃工具組合之后,該方案在1400次試驗中實現(xiàn)了90.3%的平均成功率。而在對AI組件進(jìn)行30000次操作訓(xùn)練之后,其平均成功率進(jìn)一步提升至95.2%。

自主

不過騰訊的方案是在嚴(yán)格的仿真環(huán)境中進(jìn)行的,并采用了Roboti提供的多關(guān)節(jié)接觸動力學(xué)(Mujoco)技術(shù)。Mutjoco是一套專為機器人和生物力學(xué)的研究與開發(fā)場景所設(shè)計的物理引擎。OpenAI同樣利用模擬場景訓(xùn)練了自己的AI模型,但其成功地在不犧牲準(zhǔn)確性或魯棒性的前提下,將處理能力遷移到了真實機器手臂當(dāng)中。

OpenAI機器人團隊技術(shù)成員Matthias Plappert表示,“我們之所以對魔方任務(wù)抱有濃厚興趣,是因為它要求機器手的敏捷性接近于人類水平。從某種意義上講,這是一項高度復(fù)雜的任務(wù),必須真正精確地控制手指,才能準(zhǔn)確翻轉(zhuǎn)魔方的各個面。我們希望通過這次實驗看看去年發(fā)布的這套AI模型能夠走多遠(yuǎn)。”

設(shè)置工作

據(jù)OpenAI在論文中介紹,考慮到魔方狀態(tài)評估的復(fù)雜性,以及破解魔方所需要的精確操作,在這項任務(wù)中僅憑模擬數(shù)據(jù)操作魔方比操作一個立方體要難得多。

魔方由26個通過鉸鏈與彈簧連接的小立方體組成,內(nèi)部至少包含6種自由旋轉(zhuǎn)方位,且六個面都能獨立完成旋轉(zhuǎn),而在魔方被打亂之后,只有將六個面都恢復(fù)為同一顏色,才算真正破解成功。

該團隊采用的解決方案是一種被稱為「自動域隨機化(ADR,automatic domain randomization)」的算法。這種算法會自動生成用于訓(xùn)練強化學(xué)習(xí)模型的分布以及可通過視覺估計對象姿態(tài)的模塊,即一個基于視覺的姿態(tài)估計器,憑借著由獎勵與懲罰機制重復(fù)實現(xiàn)的復(fù)習(xí)與強化學(xué)習(xí)過程,AI系統(tǒng)將一步步朝著正確的目標(biāo)完成自主學(xué)習(xí)。

根據(jù)世界魔方協(xié)會的官方指南,研究人員使用了一種魔方置亂技術(shù)進(jìn)行ADR部署,將大約20步移動到一個已解出的魔方上進(jìn)行置亂/標(biāo)準(zhǔn)化加擾。此后,他們將未加擾任務(wù)拆分為多個子目標(biāo),例如旋轉(zhuǎn)(順時針或逆時針旋轉(zhuǎn)一個立方體面90度),以及翻轉(zhuǎn)(將一個特定立方體的某個面旋轉(zhuǎn)至頂部)。由于旋轉(zhuǎn)頂面通常比旋轉(zhuǎn)其他面簡單,因此研究人員將翻轉(zhuǎn)與頂面旋轉(zhuǎn)與其他子目標(biāo)按順序組合在一起。而對于魔方的實際求解方法,他們采用了現(xiàn)有的軟件庫,比如Kociemba求解器等,用于生成子目標(biāo)解決方案的操作序列。

硬件

負(fù)責(zé)操縱魔方的機器手是Shadow Dextrous E系列產(chǎn)品,他的中指與無名指各有3個驅(qū)動關(guān)節(jié)和1個欠驅(qū)動關(guān)節(jié),小指與拇指各有5個驅(qū)動關(guān)節(jié),腕部有2個驅(qū)動關(guān)節(jié)。多年以來,它一直是OpenAI機器人平臺的核心組成部分,它匹配了三臺用于視覺姿態(tài)估計與一臺配有PhaseSpace動作捕捉系統(tǒng)的攝像機這套系統(tǒng)被安裝在一個配有滑軌的計算機框體當(dāng)中。

該團隊指出,他們與機器手臂制造商Shadow Robot公司建立合作關(guān)系,以提高某些機器人組件的堅固性與可靠性。具體而言,他們增加了機器手在與物體交互時的抓握力,同時減小了肌腱應(yīng)力,并調(diào)整了與之交互的軟件堆棧以盡可能消除扭矩限制。

自主

▲ 圖OpenAI測試了機械手諸多變化

至于魔方,它不是一般的模型,而是特別定制版本。它是一個小米的Giiker立方體,它搭載了可感知方向的藍(lán)牙和運動傳感器。市面上在售版本的Giiker立方體模型的面角分辨率為90度,但該團隊修改了它們的模型,使面角跟蹤精度達(dá)到約5度。

模擬

與騰訊團隊一樣,OpenAI的研究人員也利用Mujoco來模擬環(huán)境、機器手以及物體,同時采用ORRB(以游戲引擎Unity為基礎(chǔ)的遠(yuǎn)程渲染后端)進(jìn)行圖像渲染,從而訓(xùn)練基于視覺的姿態(tài)估計器。模擬環(huán)境下的魔方由26個1.9厘米邊長的立方體組成,其中6個具有單一鉸鏈接頭,另外20個擁有三個鉸鏈接頭,有效旋轉(zhuǎn)自由度為66度。如此一來,模擬環(huán)境即可表達(dá)43百萬的立方個立方體朝向配置,以及介于這些朝向配置之間的所有過渡狀態(tài)。

指導(dǎo)Shadow Hand機器手的AI策略,還必須同時考慮到魔方,與魔方內(nèi)鉸鏈接點基礎(chǔ)壓力,以及Giiker魔方的材質(zhì)特征等一系列因素。例如,向單一立方體施加力通常足以使得單面旋轉(zhuǎn),因為力是通過接觸力在相鄰元素之間傳播的。但是,每個立方體有六個面,而且并非所有立方體都能夠同時旋轉(zhuǎn)。另外,垂直面必須卡入至適當(dāng)位置才能旋轉(zhuǎn),否則未能嚴(yán)格對齊將導(dǎo)致整個魔方“全面癱瘓”。

這時候就要靠ADR解決難題了。根據(jù)研究人員們的解釋,這項技術(shù)能夠隨時間隨機分配某些特定因素(例如多維數(shù)據(jù)集中的視覺外觀或手部動態(tài)),從而在模擬環(huán)境中生成分布。初始分布集中在單一環(huán)境中,但它逐步擴展為綜合數(shù)據(jù),這些數(shù)據(jù)可用于評估任意模型的性能。

從本質(zhì)上講,經(jīng)過ADR訓(xùn)練的模型將通過內(nèi)部學(xué)習(xí)算法來調(diào)整自身行為以實現(xiàn)目標(biāo)。該團隊猜測,當(dāng)分布太大,以致于模型無法記住某些專用解決方案時(由于容量有限),就會觸發(fā)這種內(nèi)部調(diào)整。而只要模型的精度不低于預(yù)定義的閾值,ADR就會繼續(xù)持續(xù)訓(xùn)練周期。

自主

▲ 圖OpenAI的模型可以從干擾中恢復(fù)

那么,在每種環(huán)境下具體要對哪些特征進(jìn)行隨機分配?除了模擬環(huán)境的物理特性(例如幾何形狀、摩擦系數(shù)與重力等)之外,還有模擬器并未納入的自定義物理效果(例如電機反沖)。另外還有一些視覺元素,比如攝像機位置與角度、照明條件,物體的材質(zhì)與外觀、背景紋理乃至渲染圖像后的處理效果等等,都需要被考慮進(jìn)來。

“這也正是我們這套方案的主要優(yōu)勢之一——一旦弄清楚如何在模擬環(huán)境中訓(xùn)練這些模型,即可高效獲取無窮無盡的實驗數(shù)據(jù)。”Plappert解釋道,“接下來,一旦明白怎樣將模型遷移到機器人當(dāng)中,就可以在現(xiàn)實世界進(jìn)行實際應(yīng)用了。

獎勵機制

如前文所述,由于這套方案使用了強化學(xué)習(xí)方法,因此必然涉及獎勵機制。OpenAI團隊在實驗中定義了三項條件,分別為:(1)系統(tǒng)與目標(biāo)間的原有距離與當(dāng)前距離之間的差別;(2)達(dá)成目標(biāo)時給予獎勵;(3)魔方掉落時觸發(fā)懲罰。在訓(xùn)練過程中還會產(chǎn)生隨機目標(biāo),當(dāng)AI模型連續(xù)50次成功、且在試圖達(dá)成下一目標(biāo)時超時,或者魔方掉落,則視為當(dāng)前訓(xùn)練輪結(jié)束。

研究人員在訓(xùn)練中還使用了Rapid框架。這套框架由一組rollout工作節(jié)點與優(yōu)化節(jié)點組成,負(fù)責(zé)在多塊顯卡之間執(zhí)行同步梯度下降(機器學(xué)習(xí)中的必要步驟)。隨著rollout工作節(jié)點不斷積累經(jīng)驗,得出的見解將被交付至優(yōu)化節(jié)點;與此同時,還有另一組工作節(jié)點負(fù)責(zé)比較訓(xùn)練完成的AI模型與參考代理的性能水平。

自主

圖:模型在仿真中的訓(xùn)練時間越長,性能越好

整套系統(tǒng)共使用64塊英偉達(dá)V100顯卡+920臺各自包含32個處理器核心的工作節(jié)點設(shè)備,在長達(dá)數(shù)月的周期內(nèi)對模型進(jìn)行訓(xùn)練。在此期間,研究人員則負(fù)責(zé)研究模擬保真度、ADR算法、超參數(shù)調(diào)整以及網(wǎng)絡(luò)架構(gòu)等變量。其中,僅優(yōu)化器節(jié)點就使用8塊V100顯卡以及64個處理器核心;而負(fù)責(zé)渲染視覺姿態(tài)估計器的圖像渲染節(jié)點,則使用一塊英偉達(dá)V100顯卡外加8個處理器核心。

通常,視覺數(shù)據(jù)配合Giiker魔方內(nèi)置的傳感器,狀態(tài)估計器最終學(xué)會了估算立方體六個面的角度以及魔方多維數(shù)據(jù)集中的位置與方向信息。該研究小組指出,由于魔方各個面的貼紙擁有旋轉(zhuǎn)對稱性,因此單憑視覺無法完成操作,他們希望未來能夠開發(fā)出一套可重復(fù)使用的模型,從而只依靠攝像機捕捉到的圖像確定魔方形態(tài)。

轉(zhuǎn)向真實場景

接下來,該團隊嘗試將訓(xùn)練完成的AI模型遷移至真正的Shadow Hand當(dāng)中。他們評估了隨機化性能,完成了約兩個星期的隨機訓(xùn)練,利用ADR算法進(jìn)行約兩周的策略訓(xùn)練,而后又在四個月時間中先后進(jìn)行連續(xù)訓(xùn)練與策略更新,旨在確保策略能夠在實體機器手上正常起效。在隨后的10次試驗(每項策略重復(fù)10次)中,研究人員首先提供一個初始狀態(tài)的魔方,要求機器手先學(xué)會將其打亂。

在這些試驗中,研究人員定義了兩項閾值:至少成功實現(xiàn)半數(shù)加擾操作(即22次成功),以及至少成功完全全部加擾操作(即43次成功)。表現(xiàn)最好的模型在10次試驗中的平均成功了26.8次,其中半數(shù)成功率為60%,完全成功率則為20%。位列第二的模型平均獲得17.8次成功,半數(shù)據(jù)成功率為30%,完全成功率為10%。

雖然成績似乎不算太好,但需要強調(diào)的是,所有模型都自行學(xué)會了前所未有的微擾恢復(fù)技術(shù),包括將多根機器手指綁在一起、在手上穿戴皮質(zhì)手套、用手帕遮住部分魔方、以及在魔方旁邊放上毛絨玩具與鋼筆等等。當(dāng)機器手偶爾旋轉(zhuǎn)錯誤時,成績最好的AI模型能夠立即反向操作撤銷這一錯誤。另外,當(dāng)機器手旋轉(zhuǎn)操作過程中不慎導(dǎo)致魔方掉落時,AI模型能夠重新分配抓握力,然后再次嘗試直到最終成功。

Plappert指出,“我們在這里使用的算法與我們之前用于訓(xùn)練其他機器人的算法完全相同。這種特殊的方法擁有強大的通用性,可用于處理大家想得到的各種問題,甚至無需進(jìn)行額外修改。雖然我們目前專注于解決魔方多維數(shù)據(jù)集任務(wù),但相關(guān)成果也可以應(yīng)用于多種同類系統(tǒng)的測試場景當(dāng)中。

OpenAI機器人團隊研究科學(xué)家Lilian Weng表示,他們的最終目標(biāo)是實現(xiàn)完全通用,這一點也與OpenAI提出的“在多個領(lǐng)域中建立起「安全」的人類級AI”目標(biāo)相吻合。大多數(shù)專家認(rèn)為,機器人技術(shù)的通用化還有很長的道路要走——包括Aeolus在內(nèi)的當(dāng)前最先進(jìn)模型,也需要幾分鐘才能完成將垃圾撿起并扔進(jìn)廢紙簍這樣的簡單任務(wù)。但是Weng、Plappert及其同事們相信,他們的工作將成為發(fā)展的奠基石,并最終成就真正具有自主能力、幾乎可以完成所有任務(wù)的通用型智能機器。

Weng總結(jié)道,“最終,我們希望未來的人工智能可以將某種價值傳遞到現(xiàn)實當(dāng)中。以機器人為例,機器人的優(yōu)勢在于幫助人們關(guān)注某些事物或者從事一部分高危工作……但實現(xiàn)這些目標(biāo)的前提,就是機器人必須有能力與現(xiàn)實世界互動。而這,正是我們當(dāng)下努力的意義。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-