馬斯克又來搞事情 OpenAI要用VR訓練機器人
智器材(公眾號:zhidxcom)
文 | Lina
智器材5月17日新聞,本日,OpenAI宣布了一種新型算法:“一次性模擬進修(one-shot imitation learning)”,當人類在VR中演示一次某個動作后,機器通過進修這一動作就可以實行出雷同的結果。
OpenAI是Elon Musk于2015年12月宣布成立的非紅利AI項目,科研人員會將大部分研究成果開源共享;次要關注增強進修和無監督進修——谷歌此前名聲大噪的圍棋順序AlphaGo用的就是增強進修;而無監督進修必要機器處理大量不標記的數據,自己找到區分沒有同數據子集、集群、或者相似圖像的舉措,有點像嬰兒進修世界的方式,一向被視作人工智能的真正潛力釋放點。
卷積神經收集之父Yann LeCun有一個經典比喻:若是人工智能是一塊蛋糕,增強進修(Reinforcement Learning)就是蛋糕上的一粒櫻桃,而監督進修(Supervised Learning)是蛋糕外的一層糖霜,但無監督進修(Unsupervised Learning)才是蛋糕本身。今朝我們只知道若何制作糖霜和櫻桃,卻沒有知道若何做蛋糕。

一次性模擬進修
OpenAI宣布的這種新型算法“一次性模擬進修(one-shot imitation learning)”指的是,當人類在VR中演示一次某個動作后,比如將桌面藍色的小盒子疊放在白色小盒子上這個動作,機器通過進修這一動作就可以實行出雷同的結果,并且沒有論桌面盒子擺放的程序若何,機器都可以準確實行。

這套進修體系由兩個神經收集組成:一個視覺收集(vision network)和一個模仿收集(imitation network)。
視覺收集(vision network)獲得的圖像來自機器人的攝像機,此前,這個視覺收集經過數十萬弛模擬圖像的練習,每弛都具有沒有同紋理、光影效果等(可是從未使用真實圖像舉行練習);
模擬收集(imitation network)則必須生成一個與VR演示動作一致的實行步驟,并且推斷出該義務的意圖,使得在初始設定變更時(如盒子的擺放程序調亂時)依舊可以找到藍色的盒子并把它疊在紅盒子上。
今朝,學術界與產業界都在探求使用各種練習機器人的伎倆,比如英偉達CEO黃仁勛在上周的GTC大會上也宣布了一款名為ISAAC的增強進修世界模擬器,創造出一個完全虛擬的、博為練習機器人而挨造的世界。

這是一個遵循物理法則但沒有遵循時間法則的世界,在現實生存中,你想要練習一臺機器學會挨冰球,你要將這個冰球放在機器前面,一遍一遍地教會它;而在虛擬世界里,機器可以在一秒內重復眾多次這樣的動作,而且你還可以同時練習一堆機器進修挨球,然后找到內里最聰慧的一個,將它的“大腦”順序復制出來,創建一堆同樣的機器再繼續練習篩選。(多人VR交互、30億刀的顯卡、秘密ISAAC白科技……干貨滿滿的GTC 2017一文看盡)

?????投稿郵箱:jiujiukejiwang@163.com ??詳情訪問99科技網:http://www.hacbq.cn
推薦資訊
























