乒乓球運動可大大助推機器人學習研究?
在最近的一篇博文中表示,機器人學習現(xiàn)已應用到許多真實世界任務,但將其應用于需要緊密循環(huán)的動態(tài)、高速人機交互任務還并不常見。這方面的任務可體現(xiàn)在乒乓球訓練上。
乒乓球任務有兩個互補的屬性,其不僅需要速度和精度(對算法要求高),還是高度結(jié)構(gòu)化的(環(huán)境固定、可預測)。
另外,執(zhí)行乒乓球任務的機器人可與人和其他機器人分別對戰(zhàn),非常利于有關人機交互和強化學習方面的研究。因此,一些團隊已經(jīng)開發(fā)了乒乓球研究平臺。
機器人團隊同樣搭建了一個類似平臺,使其能夠在多玩家、動態(tài)的環(huán)境中,研究機器人學習中出現(xiàn)的問題。
視頻 | (來源:)
對于該方面的研究,通過兩篇論文做了相關闡述,分別題為《i-Sim2Real:緊密人機交互循環(huán)中機器人策略的強化學習》()、《GoalsEye: 在一個物理機器人上學習高速精密乒乓球》(),且都已提交到 arXiv 上。
下面對的 i-Sim2Real 和 GoalsEye 兩個項目分別做一簡單介紹。
在 i-Sim2Real(i-S2R)項目中,機器人的目標本質(zhì)上是有關合作的。即最大程度與人類玩家連續(xù)游戲。
由于在現(xiàn)實中通過人類訓練機器人既費時又費力,采用了一種基于仿真(模擬現(xiàn)實)的方法。但該方法較難準確模擬人類行為,尤其是在需要與人類進行緊密、閉環(huán)交互的任務上。
因此,開發(fā)出一種學習人類行為模型,專門用于人-機器人交互。最終,在與人對戰(zhàn)中,機器人能夠連續(xù)擊中乒乓球三百多次。
關于學習人類行為模型,其在官網(wǎng) 表示,該問題似乎是一個悖論。若起 初缺乏優(yōu)良的機器人策略,便很難獲得人機交互方面的優(yōu)質(zhì)數(shù)據(jù)。但人類行為模型的缺失,又會得不到機器人策略。
為解決這個問題,i-S2R 以一般的人類行為模型為起點,并在模擬和真實訓練中不斷迭代,人類行為模型和策略都逐漸得到了優(yōu)化。
還通過不同的人類對手重復訓練,來評估 i-S2R。并將它與通常的模擬到現(xiàn)實(S2R,sim-to-real)+微調(diào)(FT,fine-tuning)進行比較,發(fā)現(xiàn) i-S2R 反彈長度比 S2R + FT 高約 9%。
i-S2R 和 S2R + FT 的反彈長度直方圖顯示,S2R + FT 的反彈大部分較短(即小于 5),而 i-S2R 實現(xiàn)更長的反彈更頻繁。
圖 | i-S2R 結(jié)果摘要(來源:)
還在博文中表示,i-S2R 專注于模擬到真實學習,但有時需要僅使用真實世界的數(shù)據(jù)進行學習。在這種情況下,縮小模擬到真實的差距是不必要的。
研究人員還簡單分析了模仿學習(Imitation learning,IL)和強化學習(Reinforcement Learning,RL)存在的問題。
其認為,IL 提供了一種簡易、穩(wěn)定的學習方法,但它需要獲得演示,并且?guī)缀醪粫^被模仿者的表現(xiàn)。而在高速環(huán)境下,收集專業(yè)人員訓練時的精確目標定位非常困難。
RL 雖然十分適合這種高速、高精度任務,但它面臨著一個艱難的探索問題(特別是在一開始),并且采樣效率很低下。
所以,在另外一個 GoalsEye 項目上,結(jié)合行為克隆技術(shù),來塑造精確定位策略。該方法起始于一個結(jié)構(gòu)薄弱的、非目標的小型數(shù)據(jù)集。其主要考慮乒乓球任務的精度。
凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件,均為環(huán)球傳媒網(wǎng)獨家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng)",并保留"環(huán)球傳媒網(wǎng)"的電頭。
- 厲害了!谷歌通過乒乓球運動強化機器人學習
- 來了!AMD銳龍5 7600X驚現(xiàn)雙CCD隱藏福利
- NVIDIA發(fā)布了GeForce 526.47驅(qū)動 這些人先不要升級
- 微軟發(fā)布了緊急帶外(OOB)更新KB5020953 修復OneDrive意外關閉、閃退等問題
- 今年市值蒸發(fā)了5萬億元 Meta周四暴跌25%
- 美國電商亞馬遜公布2022年第三季度財報
- 馬斯克收購推特的交易即將迎來最終期限
- 蘋果2022財年的總營收增長了8% 庫克承認iPhone 14 Pro供應依然有限
- iOS 16.1TV應用中的實時活動集成已經(jīng)重新啟用
- 新規(guī)或許將終結(jié)蘋果在充電接口上的強勢態(tài)度
資訊
- 佐卡伊鉆石靠譜嗎?佐卡伊鉆戒性價比怎么樣?
- 世界快消息!愛馬仕官網(wǎng)網(wǎng)址是什么?愛馬仕女士包包官網(wǎng)怎么登陸?
- 全球即時:征稿網(wǎng)站有哪些?原創(chuàng)文章投稿平臺有哪些?
- 觀熱點:鉆石3ex是什么意思?鉆石等級怎么劃分?
- 什么是四大洋?七大洲面積排名是怎樣的?
- 當前聚焦:什么是中小板?中小板股票交易規(guī)則是什么?
- 【環(huán)球快播報】劍網(wǎng)3怎么收費?劍網(wǎng)3懷舊服收費模式是怎樣的?
- 報道:世界名勝古跡有哪些?世界十大名建筑是什么?
- 快資訊:匙怎么讀?匙怎么組詞?
- 世界短訊!比例尺怎么算?比例尺的公式是怎樣的?
焦點
- 首次超過美國 全球最佳大學排行榜:338所中國大學上榜
- Meta市值縮水至2017年水平 扎克伯格身價排名跌出全球前十
- “雙11”成立自營物流公司 菜鳥回應:消息不實
- 瑞信(CS.US)CEO發(fā)表備忘錄 試圖讓市場相信其財務穩(wěn)定性
- 財務大臣重申捍衛(wèi)日元立場 日本央行9月政策會議摘要提及政策轉(zhuǎn)向
- 英國迎來黃金搶購潮 新政府“迷你預算”刮起恐慌風暴
- 高盛:美國家庭和外國投資者將分別凈拋售1000億美元股票
- 違約概率飆升至至少10年來最高水平 百年銀行巨頭瑞信被傳“爆雷”!
- 美聯(lián)儲在加息速度問題上已現(xiàn)分歧 市場Q4能否扭轉(zhuǎn)頹勢?
- 進一步加碼全球黃油市場 威士蘭乳業(yè)收購新西蘭乳企Canary Foods