全站搜索
设为首页加入收藏
联系我们
地? 址:杭州市莫山南路868号
??????? 汽车西站旁
电? 话:0571-98765432
??????? 0571-98765432
联系人:杨军(经理)
手 ?机:15887654321
二传球
?
二传球
一开始蓝色0号队员总是自己带球
作者:admin ?? 发布于:2019-04-20 04:24 ?? 文字:【】【】【

  DeepMind但愿研究人员通过在这种多智能体情况中进行模仿物理尝试, 在团队合作游戏范畴内取得进一步进展。

  除了个别技术外,DeepMind的尝试成果还获得了足球世界中的战术相克。

  虽然球员的样子比力简单(也是个球),但DeepMind让它们在强化进修中找到了团队精力。热爱足球游戏的网友仿佛嗅到了它前景:你们该当去找EA合作FIFA游戏!

  客岁DeepMind开源了强化进修套件DeepMind Control Suite,让它模仿机械人、机械臂,实现对物理世界的操控。

  此中一场角逐中,我们以至能看到到队友之间两次持续的传球,也就是在人类足球角逐中经常呈现的2过1传球共同。

  今天,这家英国的AI公司开源了机械人足球模仿情况MuJoCo Soccer,实现了对2v2足球赛的模仿。

  尝试当选出的10个智能体中,B是最强的,Elo评分为1084.27;其次是C,Elo评分为1068.85;A的评分1016.48在此中仅排第五。

  上图展现了智能体A、B和C之间角逐的录像,定性地展现了足球战术策略的多样性。

  若是按照Elo评分的计较法则,我们会错误地认为B对A的胜率该当达到62%。现实上A能在59.7 %的角逐中打赢或打平B。

  于是他们很天然地把2v2足球角逐引入了DeepMind Control Suite,让智能体的行为从自觉随机到简单的追球,最初学会与队友之间进行团队共同。

  与AlphaGo雷同,DeepMind也锻炼了很多“Player”。DeepMind从当选择10个双人足球团队,它们别离由分歧锻炼打算制造而成的。

  在霸占围棋、星际2这些游戏之后,DeepMind下一个方针可能就是足球了。

  一起头蓝色0号队员老是本人带球,无论队友的站位若何。在履历800亿画面的锻炼后,它曾经学会积极寻找传球共同的机遇,这种共同还会遭到队友站位的影响。

  这10个团队每个都有250亿帧的进修经验,DeepMind收集了它们之间的100万场角逐。

  DeepMind发觉,跟着进修量的添加,“球员”逐步从“独行侠”变成了有团队协作精力的个别。

  而足球是一个很好的锻炼多智能体的强化进修情况,好比传球、拦截、进球都能够作为奖励机制。同时对足球世界的模仿也需要物理引擎的协助。

脚注信息
版权所有Copyright © 2002-2017 DEDECMS. 织梦科技 版权所有技术支持: