配对:一种用于对抗性环境生成的新多代理方法

任何机器学习方法的有效性都严重依赖于其训练数据。在强化学习(RL)的情况下,人们可以依赖于与现实世界交互的代理收集的有限数据,也可以依赖可用于收集所需数据的模拟训练环境。后者在模拟训练方法越来越流行,但它有一个问题- RL剂可以了解什么是内置模拟器,但往往是坏 在 推广到甚至比模拟的略有不同的任务。显然,构建一个涵盖现实世界所有复杂性的模拟器极具挑战性。

解决这个问题的一种方法是通过随机化模拟器的所有参数来自动创建更多样化的训练环境,这一过程称为域随机化(DR)。但是,即使在非常简单的环境中,DR 也可能失败。例如,在下面的动画中,蓝色代理试图导航到绿色目标。左侧面板显示了使用 DR 创建的环境,其中障碍物和目标的位置已随机化。许多这些 DR 环境用于训练代理,然后将其转移到中间面板中的简单四房间环境。请注意,代理无法找到目标。这是因为它还没有学会绕墙走。尽管四房间示例中的墙壁配置可以在 DR 训练阶段随机生成的,不太可能。结果,代理没有在类似于四室结构的墙壁上花费足够的时间进行训练,无法达到目标。

除了随机化环境参数之外,还可以训练第二个 RL 代理来学习如何设置环境参数。可以训练这个极小极大的 对手,通过发现和利用其策略中的弱点来最小化第一个 RL 代理的性能,例如构建它以前从未遇到过的墙配置。但问题又来了。右侧面板显示了一个由极小极大对手构建的环境,在该环境中,代理实际上不可能达到目标。虽然极小极大的对手已经成功完成了它的任务——它最小化了原始代理的性能——但它没有为代理提供学习的机会。使用纯粹的对抗性目标也不太适合生成训练环境。

我们 与加州大学伯克利分校合作,在最近在NeurIPS 2020 上发表的出版物“通过无监督环境设计的紧急复杂性和零样本转移”中提出了一种新的多智能体方法来训练对手。在这项工作中,我们提出了一种算法,主角拮抗剂诱导后悔环境设计 (PAIRED),它基于最小最大后悔并防止对手创造不可能的环境,同时仍然使其能够纠正代理策略中的弱点。PAIRED 激励对手调整生成环境的难度,使其刚好超出代理当前的能力,从而形成自动课程 越来越具有挑战性的训练任务。我们表明,使用 PAIRED 训练的智能体可以学习更复杂的行为,并能更好地泛化未知的测试任务。我们已经在我们的GitHub存储库上发布了 PAIRED 的开源代码。

PAIRED

为了灵活地约束对手,PAIRED 引入了第三个RL 代理,我们称之为拮抗代理,因为它与对抗代理联合,即设计环境的代理。我们重命名我们的初始代理,即在环境中导航的主角。一旦对手创造了一个环境,主角和对手都会在这个环境中发挥作用。

对手的工作是最大化对手的奖励,同时最小化主角的奖励。这意味着它必须创造可行的环境(因为对手可以解决它们并获得高分),但对主角具有挑战性(利用其当前政策的弱点)。两种奖励之间的差距就是遗憾 ——对手试图最大化遗憾,而主角则竞争最小化遗憾。

上面讨论的方法(域随机化、最小最大后悔和配对)可以使用相同的理论框架进行分析,无监督环境设计(UED),我们在论文中详细描述。UED 在环境设计和决策理论之间建立了联系,使我们能够证明域随机化等价于不充分理由原则,极大极小对手遵循极大极小原则,而 PAIRED 正在优化极小极大后悔原则。这种形式主义使我们能够使用决策理论中的工具来了解每种方法的优缺点。下面,我们展示了这些想法中的每一个如何用于环境设计:

课程生成

极小极大遗憾的有趣之处在于,它会激励对手生成最初简单的课程,然后是越来越具有挑战性的环境。在大多数 RL 环境中,奖励函数将为更有效地完成任务或以更少的时间步长给出更高的分数。当这是真的时,我们可以证明后悔会激励对手创造主角无法解决的最简单的环境. 为了看到这一点,让我们假设对手是完美的,并且总是尽可能地获得最高分。与此同时,主角很糟糕,在所有方面都得到了零分。那样的话,后悔就看环境的难易程度了。由于可以在更少的时间步中完成更简单的环境,因此它们可以让对手获得更高的分数。因此,在轻松环境中失败的遗憾大于在艰难环境中失败的遗憾:

因此,通过最大化遗憾,对手正在寻找主角未能做到的轻松环境。一旦主角学会解决每个环境,对手必须继续寻找主角无法解决的稍微困难的环境。因此,对手生成了越来越困难的任务的课程。

结果

我们可以看到在下面的学习曲线中出现的课程,它绘制了智能体成功解决的迷宫的最短路径长度。与 minimax 或域随机化不同,PAIRED 对手创建了一个越来越长但可能的迷宫课程,使 PAIRED 代理能够学习更复杂的行为。

但是这些不同的训练方案能否帮助代理更好地泛化未知的测试任务?下面,我们将看到每种算法在一系列具有挑战性的测试任务上的零样本传输性能。随着传输环境复杂性的增加,PAIRED 和基线之间的性能差距会扩大。对于迷宫、迷宫等极其困难的任务,PAIRED是唯一可以偶尔解决的方法。这些结果提供了有希望的证据,证明 PAIRED 可用于改进深度强化学习的泛化。

诚然,这些简单的网格世界并不能反映许多 RL 方法试图解决的现实世界任务的复杂性。我们在“ Adversarial Environment Generation for Learning to Navigate the Web ”中解决了这个问题,它检查了 PAIRED 在应用于更复杂的问题时的性能,例如教 RL 代理导航网页。我们提出了 PAIRED 的改进版本,并展示了如何使用它来训练对手以生成越来越具有挑战性的网站课程:

在上图中,您可以看到对手在早期、中期和后期训练阶段构建的网站,这些网站从每页使用很少的元素发展到同时使用许多元素,使任务逐渐变得更加困难。我们测试在此课程中训练的代理是否可以推广到标准化的网络导航任务,并达到 75% 的成功率,与最强课程学习基线相比提高了 4 倍:

结论

Deep RL 非常擅长拟合模拟训练环境,但我们如何构建涵盖现实世界复杂性的模拟?一种解决方案是自动化此过程。我们提出无监督环境设计 (UED) 作为描述自动创建训练环境分布的不同方法的框架,并表明 UED 包含先前的工作,如域随机化和极小极大对抗训练。我们认为 PAIRED 是 UED 的一个好方法,因为遗憾最大化导致课程越来越具有挑战性的任务,并准备代理成功转移到未知的测试任务。

(0)

相关推荐

  • 你需要的不是毅力,而是新鲜感管理

    也许你身边总有那么几个一直在努力的人,很多人在惊羡完他们的『 毅力 』,骂自己几句之后,还是该怎样怎样. 他们不知道--其实那些看起来好像很有毅力,很自律的人,并不是在跟自己的懒惰进行艰苦卓绝的斗争. ...

  • 斯坦福大学#深度多任务学习与元学习#视频及讲义下载

    #Stanford CS330 2019秋# #多任务学习# #元学习# CS 330: Deep Multi-Task and Meta Learning 深度学习在图像分类.语音识别.游戏等监督学 ...

  • 成都第四幼儿园:为幼儿创造富有挑战性的环境

    ★★★★★★★★★★★★★★★★         许多年后,假如有人问我,当年你为社会做过的贡献是什么?我会说:我发出过许多专业的声音. ★★★★★★★★★★★★★★★★ ★★★★★★★★★★★★★ ...

  • 低质量是今天学前教育面临的最大危险(1)

    低质量是今天学前教育面临的最大危险 时常听到一些专家呼吁推行学前教育免费,但是在我看来,现在最紧迫的问题不是免不免费的问题,而是幼儿园教育质量的问题.我的观点是,孩子们接受劣质的幼儿园教育比不接受幼儿 ...

  • “先学后教”是一剂良药

    高中课改走过10多年了,表现在一些学校的课堂教学中依然是新瓶装旧酒,"雷声大雨点小",有太多的教师过度相信教.依赖教,"先学后教"这一简单的课堂结构尚未成为常态 ...

  • 让作业助推学习真实发生

    摘要 无论对于师生还是家长.社会来说,作业是一个永远不能回避的话题.20年的课程改革过程中,作业问题始终没有得到有效解决.究其原因,就是因为我们忽视了作业和课堂教学.学生学习的联结性,简单机械地将作业 ...

  • 综述 | 模仿学习ImitationLearning

    转载于 :专知 模仿学习的目的是从人类专家的演示或人工创造的代理中提取知识,以复制他们的行为.它已经成功在视频游戏.自动驾驶.机器人模拟和物体操纵等领域得到了证明.然而,这种复制过程可能会有问题,比如 ...

  • 多智能体强化学习中的非平稳性问题

    多智能体强化学习中的非平稳性问题 - hoogle的文章 - 知乎 https://zhuanlan.zhihu.com/p/72553328 1 简介 深度学习变革了在复杂环境中开发自主行动的智能体 ...

  • 一种用于治疗高血压病的泡脚药及其制备方法.pdf

    <一种用于治疗高血压病的泡脚药及其制备方法.pdf>由会员分享,可在线阅读,更多相关<一种用于治疗高血压病的泡脚药及其制备方法.pdf(14页珍藏版)>请在专利查询网上搜索. ...

  • 一种模块化的视觉语言导航和操作框架,用于在室内环境中完成长视距的写作任务

    重磅干货,第一时间送达 小黑导读 论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 8种用于前列腺增生中成药,改善尿无力,尿滴沥

    正确认识前列腺增生 天津中医药大学第一附属医院男科主任耿主任曾在采访中表示,前列腺是男人的"生命腺",一半以上的成年男性都会遭遇到前列腺问题.有相关数据说明,前列腺疾病患病率为61 ...

  • 9种用于补肾的中成药。建议收藏

    9种用于补肾的中成药。建议收藏

  • 一种用于治疗脱发的酊剂.pdf

    <一种用于治疗脱发的酊剂.pdf>由会员分享,可在线阅读,更多相关<一种用于治疗脱发的酊剂.pdf(4页珍藏版)>请在专利查询网上搜索. 1.(10)申请公布号 (43)申请公 ...

  • 9种用于痔疮的中成药!建议收藏

    痔疮是一种常见的肛肠疾病,发病率较高,一般女性较男性多发,所以有"十女十痔"的夸张说法.痔疮一旦发作,会造成瘙痒,便血,还可能有剧烈的坠痛,给患者的工作生活都带来了极大的不便.那么 ...

  • 10种用于慢性胃炎,改善胃脘疼痛、反酸、嗳气的中成药

    最近咨询胃病的朋友够多,尤其是慢性胃炎,本病为慢性胃黏膜炎症,临床十分常见,主要症状有上腹胀满.反酸.嗳气,纳差和上腹隐痛等症状.一般无明显规律性,进食后加重.胃黏膜糜烂时出现大便潜血阳性,黑便甚至血 ...

  • 8种用于失眠、睡眠障碍的中成药,值得转发收藏

    失眠是指睡眠时间.深度的不足,可以表现为睡眠减少,难以入睡或睡而易醒,醒后难以入睡或彻夜难眠.随着社会生活步伐的加快,睡眠环境的复杂化,睡眠障碍成了困扰很多人的难题,因此对失眠的病因的研究及治疗也成了 ...

  • 9种用于帕金森病,改善震颤,运动迟缓,肌强直的中成药

    帕金森病,以黑质多巴胺能神经元变性缺失和路易小体形成为病理特征,其主要的生化改变为纹状体区多巴胺递质降低,好发人群以中老年人为主,临床特征为静止性麻痹.运动迟缓.肌强直和姿势步态异常,以早期发现.早期 ...