Facebook提出使用3D导航任务来训练自主机器人-编程之家

  据外媒 Venturebeat 报道,Facebook、乔治亚理工学院和俄勒冈州立大学的研究人员在本周发表的一篇预印本论文中,描述了人工智能的一项新任务——通过听自然语言的指令,在 3D 环境中导航(例如,“走下大厅,在木桌旁左转”)。他们说,这可以为遵循自然语言指令的机器人助手奠定基础。

  研究人员的任务,被称之为在连续环境中的视觉和语言导航(VLN-CE),是在 Facebook 的模拟器 Habitat 中进行的,该模拟器可以训练机器人助手在模拟真实环境的环境中操作。直径为 0.2 米、1.5 米高的助手被放置在来自 Matterport3D 数据集的内部,该数据集是通过 10800 多个全景图和相应的 3D 网格捕获的 90 个环境的集合。

  机器人助手必须在一条路径上做四个动作(向前移动 0.25 米,左转或右转 15 度,或停在目标位置)中的一个,并学会避免被困在障碍物上,比如椅子和桌子上。

  研究小组将这些环境提炼成 4475 条由 4 到 6 个节点组成的轨迹,这些轨迹对应于在各个位置拍摄的 360 度全景图像,显示了导航能力。

  他们用这个训练两个人工智能模型:一个 sequence-to-sequence 模型,该模型由采取视觉观察和指令表示的策略组成,并使用它们预测一个动作;另一个是两个网络交叉模式注意模型,该模型跟踪观察结果,并根据指令和特征做出决策。

Facebook提出使用3D导航任务来训练自主机器人-编程之家

  研究人员表示,在实验中,表现最好的机器人可以遵循“向左拐,进入走廊”之类的指令,尽管这些指令要求机器人在发现视觉路标之前转动未知的次数。事实上,机器人在看不见的环境,大约三分之一的场景中导航到目标位置,平均采取了 88 次行动。

  这些机器人偶尔也会失败,根据合著者的说法,这些失败通常是由于机器人在视觉上丢失了指令中提到的对象。

  “至关重要的是,VLN-CE 为(研究)社区提供了一个测试平台,在这里可以进行研究高级和低级控制界面的这类集成实验,”合著者写道。

  Facebook 投入了大量资源来解决自主机器人导航的问题。

  雷锋网了解到,今年 6 月,在公布了一项训练六足机器人走路的计划后,Facebook 首次推出了 PyRobot,一种用于 PyTorch 机器学习框架的机器人框架。2018 年,Facebook 推出了开源人工智能,可以通过 360 度图像在纽约市街道上导航。最近,Facebook 的一个团队发表了一篇论文,描述了一个通过观看视频学习如何在办公室里走动的系统。