今年 6 月底,知名科技公司 OpenAI 发布了一篇论文,主要围绕着一项名为 “视频预训练”(VPT:Video PreTraining)的 AI 技术展开讨论。
这项研究的成果相当喜人,例如,在看了 7 万多个小时《我的世界》视频后,案例中的 AI 已经成功学会了求生所需的大部分必备技能:游泳、狩猎、建房、下矿,甚至搜刮村庄。
尽管依然存在着一些人类难以理解的操作,但就结果来说,这已经比许多同类 AI 表现得要好多了。
1
无须等待,AI 走进千万家的场景就在当下。
虽然 OpenAI 的模型目前仅提交给了专门负责研究《我的世界》AI 的 MineRL 大赛,但就在他们论文发布的前后几天,另一个功能类似的 AI 也同样出现在了网上。更重要的是,研究团队直接将他们的代码放在了 Github 上供所有人下载研究。
这个名叫 MineDojo 的项目由英伟达的工程师进行开发,同样是通过观看网上的视频资料进行训练,但与 OpenAI 略有不同的是,他们的资料库要庞大得多。
MineDojo 一共搜集了 73 万个油管上的游戏视频、7000 多个维基网页,甚至还有上百万条和《我的世界》有关的 Reddit 评论。
这么做的目的,当然在于帮助 AI 理解人类语境中“建造“”求生“等词汇的意义,油管主们在教学视频中声情并茂地教导观众从哪里出发,到哪里寻找神庙,再到如何攻略末影龙 ——
对于 AI 来说,这就是上好的“网课”。
支持这一行为的,是一个被称为 MineCLIP 的学习算法。它可以帮助 AI 把主播的解说与视频中展示的操作联系起来,以此达到训练的目的;同样的,训练好的 AI 也能理解玩家直接下达的任务。
这是 MineDojo 最有趣的部分,工程师们准备了 3000 个可以直接下达给 AI 的指令,一类是程序化任务,例如“生存 3 天”或“收集两块木头”,这是可以用数字和名词客观衡量的任务;另一类是抽象化任务,例如“建造一座漂亮的海滨别墅”。
AI 可能很难理解“漂亮”“海滨”“别墅”到底是什么意思,不过通过视频画面的讲解,再搜索玩家们相关评论的关键词之后,大多数时刻 AI 都能有模有样地完成目标。
在这些任务中,玩家可以给 AI 下令“把牛羊圈起来”“去沼泽里找鸡”“尽可能地活久一点”,或者干脆让它去搜刮一个海底神庙。因为使用了互联网上的常用语言,AI 对某些人类特有的幽默感学得挺到位的。
重做游戏的原因我们稍后再进行讨论,CB 视频中展现的精髓部分在于遗传算法的“筛选”功能。不同于物竞天择的大自然,这里我们才是负责挑选 AI 的上帝。
刚出生的 AI 当然是什么也不懂得的小婴儿,给它们添加行动指令,AI 也不会懂得往哪里行动有什么意义。因此常见的做法是给随机行动的 AI 设置奖励和惩罚,例如跳跃一次加 1 分、达到下一关加 2 分、左右移动加 0.5 分,向下跌落则扣 1 分。
每代 AI 只有五次行动机会,五次行动结束后,跳跃高度最高的 AI 就会成为下一代的模范,此后的每一代 AI 都会遵循上一代摸索出最好的路径前进 —— 这就是很简单的进化了。
不过这么简单的规则还没有办法解决某些“思考”问题,如果某关需要先下降,再向上跳跃的话,死脑筋的 AI 就会因为扣分原则而拒绝往下跳。
解决办法可以是在降落地点设置同样可以提供奖励的收集品,引导 AI 通过收集奖励,前往更高的场景。
等所有程序都准备好之后,只要让 AI 自己跑起来就行了,它们自然会一代代地找到最好走的路线,最终完成游戏通关的任务。
以一位油管上仅有 7000 粉丝的小博主 River 为例,他的一期视频就很简洁地展现了 AI 技术的低门槛。
前期准备非常简单:你只需要两台电脑、一段网上下载的程序、一个视频采集卡,再加一个无线鼠标信号接收器。
而要做的工作也无非是标注一些供 AI 训练识别能力的图片,一“小”段指示行为模式的代码,然后直接扫描小地图指示方位,再把键盘信号都通过无线鼠标传送到电脑里。
虽然信号发送是麻烦了点,但好处也有,因为没有额外程序接入游戏,自然也不会被判断出使用了外挂。
正如 MineDojo 要区分程式化任务与抽象类任务的区别,我们在教导 AI 时,同样能从 AI 分辨的结果当中,得到自己对于事物的定义和由此产生的解释,或许能启发人类解决生活中的矛盾。
朋友问你今天过得怎么样、相亲时怎么向对方介绍自己,如果每个问题都能用程序解答,未尝不是人类也已经进化到更高一层的体现。
本文来自微信公众号:游戏研究社 (ID:yysaag),作者:RMHO