主页 > 快资讯 > 科技说 > 正文

当算法的顽皮AI耍起了心眼人类像极了白痴……

2019-07-01 13:27:53来源：科技聚焦编辑：居小桃

扫一扫

分享文章到微信

扫一扫

关注鹿财经网微信公众号

复制网址

　　原标题：当算法的顽皮AI耍起了心眼人类像极了白痴……

　　耍小心眼已经不是人类专利了。

　　前几日，有一群研究者整理了一个场景的List，细数了AI为了完成任务，而耍的小心眼，或者说作弊。

　　例如，在让AI玩俄罗斯方块的时候，发现最佳完成任务的方式是直接暂停游戏；在玩井字棋的时候，AI发现它如果做出奇怪的步骤，对手会非常崩溃。

　　科研人员在做实验的时候，通常会极力避免机器的这些作弊方式，只有少数的研究人员研究这些案例，他们认为算法的顽皮或许是AI真正走向智能的方式之一。

　　在2018年的时候，OpenAI举办了首届强化学习竞赛Retro Contest，比赛主题就是“用AI玩《刺猬索尼克》游戏”。竞赛的目的是评估强化学习算法从以往的经验中泛化的能力。

　　在训练的过程中首先要告诉AI的第一目标是得到最高分，然后尽可能的在最快的时间杀掉敌人并收集戒指。但是有一个案例的人工智能做法是，利用游戏中Bug更加快速的完成任务。

　　在另一个赛艇游戏中，倒也不是游戏中的BUG，为了尽快的获得最高分，它绕着圈子，反复击中相同的奖励目标，从而获得分数，显然这不是在真正的“享受”游戏。

　　这种例子并不少见，在谷歌和斯坦福2017年的一项研究中，为了完成图像转换的任务，CycleGAN在训练过程中通过人类无法察觉的某种“隐写术”，骗过了它的创造者，给自己留下了隐秘的“小抄”，然后顺利完成了任务。

　　具体来说，研究者希望通过训练这个CycleGAN模型，可以实现两类图片的转换：把航拍照变成街道地图，再把街道地图变回航拍照。

　　经过大量的数据发现，这个模型自作主张的根据航拍卫星图片重建了街道地图。比如，在创建街道地图时，屋顶上的天窗被研究者通过某种设置被抹掉了，但通过街道图转化为航拍照后，这些天窗又神奇地出现了。

　　左侧是原始地图，街道地图从原始地图产生。中间：生成的地图。右侧：重构的地图。其中，卫星地图的样本只来自街道地图。注意这两张卫星地图里出现的点，它在街道地图没有显示。

　　简单的点说就是为了应付人类任务，AI在地图照上面偷偷写了一点小抄/水印，而为了躲过人类的检查，只有它自己训练出来的模型才读得懂这些小抄/水印。

　　AI作弊：创造性的解决方案？

　　普通的人工智能通过观察数据值来解决问题，本质是通过算法找到答案，从而寻找新的知识逻辑。

　　那些“顽皮”的人工智能也是通过数据获取能力，但它采用欺骗策略来快捷完成任务。但是他能不能看成是AI在解决问题时的创新呢？

　　德国柏林Fraunhofer Heinrich Hertz研究所的机器学习小组组长Wojciech Samek博士说道：考虑一下在Pascal VOC图像分类挑战赛中大放异彩的人工智能系统，它仅通过水的存在来检测船只，通过蓝天和马匹的存在来检测飞机。”这就像在打台球的时候，通过推动桌子控制台球的运行轨迹。

　　使用数据训练AI玩游戏的目的是模拟游戏玩家的行为，一般情况下AI会按照“字面”意思进行操作。但是如果训练的数据过于多，人工智能可能会尝试采用完全颠覆人类对游戏理解的捷径，而不是完成各种目标。

　　当然，AI采用这种方法也解决了问题，只不过和人们预期方式的不同，在表现形式上面和人类的作弊行为类似，所以我们称之为AI作弊。

　　研究人员说道，这看起来是人工智能的错误，实际上是完善和改进系统的机会。但是为了利用这些机会，首先必须有一种机制来标记问题、

　　因此，这里的教训是，AI作弊不应该也不会比我们聪明，但前提是我们必须意识到这些捷径的存在，以便我们可以将它们作为学习点，在未来构建更好的AI系统。

　　OMT：AI耍“小心眼”的LIST

　　问题：飞机降落

　　利用了物理模拟器的溢出漏洞，搞出了一个特别巨大的力，然后溢出被判定为0，从而获得了完美得分（Feldt, 1998）

　　问题：挪木块

　　一个机械手被要求把木块挪到桌子的指定地点，它的解法是挪桌子（Chopra, 2018）

　　问题：赛艇

　　程序发现不停原地转圈反复命中同一个目标要比抵达终点的得分更高（Amodei & Clark (OpenAI), 2016）

　　问题：识别有毒和无毒的蘑菇