人工智能正在走向一个真正的“智能学习体”

2021-02-25 16:42
科技日报

AI走向真正的“智能学习体”。英国杂志《自然》 24日发表了一篇人工智能研究成果：美国团队报道了一种增强型学习，可以回到过去，解决复杂任务，真正提高探索复杂环境的方式。有望在机器人学、语言理解、药物设计等领域得到应用。这种算法被称为“Go-Explore”，在一款经典游戏的算法挑战中，它的得分超过了人类玩家和先进的人工智能系统。

这一成就被认为是实现真正“智能学习体”的重要一步。增强学习使人工智能系统能够通过探索和理解复杂的环境来做出决策，并学习如何以最佳方式获得回报。奖励可以包括机器人到达特定位置或在电脑游戏中达到一定水平。但是当面对反馈很少的复杂环境时，目前的强化学习算法容易碰壁，让人工智能专家非常苦恼。OpenAI是由多个硅谷巨头联合成立的人工智能非营利组织。它的发起人包括美国企业孵化器Y Combinator的总裁萨姆奥特曼(Sam altman)和SpaceX的创始人埃隆马斯克(elon musk)。

它的目标是防止人工智能的灾难性影响，促进人工智能发挥积极作用。这一次，“开放人工智能”科学家艾德兰德阿克菲尔德、朱斯特惠津加和他们的团队提出了有效探索的两个主要障碍，并设计了一类算法来解决这些障碍。研究人员表示，“Go-Explore”可以对环境进行全面的探索，同时建立档案来记住它去过的地方，以确保它不会忘记成功中期阶段或最终胜利(奖励)的路线。它在雅达利经典游戏中的得分超过了人类玩家和先进的人工智能系统。研究人员用这个算法解决了2600个以前没有解决过的雅达利游戏，验证了这个算法的潜力。

算法挑战赛《蒙特祖马的复仇》“Go-Explore”的分数是之前的四倍，另一场算法挑战赛《玛雅人的冒险》的分数也超过了人类玩家的平均水平。相比之下，之前的算法是得不到一个点的。“Go-Explore”算法还可以完成一个模拟机器人的任务，在这个任务中，它必须使用机械臂来拾取东西，并将它们放在四个架子中的一个上，其中两个架子在两扇门后关闭。研究人员指出，记住并回到探索有望成功的领域的简单原则，是一种强大而普遍的探索方法。他们认为，最新的算法有望应用于机器人、语言理解和药物设计。

扩展阅读