杜克大学研发新平台让AI可从人类反馈而不是大数据集中学习

智能网联
2024-12-09 13:40

盖世汽车讯在第一堂驾驶课上，教练可能会坐到旁边，在每次车辆转弯、停下以及进行微调时，给出即时建议。倘若是父母，他们则可能会多次抓住方向盘并大喊“刹车”。随着时间流逝，此类纠正措施和意见会变成经验和直觉，让人们成为独立且具备能力的驾驶员。此外，虽然人..

盖世汽车讯在第一堂驾驶课上，教练可能会坐到旁边，在每次车辆转弯、停下以及进行微调时，给出即时建议。倘若是父母，他们则可能会多次抓住方向盘并大喊“刹车”。随着时间流逝，此类纠正措施和意见会变成经验和直觉，让人们成为独立且具备能力的驾驶员。此外，虽然人工智能（AI）的发展让自动驾驶汽车成为了现实，但用于训练此类车辆的教学方法与副驾驶教练的方法仍有很大的差距。与提供具体建议和实时指导不同，AI主要通过庞大的数据集以及广泛的仿真实验进行学习，不管其应用场景如何。

杜克大学平台（图片来源：杜克大学）

据外媒报道，在此背景下，美国杜克大学（Duke University）和美国陆军研究实验室（Army Research Laboratory）的研究人员研发了一个平台，可帮助AI更像人类一样执行复杂任务。该AI框架的缩写为GUIDE。

杜克大学机械工程与材料科学、电气与计算机工程、计算机科学系教授兼杜克大学通用机器人实验室负责人Boyuan Chen表示：“对AI而言，基于有限学习信息的快速决策任务依旧是一项挑战，现有的训练方式通常受限于对庞大的现有数据集的依赖，并且对传统反馈方法的适应性也有限。我们的目标是通过引入实时连续的人类反馈，来缩小这一差距。GUIDE的工作方式是让用户实时观察AI的动作，并提供持续的细微反馈，类似于一位经验丰富的驾驶教练不会只喊‘左边’或‘右边’，而是提供详尽的指导，以让学员能够逐步改进，深入理解。”

在首次研究中，GUIDE帮助AI学会掌握捉迷藏游戏的最佳策略。该游戏包括两位甲壳虫状的玩家，一个为红色，一个为绿色。尽管两个玩家都由计算机控制，但只有红色玩家致力于提升其AI控制器的能力。