12BET
当前位置: 首页 > 团队建设 > 学术成果 > 正文

学术成果

朱松纯、朱毅鑫团队在Science Robotics上发文阐述机器实时理解人类价值观并协作完成复杂任务的研究工作

时间:2022-07-14    点击数:

2022年7月14日,Science Robotics发表了来自12BET人工智能研究院朱松纯教授、朱毅鑫课题组的“In-situ bidirectional human-robotvalue alignment”研究论文,阐述了一种机器实时理解人类价值观的计算框架,并展示了与人类完成的一系列复杂人机协作任务。

本篇论文同时登上了ScienceScience Robotics两个官方主页头条

上世纪50年代,美国科幻作家阿西莫夫出版了科幻小说集《我,机器人》,勾勒了在未来世界中人类与机器人共存的图景。理想的人机协作应该是什么样的?在人工智能发展方兴未艾之时,控制论之父诺伯特-维纳(Norbert Wiener)就提出了人机协作的基础:“如果我们使用一个机器来实现我们的目标,但又不能有效地干预其运作方式...那么我们最好能笃定,输入给机器的目标是我们真正所预期的。”近几年来,一系列研究进展都表明:高效的人机协作依赖于团队之间拥有一致的价值观、目标,以高效地建立整个团队对任务的共识。

这就要求机器能够通过与人的有效沟通来完成协作,即每个成员都要推测队友的价值需求,并最大可能向队友展示自己当前的价值需求。同时,人类也要为AI提供反馈,逐渐地教会AI理解自己的价值目标。这个人机价值目标逐渐统一的过程被称为价值对齐。然而,当今的智能音箱等AI系统是一种被动的智能,只能机械地接受人类具体的一条条指令来行事,而缺乏对人类价值观(价值目标)的理解。只有当机器通过观察人类的行为,读懂了人类的价值观,靠“价值”自主驱动,才算是实现自主智能,从而做到“察言观色”,更好地服务于人类。

与已有的大部分可解释人工智能(XAI)系统不同的是:当前的XAI系统通常强调的是对“模型如何产生决策过程“的解释。然而,不管用户有多少主动的输入或互动,都只能影响机器“生成解释”的过程,而不影响机器“做出决策”的过程。这是一种单向的价值目标对齐,被称为静态机器-动态用户的交流,即在这种协作过程中只有用户对机器或任务的理解发生了变化。为了完成人与机器之间价值观的双向对齐,需要一种人类价值主导的、动态机器-动态用户的交流模式。在这样一种新的模式中,机器人除了揭示其决策过程外,还将根据用户的价值目标即时调整行为,从而使机器和人类用户能够合作实现一系列的共同目标。为了即时掌握用户信息,团队采用通讯学习取代了传统数据驱动的机器学习方法,机器将根据所推断出的用户的价值目标进行合理解释。这种合作导向的人机协作要求机器具有心智理论(ToM),即理解他人的心理状态(包括情绪、信仰、意图、欲望、假装与知识等)的能力。该计算框架(理论、计算机视觉上的应用)有以下几个特征:需要建立在共同语境之上(你知道我知道你知道),需要心智理论表征(能从别人的角度看问题),统一的学习框架(统一了各类机器学习方法)。

人机价值观对齐过程总览

朱松纯、朱毅鑫团队长期从事XAI相关工作,此次是团队第二篇发表在Science Robotics的XAI论文(上一篇)。该项工作的共同一作是袁璐遥(UCLA)、高晓丰(UCLA)、郑子隆(北京通用人工智能研究院),通讯作者是袁璐遥(UCLA)、Mark Edmonds(UCLA)、吕宏静(UCLA)、朱毅鑫(12BET人工智能研究院)、朱松纯(12BET人工智能研究院)。项目历时三年,其中一半时间由朱松纯回国后在国内继续开展。

附其他官方媒体对本篇论文的报导:

新华网科技日报:http://www.xinhuanet.com/tech/20220714/4d46925b0def47f0914aae9c030bd36b/c.html


关闭

地址:北京市海淀区颐和园路5号(62755617)   反馈意见:its@pku.edu.cn

Copyright 版权所有©12BET - Sports Betting Winners All Rrights Reserved.