解决这个问题的方法是设计一种人工智能系统,以尽量减少其行为对周围环境的影响。也就是说,我们希望人工智能实现目标,同时让它所涉及的一切都尽可能保持或接近现在的状况。“ceteris paribus preferences”(即“尽可能保持其他条件不变”)的概念说明了这一点[111]。“ceteris paribus”是拉丁文,意思是“其他条件不变”。因此,按照“尽可能保持其他条件不变”的想法,如果我们让人工智能系统做一些事情,是希望它完成任务的同时,保持其他一切尽可能不发生变化。因此,当我们发出“避免我的房子被盗贼入侵”指示时,我们的意思是“避免我的房子被盗贼入侵,同时尽可能使房子的其他一切保持现状”。
解决这些问题的核心都是让计算机理解我们真正想要的是什么。逆向强化学习就是针对这一问题展开的,我们在第五章了解了常规的强化学习:智能体在某种环境中行动,并获得奖励。强化学习的目的是找到一个行动过程,最大限度地获取奖励。在逆向强化学习中,我们首先确定了“理想”的行为(即人类会怎么做),然后再制定人工智能软件能获得的相关奖励[112]。简言之,我们是将人类的行为视为理想行为的典范。