存在的问题&研究动机&研究思路 在稀疏奖励的环境下,多智能体的exploration存在效率不足的问题。 在IAC的基础上尝试加入重要性采样,使得每次更新智能体 i i i的参数时,不再仅仅使用智能体 i i i的数据,而是使用所有智能体的数据进行智能体 i i i数据的更新。 对于原始的IAC算法是on-policy的,而SEAC则是off-poligy的。 创新点