在现实任务中,智能体间的合作是至关重要的。比如,在足球游戏中,球员们除了发挥个人能力外,也需要通过传球配合的方式进攻。本文的主题是,如何利用强化学习构建具有合作能力的多智能体(multi-agent)系统。在这样的系统设置下,每个单智能体(single-agent)只能接触到部分状态信息(POMDP问题),单纯的最大化单智能体的期望回报可能与系统整体利益不符,因此直接使用一般的单智能体强化学习算法很难起效。下面将介绍3种模型,他们采取不同的方法构建智能体间的通信机制,实现了期望的合作行为。
Distributional Reinforcement Learning
在传统的强化学习模型中,价值函数(value function)输出的是每个动作(action)在给定状态(state)下的价值 / 期望回报(expected return)。Distributional RL 则假设这个价值是一个随机变量,传统价值函数的输出是这个随机变量的均值。也就是说,传统价值函数的目标是近似地估计价值的期望,而 distributional RL 的目标是近似地估计价值的分布(概率密度函数)。
Attention Model
本文介绍深度学习中一个常见的机制 Attention Model,以及其在实际场景中应用。因为 attention 是受到人类注意力(即 attention)机制启发的一类比较宽泛的想法,而不是一个具体的模型或者公式,本文的重点会放在如何在不同问题下设计 attention,希望给今后自己设计 attention 带来一些启发。
Variational Autoencoder
本文主要内容是解读《Auto-encoding variational bayes》这篇论文。一直很喜欢这种有(数学或统计)理论基础的研究,比凑出来的深度学习模型不知道要高到哪里去。