2.1.2 间接通信
间接通信的定义是通过改变世界环境而隐含地将信息从一个智能体传递到另一个智能体[1],即智能体的行为或状态首先影响外部环境,然后环境的改变会影响其他智能体的行为或状态,智能体只通过本身的传感器来获取周围环境信息来实现群体间的协作。自然界有很多类似的例子,如将脚印留在雪中,留下一小块面包屑以便找到回家的路,以及其他在环境中放置物品来进行提示等。
许多针对间接通信的研究从社交昆虫使用信息素来标记路径中汲取了灵感。这里,信息素是化合物,其存在和浓度可以被同伴感知,尽管可能会扩散和蒸发,但仍可以在环境中持续很长时间。使用信息素来实现间接通信,可以在没有集中化的情况下快速适应不断变化的环境信息。从某种意义上说,信息素沉积物可能被视为所有智能体共享的大型黑板或状态效用表格,但不同的是信息素只能在局部检测到,智能体只读取或改变自身在环境中某点的信息素浓度。
1.共识主动性(Stigmergy)
共识主动性起初是由法国昆虫学家Pierre-Paul Grassé提出的概念,用来解释没有直接通信且智力非常有限的昆虫为何可以协作处理复杂的任务。共识主动性[7,9-12]启发自蚁群协同机制,蚁群寻找食物的过程中会分泌信息素遗留在经过的路径上,其他的蚂蚁会感知到信息素,向信息素浓度高的位置移动,最终到达正确的目标位置。若将智能体视作蚂蚁个体,它处在充满信息素的特定空间内,接收来自环境的状态输入并做出动作决策。移动后的智能体产生新的信息素,这会影响原有环境中的信息素,更新后的环境会将新的状态输入给智能体,从而构成了一个闭环。
共识主动性的概念表明单个智能体可以通过共享环境间接通信,而当单个智能体造成环境改变时,其他智能体也会响应这种改变,并做出相应的变动,实现相互间的信息交互和彼此间的自主协调。由于共识主动性可以实现复杂、协调的活动,而无须智能体之间的直接通信,也无须集中控制调控,因此随着个体数目的增加,通信开销的增幅较小。鉴于此,基于共识主动性的间接通信方式可用于在不可预测的环境中构建稳健可靠的系统。
作为对共享环境进行局部修改而交互、协调的一种间接介导的机制,共识主动性通常由媒介(Medium)、动作(Action)、状态(Condition)和痕迹(Trace)4部分组成,它们共同构成与周围环境之间的反馈回路,如图2-2所示。
❑ 媒介。媒介在多智能体协作中起着信息聚合器的作用。由于媒介的存在,智能体和它们周围的环境可以建立高效的共识主动性交互,从而使得环境中分散的智能体能与其他智能体间接通信。有时,媒介会被认为和环境等效,重新将媒介定义为所有智能体都可以控制和可感知的那部分环境[13],这是确保不同智能体可以通过媒介相互作用的必要条件。
❑ 动作。动作是一种导致环境状态发生变化的因果过程,具有前因以及随之而来的效果。在人工智能中使用的简单的基于智能体的模型中,前因通常为状态,动作则指定该状态的后续转换。
❑ 状态。指定动作下的环境状态。
❑ 痕迹。智能体在媒介中留下痕迹作为动作导致环境变化的指示,不同的智能体在媒介中留下的痕迹会扩散并且以自发的方式进一步融合。然后这些痕迹的变化模式就被视作其他智能体后续动作的相互影响。痕迹可以有不同表示,比如化学物质(如自然界中的信息素)、人工数字信息素(表示有关系统的信息,通过外部环境中的存储设备存储)、物理标记(如2D条形码、射频识别标签、颜色标签)等。
图2-2 共识主动性学习机制
具有共识主动性的智能体根据局部状态选择动作后会在环境中留下痕迹,以影响其他智能体的状态。媒介是充满痕迹的指定空间,如数字信息素地图,响应幅度取决于具有共识主动性智能体之间的距离x和痕迹在媒介中的强度。
许多的研究都是基于信息素/数字信息素实现的,其动态特性是:
❑ 聚集:同一区域内的信息素可以线性叠加;
❑ 扩散:智能体释放的信息素有残留后会以一定扩散率向周围区域扩散;
❑ 挥发:智能体占据位置上的信息素会以一定衰减率减少。
群体智能中模仿自然界蚁群觅食行为的模拟进化算法——蚁群优化算法(Ant Colony Optimization, ACO)[14-15]是一类元启发式搜索算法,它通过共识主动性这种间接通信方式来彼此协作,具有较强的可靠性、稳健性和全局搜索能力。蚂蚁觅食过程中在其所经过的路径上留下信息素,在运动过程中感受到信息素的存在及其强度,以此指导自己的运动方向。大批蚂蚁组成的蚁群行为表现出一种信息的正反馈现象,即某条路上走过的蚂蚁越多,后来者选择该路径的概率就越大。然后蚂蚁用自己的信息素强化选定的路径。信息素会因挥发而减少,蚂蚁朝着信息素浓度高的方向前进。蚁群通过这种信息交换方式与互相协作找到蚁穴到食物源的最短路径,该算法可以用来求解各种与组合优化路径相关的组合优化问题,例如在旅行商问题的求解上表现出很强的优越性。
2.共识主动性应用举例
❑ 通信网络自适应路由:路由是整个网络控制系统的核心,为有线网络开发的群体智能路由算法可以在没有全局信息的通信网络中找到近似最优的路由。
例2.1.7 Ant-Based Control(ABC)算法[16]使用蚂蚁作为探索智能体,遍历网络节点并更新路由指标(信息素)来实现智能体间接通信。ABC算法综合考虑路线的长度和沿线的拥挤程度来选择路由,两种路由任务分别是进行概率决策的探索蚂蚁和做出确定性决策的实际调用(选择目的地对应列中信息素最多的链路)。每个源节点S都会发出许多探索蚂蚁,这些蚂蚁都朝着随机选择的目的地D前进,到达D时从网络中删除。网络结构及节点路由表如图2-3所示。在节点路由表中,行包括所有邻节点,列包括所有可能的目的地,每个条目都对应于特定邻节点指向特定目的地的链路上的信息素量,这些信息素量在每一列中归一化,可以作为选择最佳链路的概率。
图2-3 网络结构及节点S的路由表
由于网络链接是双向的,探索蚂蚁在途中的每个节点(如节点C)处更新C处路由表中与源节点S对应的条目。具体来说,路由表中对应于蚂蚁刚刚出现过的节点信息素量的概率根据公式更新,该节点路由表中的其他条目根据降低。基于经验值文献[16]给出,其中age是蚂蚁自源节点以来所经过的时间步数,这使得系统对那些沿着较短的路径移动的蚂蚁有更强烈的响应。探索蚂蚁通过生成一个随机数来选择下一个节点,并根据它们在路由表中的概率来选择一条链路。蚂蚁和呼叫都在同一个队列中行进,呼叫以路由表中目的地对应列中的最高概率对链路做出确定性的选择,但不会留下任何信息素。呼叫阻塞的节点在时间步数上给探索蚂蚁一个延迟的反馈,这种延迟随着拥塞程度的增加而增加。这可以暂时减少蚂蚁从拥塞节点流向其邻节点的流量,防止影响蚂蚁路由到拥塞节点的路由表。并且由于延迟蚂蚁的age的增加,根据Δp的计算公式,它们对路由表的影响变小,而路由表又会决定新呼叫的路由。网络性能是通过呼叫失败来衡量的,与使用固定的最短路由途径算法相比,使用ABC路由方案会显示出更少的呼叫失败,同时表现出许多有吸引力的分布式控制功能。
❑ 交通管理:交通流观测和交通拥堵信息通常是使用放置在主干道上的感应门计数通过特定位置的车辆来得到的,作为当前信息广播给车辆。交通拥塞控制是一种集中机制,可以用作间接通信的共识主动性机制实现去中心化交通拥堵管理。在交通运输和多智能体系统领域,动态短期记忆一直是研究的热点。近年来,探测车辆信息或智能手机提供的更短期的交通信息,这种短期的流量信息就被建模成共识主动性,用于间接通信进行智能体之间的合作,使分布式交通拥堵管理的动态协调方法成为可能。
例2.1.8 文献[17]中,共识主动性信息分为长期和短期两种,数值实验的评价指标是在24个节点的道路网络中,300辆车从各自起点到各自终点所花费的总时间。长期共识主动性信息是每条道路l、每x个小时更新值vl=ave+sd×0.05,ave是花费时间的平均值,sd是道路上所有存储数据的标准差。短期共识主动性信息是每5min更新值vs=ave+sds×0.05,其中的sds是最近5min存储数据的标准差;如果最近5min内没有车辆经过,则该链路vs=v0。将长短期信息结合vls=vs×(1-w)+vl×w,则每隔5min内的所有探测车辆都会根据长期和短期共识主动性信息找到到达目的地节点的最佳路径。此外,文献[17]还引入基于预期的共识主动性信息va,其根据该道路探测车辆的总数和道路容量等信息。如果车辆多,va就会短暂增加,并据此搜索最佳路线。实验结果均表明,与所有车辆通过Dijkstra搜索最佳路径而不共享任何流量信息相比,车辆通过共识主动性机制在拥塞等情况下动态选择路线,花费的总时间显著降低。
❑ 群体机器人跟踪与搜索动态目标:在未知环境中进行目标搜索是机器人技术的基本问题之一,与单个但性能更高的机器人相比,目标搜索任务可以由一组自动移动的机器人执行。第11章将会讲到,由于群体效应,群体机器人系统在实施这些任务时可能具有更好的性能。群体机器人的协作依赖于通信,直接通信需实时传输和接收大量信息,并且会收到通信带宽的限制。间接通信虽无法直接将信息传递给机器人,但没有带宽的限制,使得机器人系统的大小可以扩展。个体只需要解码和修改环境中留下的信息,并据此确定自己的行为。
例2.1.9 文献[18]提出了一种共识主动性机制的群体机器人跟踪与搜索动态目标的模型。在执行搜索和跟踪任务时,机器人无法在整个过程中知道目标的位置和运动趋势,它们可以获得的有关目标的唯一信息是检测到的信号强度。将无线RFID标签作为机器人间接通信的信息素载体,RFID标签中存储的数据形式取决于部署在搜索区域中的信息素模型。每个机器人都带有RFID读取器,根据读取的RFID标签中的信息素向量和探测到的目标信号强度,机器人决定自身的运动速度和方向。同时,将从标签中读取的矢量信息素(包含大小和方向)和根据自己的运动经验得出的中间向量(有助于生成矢量信息素)生成一个新的向量信息素来重新写入这个标签。在整个搜索和跟踪过程中,机器人通过这种方式间接交互。所有标签载体形成完整的包含目标信号强度梯度特征的信息素向量地图,达成对目标的搜索与追踪效果。这种通信模式降低了对机器人通信能力的要求,使群体具有更强的可扩展性。
文献[18]分别在平台仿真和真实世界中进行试验,验证了目标做三角形和做圆形运动轨迹时的两种情况。结果表明,共识主动性机制使得机器人可以在短时间内找到目标,并保持对目标的近距离轨道跟踪。此外,使用不同数目的机器人,这种机制仍然可行,表明基于共识主动性机制的方案是具有可扩展性的。
大多数应用中的协调过程集中在信息素的维护上,但参与者本身缺乏学习行为策略的能力。例如,ACO算法中的协调过程导致信息素浓度增加,但智能体的行为策略是预先确定的,以概率的方式在几种浓度中选择。在更多实际情况下,不能预先确定所涉及的智能体的行为策略,并且智能体必须在维持协调的同时调整自己的策略。在多智能体强化学习中,每个智能体都可以通过与周围环境交互来学习其行为策略,Aras等人[19]从概念上描述了如何将共识主动性的某些方面引入多智能体强化学习中,并指出共识主动性不同于Markov决策过程(Markov Decision Process, MDP)的两个特性:
❑ 非静态空间,如蚂蚁从一个特定的、信息素空的状态空间开始,并对其进行转化。
❑ 非静态奖励功能,如蚂蚁没有特定的地点来收集所有死去的蚂蚁,所以一开始的奖励函数是没有定义的。
在许多基于信息素的学习方法中,强化学习算法采用固定的信息素铺设过程,在探索空间或更新状态—动作效用估计的时候,使用当前信息素的数量来表示额外的传感信息。
例2.1.10 Phe-Q算法(Pheromone-Q Learning)[20-21]将合成信息素与Q学习相结合,在Q学习更新方程中引入了一个必须最大化的置信因子。在捕食者—猎物场景中,绘制不同epoch的连续Q值之间的均方根误差曲线,将该值小于某阈值作为学习收敛标准。对比采用合成信息素进行通信的Phe-Q学习和无通信的Q学习,前者的收敛速度更快。
Phe-Q中的信息素有两个可能的离散值:寻找食物时信息素的沉积值φs、带着食物返回洞穴时信息素的沉积值φn。信息素在一个单元格内聚集直到达到饱和状态,以φe的速率蒸发,直到没有智能体访问该单元格来补充信息素。信息素以φd的速率扩散到相邻的单元格内,该速率与曼哈顿距离成反比。合成信息素Φ(s) 是一个标量值Φ∈ [0, 255],表示环境中某个单元格s的信息素浓度。Na是所选动作a之后相邻单元的集合。信念因子,是当前状态实际信息素浓度和相邻单元信息素浓度之和的比值,它整合了信息素的基本动态性质:聚集、蒸发和扩散。把信念因子引入Q学习的更新方程中,使其随Q值一起最大化:。ξ是epoch≥0的激活函数,随着成功执行任务的智能体数量而增加。智能体既没有对周围环境的先验知识,也没有对食物位置或巢穴的先验知识。在早期探索中,智能体会在较小的程度上相信信息素地图,所有智能体都偏向于探索。智能体在找到食物及返回巢穴时获得奖励。