基于自适应动态规划的机器人轨迹跟踪控制-中国期刊网

首页 > 《中国电气工程学报》 > 2020年1期 > 基于自适应动态规划的机器人轨迹跟踪控制

（整期优先）网络出版时间：2020-04-20

作者: 宋孟豪

文化科学 >

打印

同系列资源

/ 2

基于自适应动态规划的机器人轨迹跟踪控制

宋孟豪

河南大学河南 475001

摘要

针对移动机器人运动轨迹的跟踪控制问题，本文介绍了移动机器人的发展状况跟应用领域，其次以自适应动态规划为核心，介绍ADP目前的发展情况和具体应用领域，把自适应动态规划算法思想结合RBF神经网络控制结合到一起，将其应用到机器人的轨迹跟踪控制中，仿真结果证实了该算法的有效性。

关键词：移动机器人自适应动态规划 RBF神经网络运动轨迹

自适应动态规划和移动机器人的背景描述及研究现状：

自适应动态规划思想(Adaptivedynamic programming, ADP)[1]最早是由Werbos提出的，该方法在传统的动态规划理论的基础上结合一些函数近似结构，例如，神经网络结构模型、模糊控制等，来逼近动态规划方程中的性能指标函数和控制策略，以满足贝尔曼最优性原理，从而得到最优控制和代价函数。ADP是最优控制领域新兴起的一种创新性的最优方法,在求解复杂非线性系统的最优控制问题中具有极大的潜力，也可以有效地解决动态规划中所出现的“维数灾”问题[2]。

ADP在导航系统控制、过程控制、智能交通等领域得到广泛应用，文献[3]将近似动态规划应用到了飞机的刹车控制中，该方法相对于传统的控制方法能够很好的实现机轮速度的控制，以及良好的飞机速度跟踪。文献[4]将自适应动态规划算法的小车自主导航控制策略的设计当中。文献[5]将ADP方法应用到了城市交通信号的优化控制当中。

机器人轨迹跟踪控制的方法主要分为如下几大类：PD控制、PI控制、PID控制、反演控制、自适应控制、滑模变结构控制、模糊控制、鲁棒控制以及神经网络控制等，单一的控制方法都无法使其达到最优的控制精度，大多数的研究都是将其各自的优点结合到一起以便达到更高的控制要求。例如：自适应迭代学习轨迹跟踪控制算法、基于PID算法的鲁棒自适应控制、RBF神经网络控制等更为先进的跟踪控制方法。文献[6] 提出一种基于扰动补偿的模糊自适应反演控制方法。该方法采用模糊系统对系统模型不确定性和外部干扰组成的复合扰动进行估计，同时引入滑模鲁棒控制项来抑制扰动估计误差对系统控制性能的影响，解决在外部扰动下轮式移动机器人轨迹跟踪易出现速度跳变的问题。文献[7]针对轮式移动机器人运动规划的非完整性问题, 通过建立轮式机器人的动力学模型，选取合适的状态变量x和控制变量u，将其转化为对动态规划问题的求解。

本文的研究内容将把基于神经网络的自适应动态规划方法应用到移动机器人的轨迹跟踪控制上，基于文献[7]中所用到的相同移动机器人运动学模型，采用基于神经网络的HDP算法，对移动机器人的轨迹进行跟踪控制。

系统模型的运动学分析和建立：

本文以三轮的移动机器人为研究对象，其中前面的为支撑轮，该移动机器人通过控制左右轮来控制机器人的移动速度和前进方向。如图所示，在全局坐标系XOY中，机器人的状态可由其左右轮连线的中点M在全局坐标系中的位置和方向角来表示。机器人的位置可由P=（x，y，θ）^T，（x，y）为移动机器人的位置坐标，θ为机器人前进方向与x轴正方向的夹角，令q=（v，ω）^T，其中v表示移动机器人的速度，ω为机器人的角速度，ω_L和ω_R分别是移动机器人左轮和右轮的角速度，R为移动机器人的左右轮半径，L为移动机器人两个驱动轮中心连线之间的距离，。由轮式移动机器人的运动状态分析可得机器人的运动学模型可以写为以下两种形式：

图 1 轮式机器人简化模型图

移动机器人的两主动轮角速度 L_ω ，R_ω与线速度v 和角速度ω之间存在如下关

系：

带有非完整约束的轮式机器人系统的运动规划求解可以看作就是两点边值问题，选取驱动轮的状态变量为P=^T，因此Ṗ=[ẋ,ẏ, ]^T，将上式的v和ω选为输入控制变量，记为u=[u₁,u₂]^T,系统的状态方程可以表示为：

Ṗ=Bu

其中，

轮式移动机器人的非完整运动规划的最优控制问题就可以转化为寻找合适的控制输u, 控制机器人沿某一轨线由初始位置p₀移动到最终位置p_f，并且要保系统的性能指标函数最小。得到最优控制u后，就可以算出ω_L和ω_R，通过ω_L和ω_R可以控制轮式移动机器人按照期望轨迹运动到目标位置。

自适应动态规划

自适应动态规划的基本思想是利用可以近似函数模型的结构（如神经网路模型）, 来近似逼近动态规划方程中的性能指标函数和控制策略以满足贝尔曼最优性原理，从而获得最优控制和最优性能指标函数。Werbos[10]最先于1992年提出了启发式动态规划(HDP)和二次启发式动态规划(DHP)两种基本的结构，后来法与HDP和DHP的主要区别在于评价网络的输入不再只有系统状态,而且还包含了控制输入。HDP是ADP的一种基本结构，该结构由三部分神经网络组成：第一部分为执行网络（Action Network），由输入状态变量x(k)来产生控制变量u(k)。第二部分为模型网络（Model Network）,由此时的控制变量u(k)和状态变量x(K)作为输入来产生下一时刻的状态变量x(k+1),该网络通过在线或离线的方式进行训练来对复杂的非线性系统进行建模。第三部分为评价网络（Critic Network），该网络的输入是状态变量x(k)或x(k+1)，输出为近似的性能指标函数，通过权值传递，可以得到k时刻的输出Ĵ(k)或k+1时刻的输出Ĵ(k+1)。

仿真与结果分析：

用Matlab进行仿真分析来验证所提算法的有效性，选取参考模型轨迹x=[sin(t);cos(t)],控制输入为u（t），设置评价网络和执行网络隐含层神经元个数为8；评价网络和执行网络的学习率lr=0.005，仿真步长为0.05s，网络执行的最大循环次数为250次，最大迭代次数为30次。仿真结果如图所示，

图4 控制输入u的规律图

图5 期望轨迹的规律图

图6 实际轨迹的规律图

由仿真结果可以看出，通过控制输入u（t）的控制，用基于RBFHDP的算法可以很好的跟踪运动轨迹，并且误差保持在很小的一个范围内。

[1] Fiala J, Guenther F H. Handbook of intelligent control: Neural, fuzzy, and adaptive approaches : Edited by D.A. White and D. A. Sofge, Van Nostrand Reinhold, New York: 1992, $59.95, 568 pp. ISBN 0-442-30857-4[J]. Neural Networks, 1994, 7(5):851-852.

[2] 林小峰,宋绍剑,宋春宁. 基于自适应动态规划的智能优化控制[M]. 北京:科学出版社,2013.

[3]逯九利, 袁朝辉, 罗科训. 基于近似动态规划的飞机刹车自适应最优控制[J]. 计算机仿真, 2018, 35(10):109-113+123.

[4] 方啸, 郑德忠. 基于自适应动态规划算法的小车自主导航控制策略设计[J]. 燕山大学学报, 2014(01):61-69.

[5] Park J W , Harley R G , Venayagamoorthy G K . Adaptive critic based optimal neurocontrol for synchronous generator in power system using MLP/RBF neural networks[C]// Industry Applications Conference, 2002. 37th IAS Annual Meeting. Conference Record of the. IEEE, 2002.

[6] 张文辉, 齐乃明, 尹洪亮. 自适应神经变结构的机器人轨迹跟踪控制[J]. 控制与决策, 2011(04):120-123.

[7] 赵金刚, 戈新生. 基于动态规划的机器人运动规划最优控制[J]. 控制工程, 2017(11):188-193.

[8] Werbos P J. Approximate Dynamic Programming for Real-Time Control and Neural Modeling. Handbook of Intelligent Control: Neural, Fuzzy, and Adaptive Approaches, D.A. White and D.A. Sofge, Ed., New York: Van Nostrand Reinhold. 1992.

同系列内容

查看全部

来源期刊

中国电气工程学报

2020年1期

基于自适应动态规划的机器人轨迹跟踪控制

基于自适应动态规划的机器人轨迹跟踪控制

来源期刊

相关推荐

同分类资源更多

相关关键词

基于自适应动态规划的机器人轨迹跟踪控制

基于自适应动态规划的机器人轨迹跟踪控制

来源期刊

相关推荐

同分类资源 更多

相关关键词

同分类资源更多