一种基于强化学习的超启发算法的车辆路径优化方法与流程

文档序号：20266288发布日期：2020-04-03 18:26阅读：1480来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

本发明涉及一种物流配送、电子商务、智能优化、计算机应用领域，尤其涉及的是一种车辆路径优化方法。

背景技术：

车辆路径问题是一个np-hard问题，求解最优解相对困难。现有的车辆路径优化方法，包括精确算法，传统启发式算法和智能算法。精确算法，例如：分支定界法，最小化k-trees，动态规划算法等，能求得全局最优解，但是当客户点规模扩大时，求解时间呈指数增长。传统启发式算法，例如节约法，两阶段法等，相较于精确算法，能够更加有效地找寻最优解，但同样在大规模问题上，效率不佳。智能算法，例如蚁群算法，遗传算法，禁忌搜索算法等，因其既能得到优解，又能保证效率的优点，得到许多研究者青睐。但对传统智能算法的设计，设计者往往需要同时具备计算机算法设计基础以及所需解决问题领域的专业知识，缺乏通用性。近年来，超启发算法因其高效性和通用性的特点，被提出来用于解决跨领域的组合优化问题。同时，人工智能的发展，也使强化学习算法越来越受人关注，其在多种领域的表现尤为亮眼。

技术实现要素：

为了保证算法在求解vrp问题上具有通用性的要求，同时达到利用强化学习算法根据结果优化超启发算法的选择策略，提升算法性能的目的，本发明提出了一种高层策略可移植的基于强化学习的超启发式算法的车辆路径优化方法。

本发明解决其技术问题所采用的技术方案是：

一种基于强化学习的超启发算法的车辆路径优化方法，所述方法包括以下步骤：

步骤1车辆路径问题分析，采用augerat’sinstances数据集，车辆路径问题的成本矩阵的元素是欧几里得距离；

假定配送中心设为i＝0，客户点设为l(i＝1,2,3,…,l)，最多车辆数设为k(k＝1,2,3,…k)，每辆车具有相同载重量为q，每个客户点需求量设为di(i＝1,2,3,…,l)，客户i到客户j的距离设为cij，优化的目标是行驶距离最短，一个完整的解包含了全部路径的集合；

步骤2初始化，先生成npop组个体的种群，得到最小路径k，利用聚类思想划分，k块区域，得kc块，由kc块随机挑选生成可行解组p(pi＝p1,p2,p3,…,pnp)，计算种群适应度f(fi＝f1,f2,f3,…,fnp)；随机挑选一组可行解pi以及对应适应度值fi，设pb为最优解个体，fb为最优适应度值，设llh算子数量为n^a，action取值为(1,2,3,…,n^a)整数，初始化pb＝pi，fb＝fi，state＝0，action＝random(n^a)，随机挑选一个范围n^a中的数；

步骤3经验池、序列池存储，操作上步action后，产生的个体为ind，适应度值fit，根据适应度值，判断立即回报值reward，此时状态即为“下一个状态”，判断该state和state^t所属状态，利用式(1)计算state^t值：

state＝-(fit-fit')/fit'+ck(1)

设由ep代表经验池，将上述值存入，则epne＝[state,action,reward,state^t]，ne代表经验池中数据组数；当达到设定次数后，判断此时state值所属状态，如果为15≤state≤25，则此时action为路径内算子，对此时的序列进行筛选，质量优则存入sp，sp代表序列池，反之，则更新序列；sp设常量qsp为容量，且每次对比sp中序列，若此时序列在sp中有对应序列集，则sp中该序列计数一次，当sp容量已满，则刷新对比次数最少的序列；

步骤4解的接受保留，判断，如果fit<fit’，则说明此时解的适应度值更好，则保存解及解的适应度值，令state＝state^t，fit’＝fit；如果fit≥fit’，则采用模拟退火判别，若概率p>随机值，则同样保留好解，同时更新状态，反之，则舍去该解，此时state^t＝state，fit’＝fit’；

步骤5判断经验池容量，判断经验池内组数ne，n≥n^e，则进入步骤8学习环节，否则，进入步骤6选择action步骤；

步骤6选择action，设置epsilon值，若随机值>epsilon，将state值，输入估值网络，输出qe值，取max(qe)所对应的action，若随机值<epsilon，则根据此时state值，令action＝random(n^a)，此时n^a为对应state值的算子序号；

步骤7保留最优解，若fit<＝fb，fb＝fit，pb＝ind，反之则舍弃；

步骤8选择学习样本，并初始化神经网络，从ep中随机挑选n^s组，作为学习样本，记为esp，初始化估值网络和目标网络的阈值和权值ωe、be、ωt和bt；

步骤9神经网络学习更新，估值网络中输入为esp样本中第ns个样本中的state值，计算后取目标值网络中输入计算后取max(qt)，利用式(2)，计算损失值loss，更新估值网络ωe和be；

loss＝((reward+γ·max(qt))-qe(action))²(2)

步骤10更新目标值网络，判断学习代数ln≥ln，则令ωt、bt替代ωe、be的值；

步骤11判断学习结束情况，若学习代数ln≤(3/4)*n^s，则进入步骤8继续学习更新，反之，则进入步骤6选择action，返回主循环；

步骤12程序结束，输出车辆路径距离最优值及最优值路径序列。

2、如权利要求1所述的一种基于强化学习的超启发算法的车辆路径优化方法，其特征在于，所述步骤2中，生成初始种群组的过程如下：

2.1)对于第k条路径，先设配送中心点为i＝0，即该路径两端点都为i＝0；随机挑选客户点l(i＝1,2,3,…,l)，加入首尾点中间，判断该车辆现载重量情况；

2.2)从剩下的客户点中继续随机挑选，依次加入路线，直到超出标准载重量，则产生第k+1条路径；将超超出标准载重量的点，加入新路线中；重复循环，当所有客户点都被选取，则一个初始种群个体生成；

2.3)多次进行上述操作，生成设定数量个体的种群，数量为npop，对npop个个体进行路径判断，选出具有最短路径数的个体，记最短路径数为k，将k作为划分块的数量；

2.4)计算所有客户点与仓库点的距离ci-0(i＝1,2,3,…,l)，为了节省聚类分类的时间，将ci-0升序排列，只取前k个点作为聚类中心点，设为l^kc(kc＝1,2,3,…,k)，kc代表聚类块，以除聚类中心点外的其他客户点，与各聚类中心的距离最短为原则，进行聚类；

2.5)随机排列kc块，按车辆载重量分配，依kc块排列顺序，随机挑选客户，若kc块中客户点未能满足k车辆载重，则向kc+1块中随机抽取客户点，直至满足，反之则向后延用至k+1辆车，共组成k条路径，由此产生一个初始解个体。

本发明的有益效果主要表现在：求解标准算例seta,sete和setp的cvrp问题时，能取得较好的效果及求解稳定性。在优化过程中，高层基于强化学习算法的选择策略设计，引导算法在不同时刻，使用不同底层算子，加强全局搜索的能力；高层接受准则的运用，有助于控制算法收敛速度；序列池的设计，优化算法的搜索过程。此外，针对不同的问题，设计新的底层算子可以将算法高层策略应用到新的问题领域。

附图说明

图1是一种基于强化学习的超启发算法的车辆路径优化方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于强化学习的超启发算法的车辆路径优化方法，包括以下步骤：

步骤1车辆路径问题分析，采用augerat’sinstances数据集，车辆路径问题的成本矩阵的元素是欧几里得距离；

假定配送中心设为i＝0，客户点设为l(i＝1,2,3,…,l)，最多车辆数设为k(k＝1,2,3,…k)，每辆车具有相同载重量为q，每个客户点需求量设为di(i＝1,2,3,…,l)，客户i到客户j的距离设为cij，优化的目标是行驶距离最短，一个完整的解包含了全部路径的集合，它包含了所有的客户点，每个客户点只出现一次，并且划分为k条路径由k辆车同时配送，每条路径包含一定数量的客户点，路径的起始点都是配送中心；可行解的要求：能够包含所有客户，且每个客户点只出现一次；在满足车辆标准载重量的条件下，确定由k辆车运输；每条路径起始点、终点皆为配送中心；

实际实验中使用的参数有q值函数中折扣率γ＝0.8，epsilon初始值＝0.5，迭代最大代数gmax＝10^6，经验池n^e＝800，学习挑选样本n^s＝600，种群数npop＝10。

步骤2初始化，第g＝0代，先生成npop组个体的种群，得到最小路径k，随机挑选生成可行解组p(pi＝p1,p2,p3,…,pnp)，计算种群适应度f(fi＝f1,f2,f3,…,fnp)，随机挑选一组可行解pi以及对应适应度值fi，设pb为最优解个体，fb为最优适应度值，设llh算子数量为n^a，action取值为(1,2,3,…,n^a)整数，初始化pb＝pi，fb＝fi，state＝0，action＝random(n^a)，随机挑选一个范围n^a中的数；

生成初始种群组步骤：

步骤2.1对于第k条路径，先设配送中心点为i＝0，即该路径两端点都为i＝0；随机挑选客户点l(i＝1,2,3,…,l)，加入首尾点中间，判断该车辆现载重量情况；

步骤2.2从剩下的客户点中继续随机挑选，依次加入路线，直到超出标准载重量，则产生第k+1条路径；将超超出标准载重量的点，加入新路线中；重复循环，当所有客户点都被选取，则一个初始种群个体生成；

步骤2.3多次进行上述操作，生成一定数量个体的种群，数量为npop。对npop个个体进行路径判断，选出具有最短路径数的个体，记最短路径数为k，将k作为划分块的数量；

步骤2.4计算所有客户点与仓库点的距离ci-0(i＝1,2,3,…,l)。为了节省聚类分类的时间，将ci-0升序排列，只取前k个点作为聚类中心点，设为l^kc(kc＝1,2,3,…,k)，kc代表聚类块，以除聚类中心点外的其他客户点，与各聚类中心的距离最短为原则，进行聚类；

步骤2.5随机排列kc块，按车辆载重量分配，依kc块排列顺序，随机挑选客户，若kc块中客户点未能满足k车辆载重，则向kc+1块中随机抽取客户点，直至满足，反之则向后延用至k+1辆车，共组成k条路径，由此产生一个初始解个体；

步骤3经验池、序列池存储，操作上步初始化的action后，产生的个体为ind，适应度值fit，根据适应度值，判断立即回报值reward，若当前解的质量比上代解的质量提升，则reward＝1；未提升则reward＝0；质量下降，则reward＝-1。此时状态即为“下一个状态”，判断该state和state^t所属状态，利用上述时(1)计算state^t值，设由ep代表经验池，将上述值存入，则epne＝[state,action,reward,state^t]，ne代表经验池中数据组数，当达到设定次数后，判断此时state值所属状态，如果为15≤state≤25，则此时action为路径内算子，对此时的序列进行筛选，质量优则存入sp，sp代表序列池，反之，则更新序列。sp设常量qsp为容量，且每次对比sp中序列，若此时序列在sp中有对应序列集，则sp中该序列计数一次，当sp容量已满，则刷新对比次数最少的序列；

步骤5判断经验池容量，判断经验池内组数ne，n≥n^e，则进入步骤8学习环节，否则，进入步骤6选择action步骤；

步骤6选择action，设置epsilon值，若随机值>epsilon，将state值，输入估值网络，输出qe值，取max(qe)所对应的action，若随机值<epsilon，则根据此时state值，令action＝random(n^a)，此时n^a为对应state值的算子序号；其中，action有具体为以下三大类算子：局部优化算子、变异算子和破坏与重构算子，将变异算子与破坏重构算子合为一类，如表1，表1为底层算子表：

表1

局部优化算子，主要是通过点或者部分交换以及重定位的方式，对路径进行优化，作用后能够绝对判别作用效果(reward值大，则效果好，反之效果差)，变异算子，主要起到扰动作用，作用后作用效果并非可以绝对判别，1)—3)是路径内局部优化算子；4)—6)是路径间局部优化算子；7)—11)为变异算子。

步骤7保留最优解，若fit<＝fb，fb＝fit，pb＝ind，反之则舍弃；

步骤8选择学习样本，并初始化神经网络，从ep中随机挑选n^s组，作为学习样本，记为esp。初始化估值网络和目标网络的阈值和权值ωe、be、ωt和bt。

步骤10更新目标值网络，判断学习代数ln≥ln，则令ωt、bt替代ωe、be的值；

步骤11判断学习结束情况，若学习代数ln≤(3/4)*n^s，则进入步骤8继续学习更新。反之，则进入步骤6选择action，返回主循环；

步骤12程序结束，输出车辆路径距离最优值及最优值路径序列。

本发明在cvrp车辆路径上算法具有较强的搜索能力和稳定性，除了可以用于求解车辆路径问题，还可以通过改变底层算子的设计应用于其他的组合优化问题。补充说明，以上实施例仅用于说明本发明的技术方案，并非对其限制。本领域的技术人员应当理解本发明的技术特征，可对前述技术方案进行修改，或者等同替换其中的部分技术特征，但不能使其技术方案的本质脱离本发明的实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页 1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张景玲;冯勤炳;余孟凡
技术所有人：浙江工业大学
我是此专利的发明人

上一篇：一种功能性细菌纤维素的制备方法与流程
上一篇：一种解决物料快速沉淀的搅拌机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。