一种基于强化学习的超启发算法的车辆路径优化方法与流程

文档序号:20266288发布日期:2020-04-03 18:26阅读:1480来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于强化学习的超启发算法的车辆路径优化方法与流程

本发明涉及一种物流配送、电子商务、智能优化、计算机应用领域,尤其涉及的是一种车辆路径优化方法。



背景技术:

车辆路径问题是一个np-hard问题,求解最优解相对困难。现有的车辆路径优化方法,包括精确算法,传统启发式算法和智能算法。精确算法,例如:分支定界法,最小化k-trees,动态规划算法等,能求得全局最优解,但是当客户点规模扩大时,求解时间呈指数增长。传统启发式算法,例如节约法,两阶段法等,相较于精确算法,能够更加有效地找寻最优解,但同样在大规模问题上,效率不佳。智能算法,例如蚁群算法,遗传算法,禁忌搜索算法等,因其既能得到优解,又能保证效率的优点,得到许多研究者青睐。但对传统智能算法的设计,设计者往往需要同时具备计算机算法设计基础以及所需解决问题领域的专业知识,缺乏通用性。近年来,超启发算法因其高效性和通用性的特点,被提出来用于解决跨领域的组合优化问题。同时,人工智能的发展,也使强化学习算法越来越受人关注,其在多种领域的表现尤为亮眼。



技术实现要素:

为了保证算法在求解vrp问题上具有通用性的要求,同时达到利用强化学习算法根据结果优化超启发算法的选择策略,提升算法性能的目的,本发明提出了一种高层策略可移植的基于强化学习的超启发式算法的车辆路径优化方法。

本发明解决其技术问题所采用的技术方案是:

一种基于强化学习的超启发算法的车辆路径优化方法,所述方法包括以下步骤:

步骤1车辆路径问题分析,采用augerat’sinstances数据集,车辆路径问题的成本矩阵的元素是欧几里得距离;

假定配送中心设为i=0,客户点设为l(i=1,2,3,…,l),最多车辆数设为k(k=1,2,3,…k),每辆车具有相同载重量为q,每个客户点需求量设为di(i=1,2,3,…,l),客户i到客户j的距离设为cij,优化的目标是行驶距离最短,一个完整的解包含了全部路径的集合;

步骤2初始化,先生成npop组个体的种群,得到最小路径k,利用聚类思想划分,k块区域,得kc块,由kc块随机挑选生成可行解组p(pi=p1,p2,p3,…,pnp),计算种群适应度f(fi=f1,f2,f3,…,fnp);随机挑选一组可行解pi以及对应适应度值fi,设pb为最优解个体,fb为最优适应度值,设llh算子数量为na,action取值为(1,2,3,…,na)整数,初始化pb=pi,fb=fi,state=0,action=random(na),随机挑选一个范围na中的数;

步骤3经验池、序列池存储,操作上步action后,产生的个体为ind,适应度值fit,根据适应度值,判断立即回报值reward,此时状态即为“下一个状态”,判断该state和statet所属状态,利用式(1)计算statet值:

state=-(fit-fit')/fit'+ck(1)

设由ep代表经验池,将上述值存入,则epne=[state,action,reward,statet],ne代表经验池中数据组数;当达到设定次数后,判断此时state值所属状态,如果为15≤state≤25,则此时action为路径内算子,对此时的序列进行筛选,质量优则存入sp,sp代表序列池,反之,则更新序列;sp设常量qsp为容量,且每次对比sp中序列,若此时序列在sp中有对应序列集,则sp中该序列计数一次,当sp容量已满,则刷新对比次数最少的序列;

步骤4解的接受保留,判断,如果fit<fit’,则说明此时解的适应度值更好,则保存解及解的适应度值,令state=statet,fit’=fit;如果fit≥fit’,则采用模拟退火判别,若概率p>随机值,则同样保留好解,同时更新状态,反之,则舍去该解,此时statet=state,fit’=fit’;

步骤5判断经验池容量,判断经验池内组数ne,n≥ne,则进入步骤8学习环节,否则,进入步骤6选择action步骤;

步骤6选择action,设置epsilon值,若随机值>epsilon,将state值,输入估值网络,输出qe值,取max(qe)所对应的action,若随机值<epsilon,则根据此时state值,令action=random(na),此时na为对应state值的算子序号;

步骤7保留最优解,若fit<=fb,fb=fit,pb=ind,反之则舍弃;

步骤8选择学习样本,并初始化神经网络,从ep中随机挑选ns组,作为学习样本,记为esp,初始化估值网络和目标网络的阈值和权值ωe、be、ωt和bt;

步骤9神经网络学习更新,估值网络中输入为esp样本中第ns个样本中的state值,计算后取目标值网络中输入计算后取max(qt),利用式(2),计算损失值loss,更新估值网络ωe和be;

loss=((reward+γ·max(qt))-qe(action))2(2)

步骤10更新目标值网络,判断学习代数ln≥ln,则令ωt、bt替代ωe、be的值;

步骤11判断学习结束情况,若学习代数ln≤(3/4)*ns,则进入步骤8继续学习更新,反之,则进入步骤6选择action,返回主循环;

步骤12程序结束,输出车辆路径距离最优值及最优值路径序列。

2、如权利要求1所述的一种基于强化学习的超启发算法的车辆路径优化方法,其特征在于,所述步骤2中,生成初始种群组的过程如下:

2.1)对于第k条路径,先设配送中心点为i=0,即该路径两端点都为i=0;随机挑选客户点l(i=1,2,3,…,l),加入首尾点中间,判断该车辆现载重量情况;

2.2)从剩下的客户点中继续随机挑选,依次加入路线,直到超出标准载重量,则产生第k+1条路径;将超超出标准载重量的点,加入新路线中;重复循环,当所有客户点都被选取,则一个初始种群个体生成;

2.3)多次进行上述操作,生成设定数量个体的种群,数量为npop,对npop个个体进行路径判断,选出具有最短路径数的个体,记最短路径数为k,将k作为划分块的数量;

2.4)计算所有客户点与仓库点的距离ci-0(i=1,2,3,…,l),为了节省聚类分类的时间,将ci-0升序排列,只取前k个点作为聚类中心点,设为lkc(kc=1,2,3,…,k),kc代表聚类块,以除聚类中心点外的其他客户点,与各聚类中心的距离最短为原则,进行聚类;

2.5)随机排列kc块,按车辆载重量分配,依kc块排列顺序,随机挑选客户,若kc块中客户点未能满足k车辆载重,则向kc+1块中随机抽取客户点,直至满足,反之则向后延用至k+1辆车,共组成k条路径,由此产生一个初始解个体。

本发明的有益效果主要表现在:求解标准算例seta,sete和setp的cvrp问题时,能取得较好的效果及求解稳定性。在优化过程中,高层基于强化学习算法的选择策略设计,引导算法在不同时刻,使用不同底层算子,加强全局搜索的能力;高层接受准则的运用,有助于控制算法收敛速度;序列池的设计,优化算法的搜索过程。此外,针对不同的问题,设计新的底层算子可以将算法高层策略应用到新的问题领域。

附图说明

图1是一种基于强化学习的超启发算法的车辆路径优化方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1,一种基于强化学习的超启发算法的车辆路径优化方法,包括以下步骤:

步骤1车辆路径问题分析,采用augerat’sinstances数据集,车辆路径问题的成本矩阵的元素是欧几里得距离;

假定配送中心设为i=0,客户点设为l(i=1,2,3,…,l),最多车辆数设为k(k=1,2,3,…k),每辆车具有相同载重量为q,每个客户点需求量设为di(i=1,2,3,…,l),客户i到客户j的距离设为cij,优化的目标是行驶距离最短,一个完整的解包含了全部路径的集合,它包含了所有的客户点,每个客户点只出现一次,并且划分为k条路径由k辆车同时配送,每条路径包含一定数量的客户点,路径的起始点都是配送中心;可行解的要求:能够包含所有客户,且每个客户点只出现一次;在满足车辆标准载重量的条件下,确定由k辆车运输;每条路径起始点、终点皆为配送中心;

实际实验中使用的参数有q值函数中折扣率γ=0.8,epsilon初始值=0.5,迭代最大代数gmax=10^6,经验池ne=800,学习挑选样本ns=600,种群数npop=10。

步骤2初始化,第g=0代,先生成npop组个体的种群,得到最小路径k,随机挑选生成可行解组p(pi=p1,p2,p3,…,pnp),计算种群适应度f(fi=f1,f2,f3,…,fnp),随机挑选一组可行解pi以及对应适应度值fi,设pb为最优解个体,fb为最优适应度值,设llh算子数量为na,action取值为(1,2,3,…,na)整数,初始化pb=pi,fb=fi,state=0,action=random(na),随机挑选一个范围na中的数;

生成初始种群组步骤:

步骤2.1对于第k条路径,先设配送中心点为i=0,即该路径两端点都为i=0;随机挑选客户点l(i=1,2,3,…,l),加入首尾点中间,判断该车辆现载重量情况;

步骤2.2从剩下的客户点中继续随机挑选,依次加入路线,直到超出标准载重量,则产生第k+1条路径;将超超出标准载重量的点,加入新路线中;重复循环,当所有客户点都被选取,则一个初始种群个体生成;

步骤2.3多次进行上述操作,生成一定数量个体的种群,数量为npop。对npop个个体进行路径判断,选出具有最短路径数的个体,记最短路径数为k,将k作为划分块的数量;

步骤2.4计算所有客户点与仓库点的距离ci-0(i=1,2,3,…,l)。为了节省聚类分类的时间,将ci-0升序排列,只取前k个点作为聚类中心点,设为lkc(kc=1,2,3,…,k),kc代表聚类块,以除聚类中心点外的其他客户点,与各聚类中心的距离最短为原则,进行聚类;

步骤2.5随机排列kc块,按车辆载重量分配,依kc块排列顺序,随机挑选客户,若kc块中客户点未能满足k车辆载重,则向kc+1块中随机抽取客户点,直至满足,反之则向后延用至k+1辆车,共组成k条路径,由此产生一个初始解个体;

步骤3经验池、序列池存储,操作上步初始化的action后,产生的个体为ind,适应度值fit,根据适应度值,判断立即回报值reward,若当前解的质量比上代解的质量提升,则reward=1;未提升则reward=0;质量下降,则reward=-1。此时状态即为“下一个状态”,判断该state和statet所属状态,利用上述时(1)计算statet值,设由ep代表经验池,将上述值存入,则epne=[state,action,reward,statet],ne代表经验池中数据组数,当达到设定次数后,判断此时state值所属状态,如果为15≤state≤25,则此时action为路径内算子,对此时的序列进行筛选,质量优则存入sp,sp代表序列池,反之,则更新序列。sp设常量qsp为容量,且每次对比sp中序列,若此时序列在sp中有对应序列集,则sp中该序列计数一次,当sp容量已满,则刷新对比次数最少的序列;

步骤4解的接受保留,判断,如果fit<fit’,则说明此时解的适应度值更好,则保存解及解的适应度值,令state=statet,fit’=fit;如果fit≥fit’,则采用模拟退火判别,若概率p>随机值,则同样保留好解,同时更新状态,反之,则舍去该解,此时statet=state,fit’=fit’;

步骤5判断经验池容量,判断经验池内组数ne,n≥ne,则进入步骤8学习环节,否则,进入步骤6选择action步骤;

步骤6选择action,设置epsilon值,若随机值>epsilon,将state值,输入估值网络,输出qe值,取max(qe)所对应的action,若随机值<epsilon,则根据此时state值,令action=random(na),此时na为对应state值的算子序号;其中,action有具体为以下三大类算子:局部优化算子、变异算子和破坏与重构算子,将变异算子与破坏重构算子合为一类,如表1,表1为底层算子表:

表1

局部优化算子,主要是通过点或者部分交换以及重定位的方式,对路径进行优化,作用后能够绝对判别作用效果(reward值大,则效果好,反之效果差),变异算子,主要起到扰动作用,作用后作用效果并非可以绝对判别,1)—3)是路径内局部优化算子;4)—6)是路径间局部优化算子;7)—11)为变异算子。

步骤7保留最优解,若fit<=fb,fb=fit,pb=ind,反之则舍弃;

步骤8选择学习样本,并初始化神经网络,从ep中随机挑选ns组,作为学习样本,记为esp。初始化估值网络和目标网络的阈值和权值ωe、be、ωt和bt。

步骤9神经网络学习更新,估值网络中输入为esp样本中第ns个样本中的state值,计算后取目标值网络中输入计算后取max(qt),利用式(2),计算损失值loss,更新估值网络ωe和be;

步骤10更新目标值网络,判断学习代数ln≥ln,则令ωt、bt替代ωe、be的值;

步骤11判断学习结束情况,若学习代数ln≤(3/4)*ns,则进入步骤8继续学习更新。反之,则进入步骤6选择action,返回主循环;

步骤12程序结束,输出车辆路径距离最优值及最优值路径序列。

本发明在cvrp车辆路径上算法具有较强的搜索能力和稳定性,除了可以用于求解车辆路径问题,还可以通过改变底层算子的设计应用于其他的组合优化问题。补充说明,以上实施例仅用于说明本发明的技术方案,并非对其限制。本领域的技术人员应当理解本发明的技术特征,可对前述技术方案进行修改,或者等同替换其中的部分技术特征,但不能使其技术方案的本质脱离本发明的实施例技术方案的精神和范围。

完整全部详细技术资料下载
当前第1页 1  2  3 
相关技术
  • 基于特征选取和支持向量的鱼饲...
  • 基于CRF和LSTM的流程活...
  • 基于时间序列的化工设备健康状...
  • 一种业务数据的标准化处理方法...
  • 一种基于负荷聚类的负荷预测方...
  • 城市空间预测模型的建立方法及...
  • 一种基于GA-RBM的分布式...
  • 信息预测方法、装置、终端及可...
  • 车辆利用辅助系统的制作方法
  • 一种基于镜像的库位推荐测试方...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

深圳坪山网站建设公司榆林网站优化排名咨询中山电器网站seo优化金华专业网站优化服务个人网站优化济南方案策划桐城网站优化找哪家清徐网站优化平台鹤壁网站优化系统对网站的页面建议和优化新疆网站优化崇州网站优化收费从化推广优化网站SEO排名网络搜狗网站优化关键词修武营销网站搭建优化兰州eo 网站优化价格邵武网站优化仙桃网站seo优化开发成都小企业网站优化内江定制网站建设优化长宁网站优化多少费用安庆网站推广优化哪家质量好网站的seo 优化软件详解大型网站的seo优化策略唐山网站内页优化香河网站优化运城网站优化如何选择寻甸网站优化途径大兴公司网站排名优化嘉兴优化网站哪家好无锡江阴seo网站优化网站快排技术_网站关键词优化香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

深圳坪山网站建设公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化