An integrated control strategy for freeway weaving area considering CAV dedicated lanemerging demand

doi:10.11918/202410035

考虑CAV专用道汇入需求的高速公路交织区集成控制策略

doi: 10.11918/202410035

席殊，陈旭梅，李培坤，马嘉欣

北京交通大学交通运输学院,北京 100044

基金项目: 国家自然科学基金(72271020) ；中央高校基本科研业务费专项资金(2024JBZX025)

详细信息

作者简介

席殊(1998—)，男，硕士研究生；

陈旭梅(1974—)，女，教授，博士生导师

通讯作者

陈旭梅，xmchen@bjtu.edu.cn

中图分类号: U491.2

文献标识码: A

文章编号: 0367-6234(2025)11-0001-11

An integrated control strategy for freeway weaving area considering CAV dedicated lanemerging demand

XI Shu ， CHEN Xumei ， LI Peikun ， MA Jiaxin

School of Traffic and Transportation, Beijing Jiaotong University, Beijing 100044 , China

摘要

为提升高速公路通行效率，优化网联自动驾驶车辆（connected and autonomous vehicle，CAV）专用道设置条件下的交织区时空资源配置，以保证CAV高效安全汇入主线专用道，提出了一种基于深度强化学习的交织区集成控制策略。以主线三车道高速公路为研究对象，并设置内侧车道为CAV专用道，设计了充分考虑CAV专用道汇入需求同时兼顾主线通行效率和匝道排队长度的多目标奖励函数，利用深度确定性策略梯度（deep deterministic policy gradient，DDPG）算法实现包括入口匝道信号控制、主线车道级可变限速以及CAV车队间隙调整的集成控制策略，最后使用SUMO和Python搭建高速公路交织区仿真场景，验证所提集成控制策略的有效性。研究结果表明：CAV渗透率为30%时，在低、中、高不同水平交通需求场景下,对比无控制情况集成控制策略可使CAV汇入专用道的纵向位置有所提前，CAV汇入专用道成功率分别增加了19.34%、22.86%、25.55%；此外，车辆平均行程时间也分别降低了5.42%、17.41%、20.65%。所提出的交织区集成控制策略效果显著，不仅实现了CAV汇入专用道的有效引导，还提升了主线的通行效率及运行安全，为改善CAV专用道设置条件下高速公路交织区交通运行状况提供了理论依据和技术参考。

关键词

智能交通 / 交通管控 / 深度强化学习 / 高速公路交织区 / CAV专用道 / 混合交通流

Abstract

To improve freeway operational efficiency and optimize spatiotemporal resource allocation in weaving area under the setting of dedicated lane for connected and autonomous vehicles (CAVs), a deep reinforcement learning-based integrated control strategy is proposed. This strategy aims to ensure the efficient and safe merging of CAVs into the dedicated lane. The research focuses on a three-lane freeway configuration, with the innermost lane designated for CAVs. A multi-objective reward function is developed to address the dedicated lane merging demand of CAVs while simultaneously considering the efficiency of mainline traffic and the length of ramp queue. The deep deterministic policy gradient (DDPG) algorithm is employed to implement the integrated control strategy, which encompasses entrance ramp signal control, variable speed limit at the lane level, and adjustment to the gaps between CAV platoon. A simulation environment for the freeway weaving area is designed using SUMO and Python to assess the effectiveness of the proposed control strategy. The results demonstrate that, with a CAV penetration rate of 30%, the integrated control strategy advances the longitudinal positioning of CAVs entering the dedicated lane, merging success rate increases of 19.34%, 22.86%, and 25.55% under low, medium, and high traffic demand scenarios, respectively. Additionally, average vehicle travel time is reduced by 5.42%, 17.41%, and 20.65% under the same conditions. The proposed integrated control strategy for weaving area demonstrates significant effectiveness by not only achieving effective guidance for CAV merging dedicated lane but also enhancing the traffic efficiency and operational safety of the mainline, providing a theoretical basis and technical reference for optimizing the traffic operation in weaving areas of freeway under CAV dedicated lane conditions.

Keywords

intelligent transportation / traffic control / deep reinforcement learning / freeway weaving area / CAV dedicated lane / mixed traffic flow

1 问题描述与转化 1.1 问题描述 1.2 问题转化 1.2.1 状态空间 1.2.2 动作空间 1.2.3 奖励函数 2 集成控制算法设计 2.1 DDPG算法 2.2 优先经验回放机制 2.3 算法框架 3 高速公路仿真场景搭建 3.1 混合交通流驾驶行为建模 3.2 仿真场景构建与训练参数设置 4 实验结果分析 4.1 训练过程分析 4.2 仿真结果分析 4.2.1 CAV换道至专用道时空分析 4.2.2 CAV专用道汇入成功率分析 4.2.3 通行效率及安全 4.3 灵敏度分析 5 结论

随着自动驾驶技术的快速发展，网联自动驾驶车辆逐渐成为未来交通系统的重要组成部分。车路协同作为自动驾驶领域的前沿概念和发展趋势，其通过先进的无线通信和新一代互联网技术，实现车辆与车辆、车辆与行人、车辆与道路之间的动态实时信息交互，成为交通运输领域新质生产力的重要体现。车路协同技术为高速公路带来了新的发展机遇，而设置高速公路CAV专用道则是车路协同技术的典型应用场景，旨在为CAV提供协同感知、协同决策、协同控制服务。

设置CAV专用道可充分发挥CAV对提升交通流稳定性的技术优势^[1-3]，目前在学术研究上多通过计算机微观仿真方法评估CAV专用道设置效果^[4-5]，多数研究结果表明当CAV达到一定的市场渗透率后，设置CAV专用道有利于提升道路通行能力并降低通行延误^[6-8]。然而在此技术背景下，由于CAV汇入专用道将会加剧主线车流交织，造成高速公路交织区车流运行周期性拥堵，现有高速公路路端或车端的单一控制策略难以解决专用道设置条件下交织区的广域时空资源配置问题，如何通过更全面且更有针对性的控制手段使CAV高效安全地汇入专用道是当前CAV专用道落地使用面临的现实问题与挑战。

由于深度强化学习（deep reinforcement learning，DRL）算法在解决高速公路交通流及车辆汇入控制场景非线性、时变性强、序列决策等问题时具有显著优势，现已成为交通管控的有效研究方法，而已有研究基于DRL的单一控制策略则主要集中在信号控制和可变限速方面。例如：Han等^[9]提出了一种基于物理信息的深度强化学习匝道信号控制策略，该策略以高速公路通过量为奖励函数，使用历史数据和交通流模型生成的数据相结合来训练强化学习模型，结果表明该策略能显著降低车辆行程总时间。张健等^[10]利用深度Q网络（deep Q-network，DQN）算法实现换道信号控制，以CAV进入专用道数量为奖励函数，结果表明该算法能有效增加CAV换道至专用道的比例。Lu等^[11]提出了一种基于双延迟深度确定性策略梯度（twin delayed deep deterministic policy gradient，TD3）算法的车道级可变限速控制方法，以瓶颈区车速和碰撞风险作为奖励函数，结果表明该方法能够在降低碰撞风险的同时提高交通效率。韩磊等^[12]提出一种基于改进竞争双深度Q网络可变限速控制策略，以最小化车辆行程时间作为奖励函数，结果表明能够有效提高混合交通流环境下瓶颈区的通行效率。此外，也有一些学者针对智能网联环境下CAV汇入主线的车端控制算法开展了相关研究^[13-14]。

综上所述，现有相关文献研究缺乏同时从路端和车端考虑的集成控制算法，在智能网联环境下如何充分发挥车路协同信息共享优势保证CAV有充足的时空条件顺利汇入专用道行驶，同时尽可能降低CAV换道对主线运行效率的影响是当前CAV专用道应用亟待解决的问题；此外也缺乏考虑CAV专用道汇入需求的多目标奖励函数设计方法，现有研究奖励函数主要集中考虑平均车速、行程时间等交通流特征，难以有效表征本文研究场景下CAV汇入专用道成功率和交织区运行效率的复杂关系。

鉴于此，本文提出一种基于深度强化学习的车路协同集成控制策略。面向智能网联环境设置CAV专用道仿真场景，设计了集成路端匝道动态信号控制和车道级可变限速、车端CAV车队间隙动态调整的一体化控制策略，并运用DDPG深度强化学习算法实现，并通过构建优先经验回放机制提高算法响应效率，考虑CAV专用道汇入需求提出渐进式换道意图奖励函数，并融合CAV换道安全约束条件以保障CAV高效安全汇入专用道，同时设计了兼顾优化主线、匝道运行负荷的多目标奖励函数以指导最优策略的选择。

1 问题描述与转化

1.1 问题描述

高速公路交织区因上下匝道车辆流线交织易形成通行瓶颈，智能网联环境下CAV专用道的引入将使交织区车辆流线更为复杂，但CAV可通过V2X（vehicle to everything）技术实现CAV与CAV、CAV与道路基础设施的信息共享，这一优势为解决高速公路CAV专用道设置后CAV的高效汇入问题提供了新的解决思路，基于此，本文提出了面向智能网联环境的高速公路交织区车路协同集成控制模型。

所提出的模型架构如图1所示。本文研究场景为高速公路交织区路段，包含三车道的主线路段、单车道的入口匝道以及单车道的出口匝道，行驶方向最内侧设置为CAV专用道。交织区上游方向为车道级可变限速区域，旨在通过动态调整交织区入口车道速度为匝道车辆汇入主线提供充足的时间条件，同时起到提前控制专用道内CAV队列速度作用，避免后续车辆因前方CAV汇入汇出专用道而出现的车辆紧急制动行为。入口匝道设有动态信号控制器，目的是调节匝道汇入主线的交通流量^[15-16]；交织区下游路段为CAV专用道汇入引导区域，通过专用道内CAV队列动态间隙调整为匝道CAV提供充足的换道空间。该系统通过路段检测器实时检测状态信息，交通控制单元（traffic control unit，TCU）基于交通状态信息，随后将集成控制指令发送至路侧单元（road side unit，RSU），CAV通过RSU接收控制中心传来指令并实施，包括车道限速值、红绿灯时长、CAV车队间隙调整，人工驾驶车辆（human driven vehicle，HDV）则通过观察可变信息标志（variable message sign，VMS）发布的限速信息、入口匝道红绿灯状态以及CAV运动状态变化调整自身驾驶行为。

图1CAV专用道设置条件下交织区集成控制系统结构

Fig.1Structure of integrated control system for weaving area under CAV dedicated lane

1.2 问题转化

本文提出的交织区车路协同集成控制问题可以等效为马尔可夫决策过程（Markov decision process，MDP），适合使用深度强化学习方法完成控制过程，其组成要素包括状态空间S、动作空间A、奖励函数R、折扣因子γ。就本文研究来说，状态空间应包含交织区道路状况信息，动作空间则是指车道级限速值、匝道红绿灯时长以及CAV车队间隙，智能体在与环境反复交互试错学习的过程中，在当前状态s_t根据策略π采取某个动作，之后外部环境将反馈给智能体一个数值奖励r_t₊₁，同时返回一个新的状态s_t₊₁，智能体重复迭代以上过程，直至累计折扣奖励最大化。各要素的详细分析如下。

1.2.1 状态空间

本文研究的交织区集成控制问题可将状态空间分为路端环境变量和车端环境变量，路端环境变量表示路侧实时交通流状况，包括车道占有率、车道车流平均速度、车道限速值、绿灯时长信息，同时将上一周期内车道限速值、绿灯时长控制信息作为历史特征输入控制算法有利于智能体感知状态做出最优策略；车端环境变量来自于CAV状态信息，包括CAV速度、加速度、纵向位置等信息，二者共同组成本文研究的状态空间。因此定义状态空间：

S = \{S_{road}, S_{C A V}\}

(1)

S_{road} = \{ρ_{up}, ρ_{weave}, ρ_{down}, ρ_{ramp}, V_{flow}, V_{limit}, T_{green}\}

(2)

S_{C A V} = \{v_{i}, a_{i}, x_{i}, Δ v_{p i}, d_{p i}, Δ v_{f i}, d_{f i}\}

(3)

式中：S_road为路端环境变量集合，S_CAV为车端环境变量集合，ρ_up为交织区上游各车道占有率集合，ρ_weave为交织区各车道占有率集合，ρ_ramp为交织区入口匝道占有率，V_flow为交织区各车道车流平均速度，V_limit为上个控制周期内可变限速区各车道限速值集合，T_green为上个控制周期内入口匝道绿灯控制时间；v_i、a_i、x_i分别为CAV专用道相邻车道内CAV的速度、加速度、纵向位置，Δv_p_i、d_p_i分别表示CAV与专用道内前车的速度差和间距，Δv_f_i、d_f_i分别表示CAV与专用道内后车的速度差和间距。

1.2.2 动作空间

上述车路协同控制问题形成了较大的离散动作集合，为降低动作空间维度，本文定义在时刻t生成一个联合动作空间a_t，a_t中第1个变量a_limit表示车道级限速值动作空间，第2个变量a_green用来定义入口匝道绿灯控制时间，第3个变量a_gap表示CAV队列间隙动作空间。为简化问题并提高算法可实现性，CAV各行驶阶段换道动作均由换道模型生成，不受深度强化学习算法控制。

动作空间a_t定义为

a_{t} = [a_{limit}, a_{green}, a_{gap}]

(4)

车道级可变限速具体计算方法为

v_{i} = v_{0} + Δ v \cdot i n t (a_{limit})

(5)

式中：v₀表示主线车道级可变限速初始值，取值为90 km/h；Δv表示主线车道级可变限速变化值，根据工程实际情况，限速值一般为10的整数倍，因此Δv取10 km/h；int（a_limit）表示将a_limit数值向下取整，a_limit取值为[-3，3]。

匝道绿灯时长计算方法为

t_{green} = t_{0} + Δ t \cdot i n t (a_{green})

(6)

式中：t₀表示匝道初始绿灯时长，取值为30 s；Δt表示匝道绿灯时长变化值，取值为5 s；a_green取值为[-3，3]。

考虑到专用道内CAV车队运行中车辆动力特性较为复杂，本文使用SUMO插件Simpla^[17]控制CAV车队的纵向驾驶行为，通过openGap效用函数实现CAV车队的通信协同，进而完成CAV专用道内车队的动态间隙调整，其调整机理如图2所示，位于2号车道内的CAV发出换道至专用道请求，由RSU传递至专用道内CAV，为其匹配距离其空间位置最近的专用道CAV，此时专用道内CAV通过改变队列中与前车CAV前后间距，调整至合适间隙后实现2号车道内CAV顺利切换进入3号专用车道。

图2专用道内CAV车队间隙动态调整策略

Fig.2Dynamic adjustment strategy for CAV platoon gap in dedicated lane

调整CAV专用道内车队动态间隙的计算方法为

G = G_{0} + Δ G \cdot i n t (a_{gap})

(7)

式中：G₀表示初始车队间隙，取值为15 m；ΔG表示车队间隙变化值，取值为3 m；a_gap取值为[-4，4]^[18-19]。

1.2.3 奖励函数

深度强化学习奖励函数的设计直接影响算法的响应速度和表现性能，本文要解决的主要问题是保障匝道CAV驶入主线专用道在时空上的优先性，同时尽可能减小对匝道和主线交织区运行的不利影响。因此本文将奖励函数定义为CAV换道意图奖励、匝道及交织区运行奖励、CAV专用道通行效率奖励。

1）CAV换道意图奖励。为保证CAV顺利由匝道驶入专用道，本文提出一种“渐进式”换道意图奖励满足CAV专用道汇入需求，以非线性数值函数形式评价每个时间步长内交织区时空条件对CAV换道的影响，定义为

r_{l c 0} = e x p [- {(x_{0} - L)}^{2} / (100 L)]

(8)

r_{l c l} = 1 - e x p [- {(x_{1} - L)}^{2} / (70 L)]

(9)

r_{l c 2} = 1 - e x p [- {(x_{2} - L)}^{2} / (45 L)]

(10)

R_{l c} = - w_{0} r_{l c 0} + w_{1} r_{l c 1} + w_{2} r_{l c 2}

(11)

式中：r_lc0、r_lc1、r_lc2分别表示0、1、2号车道的换道意图奖励；x₀、x₁、x₂分别表示0、1、2号车道上CAV距离交织区起点的距离；L表示交织区长度；w₀、w₁、w₂表示各换道意图奖励的权重系数，其取值经多次训练测试微调确定；R_lc表示各车道换道意图奖励总和。

如图3所示，其中图3（b）由式（8）~（10）绘制，当CAV位于0号车道时，给予智能体负奖励，位于1号车道时给予正奖励，位于2号车道时给予相对更大的正奖励，即CAV横向距离专用道越近，奖励值越大，以此激励CAV靠近专用道的换道意图。

图3换道意图奖励定义

Fig.3Definition of lane-changing intention reward

此外，为避免换道意图奖励函数使CAV忽略低奖励，发生由0号车道连续换道至专用车道的高风险且低舒适的驾驶行为，本文参考文献^[20]，设计了CAV换道决策安全约束算法（程序如算法1所示），以此在最大程度上规避同一辆CAV在较短时间间隔发生连续换道以及同一车道前后CAV的换道决策位置过于接近等危险换道行为。

算法1：CAV换道决策安全检测机制

2）匝道及交织区运行奖励。CAV驶入主线后可能会引起主线交通流的震荡，同时也要防止入口匝道排队长度过长导致延误增加和效率损失。因此，以含交织区平均速度和匝道车辆排队长度变量的函数表示运行情况奖励，从而衡量车道级可变限速和匝道信号控制动作的可行性，计算方法如下所示：

R_{v} = \frac{1}{n} \sum_{i = 1}^{n} (v_{i} / v_{m a x})

(12)

R_{q} = - 1 / (1 + e^{α (β - n_{q}) + δ})

(13)

R_{f} = w_{v} R_{v} + w_{q} R_{q}

(14)

式中：R_v表示交织区运行速度奖励；n表示交织区的车辆数量，v_i表示交织区内第i辆车在某一时间步长的速度； v_max表示交织区路段最大限速；R_q表示匝道排队奖励函数；n_q表示入口匝道排队车辆数；α、β、δ为系数^[21]；R_f表示交织区运行奖励总和；w_v、w_q表示奖励权重系数^[22]。

3）CAV专用道通行效率奖励。为评价集成控制动作对CAV专用道通行效率的影响，通过计算CAV专用道的流量变化表征，计算方法为

R_{D L} = (F_{o u t}^{C A V} - F_{i n}^{C A V}) / (F_{o u t}^{E d g e} - F_{i n}^{E d g e})

(15)

式中：R_DL表示CAV专用道通行效率奖励函数；

F_{i n}^{C A V}

、

F_{o u t}^{C A V}

分别表示在CAV专用道汇入引导区起终点单位时间内的CAV流入量和流出量；

F_{i n}^{E d g e}

、

F_{o u t}^{E d g e}

分别表示CAV专用道汇入引导区所在路段起终点单位时间内的所有车辆的流入量和流出量。

4）多目标奖励函数。本文研究问题涉及多目标决策，可通过构建合成奖励函数将多目标问题转换为单目标问题，实现不同目标之间的权衡优化，多目标奖励函数为

R = R_{l c} + R_{f} + R_{D L}

(16)

2 集成控制算法设计

2.1 DDPG算法

采用上述的动作空间设计方法能将离散动作值转化为连续动作值，有效降低动作空间维度，而DDPG算法融合了深度神经网络和确定性策略梯度方法优势，能够处理高维状态空间和连续动作空间问题，故本文使用DDPG算法实现控制策略。DDPG算法直接输出智能体动作，主要包括Actor模块、Critic模块、经验池模块以及对偶网络结构。其目标Q值通过从目标网络中复制参数进行更新，从经验回放池中随机抽取样本进行训练，以最小化Q值网络的均方误差为训练目标，从而不断接近目标Q值。

其损失函数和策略梯度的公式分别表达如下：

(17)

\nabla_{θ} J (θ^{μ}) \approx E_{s} [{\nabla_{θ} μ (s ∣ θ^{μ}) \nabla_{a} Q (s, a ∣ θ^{μ})|}_{a = μ (s)}]

(18)

DDPG算法将Q值网络的均方误差最小化实现更新Critic网络，使用策略梯度方法更新Actor网络，达到在连续动作空间高效率学习的目的。

2.2 优先经验回放机制

一般的经验回放机制常采用均匀抽样，从回放缓冲池中随机抽取样本进行训练，但这种情况下重要样本的训练价值得不到充分利用，因此本文算法采用优先经验回放机制训练智能体，以提高算法的训练速度和响应效率，保证智能体能够充分利用经验回放池中先前经验，这对本文提出的交织区集成控制智能体在经验数据训练上更为有利。

经验样本抽样概率定义为

P (i) = p^{e} (i) / \sum_{i} p^{e} (i)

(19)

式中：P（i）表示样本i的抽样概率，p^e（i）表示样本i的优先级，e表示优先级权重。

使用优先经验回放机制会使DDPG的网络输出产生偏差，对此使用重要性采样权重进行修正：

ω_{i} = {[\frac{1}{N} \cdot \frac{1}{P (i)}]}^{λ}

(20)

式中：ω_i表示经验样本i的重要性采样权重；N为经验回放缓冲池中的经验样本数量；λ表示超参数，其取值为[0，1]。

2.3 算法框架

基于DDPG的高速公路交织区集成控制策略流程如图4所示。其主要分为SUMO仿真交互环境和DDPG控制中心，在第i个控制周期，从SUMO获取状态空间变量s_t，并通过RSU传递至控制中心，经Actor网络输出动作a_t后由TCU将集成控制指令传输至路端和车端发布实施，随后进入下一状态空间s_t₊₁，经验被聚合为＜s_t，a_t，r_t，s_t₊₁＞四元数组存入经验回放池，并发送到Critic网络进行训练，上述过程不断循环迭代，直至算法收敛。其详细算法流程如算法2所示。

图4基于DDPG的高速公路交织区集成控制策略流程

Fig.4DDPG-based integrated control strategy process for freeway weaving area

算法2：DDPG算法

3 高速公路仿真场景搭建

3.1 混合交通流驾驶行为建模

混合交通流驾驶行为模型可分为跟驰模型和换道模型两部分。本文选取智能驾驶员模型（intelligent driver model，IDM）^[23]控制HDV的纵向驾驶行为；使用协同自适应巡航控制（cooperative adaptive cruise control，CACC）模型^[24]控制CAV的纵向跟驰行为，需要注意的是，当CAV跟驰HDV时，由于无法进行车辆间的通信CACC将自动退化为自适应巡航模式（adaptive cruise control，ACC）。

HDV换道模型采用SUMO内置的LC2013模型^[25]；当CAV的目标车道为普通车道时，由于受到HDV的干扰，CAV无法充分发挥网联优势，此时CAV与HDV的换道博弈关系通过LC2013中的换道合作系数表征，并参考文献^[26]中计算得出的换道可接受间隙决定CAV是否换道；当CAV的目标车道为专用车道时，由于目标CAV可捕捉到通信范围内目标车道的全部CAV属性，故本文建立了考虑CAV多辆后车信息的改进Mobil换道决策模型^[27]，模型表达式为

{\tilde{a}}_{S V}, {\tilde{a}}_{{T F V}_{i}} ⩾ - b_{safe}, i \in N_{T}

(21)

\begin{matrix} U_{V} = {\tilde{a}}_{S V} - a_{S V} + \\ p [\sum_{i = 1}^{N_{T}} ({\tilde{a}}_{{T F V}_{i}} - a_{{T F V}_{i}})] + q ({\tilde{a}}_{F V} - a_{F V}) > Δ a_{t h}, i \in N_{T} \end{matrix}

(22)

N_{T} = \{{T F V}_{i} |0 ⩽ |x_{S V} - x_{{T F V}_{i}}| ⩽ L\}

(23)

式中：

{\tilde{a}}_{S V}

为目标CAV换道后的加速度，

{\tilde{a}}_{{T F V}_{i}}

为目标车辆换道后的跟随车加速度，

{\tilde{a}}_{{F V}_{i}}

为目标车辆原车道的跟随车加速度，N_T为目标CAV通信范围内的车辆集合，U_V为目标CAV的换道总效益，a_SV、a_TFV、a_FV分别为换道前目标车辆、原车道跟随车、目标车道跟随车的加速度，p、q为礼让系数，a_th为换道收益阈值，x_SV、

x_{{T F V}_{i}}

分别为目标车辆及其目标车道跟随车辆的纵向位置，L为目标CAV的通信范围。

为提高CAV汇入专用道效率，本文设置由入口匝道驶入的CAV在交织区与汇入引导区内只要满足上述换道模型决策条件及安全约束条件，CAV执行向左换道。SUMO车辆仿真参数如表1所示。

表1车辆仿真参数设置

Tab.1Vehicle simulation parameter settings

3.2 仿真场景构建与训练参数设置

本文采用SUMO构建高速公路交织区仿真场景，并基于Python通过TraCI实现二次开发，验证提出的基于DDPG的交织区集成控制策略。本文高速公路仿真场景由主线和入口匝道、出口匝道构成，主线设置三车道，入口匝道和出口为单车道，各路段设有线圈检测器。仿真场景示意图如图5所示，参考CAV专用车道入口区域设计的研究^[28]，并根据本文提出的集成控制策略将主线划分为车道级可变限速区、交织瓶颈区、CAV汇入引导区。

图5仿真场景搭建

Fig.5Simulation scenario design

高速公路主线设计速度为120 km/h，匝道限速40 km/h，仿真路段全长为3 km。车道级可变限速区长500 m，交织区长度为700 m；设置CAV专用道时，CAV需在满足换道决策安全约束条件下变道两次汇入专用道，CAV汇入引导区设置为1 km，以保证CAV有足够的车道空间驶入专用道。

为了使智能体即TCU适应多种交通需求场景，本文将每一训练回合设置为平峰高峰交替出现，每回合仿真持续时间为10 800 s，集成动作控制周期设置为1 min，仿真步长为0.5 s，交通需求设置如表2所示。

表2交通需求设置

Tab.2Traffic demand setting

SUMO仿真过程基于以下假设：1）不考虑车-车通信、车-路通信的延迟时间；2）仅考虑小型乘用车，且CAV车辆与HDV车辆外观尺寸，加减速性能一致；3）仿真路段不考虑设置CAV专用道初始入口，即上游CAV在进入交织区之前已驶入专用道；4）车辆生成遵循泊松分布；5）假设所有车辆遵循车道级可变限速、匝道信号控制规则，不存在违规驾驶行为；6）CAV专用道的汇入截止位置为2 500 m。

经过多次训练调优，本文算法最终选定的超参数取值如下：折扣率为0.95；Actor网络学习率1×10^-3；Critic网络学习率2×10^-3；经验回放池容量为2×10⁴；批处理大小为32；更新参数τ为5×10^-3；各隐藏层神经元数量为（256，128，64）；动作噪声为0.5。

4 实验结果分析

4.1 训练过程分析

本文分别针对基于DDPG算法的集成控制策略、CAV车队动态间隙调整（CAV platoon dynamic gap adjustment，CPGA）的车端控制算法、融合车道级可变限速（lane-level variable speed limit，LVSL）和匝道控制（ramp metering，RM）的路端控制算法3种控制策略展开了仿真训练，直至奖励值趋于收敛。不同控制策略下各回合累计奖励值变化曲线如图6（a）所示，可以看出训练前期由于智能体一直在探索最优控制策略，因此每回合总奖励值波动较大，当训练120回合之后，集成控制策略下的奖励值趋于收敛，对比其他策略，集成控制策略可以用更少的训练回合数达到算法收敛的目标，证明其在收敛效率方面具有一定优势，此外集成控制策略对比单一的路侧控制和车侧控制策略奖励值相对更高，表示智能体能更好地权衡CAV专用道汇入需求和主线通行效率之间的关系，使多目标奖励函数达到相对最优值。由图6（b）可知，集成控制策略下的各分项奖励函数均得到有效收敛，验证了前文多目标奖励函数设置的合理性。

图6DDPG算法训练结果

Fig.6DDPG algorithm training results

4.2 仿真结果分析

结合文献^[29]的研究结果，当CAV渗透率为30%时，设置CAV专用道对混合交通流通行效率的提升效果最为显著，因此本文选取CAV渗透率为30%场景下的仿真结果进行分析：

4.2.1 CAV换道至专用道时空分析

CAV换道时空分布如图7所示，CAV专用道汇入引导区的位置范围为1 500~2 500 m，无控制时，CAV切入专用道位置主要分布于2 250 m附近，换道位置十分靠后；相比无控制策略，“LVSL+RM”策略、“CPGA”策略、“集成控制”策略均对CAV换道位置有明显的改善作用，“集成控制”策略可使CAV换道位置的高频点位于1 950 m左右，较无控制提前300 m左右。实验结果说明本文提出的集成策略能够为CAV提供充分的换道时空条件，使CAV驶入主线后可以尽早驶入专用道行驶，进而实现CAV与HDV的物理分离，降低混合交通流的复杂性，释放专用道和普通车道通行能力，同时降低交织区事故风险。

图7CAV换道时空位置分布

Fig.7Distribution of spatial and temporal of lane-changing for CAV

4.2.2 CAV专用道汇入成功率分析

进一步分析各控制策略下CAV换道至专用道成功率如表3所示，其中，CAV专用道汇入成功率是指在引导区终点前汇入专用道的CAV数量与匝道驶入主线CAV数量的比值。无控制策略下，由于交织区车流密集CAV难以寻找到合适的换道时空条件，因此汇入成功率较低，“LVSL+RM”策略下由于对交织区车辆速度和匝道输入做出了一定限制，因此CAV的换道条件得到明显改善，其汇入成功率也大幅提高；“CPGA”控制策略下汇入成功率略有提高；“集成控制”策略对CAV的汇入成功率提高效果最为明显，高交通需求时段汇入成功率达44.81%，较无控制策略性能提升达到25.55%，充分证明了其引导CAV汇入专用道的有效性。

表3CAV专用道汇入成功率对比

Tab.3Comparison of the success rate of CAV dedicated lane merging

4.2.3 通行效率及安全

为探究“集成控制”策略在保证CAV高效汇入专用道的情况下交织区的实际运行效率，选取仿真180个控制周期主线交织区平均车速并绘图，结果如图8所示。相比无控制策略，“集成控制”、“CPGA”控制、“LVSL+RM”控制均对主线交织区平均车速均有所提升，“LVSL+RM”由于只设计了路端控制策略，而不考虑CAV车队间隙调整，其对于平均车速影响效果相对最佳，“集成控制”策略在高需求时间段（第60~120个控制周期）内平均车速有所下降，但仍优于无控制场景，“CPGA”策略与无控制场景差别不大。

图8交织区平均车速对比

Fig.8Comparison of average vehicle speed in the weaving area

各控制策略对车辆平均行程时间的影响如表4所示，由表4分析可知，“LVSL+RM”控制策略在低、中、高交通需求场景下对比无控制策略平均行程时间分别降低9.73%、26.68%、28.31%；“CPGA”控制策略下平均行程时间分别降低2.69%、2.51%、2.47%。相比“LVSL+RM”控制策略，“集成控制”策略虽为保证CAV高效汇入专用道而导致交织区通行效率的优化效果有所下降，但对比无控制，车辆平均行程时间仍分别降低5.42%、17.41%、20.65%。

表4车辆平均行程时间对比

Tab.4Comparison of average vehicle travel time

本文采用碰撞时间（time to collision，TTC）评价追尾安全风险，TTC越小说明前后两车发生追尾碰撞的风险越大。TTC频率分布曲线如图9所示，由图9可知集成控制策略下TTC分布在各统计区间内的概率密度更加均匀，且0~3 s的危险工况数据明显低于无控制场景，说明集成控制策略可有效降低交通流碰撞风险。

综合来看，相较于“LVSL+RM”控制策略，集成控制策略尽管在通行效率优化效果上稍显不足，但从换道时空分布、CAV汇入成功率来看，集成控制策略优势突出，为CAV汇入专用道提供了充分的时空资源及条件，能更好地解决本文研究问题。

4.3 灵敏度分析

根据文献^[30]的研究结果，当CAV渗透率为10%~50%时，设置1条CAV专用道能在一定程度上改善通行效率，为深入分析不同CAV渗透率条件下集成控制策略对CAV汇入专用道的影响，设置CAV渗透率为10%、20%、30%、40%、50%的仿真实验。各控制策略的CAV汇入成功率如图10所示。

分析图10可知，低需求时段下各控制策略随着CAV渗透率的增加CAV换道成功率也出现增加趋势；中需求和高需求时段场景下随着CAV渗透率的增加，CAV换道至专用道成功率表现出先增加后降低的趋势，同时高峰时段波动程度更大，出现此类现象原因可能是CAV渗透率的增大导致CAV专用道通行能力接近饱和状态，因此CAV选择合适的时空间隙汇入专用道的难度有所增加。总体来看，本文所提出的集成控制策略受CAV渗透率影响不大，在各仿真实验下均表现出最优性能。

图9TTC数据分布情况

Fig.9Distribution of TTC data

图10不同CAV渗透率下控制策略性能变化情况

Fig.10Variation of control strategy performance with different CAV penetration rates

5 结论

1）针对CAV专用道设置条件下的高速公路混合交通流环境，提出了集成匝道信号控制、主线车道级可变限速、CAV车队间隙调整的交织区控制策略，将相关车路信息作为共享状态输入，以匝道信号相位时长、主线车道限速值、CAV专用道车队间隙作为动作空间，提出换道意图奖励函数并结合换道安全约束算法驱动CAV高效安全汇入专用道，同时考虑主线通行效率和匝道排队长度设计了多目标奖励函数。

2）仿真实验结果表明，本文所提集成控制策略控制效果显著，既在一定程度上有效提高了CAV专用道设置条件下交织区时空资源配置的合理性，其CAV换道至专用道成功率在低、中、高交通需求控制时段分别为48.67%、46.19%、44.81%，相比无控制策略分别提高了19.34%、22.86%、25.55%，又提高了主线交织区平均车速，相比无控制其平均行程时间在低、中、高交通需求的控制时段分别可降低5.42%、17.41%、20.65%，同时交通流运行安全性也得到一定提升。

3）本文提出的集成控制策略在不同CAV渗透率下性能稳定性较强，可对网联自动驾驶技术各发展阶段有良好的适用性，变化趋势为：在低交通需求时段下随着CAV渗透率增加CAV汇入专用道成功率也有所增加，在高交通需求和中交通需求时段下随着CAV渗透率的增加，CAV汇入专用道成功率呈现先增加后减少的变化趋势，在CAV渗透率为30%时控制效果最佳。

图1CAV专用道设置条件下交织区集成控制系统结构

Fig.1Structure of integrated control system for weaving area under CAV dedicated lane

下载: 全尺寸图片

图2专用道内CAV车队间隙动态调整策略

Fig.2Dynamic adjustment strategy for CAV platoon gap in dedicated lane

下载: 全尺寸图片

图3换道意图奖励定义

Fig.3Definition of lane-changing intention reward

下载: 全尺寸图片

图4基于DDPG的高速公路交织区集成控制策略流程

Fig.4DDPG-based integrated control strategy process for freeway weaving area

下载: 全尺寸图片

图5仿真场景搭建

Fig.5Simulation scenario design

下载: 全尺寸图片

图6DDPG算法训练结果

Fig.6DDPG algorithm training results

下载: 全尺寸图片

图7CAV换道时空位置分布

Fig.7Distribution of spatial and temporal of lane-changing for CAV

下载: 全尺寸图片

图8交织区平均车速对比

Fig.8Comparison of average vehicle speed in the weaving area

下载: 全尺寸图片

图9TTC数据分布情况

Fig.9Distribution of TTC data

下载: 全尺寸图片

图10不同CAV渗透率下控制策略性能变化情况

Fig.10Variation of control strategy performance with different CAV penetration rates

下载: 全尺寸图片

表1车辆仿真参数设置

Tab.1Vehicle simulation parameter settings

下载: 全尺寸图片

表2交通需求设置

Tab.2Traffic demand setting

下载: 全尺寸图片

表3CAV专用道汇入成功率对比

Tab.3Comparison of the success rate of CAV dedicated lane merging

下载: 全尺寸图片

表4车辆平均行程时间对比

Tab.4Comparison of average vehicle travel time

下载: 全尺寸图片

图1CAV专用道设置条件下交织区集成控制系统结构

Fig.1Structure of integrated control system for weaving area under CAV dedicated lane

图2专用道内CAV车队间隙动态调整策略

Fig.2Dynamic adjustment strategy for CAV platoon gap in dedicated lane

图3换道意图奖励定义

Fig.3Definition of lane-changing intention reward

图4基于DDPG的高速公路交织区集成控制策略流程

Fig.4DDPG-based integrated control strategy process for freeway weaving area

图5仿真场景搭建

Fig.5Simulation scenario design

图6DDPG算法训练结果

Fig.6DDPG algorithm training results

图7CAV换道时空位置分布

Fig.7Distribution of spatial and temporal of lane-changing for CAV

图8交织区平均车速对比

Fig.8Comparison of average vehicle speed in the weaving area

图9TTC数据分布情况

Fig.9Distribution of TTC data

图10不同CAV渗透率下控制策略性能变化情况

Fig.10Variation of control strategy performance with different CAV penetration rates

表1车辆仿真参数设置

Tab.1Vehicle simulation parameter settings

表2交通需求设置

Tab.2Traffic demand setting

表3CAV专用道汇入成功率对比

Tab.3Comparison of the success rate of CAV dedicated lane merging

表4车辆平均行程时间对比

Tab.4Comparison of average vehicle travel time

图1CAV专用道设置条件下交织区集成控制系统结构

Fig.1Structure of integrated control system for weaving area under CAV dedicated lane

图2专用道内CAV车队间隙动态调整策略

Fig.2Dynamic adjustment strategy for CAV platoon gap in dedicated lane

图3换道意图奖励定义

Fig.3Definition of lane-changing intention reward

图4基于DDPG的高速公路交织区集成控制策略流程

Fig.4DDPG-based integrated control strategy process for freeway weaving area

图5仿真场景搭建

Fig.5Simulation scenario design

图6DDPG算法训练结果

Fig.6DDPG algorithm training results

图7CAV换道时空位置分布

Fig.7Distribution of spatial and temporal of lane-changing for CAV

图8交织区平均车速对比

Fig.8Comparison of average vehicle speed in the weaving area

图9TTC数据分布情况

Fig.9Distribution of TTC data

图10不同CAV渗透率下控制策略性能变化情况

Fig.10Variation of control strategy performance with different CAV penetration rates

表1车辆仿真参数设置

Tab.1Vehicle simulation parameter settings

表2交通需求设置

Tab.2Traffic demand setting

表3CAV专用道汇入成功率对比

Tab.3Comparison of the success rate of CAV dedicated lane merging

表4车辆平均行程时间对比

Tab.4Comparison of average vehicle travel time

秦严严, 胡兴华, 李淑庆, 等. 智能网联环境下混合交通流稳定性解析[J]. 哈尔滨工业大学学报,2021,53(3):152.QIN Yanyan, HU Xinghua, LI Shuqing,et al. Stability analysis of mixed traffic flow in connected and autonomous environment[J]. Journal of Harbin Institute of Technology,2021,53(3):152

YE L, YAMAMOTO T. Modeling connected and autonomous vehicles in heterogeneous traffic flow[J]. Physica A: Statistical Mechanics and its Applications,2018,490:269

MOHAJERPOOR R, RAMEZANI M. Mixed flow of autonomous and human-driven vehicles:analytical headway modeling and optimal lane management[J]. Transportation Research Part C: Emerging Technologies,2019,109:194

KIM J, LIM D, SEO Y,et al. Influence of dedicated lanes for connected and automated vehicles on highway traffic flow[J]. IET Intelligent Transport Systems,2023,17(4):678

YE L, YAMAMOTO T. Impact of dedicated lanes for connected and autonomous vehicle on traffic flow throughput[J]. Physica A: Statistical Mechanics and its Applications,2018,512:588

傅泽新, 陈旭梅, 王宇擎, 等. 智能网联环境下管理车道设置策略与影响因素分析[J]. 哈尔滨工业大学学报,2023,55(7):24.FU Zexin, CHEN Xumei, WANG Yuqing,et al. Managed lane setting strategies and influence factor analysis in intelligent connected environment[J]. Journal of Harbin Institute of Technology,2023,55(7):24

XIAO L, WANG M, VAN AREM B. Traffic Flow Impacts of converting an HOV lane into a dedicated CACC lane on a freeway corridor[J]. IEEE Intelligent Transportation Systems Magazine,2020,12(1):60

AMIRGHOLY M, SHAHABI M, GAO H. Traffic automation and lane management for communicant,autonomous,and human-driven vehicles[J]. Transportation Research Part C: Emerging Technologies,2020,111:477

HAN Y, WANG M, LI L,et al. A physics-informed reinforcement learning-based strategy for local and coordinated ramp metering[J]. Transportation Research Part C: Emerging Technologies,2022,137:103584

张健, 李青扬, 李丹, 等. 基于深度强化学习的自动驾驶车辆专用道汇入引导[J]. 吉林大学学报（工学版）,2023,53(9):2508.ZHANG Jian, LI Qingyang, LI Dan,et al. Merging guidance of exclusive lanes for connected and autonomous vehicles based on deep reinforcement learning[J]. Journal of Jilin University(Engineering and Technology Edition),2023,53(9):2508

LU W, YI Z, GU Y,et al. TD3LVSL:a lane-level variable speed limit approach based on twin delayed deep deterministic policy gradient in a connected automated vehicle environment[J]. Transportation Research Part C: Emerging Technologies,2023,153:104221

韩磊, 张轮, 郭为安. 混合交通流环境下基于改进强化学习的可变限速控制策略[J]. 交通运输系统工程与信息,2023,23(3):110.HAN Lei, ZHANG Lun, GUO Weian. Variable speed limit control based on improved dueling double deep Q Network under mixed traffic environment[J]. Journal of Transportation Systems Engineering and Information Technology,2023,23(3):110

HU X, SUN J. Trajectory optimization of connected and autonomous vehicles at a multilane freeway merging area[J]. Transportation Research Part C: Emerging Technologies,2019,101:111

谷梦路, 葛振振, 王畅, 等. 智能网联车辆加速车道类人化汇入控制研究[J]. 中国公路学报,2024,37(3):134.GU Menglu, GE Zhenzhen, WANG Chang,et al. Human like merging control of intelligent connected vehicles on the acceleration lane[J]. China Journal of Highway and Transport,2024,37(3):134

王兴举, 高桂凤, 宫城俊彦. 高速公路单点入口匝道RLPM控制方法[J]. 交通运输工程学报,2012,12(3):101.WANG Xingju, GAO Guifeng, MIYAGI T. RLRM control method of single entrance ramp for highway[J]. Journal of Traffic and Transportation Engineering,2012,12(3):101

章立辉, 余宏鑫, 熊满初, 等. 平衡主线和匝道交通运行的强化学习型匝道控制研究[J]. 重庆交通大学学报（自然科学版）,2023,42(4):87.ZHANG Lihui, YU Hongxin, XIONG Manchu,et al. Reinforcement learning ramp metering to balance mainline and ramp traffic operations[J]. Journal of Chongqing Jiaotong University(Natural science),2023,42(4):87

VALIDI A, SMIRNOV N, OLAVERRI-MONREAL C. Metamodel-based simulation to assess platooning on battery energy consumption[J]. Transportation Research Part D: Transport and Environment,2022,109:103350

YADAVALLI S R, DAS L C, WON M. RLPG:reinforcement learning approach for dynamic intra-platoon gap adaptation for highway on-ramp merging[C]//2023 International Conference on Intelligent Robots and Systems(IROS). Detroit: IEEE,2023:5514

ARAMRATTANA M, LARSSON T, ENGLUND C,et al. A simulation study on effects of platooning gaps on drivers of conventional vehicles in highway merging situations[J]. IEEE Transactions on Intelligent Transportation Systems,2022,23(4):3790

王怡琛. 智能网联环境下考虑车辆异质性的高速公路自动车换道决策仿真研究[D]. 成都: 西南交通大学,2022.WANG Yichen. Simulation research on highway lane change decision considering vehicle heterogeneity for connected and autonomous vehicles[D]. Chengdu: Southwest Jiaotong University,2022

蔺庆海, 何兆成, 谢俊, 等. 基于AVI数据与深度强化学习的城市快速路匝道协调控制方法[J]. 中国公路学报,2023,36(10):224.LIN Qinghai, HE Zhaocheng, XIE Jun,et al. Urban expressway coordinated ramp metering approach using automatic vehicle identification data and deep reinforcement learning[J]. China Journal of Highway and Transport,2023,36(10):224

LIU B, TANG Y, JI Y,et al. A deep reinforcement learning approach for ramp metering based on traffic video data[J]. Journal of Advanced Transportation,2021,2021:1

TREIBER M, HENNECKE A, HELBING D. Congested traffic states in empirical observations and microscopic simulations[J]. Physical Review E,2000,62(2):1805

MILANÉS V, SHLADOVER S E. Modeling cooperative and autonomous adaptive cruise control dynamic responses using experimental data[J]. Transportation Research Part C: Emerging Technologies,2014,48:285

ERDMANN J. SUMO′s lane-changing model[C]//BEHRISCH M, WEBER M. Modeling Mobility with Open Data:2nd SUMO Conference. Berlin: Springer,2015:105

梁国华, 石权, 李瑞, 等. 高速公路合流区主要参数对自动驾驶车辆的影响[J]. 哈尔滨工业大学学报,2021,53(9):62.LIANG Guohua, SHI Quan, LI Rui,et al. Impact of main parameters of merging area in highway on autonomous vehicles[J]. Journal of Harbin Institute of Technology,2021,53(9):62

丁婉婷. 智能网联汽车高速公路自主性换道决策模型研究[D]. 南京: 东南大学,2017.DING Wanting. Research of discretionary lane change model for connected and autonomous vehicles on expressway[D]. Nanjing: Southeast University,2017

孙玲, 张静, 周瀛, 等. 车路协同环境下自动驾驶专用车道入口区域设计[J]. 公路交通科技,2020,37(增刊1):122.SUN Ling, ZHANG Jing, ZHOU Ying,et al. Design of entrance area of automatic driving special lane in vehicle-infrastructure collaborative environment[J]. Highway Traffic Technology,2020,37(Sup.1):122

HUA X, YU W, WANG W,et al. Influence of lane policies on freeway traffic mixed with manual and connected and autonomous vehicles[J]. Journal of Advanced Transportation,2020,2020:1

姚志洪, 郝慧君, 巫雪梅, 等. 考虑自动驾驶的混合交通流路段阻抗函数[J]. 交通运输工程与信息学报,2021,19(4):1.YAO Zhihong, HAO Huijun, WU Xuemei,et al. Cost function of mixed traffic flow with autonomous driving[J]. Journal of Transportation Engineering and Information,2021,19(4):1

Publication Statement

Journal Subscription

1 问题描述与转化

2 集成控制算法设计

3 高速公路仿真场景搭建

4 实验结果分析

5 结论