摘要
为全面提升交通事故严重程度预测效果,针对现阶段传统机器学习与深度学习方法预测精度有限、网络收敛缓慢等问题,提出一种改进模糊宽度学习系统(fuzzy broad learning system,FBLS)的城市道路交叉口事故严重程度预测方法。模型采用Takagi-Sugeno模糊系统取代宽度学习系统(broad learning system,BLS)的特征节点层,在保留BLS快速收敛特性的前提下,更为广泛地提取高维事故数据所隐藏的特征;同时在模型的输入层融合SMOTE过采样算法,平衡事故数据类别,增强预测结果的可靠性。通过英国大曼彻斯特地区交通事故的历史数据,在横向维度上选择原始FBLS,在纵向维度上选择交通事故严重程度预测常用的随机森林(RF)、支持向量机(SVM)、BP神经网络(BPNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN),分别与S-FBLS进行预测性能对比,结果表明:S-FBLS在横向上相较原始FBLS将严重事故的预测准确率提升52.87%,在纵向上相较5种对比模型提升网络训练速度97%以上,整体准确率分别提升2.2%、8.95%、8.68%、6.47%、5.64%,特异度平均提升6.49%,灵敏度平均提升6.31%,精确度平均提升5.66%。基于S-FBLS的事故严重程度预测方法可为城市道路交叉口事故发生预警提供可靠的理论支撑。
Abstract
In order to comprehensively improve the effect of traffic accident severity prediction, for the current stage of traditional machine learning and deep learning methods with limited prediction accuracy and slow convergence of the network, proposing an improved FBLS method for predicting accident severity at urban road intersection. The model replaces the feature node layer of BLS with Takagi-Sugeno fuzzy system to extract the hidden features of high-dimensional accident data more extensively and still retains the fast convergence characteristics of BLS; the SMOTE algorithm is also fused in the input layer of the FBLS to balance the accident data categories and enhance the reliability of the prediction results. Through the historical data of traffic accidents in Greater Manchester, UK, the original FBLS was selected in the horizontal dimension, and RF, SVM, BPNN, LSTM, CNN, which are commonly used for traffic accident severity prediction, were chosen in the vertical dimension, to compare the model performance with the S-FBLS. The results show that comparison with the original FBLS, S-FBLS improves the accuracy of severe accidents by 52.87%, comparison with five comparative models, S-FBLS improves the network training speed by more than 97%, improves the overall accuracy by 2.2%, 8.95%, 8.68%, 6.47%, 5.64%, improves the specificity by an average of 6.49%, improves the sensitivity by an average of 6.31%, and improves the precision by an average of 5.66%. The S-FBLS-driven accident severity prediction method can provide a reliable theoretical support for the early warning of the occurrence of accident at urban road intersection.
Keywords
在城市道路交通网络中,平面交叉口作为各交通参与者发生方向转换的节点,也是各种交通组成集中发生交通冲突的地点,其潜在的事故风险对城市交通安全品质造成了较大的冲击。十字交叉口作为平面交叉口的主要类型之一,具有更多的潜在冲突点,事故隐患与安全风险更高。因此,本文以十字交叉口为研究对象,构建可靠的城市道路平面交叉口事故严重程度预测模型,对于为城市交通事故预防与决策提供支持,以及城市道路平面交叉口交通安全品质提升具有重要的现实意义。
长期以来,国内外学者在交通事故严重程度预测的研究中多使用基于统计回归的模型[1-2]与基于传统机器学习的模型[3-4],如随机森林[5]、极限梯度提升与支持向量机[6]、故障树[7]等。此外,随着人工智能技术近年来的迅猛发展,在机器学习领域除传统的机器学习模型,人工神经网络[8-9]以及深度学习模型[10-12]在交通事故严重程度的预测中也取得了较好的效果。在传统机器学习模型的研究基础上,文献[2]建立了累积Logistic回归预测模型,探究影响高原地区交通事故严重程度的显著性因素,预测准确率为77.41%;文献[5]将k-means算法与随机森林模型相结合,并通过SHAP算法对预测结果进行可视化输出,预测准确率为83.20%;文献[6]基于XGBoost和SVM分别建立十字交叉口事故严重程度预测模型,预测准确率分别为79.60%和79.0%;文献[8]采用遗传算法对BP神经网络进行改进,预测准确率为75.90%。在深度学习模型的研究基础上,文献[11]借助Keras框架搭建RNN模型,对美国内华达州2015—2017年交通事故进行预测,预测准确率为77.35%;文献[12]将图卷积网络与长短期记忆网络相结合,通过时空图卷积网络对交通事故严重程度进行预测,在3个不同数据集上的平均预测准确率为86.57%。以上研究均取得了良好的模型表现,但仍存在不同程度的局限性,如大多数研究并未考虑事故类别的不平衡问题、特征变量较少等。同时,上述模型准确率区间为[75.90%,86.57%],当预测准确率达到此区间水平,即高于75%时,说明模型达到现有研究先进水平,具有有效性。
尽管深度学习模型在事故严重程度预测上的表现优于多数传统机器学习模型,但由于涉及到庞大的超参数和复杂的“深度”结构,并采用逐层求梯度的方式通过反向传播更新权重,使得网络对于高维特征的数据训练过程缓慢,且易陷入局部最优。为了能够在保证预测精度的基础上提升网络收敛速度,文献[13]提出了宽度学习系统(broad learning system,BLS),该方法舍弃了深度学习模型的深层属性,在横向的逻辑范畴上构建网络,能够在保证预测准确率的同时大幅度减少训练时间,并且避免了梯度消失或爆炸的问题。在保留BLS结构的基础上,文献[14]介绍了一种改进的神经网络算法,即模糊宽度学习系统(fuzzy broad learning system,FBLS),并与包括BLS在内的非模糊以及神经模糊系统进行了预测性能的比较,结果表明较其他神经模糊系统,FBLS在预测精度和训练速度上均表现出了显著的优势。目前,基于BLS与FBLS的方法在图像分类[13]、时间序列预测[15]等方面得到了逐步的应用,并取得了较好的成果,但该方法在交通安全领域的研究中仍处于空白状态,基于FBLS的方法在交通事故严重程度预测中的有效性与优越性尚需验证。
本研究为广泛提取高维事故数据更细粒度的特征,解决深度学习模型面对此类复杂非线性数据时网络收敛缓慢的问题,同时针对事故类别分布显著不均衡的特点,在FBLS的输入层引入SMOTE过采样算法改进原始模型,提出一种基于S-FBLS的城市道路交叉口事故严重程度预测方法,并通过训练耗时、准确率(ACC)、灵敏度(SEN)、特异度(SPE)、精确度(PRE)对该方法进行评估。研究成果对城市道路交叉口交通事故的准确预测具有重要意义。
1 数据处理
1.1 数据来源与描述
样本数据来源于2016—2018年英国道路交通事故数据集UK Road Safety Date,原始数据主要涉及事故发生时的道路、天气、环境以及涉事车辆的车辆类型、碰撞部位、驾驶员特征等因素。通过对原始数据进行筛选与清洗,选取最终获得的2016—2018年大曼彻斯特(Greater Manchester)地区交通事故数据为样本数据。
1.2 特征工程与数据清洗
1.2.1 数据筛选
1)受城市内部交叉口设计理念的影响,不同城市之间的地域性差异对交通事故特征存在潜在的影响,若研究对象包含多个不同城市的数据样本则可能对模型的预测精度产生干扰。同时,考虑到大曼彻斯特地区数据整体缺失较少,因此选取英国规模最大的都会郡之一大曼彻斯特(Greater Manchester)为研究样本,以此增强样本数据的同质性。
2)在确定研究样本的基础上,为得到面向城市道路的数据样本,根据道路类别将涉及公路的数据样本进行筛除。最后,结合事故发生地点与交叉口类型对无关数据进一步过滤,得到2016—2018年大曼彻斯特地区城市道路十字交叉口交通事故数据。
1.2.2 变量选取
在删除样本数据中无用属性的前提下,如不涉及事故形成诱因的因素,基于事故基本信息、人员因素、车辆因素、道路因素、环境因素确定特征变量。另外,针对现有研究普遍受限于数据维度较低从而导致数据的特征表达能力不足,影响模型对信息学习的效果,因此结合事故要素构造部分0-1变量以提升数据维度,增强样本数据的特征表达能力,使模型可以更好地学习有效信息,在更细粒度的层面上提取样本特征。在以上工作的基础上,采用斯皮尔曼方法对全部特征变量与预测结果进行相关性分析,结果表明,在0.05级别下,每个特征变量与预测结果之间的Sig.(双尾)值均小于0.05,表明各特征变量与事故严重程度之间呈显著性关联。
因变量为事故严重程度,原数据集中将事故严重程度分为亡人事故、重大事故以及轻微事故,考虑到现阶段中国道路交通事故普遍较为严重且致死率较高这一特点,并结合各国对于“交通事故导致的死亡是不可接受的”这一交通安全愿景的追求,根据是否有交通参与者在事故中受到导致死亡或需住院治疗的伤害,在样本数据中将亡人事故和重大事故划分为严重事故,轻微事故划分为非严重事故,并对选取的变量进行量化,最终自变量见表1。
表1自变量列表
Tab.1Argument list
表1(续)
1.2.3 缺失值处理
经分析,整体数据中变量driver_age_max存在10%的数据缺失,若直接删除缺失样本可能对数据整体结构造成影响,因此根据该变量的正态分布特性对缺失值随机做插补,使得填补前后数据均沿正态分布趋势线两侧分布,数据分布形式保持一致,如图1所示。其他变量数据缺失的现象较少,对研究精度影响较小,可将该条数据样本直接删除。
图1填补前后变量分布形式
Fig.1Fill before and after variable distribution form
经缺失值处理后,得到有效样本2 022条,其中非严重事故编码为1,包含样本1 713条,占比84.7%;严重事故编码为2,包含样本309条,占比15.3%。
2 改进的模糊宽度学习系统
2.1 BLS简介
宽度学习系统(broad learning system,BLS)是一种单层增量式神经网络,网络构建基于随机向量函数链接神经网络(RVFLNN)和单层前馈神经网络(SLFNN)。其整体为3层网络结构,隐藏层由特征节点和增强节点两部分组成,与深度学习模型相比,BLS在对特征提取的过程中不依赖于网络层数的增加,且摒弃了梯度更新的方法,而是通过伪逆求取隐藏层到输出层的权重,避免了可能会遇到的陷入局部最优以及梯度消失或爆炸等问题,以上特点极大地提升了网络收敛速度。BLS的结构如图2所示。
图2BLS结构
Fig.2The structure of the BLS
2.2 S-FBLS总体架构
模糊宽度学习系统(fuzzy broad learning system,FBLS)是一种改进的神经网络算法,在保留BLS结构的前提下,用多组Takagi-Sugeno模糊子系统替代BLS的特征节点层以增强网络的特征提取能力,通过k-means算法确定各模糊子系统中模糊规则的个数以及高斯隶属函数的初始中心,并将模糊子系统产生的输出传递至增强节点层,最终的输出由模糊子系统的输出与增强节点组的输出共同构成。在FBLS整体架构的基础上,针对交通事故严重程度类别不平衡的特点,即非严重事故的数量远多于严重事故,在本研究的样本数据中严重事故占样本总体的15.3%,非严重事故占样本总体的84.7%,呈现出明显的不平衡性,为避免原始FBLS对多数类样本可能产生的偏好倾向,降低数据不平衡性对预测结果可靠性的影响,在FBLS的输入层引入SMOTE过采样算法[16-18]改进原始FBLS,将耦合SMOTE过采样算法的FBLS命名为S-FBLS。模型整体结构如图3所示, X∈RN×M为输入矩阵,Y∈RN×C为输出层,其中N为输入矩阵的行,M为输入矩阵的列,C为样本数据标签的类别。
图3S-FBLS结构图
Fig.3The structure of the S-FBLS
SMOTE算法首先选择一个少数类样本x作为主样本,并基于剩余的少数类样本选择主样本的K近邻样本,在K近邻样本中随机产生主近邻样本x′,在主样本x与主近邻样本x′的连线上生成新的少数类样本,算法示意如图4所示。算法流程如下:
步骤1 确定少数类样本的目标规模Q。样本数据中有1 713条非严重事故,309条严重事故,严重事故经SMOTE过采样后的样本规模为Q=1 713。
步骤2 计算样本距离。在由m个特征变量所组成的空间中,从严重事故样本中随机选取某一个样本x,x与剩余n个严重事故样本的距离d(x,xj)可表示为
(1)
式中j∈n,fi与fji分别表示事故样本x与事故样本xj第i个特征变量的数值。
步骤3 合成少数类样本。在步骤2的基础上,通过x的K近邻样本随机产生主近邻样本x′,并根据如下公式合成新的少数类样本xnew,即
(2)
步骤4 重复进行步骤2、3,直至Q=1 713。
经SMOTE过采样,使严重事故和非严重事故具有相同的样本数量,样本总量为3 426条。
图4SMOTE算法示意图
Fig.4The illustration of SMOTE algorithm
为提高S-FBLS的网络鲁棒性和泛化能力,在S-FBLS中采用模糊子系统取代BLS特征节点部分用以微调权重的稀疏自动编码(sparse auto-encoder,SAE)。模糊子系统的具体结构如图5所示。
图5模糊子系统结构
Fig.5The structure of the fuzzy subsystem
在图5中,假设一个S-FBLS有n个模糊子系统和m个增强节点组,输入数据为X=(x1,x2,···,xN)T∈RN×M,样本特征xs=(xs1,xs2,···,xsM),s=1,2,···N。假设第i个模糊子系统中有Ki条模糊规则,如果xs1为Aik1,xs2为Aik2且xsM为AikM,则zisk=fik(xs1,xs2,···,xsM),k=1,2,···Ki,其中zisk为一阶TS模糊系统,可表示为
(3)
式中aikt为由伪逆确定的系数。
τisk为第i个模糊子系统中第k个模糊规则的激活强度,可表示为

(4)
(5)
式中为模糊集的高斯隶属函数;和分别为高斯隶属函数的宽度和中心,通过k-means算法将应用于模糊子系统的训练集,并根据聚类中心完成对高斯隶属函数中心的初始化。
为了广泛提取输入数据所隐藏的特征,定义了一个由第i个模糊子系统中所有模糊规则的输出所构成的向量,并将其汇总为一个值作为该模糊子系统的去模糊化输出,然后将所有模糊子系统的去模糊化输出传递至增强节点层以进行非线性变换。用于第s个训练样本的第i个模糊子系统的输出向量为
(6)
式中为每个模糊规则对应的权重,可表示为
(7)
在样本数据标签为C个类别的情况下,即Y∈RN×C,用于第s个训练样本的第i个模糊子系统的去模糊化输出为
(8)
整体训练样本的第i个模糊子系统的输出为
(9)
将n个模糊子系统的中间输出矩阵表示为Zn,并将Zn传递至增强节点层进行非线形变换。
(10)
假设第j个增强节点组中有Lj个神经元,增强节点层的输出矩阵可表示为
(11)
式中第j个增强节点组的输出矩阵为,ξj为非线性激活函数,模糊子系统的输出Zn由权重Whj和偏置项βhj连接至[0,1]内随机生成的相应增强节点组。
S-FBLS的输出可表示为以下形式:
(12)
与BLS相同,式中WF同样为通过伪逆求取的将隐藏层连接至输出层的权重。
3 模型构建与比较
3.1 基于S-FBLS的十字交叉口事故严重程度预测
3.1.1 评价指标
对于二分类预测,混淆矩阵被广泛用于度量模型的预测效果,如表2所示。矩阵中包含4个参数,分别为真阳性(true positives,TP)、假阳性(false positives,FP)、真阴性(true negatives,TN)、假阴性(false negatives,FN)。
表2事故严重程度预测二分类混淆矩阵
Tab.2Confusion matrix of accident severity prediction
选取准确率(accuracy,ACC)、灵敏度(sensitivity,SEN)、特异度(specificity,SPE)和精确度(precision,PRE)对模型的预测性能进行评价,具体的计算方法定义为
(13)
(14)
(15)
(16)
其中准确率表征模型的整体预测性能,特异度表征模型对于非严重事故预测的准确率,灵敏度表征模型对于严重事故预测的准确率,精确度表征被正确预测的严重事故在所有被预测为严重事故样本中的比例。
3.1.2 S-FBLS预测结果
本研究在Windows10下MATLAB2022a环境中进行编程分析,随机选取样本数据的80%和20%作为训练集和测试集,建立基于S-FBLS的城市道路十字交叉口事故严重程度预测模型。模型构建主要步骤如下:
步骤1 加载样本数据至输入层,将经过SMOTE算法处理后的数据按比例划分训练集与测试集,并作为模糊系统层的输入。
步骤2 对于训练样本(X,Y)∈RN×(M+C),确定模糊规则Ki、模糊子系统n和增强节点组m的数量。
步骤3 初始化函数fik中的系数αikt。
步骤4 对于i=1,···,n,将k-means算法应用于训练样本X以获得Ki聚类中心,并根据所得值完成高斯隶属函数中心的初始化。对于s=1,···,N,计算用于训练样本Xs的第i个模糊子系统的输出向量Zsi与每个模糊子系统的去模糊输出。
步骤5 获得训练样本X的第i个模糊子系统的输出Zi。
步骤6 获得n个模糊子系统的中间输出矩阵Zn,并计算增强节点层的输出矩阵Hm与将Zn和Hm连接到输出层的权重WF。
步骤7 通过WF将Zn与Hm输入至S-FBLS的顶层,得到S-FBLS的最终输出。
步骤8 输入预测数据至训练完成的S-FBLS中,得到预测值。
模型的主要参数为模糊规则Nr、模糊子系统Nf以及增强节点组Ne,在保证模型不出现过拟合的前提下,当Nr=512,Nf=1,Ne=93时模型在实验环境下取得最优的整体表现,训练时间为0.4 s,且测试集与训练集的SPE、SEN、PRE、ACC均处于同一水平,模型表现出了理想的拟合效果与泛化能力,训练结果如表3所示。
表3模型训练结果
Tab.3Model training results
此时,模型在测试集的整体准确率为87.05%,精确度为85.22%,对严重事故的预测准确率为89.47%,对非严重事故的预测准确率为84.66%,整体准确率高于现有研究先进水平,表明了S-FBLS对交叉口事故严重程度预测的有效性。测试集混淆矩阵见表4所示,输出结果如图6所示。
表4S-FBLS测试集混淆矩阵
Tab.4Confusion matrix of S-FBLS prediction set
图6S-FBLS预测结果
Fig.6S-FBLS prediction results
在此基础上,固定Nf=1,以Nr=512且Ne=93为中心评估网络对Nr与Ne数量变化的敏感性,结果如图7所示。当Nr与Ne分别满足Nr∈[507,517]与Ne∈[88,98]时,整体准确率的波动区间为[80.03%,87.05%],且达到82%以上整体准确率的样本占总体的84%,网络显示出了良好的稳定性。
图7S-FBLS稳定性测试
Fig.7Stability test of S-FBLS
3.2 模型对比分析
在验证S-FBLS对交叉口事故严重程度预测具有有效性的基础上,分别在横向和纵向的维度上综合对比S-FBLS与不同模型之间的预测效果,进一步验证S-FBLS的优越性。在模型对比分析的过程中,同样随机选取样本数据的80%与20%作为训练集与测试集,并控制实验环境与S-FBLS保持一致。
在横向上,选取原始FBLS作为对比模型,并将预测结果与S-FBLS进行综合比对,见表5。结果表明,原始FBLS虽然取得了78.91%整体准确率,达到了现有研究先进水平,但对于少数类样本即严重事故的预测准确率仅为36.60%,被正确预测为严重事故的样本仅占所有被预测为严重事故样本总体的30%,使模型78.91%的整体准确率表现出了强不可靠性。S-FBLS在原始FBLS的基础上极大地提升了灵敏度与精确度,提升幅度分别为52.87%与55.22%,将模型对严重事故的预测精度提升至与非严重事故同一水平,消除了原始模型在预测过程中对非严重事故的偏好倾向,极大增强了模型输出的可靠性。
表5横向对比
Tab.5Horizontal comparison
在纵向上,选用随机森林(RF)、支持向量机(SVM)、BP神经网络(BPNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)5种传统机器学习与深度学习领域较为成熟的模型对样本数据进行预测,并将预测结果与S-FBLS进行综合比对,见表6。结果表明,5种对比模型的整体准确率均高于75%现有研究先进水平,但基于S-FBLS的方法仍全面提升了预测性能,并大幅度降低了训练耗时,相较LSTM与CNN两种深度学习模型,S-FBLS提升网络训练速度99%以上,在对城市道路交叉口事故严重程度的预测中表现出了较为明显的优越性。
表6纵向对比
Tab.6Vertical comparison
4 结论
本文首次在交通安全领域以FBLS为框架进行交通事故严重程度预测,同时通过SMOTE算法对模型整体架构进行改进,提出了一种基于S-FBLS的城市道路交叉口事故严重程度预测方法,并在横向和纵向两个维度上分别验证该方法的性能,主要结论如下:
1)通过在原始FBLS的输入层添加SMOTE算法,使模型对严重事故的预测准确率由36.60%提升至89.47%,回归至与非严重事故相同的水平,保证了模型输出结果的可靠性。
2)S-FBLS的整体预测准确率达到了87.05%,高于现有研究先进水平,并相较5种传统机器学习与深度学习模型分别提升2.2%、8.95%、8.68%、6.47%、5.64%,验证了该方法在交叉口事故严重程度预测中的有效性和优越性。
3)S-FBLS大幅度降低了训练耗时,克服了传统机器学习与深度学习模型潜在的网络收敛缓慢缺陷。
4)相较于特异度,S-FBLS取得了更高的灵敏度,并显著高于5种传统机器学习与深度学习模型,表明S-FBLS对严重事故具有更强的特征提取能力。考虑到在实际的事故预防与决策支持系统的构建中人们对非严重事故的预测结果往往较为包容,而对严重事故的预测结果更为看重,因此,S-FBLS所表现出的这一特性在工程实际中具有广泛的实用空间。

