時間:2022年03月16日 分類:電子論文 次數:
摘要利用深度強化學習技術實現無信號燈交叉路口車輛控制是智能交通領域的研究熱點。現有研究存在無法適應自動駕駛車輛數量動態變化、訓練收斂慢、訓練結果只能達到局部最優等問題。文中研究在無信號燈交叉路口,自動駕駛車輛如何利用分布式深度強化方法來提升路口的通行效率。首先,提出了一種高效的獎勵函數,將分布式強化學習算法應用到無信號燈交叉路口場景中,使得車輛即使無法獲取整個交叉路口的狀態信息,只依賴局部信息也能有效提升交叉路口的通行效率。然后,針對開放交叉路口場景中強化學習方法訓練效率低的問題,使用了遷移學習的方法,將封閉的8字型場景中訓練好的策略作為暖啟動,在無信號燈交叉路口場景繼續訓練,提升了訓練效率。最后,提出了一種可以適應所有自動駕駛車輛比例的策略,此策略在任意比例自動駕駛車輛的場景中均可提升交叉路口的通行效率。在仿真平臺Flow上對TD3強化學習算法進行了驗證,實驗結果表明,改進后的算法訓練收斂快,能適應自動駕駛車輛比例的動態變化,能有效提升路口的通行效率。
關鍵詞:自動駕駛;無信號燈交叉路口;深度強化學習;V2X
1引言
無信號燈交叉路口場景下車輛的調度是自動駕駛領域最困難的任務之一,也是本文研究的主題。早期關于無信號交叉路口自動駕駛車輛的通行策略方面的研究使用的是基于規則的方法。基于規則的決策方法中基于用戶體驗、交通規則等建立規則庫,自動駕駛車輛根據所處環境選擇最優行為策略[1]。Lv等[2]提出了一種基于順序選擇的調度機制,為每輛即將到達十字路口的車輛規劃路口通行方案,提升了路口的通行效率。
Rios-Torres等[3]將車輛在路口的通行問題建模為無約束最優控制問題,并利用哈密爾頓分析推導出解決方案,該方案降低了油耗,減少了車輛平均行駛時間。Wang等[4]提出了基于分布式共識的協議來解決不同方向車輛匯流的問題,減少了車輛平均行駛時間、能耗和污染物排放,并保證了行車安全。然而,基于規則的方法高度依賴于對車輛和地圖、障礙物等環境的精確建模,無法應用到高度復雜和動態的駕駛環境中[5-6]。
深度強化學習利用深度神經網絡作為策略函數逼近器,在部署過程中需要的計算時間很少,在解決決策問題時具有天然優勢[7]。強化學習已被用于處理交叉路口自動駕駛車輛的通行問題。文獻[8-9]使用了分布式自動駕駛車輛在十字路口基于深度Q網絡(DeepQNetwork,DQN)的導航策略,可以避免碰撞,提升了通行成功率。然而,DQN只能處理離散低維動作的控制,而自動駕駛車輛的控制是連續高維動作空間問題,需要輸出連續的方向盤轉角值和加速度值,DQN無法解決[10]。
文獻[11]建立了基于DDPG(DeepDetermi-nisticPolicyGradient)深度強化學習算法的端到端無人駕駛決策控制模型,在TORCS平臺上通過輸入連續的車輛行駛環境感知信息,決策控制模型直接輸出加速、剎車、轉向等駕駛動作,實現了端到端無人駕駛決策。文獻[12]針對DRL算法的無約束探索導致的不安全問題,提出了動作約束安全強化學習方法,此方法在智能體執行決策時針對不安全問題進行了有效的約束,提升了智能體完成任務的成功率。
多自動駕駛車輛環境的強化學習方法研究中,現有的強化學習方法可以分為集中式強化學習[13]和分布式強化學習[14]。集中式強化學習場景下,所有智能體采用聯合狀態和聯合獎勵,集中控制設備對所有智能體進行聯合控制,文獻[15]在有少量自動駕駛車輛和人類駕駛車輛的混合交通流場景中,使用了集中式強化學習的訓練方法,以提升所有車輛在環形道路上行駛的平穩性。
然而,由于聯合狀態和聯合獎勵的維度會隨著智能體數量的增加而增加,因此集中式強化學習控制方法存在訓練難度大、對實時通信要求高等缺點。分布式強化學習采用了集中式訓練,分布式執行的方法獨立采集數據,所有智能體將采集到的數據收集到經驗緩沖區統一進行訓練,得到最終策略。由于每個智能體都使用局部狀態進行獨立決策,因此分布式強化學習方法具有可拓展性強、通信成本低的優點。文獻[16]在混合自主環境下使用了一種完全分布式的強化學習方法來控制自主駕駛車輛,提升了瓶頸路口的吞吐量。
文獻[17]將混合交通高速公路入口匝道合并問題描述為一個多智能體強化學習(Multi-AgentReinforcementLearning,MARL)問題,匯流和直行車道上的自動駕駛車輛共同學習一個策略,使交通吞吐量最大化。文獻[18]利用近端策略優化(ProximalPolicyOptimization,PPO)算法來解決自動駕駛車輛在無信號燈交叉路口的通行問題,提升了路口車輛的平均速度。現有的無信號燈交叉路口強化學習算法存在以下缺陷:
1)對無信號燈交叉路口建模理想化,例如文獻[18]中車輛做決策時只考慮前后車和自身的狀態,使所有車輛只能直行;2)獎勵函數設計困難,單一的獎勵函數經常會使訓練陷入局部最優,訓練后達不到預期的效果。本文的主要工作如下:(1)將混合交通流無信號燈交叉路口自動駕駛車輛的通行問題轉化為一個分布式強化學習問題,設計了一種混合獎勵函數,有效提升了路口吞吐量。
(2)為了解決自動駕駛車輛數量動態變化的問題,本文將自動駕駛車輛比例參數化,訓練得到的車輛控制策略能適應不同比例自動駕駛車輛的混合交通流場景。(3)使用了遷移學習的方法,將封閉網絡中訓練的分布式強化學習策略遷移到開放交叉口網絡中,提升了訓練效率。
2系統模型
本研究考慮無信號燈交叉路口混合交通流場景,首先構建了一個4向交叉路口,然后給出了自動駕駛車輛及人類駕駛車輛的動力學模型,自動駕駛車輛使用強化學習訓練得到策略控制車輛加速度。
在本場景中,每輛自動駕駛車輛都配備有傳感設備,并具有短距離通信能力。假設自動駕駛車輛可以通過無線通信、激光雷達等方式獲取感知區域內最近的9輛車的狀態信息。狀態信息包括車道、絕對位置、轉向信息和行駛速度。紅色車輛代表自動駕駛車輛,藍色車輛代表自動駕駛車輛感知范圍內的車輛,白色車輛代表人類駕駛的車輛。
本文使用智能駕駛員模型(IntelligentDriverModel,IDM)[19]模擬人類駕駛車輛的縱向動力學,該模型假設車輛在限速條件下以最大速度駕駛,同時與前車保持至少1s的制動時間車頭間距。
本文研究混合自主交通:同時存在自主駕駛車輛和人類駕駛車輛時,自動駕駛車輛如何優化交通系統。在開放交叉路口,一個好的控制策略應該是在固定的時間間隔內最大化通過交叉口的車輛總數。因此將文獻[20]中的Outflow作為性能指標,Outflow表示每小時離開路口的車輛數量。
3基于TD3的強化學習控制策略
本節主要介紹深度強化學習方法的實現。首先將無信號燈交叉路口的通行問題公式化為部分可觀測的馬爾可夫決策過程(PartiallyObservableMarkovDecisionProcess,POMDP),然后介紹TD3強化學習算法,最后構建狀態空間。動作空間和獎勵函數求解公式化后的馬爾可夫決策過程。分布式強化學習訓練時,每輛自動駕駛車輛作為一個智能體獨立采集數據,所有智能體將采集到的數據收集到經驗緩沖區統一進行訓練,得到最終策略。
由于智能體執行決策時只需要獲取局部狀態信息,所有智能體并行決策,因此稱此策略為分布式駕駛策略。本節主要闡述了如何將分布式深度強化學習算法應用到路口車輛控制問題中,并且給出了算法的具體定義及網絡結構。針對強化學習算法的3要素,即狀態空間、動作空間和獎勵函數進行了定義。
遷移學習技術提供了利用從訓練一項任務中獲得的經驗來改進另一項任務的訓練方法。強化學習中,常見的遷移學習方式包括共享策略參數θ和狀態動作對〈s,a,r,s′〉。開放道路車輛數量高度動態變化,訓練效率低。封閉道路中車輛環境相對穩定,訓練效率更高。此外,封閉道路中車輛數量固定,從而避免了自動駕駛車輛通過控制道路上的車輛數量來增加獎勵。本文研究了在封閉道路上訓練得到的控制策略能否通過遷移和微調的方式應用到開放網絡環境中。
4實驗結果與分析
本節首先介紹實驗的仿真環境和相關參數設置,然后在Flow框架[21]中對每個配置執行3次訓練策略,選擇訓練得到獎勵最高的策略,并使用100個隨機種子在100次仿真中評估其性能,記錄相關指標的平均值。
4.1仿真環境與參數設置
實驗在開源框架Flow進行,Flow提供了分布式強化學習庫(RLlib)[22]和微觀交通仿真器(SUMO)[23]之間的接口。在Flow中可以通過SUMO創建各種交通場景,然后利用RLlib提供的強化學習算法為自動駕駛車輛、智能交通燈等訓練生成控制策略。本文以IntelCorei7-8700CPU作為硬件環境,所有實驗都使用TD3算法用相同的參數集進行訓練。各項任務都以回合制方式進行訓練,一個回合2000個時隙,每個時隙長為0.5s。
4.2算法性能分析
為了驗證本文所使用的深度強化學習策略在車輛控制上應用的有效性,本文分別將混合獎勵函數與目前常用的獎勵函數、遷移學習與未使用遷移學習的訓練方式、通用策略與定制策略進行了性能對比。
4.2.1獎勵函數的比較
這里將本文提出的混合獎勵函數與目前常用的兩種獎勵函數在不同的自動駕駛車輛比例下進行了性能比較。在分布式策略中,主要考慮了自動駕駛車輛對路口吞吐量性能的影響,可以看到,滲透率分別為10%,20%,30%,…,100%,與純人類駕駛車輛相比,路口的通行效率都有顯著提升,這證明了訓練得到的控制策略在提高交通效率方面的有效性。
深度學習論文發表知識:人工智能深度學習類論文容易發表嗎
5、結束語
本文研究了無信號燈交叉路口自動駕駛車輛強化學習控制策略,并提出了一個多目標獎勵函數,它不僅鼓勵自主車輛盡快到達交叉路口的終點,而且鼓勵車輛提高交叉口的整體通行效率。實驗結果表明,使用強化學習方法訓練得到的駕駛策略,在平均速度、吞吐量方面相比純人類駕駛車輛都有明顯提升。
針對單一滲透率環境下訓練出的策略無法適用于滲透率動態變化的環境的問題,本文研究提出了一種能適應不同自動駕駛車輛滲透率的通用控制策略,節省了訓練時間和計算開銷。本文進一步研究了密度相近時封閉場景中生成的控制器可以轉移到開放網絡中,并且發現,即使在兩個網絡中使用不同的獎勵函數,遷移學習也可以節省大量的訓練時間。
本文通過仿真實驗結果證明,當自主車輛的普及率相對較低時,交叉路口的交通擁堵也可以得到緩解。然而,仍然有一些問題沒有解決。自主車輛的協同問題是一個典型的多智能體任務。在本文中,使用的是單智能體算法,它不能連接多個代理的動作。下一步的工作是將多智能體強化學習算法應用到車輛控制器中。本文研究只考慮了單車道場景,決策中沒有加入換道動作,在下一步的工作中,將考慮在多車道交叉口增加車輛換道動作,并聯合控制橫向和縱向動作,以提高交叉口吞吐量。
參考文獻:
[1]MAM,LIZ.Atime-independenttrajectoryoptimizationap-proachforconnectedandauto-nomousvehiclesunderreserva-tion-basedinte-rsectioncontrol[J].TransportationResearchIn-terdisciplinaryPerspectives,2021,9(5):100312.
[2]LVP,HEYB,XUJ.AnImprovedTrustEvaluationModelBasedonBayesianforWSNs[J].ActaElectronicaSinica,2021,49(5):912-919.
[3]RIOS-TORRESJ,MALIKOPOULOSAA.AutomatedandCooperativeVehicleMergingatHighwayOn-Ramps[J].IEEETransactionsonIntelligentTransportationSystems,2016,18(4):1-10.
[4]WANGZ,KIMBG,KOBAYASHIH,etal.Agent-BasedMo-delingandSimulationofConnectedandAutomatedVehiclesUsingGameEngine:ACooperativeOn-RampMergingStudy[J].arXiv:1810.09952,2018.
[5]MAITLANDA,MCPHEEJ.Quasi-translationsforfasthybridnonlinearmodelpredictivecontrol[J].ControlEngineeringPractice,2020,97(4):104352.1-104352.9.
[6]DINGJ,LIL,PENGH,etal.ARule-BasedCooperativeMer-gingStrategyforConnectedandAutomatedVehicles[J].IEEETransactionsonIntelligentTransportationSystems,2020,21(8):3436-3446.
[7]XIONGL,KANGYC,ZHANGPZ,etal.Researchonbeha-viordecision-makingsystemforunmannedvehicle[J].Automo-bileTechnology,2018,515(8):1-9.
作者:歐陽卓1周思源1,2呂勇1譚國平1,2張悅1項亮亮1