国产无遮挡18禁网站免费,秋霞鲁丝片无码一区二区,国产福利自产拍,国产精品亚洲a∨天堂,国产精品亚洲a∨天堂

  • 網(wǎng)站首頁
  • 產(chǎn)品系列
  • 軟件系統(tǒng)
  • 應用案例
  • 解決方案
  • 新聞資訊
  • 關于我們
  • 二維碼

    公眾號

  • 全國服務熱線

    13739293533

    • 聯(lián)系人:肖老師

    • 電 話:13739293533

    • 郵 箱:[email protected]

    • 地 址:安徽省合肥市高新區(qū)科學大道53號高科光谷1棟

    關閉

    解決方案

    COOPERATION CASES

    基于多模態(tài)深度強化學習的端到端無人車運動規(guī)劃
    發(fā)布時間:2025-08-14 瀏覽:222次

    0   引言

    隨著機器人技術的發(fā)展不斷推進,使得機器人能夠執(zhí)行越來越復雜的任務,包括無人車的運動規(guī)劃任務。無人車具有多種應用,如物流輸送、地質(zhì)勘探、無人駕駛車輛、軍事偵察等領域。然而,要在復雜的、不平整的地形上實現(xiàn)可靠的運動仍然是一個挑戰(zhàn)。近年來,隨著深度學習技術的發(fā)展,許多研究集中于學習機器人如何在不同的環(huán)境中導航,例如在城市環(huán)境下的駕駛[1-3]、在野外環(huán)境下的路徑規(guī)劃[4]、在復雜環(huán)境進行勘探任務[5-8]等。

    經(jīng)研究人類行走時的眼球運動,文獻[9]指出,人類在適應環(huán)境特征時高度依賴身體和眼睛的協(xié)調(diào),其目光也隨之變化。這一發(fā)現(xiàn)引發(fā)了使用視覺感官輸入改善機器人在不平坦地形上行動的想法。雖然機器人在沒有視覺信息的情況下仍能行動于不平坦的地形,但其無法避開大型障礙物。因此,智能體需要感知遠距離障礙物,并動態(tài)地調(diào)整其運動軌跡以避免碰撞。隨后,學者們開始探究將視覺信息引入各種算法以解決機器人運動規(guī)劃問題的方法。

    1 相關工作

    文獻[10-11]使用卷積神經(jīng)網(wǎng)絡(convolutionalneural network, CNN)將圖像輸入映射到狀態(tài)空間,從而解決了機器人任務中的視覺感知問題,但需要大量的標記數(shù)據(jù)才能進行訓練,并且這些數(shù)據(jù)必須具有較高的質(zhì)量。文獻[12-13]提出了一種利用自我監(jiān)督學習(self-supervised learning)來學習機器人控制的方法,但是這種方法需要額外的預訓練過程,且訓練過程較為復雜。元學習是一種解決新任務的機器學習方法,文獻[14]采用基于元學習的方法優(yōu)化機器人路徑規(guī)劃和導航避障的性能,且可以有效減少過度擬合和樣本效率低的問題。但是,元學習需要大量的計算資源和算法調(diào)試,且在不同的任務和場景下表現(xiàn)不一定理想。文獻[15]將近距離圖和動態(tài)窗口方法結合起來,利用兩種方法的優(yōu)勢和特性,集成了無縫的定位技術。但這種結合算法會增加算法復雜度,導致實時性受到影響且環(huán)境的精細程度要求較高。

    還有一些學者研究了將多種模態(tài)輸入結合使用的方法。文獻[16]使用了感覺輸入、視覺輸入和力輸入等多種信息解決機器人操控問題,但這種方法需要對模態(tài)之間的關系進行建模,增加了研究難度。文獻[17]將本體感狀態(tài)和激光雷達輸入相結合, 使用多層感知器(multi-layer perceptron,MLP)學習機器人的運動。文獻[18]將指尖觸覺感應、關節(jié)扭矩和本體感覺進行堆疊作為輸入,結合強化學習實現(xiàn)了手指抓握,但沒考慮到各模態(tài)之間的相關性。文獻[19]將GPS 和IMU 數(shù)據(jù)進行對齊和融合,輸出無人車的舵機數(shù)據(jù),但該方法泛化性不足,只適用簡單環(huán)境。文獻[20]采用了深度神經(jīng)網(wǎng)絡和多模態(tài)傳感器融合,以實現(xiàn)無人車的端到端控制。這項工作成功地整合了來自攝像頭、激光雷達和GPS 傳感器的信息,為無人車在城市環(huán)境中的導航提供了強大的能力。文獻[21]利用分層強化學習(hierarchical reinforcement learning,HRL)來解決機器人運動控制問題,同時將高層策略和低層動作結合起來進行學習,但分層強化學習這種方法需要設計多個層級,并且需要手動指定層級之間的聯(lián)系,訓練過程更為復雜。

    總的來說,研究人員正在探索各種方法來改進機器人的運動技能,包括深度強化學習、多傳感器數(shù)據(jù)融合和不同的學習算法。這些方法都有其優(yōu)點和局限性,需要根據(jù)具體應用情況來選擇最合適的方法。

    為了解決上述算法中調(diào)參復雜、算法復雜度高、泛化能力不足等問題,本文在多模態(tài)信息融合的基礎上進行優(yōu)化設計,提出了一種端到端運動學習策略。該策略基于多模態(tài)深度強化學習,融合視覺信息和本體感知狀態(tài),并在深度強化學習PPO 算法的基礎上充分考慮了機器人避障和運動效率等多方面因素,在圖1 所示的不同模擬環(huán)境進行訓練,旨在提高移動機器人的導航成功率。通過在大量場景中學習最佳狀態(tài)-動作映射網(wǎng)絡,并設計合理的獎勵函數(shù)和網(wǎng)絡結構,在仿真平臺Gym上進行了相關仿真實驗,本文方法的實驗結果表現(xiàn)突出,取得了顯著的成效。本文創(chuàng)新點包括:

    (1) 提出了一種設計合理的觀測狀態(tài)空間與環(huán)境交互機制的多模態(tài)Transformer 融合模型——TransProAct。

    (2) 將深度強化學習算法模型融入總體導航框架,與多模態(tài)Transformer 模型、視覺信息、本體感知狀態(tài)、仿真平臺相互配合,有助于復雜場景下的導航避障。

    (3) 將基于視覺的深度強化學習策略應用于無人車,使其在野外環(huán)境中避障礙物且應對起伏不平的地面。

    (4) 將多模態(tài)延遲隨機化引入模型解決模擬和現(xiàn)實世界的差異。


    image.png

    圖1  模擬環(huán)境總覽

    2 基于多模態(tài)深度強化學習的運動規(guī)劃

    2.1 問題描述

    對機器人在復雜環(huán)境中導航時,面臨著諸多挑戰(zhàn),例如狹窄的通道、障礙物以及不可預測的環(huán)境變化等。為了實現(xiàn)快速、準確地到達局部目標點,本文設計了一種基于多模態(tài)深度強化學習的端到端運動規(guī)劃策略。

    該策略將多模態(tài)Transformer 模型、視覺深度信息、本體感知狀態(tài)、仿真平臺和深度強化學習相互配合,如圖2 所示。本文選用了一個能夠模擬復雜環(huán)境的仿真平臺——Gym,機器人在該平臺中能夠以實體的形式存在。該仿真平臺能夠?qū)崟r提供機器人在當前位置所采集到的深度圖像,并實時檢測機器人是否發(fā)生碰撞等。對于每一個導航目標任務,仿真平臺會給定機器人的初始位置和機器人距離全局目標點的相對位置。為了確保運動規(guī)劃的穩(wěn)定性,本文在訓練智能體時引入了經(jīng)驗回放機制和探索策略。

    本文運動規(guī)劃策略的視覺信息輸入為當前時刻的深度圖信息,本體感知信息包括當前機器人的相對位置、旋轉(zhuǎn)、速度和方向信息等。輸出是機器人當前時刻所采取的動作的概率分布。該策略有兩個訓練目標:①運動任務(用于平坦地形),該任務主要是測試機器人的避障能力,機器人需要向前運動并避免發(fā)生碰撞,直到機器人行動步數(shù)達到步數(shù)限制。②目標任務(用于野外環(huán)境),測試機器人在復雜環(huán)境的泛化能力和目標跟蹤能力,機器人需要在安全行駛的同時并采取盡量少的動作運動到目標點。如果機器人在運動過程中翻車或處于不安全狀態(tài),則認為本次運動任務失敗。

    image.png

    圖2  總體規(guī)劃架構

    2.2 Transfomer基本模型

    Transformer 是一種基于Attention 機制的模型,最早由谷歌提出,起源于論文Attention is all youneed[19]。相比傳統(tǒng)的RNN、CNN 模型,Transformer 模型拋棄了序列模型的限制,只使用了Attention 機制,極大地提升了模型的并行計算能力和訓練效率。由于其出色的表現(xiàn),Transformer 模型已經(jīng)廣泛應用于自然語言處理領域,例如機器翻譯、文本識別和問答模型等。其特點在于encoder-decoder 架構,其中encoder 層可以并行計算,大大減少了訓練時間。

    本文在Transformer 架構的基礎上處理多模態(tài)信息的融合,將深度圖像和本體感知狀態(tài)信息作為兩個不同的輸入序列,采用了self-attention 機制來捕捉輸入序列中不同位置之間的依賴關系,從而更好地解決了長期依賴問題。

    2.3 強化學習基本模型

    強化學習自提出以來就受到了國內(nèi)外學者的廣泛關注,相關理論和應用研究都得到了不同程度的發(fā)展。由于其“交互式學習”和“試錯學習”的特點,強化學習適用于很多問題的決策,已成為機器人控制領域的研究熱點,包括本文所研究的運動規(guī)劃任務。

    絕大部分強化學習過程可以用馬爾可夫決策過程描述,機器人與環(huán)境之間的相互作用建模為MDP( 馬爾可夫決策過程)(S,A,P,R,H),S為狀態(tài),A為動作,P(s'|s,a)為轉(zhuǎn)移函數(shù),R為獎勵函數(shù),H為有限集域,γ 為折現(xiàn)因子。Agent 學習由θ 參數(shù)化的一項策略πθ,輸出以當前狀態(tài)為條件的動作分布。Agent 的目標是學習折扣回報最大化的θ:

    image.png

    其中R 為時間步長t 的報酬,τ~pθ (τ)為軌跡。

    3 多模態(tài)Transformer融合方法

    本文提出了一種全新的多模態(tài)Transformer 融合模型——TransProAct,該模型融合本體感知狀態(tài)和視覺信息,用于無人車運動規(guī)劃任務。其中,視覺信息輸入為4 幀的深度信息,形狀為(64,64,4)。本體感知狀態(tài)輸入是一個49-D 的矢量,包括機器人的轉(zhuǎn)向、速度、相對位置和IMU讀數(shù)等。為了促進融合這兩種模式的領域特定特征,本文分別對本體感知狀態(tài)信息和視覺信息使用兩種獨立的編碼器,并在潛在空間中統(tǒng)一表示。圖3 為該模型的網(wǎng)絡框架圖。模型包含兩個部分:

    (1) 針對本體感知狀態(tài)和視覺信息,設計兩個獨立模態(tài)編碼器,并將兩種模態(tài)投影到一個潛在特征空間中。

    (2) 一個共享的Transformer 編碼器,對本體感知特征和視覺特征進行跨模態(tài)自我注意力,以及對視覺標記進行空間注意力,以預測動作。

    3.1 獨立模態(tài)編碼器

    本文引入兩個獨立編碼器來預處理視覺信息和本體感知狀態(tài)信息

    image.png

    圖3 TransProAct 網(wǎng)絡框架

    在給定ConvNet 編碼器中, 有一個形狀為C×N×N 的空間視覺特征,其中C為通道號,N為寬度和高度。將這些空間特征分割為N×N個不同的c 維標記嵌入(圖3 中用黃色標記表示),每個標記對應一個局部可視區(qū)域。使用線性層將本體感知狀態(tài)的特征投射到tprop的c 維標記中(圖3 所示為綠色部分)??偣灿蠳×N+1個標記,通過式(1)~(2)獲得:

    image.png

    式中:Wprop 和bprop 分別為本體感知標記線性投影的權重和偏差;T0 為輸入標記的序列,ti,jvisual為視覺特征Ei,jvisual 在空間位置(i,j)的標記。接下來,用Tm ∈ R(N2 + 1)×C表示經(jīng)過m 層Transformer 編碼器后的標記序列。

    3.2 Transformer編碼器

    本文引入了一個共享的Transformer編碼器,利用Transformer中的自注意力機制(self-attention, SA)融合預處理后的視覺信息標記和本體感知狀態(tài)標記。

    在Transformer 中,SA是一種經(jīng)過縮放的點積注意力機制。其關鍵在于允許模型自動分配注意力到輸入序列的不同部分,從而更有效地融合多模態(tài)信息。這意味著模型能夠根據(jù)輸入內(nèi)容的不同動態(tài)地調(diào)整對各部分的關注程度,從而提高了信息融合的效率和準確性。這個特性在處理多模態(tài)數(shù)據(jù),如視覺和本體感知數(shù)據(jù)時尤為有用,因為它有助于模型更好地理解和利用不同模態(tài)數(shù)據(jù)之間的關聯(lián),從而提高多模態(tài)信息融合的效果。

    SA機制首先對每個輸入標記T進行單獨的線性變換,然后計算輸入標記的加權和,并通過Softmax 操作進行歸一化。權重Wsum和值Tv之間進行矩陣乘法后,將結果轉(zhuǎn)發(fā)到具有參數(shù)USA的線性層,并將其表示為輸出SA(T)。具體過程為

    image.png

                                                                                                                                                                               image.png 

    式中:D為自我注意層的維度。

    每個Transformer 編碼器層有4 個主要組成部分: 1 個自注意力層、2 個具有殘差連接的LayerNorm 層和1 個兩層MLP。其中,自注意力層實現(xiàn)了規(guī)?;狞c積注意機制。這些編碼器層能夠?qū)W習到輸入數(shù)據(jù)中的相關性和重要性,并將多模態(tài)信息融合在一起,如圖3(右下)所示。

    最后通過堆疊L 個Transformer 編碼器層來實現(xiàn)多層自我注意,使得模型可以在多個抽象層次上融合這兩種模態(tài)的特征。此外, 基于Transformer 的融合方法可以用于空間推理,因為每個視覺標記都具有獨立的區(qū)域感受野。自注意力機制使得智能體能夠明確關注相關的視覺區(qū)域。然而,對于模態(tài)級融合,直接在所有標記上應用池化操作會導致本體感知信息的稀釋,因為視覺標記的數(shù)量遠遠超過本體感知標記的數(shù)量,為了平衡這兩種模態(tài)的信息,本文首先分別存儲每個模態(tài)的信息,計算來自同一模態(tài)的所有標記的平均值,以獲得單個特征向量,然后將兩種模態(tài)的特征向量拼接起來,使用MLP 將連接的向量投影到最終的輸出向量中。

    4 深度強化學習算法

    4.1 PPO算法

    PPO(proximal policy optimization)算法是一種基于策略梯度的算法,其采用了Actor-Critic 架構,并集成了雙網(wǎng)絡的算法結構, 例如DQN[22] 和DDPG[23]算法。相比其他算法,PPO算法更適合解決連續(xù)空間動作下的問題,并具有收斂速度快、樣本效率高等優(yōu)點。

    PPO 算法已在工程應用中得到廣泛應用。包括:自動駕駛汽車,使車輛能夠在城市交通中智能駕駛;機器人控制領域,協(xié)助機械臂執(zhí)行復雜任務;電子游戲開發(fā),改進虛擬角色的智能行為;金融交易,自動優(yōu)化投資決策。PPO 通過其近端策略優(yōu)化方法,提高了學習的穩(wěn)定性和樣本效率,因此成為處理各種工程挑戰(zhàn)的強大工具,適用于多個領域,推動了強化學習在實際工程中的廣泛應用。

    本文采用PPO 算法訓練無人車的運動規(guī)劃。針對具體的任務環(huán)境進行了大量的參數(shù)調(diào)整和實驗驗證,以保證算法的有效性和穩(wěn)定性。

    策略網(wǎng)絡負責生成策略,其網(wǎng)絡參數(shù)為θ;價值網(wǎng)絡通過計算優(yōu)勢函數(shù)At 來評估當前策略;ε 為剪切參數(shù),一般為0.1~0.2;πθ (at|st )為待優(yōu)化的網(wǎng)絡策略;πθold (at|st ) 為當前收集數(shù)據(jù)的舊策略網(wǎng)絡。更新過程中,PPO算法利用式 (7) 中的剪切函數(shù)來限制策略的更新幅度。

    image.png

    當新舊策略之間的偏移量過大時,使用剪切項來代替,可以確保新舊策略的差異不會太大, 從而使Actor 網(wǎng)絡可以以相對平穩(wěn)的方式進行更新,提高算法的收斂速度。同時也有助于減少過擬合的風險,提高算法的泛化能力。策略網(wǎng)絡根據(jù)機器人的當前狀態(tài)輸出動作,當機器人執(zhí)行動作后會進入下一個狀態(tài)并獲得新的獎勵,此為一次完整交互過程,然后不斷將機器人與環(huán)境交互數(shù)據(jù)進行存儲,用于更新策略網(wǎng)絡和價值網(wǎng)絡,獲得相對最優(yōu)的網(wǎng)絡參數(shù)。本文PPO 算法的價值和策略網(wǎng)絡共享圖3 中所用的本體感知狀態(tài)和視覺信息編碼器。

    4.2 獎勵函數(shù)設計

    獎勵函數(shù)的設計是強化學習中很重要的一環(huán),獎勵函數(shù)是連接人與算法的溝通橋梁,獎勵函數(shù)設計的合理性決定了模型是否能夠收斂,所以必須保證獎勵函數(shù)的設計可以使機器人獲得最大化收益的同時也能達到實驗目的。

    4.2.1 主線獎勵

    本文所有實驗使用相同的主線獎勵函數(shù),Rmove 為機器人向前移動的獎勵。在平坦地形中,該獎勵由機器人沿著x 軸的移動速度來定義;在

    山地環(huán)境中,該獎勵由機器人沿著山頂目標方向來定義。Ralive 鼓勵機器人盡可能地活得更久。該獎勵在每個時間步都會給出1.0 的正獎勵,直到機器人終止運行。機器人如果發(fā)生摔倒或撞到障礙物等危險行為,將會終止運行。如式(8)所示:

    R = αmoveRmove + αaliveRalive + Rfall                 (8)

    在本文所有實驗中,αmove = 1,αalive = 0.1,過大或者過小的值會導致仿真實驗中無人車呈現(xiàn)不規(guī)則運動。

    4.2.2 輔助獎勵

    本文同時使用輔助獎勵來解決稀疏獎勵問題:

    Rassit = K × Rsphere + Robs + Rrot                           (9)

    式中:Rsphere 為機器人收集每個球所獲得的獎勵;K為當前時間步收集到的球的數(shù)量;Robs 為機器人在當前時間步觸碰到障礙(obstacle)時獲得的懲罰;Rrot 為機器人在當前時間步的安全狀態(tài),由機器人的旋轉(zhuǎn)矩陣(rotation)所定義。

    5 多模態(tài)延遲與域隨機化

    在真實環(huán)境中,包括各種障礙物、動態(tài)環(huán)境和不平坦地形,部署強化學習策略仍然是一項極具挑戰(zhàn)性的任務。除了仿真和真實世界之間的視覺外觀不一致性,控制流程的延遲對強化學習智能體也是一個嚴重的問題,延遲會導致執(zhí)行不準確、不安全、學習困難、不穩(wěn)定以及策略的不適用等一系列挑戰(zhàn)。本文提出多模態(tài)延遲隨機化(multimodaldelay randomization, MMDR)和域隨機化的方法來解決在訓練強化學習智能體時出現(xiàn)的這個問題。具體而言,即通過使用過去的觀測數(shù)據(jù),以隨機化的時間間隔進行采樣,模擬真實硬件的延遲,包括本體感知和視覺感知。這一方法有助于克服在部署強化學習策略時可能遇到的挑戰(zhàn)。

    5.1 多模態(tài)延遲隨機化

    在多模態(tài)的機器人系統(tǒng)中,當從多個感知模式(如視覺和本體感知)獲取信息時,不同傳感器之間的延遲差異非常大。本文提出一種多模態(tài)延遲隨機化的方法,明確了來自機器人系統(tǒng)不同來源的延遲,如圖4 所示。

    image.png

    圖4 多模態(tài)延遲來源

    為了模擬與真實世界中相同的控制流程,多模態(tài)延遲隨機化提供了在仿真中隨機化延遲和異步的多模態(tài)觀測。本文分別對本體感知狀態(tài)和視覺觀測進行隨機化采樣,這樣可以利用領域特定的特征,并為不同的模態(tài)模擬獨立的延遲。

    為了保持強化學習仿真的準確性,仿真頻率設置為機器人控制頻率的2 倍及以上。該方法在每個仿真步驟中讀取本體感知狀態(tài),并使用一個固定長度的隊列來存儲最近的歷史觀測。本文還假設真實世界中的本體感知狀態(tài)變化平滑。因此,本文對每個回合采樣本體感知延遲,并使用線性插值根據(jù)整個緩沖區(qū)中相鄰兩個狀態(tài)之間的采樣延遲來計算延遲觀測。

    視覺觀測表示為4 個堆疊的深度圖像,以保持時間信息。如果在訓練過程中視覺觀測延遲與本體感知狀態(tài)使用相同的隨機延遲,這樣會導致從一幀到下一幀的過渡不平滑。為了模擬較低頻率下視覺觀測的感知延遲,本文在每個控制步驟中獲取模擬的視覺觀測,并將最近的幀存儲到一個隊列中。如圖5 所示,本文將最近的4k 深度圖作為視覺觀測緩沖區(qū),將整個緩沖區(qū)分成四個子緩沖區(qū),然后從每個子緩沖區(qū)中采樣一個深度圖來創(chuàng)建具有隨機延遲的視覺輸入。

    image.png


    圖5 視覺延遲隨機化

    5.2 域隨機化

    本文在所有實驗中均采用域隨機化技術進行訓練。在訓練過程中,本文不僅對本體感知狀態(tài)進行了域隨機化,還對深度視覺圖像進行了域隨

    機化。如圖6 所示,左側(cè)區(qū)域展示了無人車在當前時間步所處的模擬環(huán)境場景,右側(cè)部分呈現(xiàn)了無人車視覺傳感器所捕捉的深度視覺圖像。在右側(cè)深度視覺圖像中,白色噪點是通過視覺圖像域隨機化引入的噪聲模擬——隨機選取3~30 個數(shù)值作為(64, 64)分辨率深度視覺圖像的輸入?yún)?shù),并將這些輸入?yún)?shù)設置為最大讀數(shù)。這一處理方式,成功地模擬了現(xiàn)實世界中復雜且多變的噪聲信息,使模擬環(huán)境更加貼近真實場景。

    image.png

    圖6 深度圖像域隨機化

    6 仿真分析

    6.1 仿真環(huán)境

    本實驗的仿真環(huán)境是基于PyBullet 的Gym 環(huán)境。Gym仿真平臺具有許多優(yōu)點,例如提供真實感的物理仿真、靈活的機器人控制、可定制的環(huán)境、高效的計算性能以及開放源代碼等。此外,Gym環(huán)境還提供了可視化工具,可以方便地觀察機器人在仿真環(huán)境中的運動軌跡、關節(jié)角度等狀態(tài)信息。

    6.2 仿真結果及分析

    為了驗證在復雜環(huán)境中視覺信息的重要性以及本文Transformer 模型的有效性,本文方法將與以下幾種基線方法進行比較:僅使用本體感知狀態(tài)的狀態(tài)基線State-Only;僅使用視覺觀測的深度基線Depth-Only:使用本體感知狀態(tài)和視覺觀測簡單拼接的State-Depth-Concat 基線,State-Depth-Concat 使用線性投影將視覺特征映射到與本體感知特征相同維度的特征向量,然后將這兩個特征連接起來輸入到值函數(shù)和策略網(wǎng)絡中。此外,本文還引入了文獻[21]的分層強化學習(HRL)基線進行比較。

    本文一共設計了4 個模擬環(huán)境,這些環(huán)境有不同的地形、障礙物以及需要收集的紅色球體。增加紅色球體的目的是以測試機器人是否能夠根據(jù)其外觀區(qū)分物體及其相關功能。在普通環(huán)境中,所有的障礙物和球體都是隨機初始化的,并在整個過程中保持靜態(tài)。環(huán)境包括:①無小球的平坦地形,隨機障礙物。②有小球的平坦地形,隨機障礙物。③無小球的平坦地形,隨機動態(tài)移動障礙物。④野外山嶺環(huán)境,山頂有一個目標點。在圖1中展示了部分環(huán)境。表1為部分訓練參數(shù)的詳細信息。

    image.png

    本文通過平均回合獎勵和2 個特定的評估指標來評估策略:①機器人沿其目標方向移動的距離(單位為m);②每回合與障礙物碰撞的次數(shù)(長度為1 k 步)。

    實驗結果如圖7(a)和表2 所示,與Depth-Only和State-Only 基線相比,本文方法和State-Depth-Concat 基線在僅存在障礙的平坦地形中都表現(xiàn)出色,表明在復雜環(huán)境中使用視覺對于運動有明顯的好處。而當環(huán)境外觀相對簡單時,Depth-Only基線可以在不使用本體感覺狀態(tài)的情況下學習出一個合理的策略。這表明,智能體可以通過視覺觀察推斷出部分本體感覺狀態(tài),從而實現(xiàn)策略學習,因此建模不同模態(tài)之間的相關性和更好的融合技術對于獲得優(yōu)秀的策略至關重要。此外,在這些環(huán)境中,相對簡單的State-Depth-Concat 基線表現(xiàn)與本文的TransProAct模型相當??赡苓@是因為區(qū)分障礙物和平坦地形并不是一個感知上復雜的任務,因此簡單的State-Depth 拼接方式足以用于策略學習。State-Only 基線由于機器人移動太少,無法與障礙物碰撞,無法在整個環(huán)境中推廣,因此無碰撞發(fā)生。與HRL基線模型相比,本文方法在移動距離和碰撞次數(shù)兩個指標優(yōu)于HRL基線8.1%和41.3%。

    圖7(b)為添加紅色小球的環(huán)境平均獎勵數(shù)據(jù)。由實驗過程可以觀察到,在有額外球體的情況下,所有方法的樣本效率都下降了。雖然球體可以提供更高的回報可能性,但是它們增加了兩種復雜性:①球體可能吸引智能體進入容易被卡住的區(qū)域;②盡管球體在物理上不會阻礙智能體,但它們可能會遮擋智能體的視野,并且在深度圖中難以與障礙物區(qū)分開來。隨著環(huán)境復雜度的增加,本文方法始終在最終性能和樣本效率方面優(yōu)于HRL 基線和State-Depth-Concat 基線。表3 記錄了平均移動距離、碰撞次數(shù)和收集球體獲得的獎勵。本文方法獲得較可觀的小球獎勵,移動距離也更長,這表明本文方法更能適應復雜環(huán)境。

    為了評估該方法長期規(guī)劃的能力,本文在一個有移動障礙物的環(huán)境中進行了比較。圖7(c)和表4 顯示State-Only 基線和Depth-Only 基線的性能都很差。當環(huán)境夠復雜時,HRL策略不能有效地融合來自不同模態(tài)的信息。雖然State-Depth-Concat 基線在距離方面表現(xiàn)更好,但它比本文方法有更頻繁的碰撞。這表明State-Depth-Concat 基線無法識別移動的障礙物,而本文方法預測了障礙物的移動,并繞道以避免潛在的碰撞。在這種情況下,本文方法得到的策略在平均回合獎勵方面表現(xiàn)更好,但并沒有更長的移動距離??梢酝茢啵琒tate-Depth-Concat 基線很難跟蹤環(huán)境中障礙物的運動。另一方面,由于Transformer 提供了一種自我注意機制來建模視覺區(qū)域關系,因此使用本文方法更容易學習和預測多個障礙物的運動。

    本文在野外地形評估了所有方法。圖7(d)和表5 顯示了每種方法的訓練曲線和平均移動距離,可以看出,本文方法的結果有很大的提升。State-Depth-Concat基線比Depth-Only基線只有些許的改善。其原因為,用簡單的拼接融合多模態(tài)信息,很容易失去視覺信息的空間結構。而HRL基線在平均移動距離方面表現(xiàn)更好,但它并未獲得更高的回合收益,這表明HRL基線無法有效利用視覺接近目標。本文基于ransformer 的方法可以更好地捕捉空間信息,例如地形的全局和局部特征,并且比簡單的拼接更成功地融合了視覺和本體感覺信息

    image.png


    圖7 評估曲線

    image.png        image.png

    本文進一步評估了該方法的泛化能力,如表6所示。通過把在隨機障礙下訓練好的模型轉(zhuǎn)移到更窄、數(shù)量更多的障礙物環(huán)境中。與State-Depth-Concat 基線和HRL 基線相比, 本文跨模態(tài)Transformer 的方法在更窄、數(shù)量更多的障礙物環(huán)境中碰撞次數(shù)更少且平均移動得更遠。這表明本文的方法在未知環(huán)境中具有更強的泛化能力,能夠快速適應各種未知環(huán)境。

    image.png

    本文進一步在普通環(huán)境(包括靜動態(tài)障礙物、有無小球的平地環(huán)境)和野外(山地)環(huán)境中對本文算法、State-Depth-Concat 和HRL 三種算法的策略函數(shù)(policy function, PF)和價值函數(shù)(value function, VF)的平均損失值進行比較,如圖8 所示。這一步驟旨在深入了解這些算法在不同環(huán)境條件下的性能表現(xiàn)。

    根據(jù)圖8(a)可以觀察到在簡單環(huán)境中,三種算法的PF LOSS呈現(xiàn)出相當大的波動。這表明這些算法在訓練過程中持續(xù)地嘗試新的動作策略。這種探索行為是因為它們試圖找到最優(yōu)的策略以最大化獎勵,但這也導致了訓練過程中的不穩(wěn)定性。另一方面,VF LOSS 相對穩(wěn)定,因為它是通過與環(huán)境的互動來估計值函數(shù)的。這種穩(wěn)定性表明,值函數(shù)的估計受到了相對較少的波動影響,可能是因為值函數(shù)估計是基于與環(huán)境的反饋和獎勵信號進行的,這些信號在簡單環(huán)境中相對一致。

    image.png

    圖8 策略/價值函數(shù)的平均損

    與Depth-State-Concat 和HRL算法相比,本文算法在PF/VF LOSS方面表現(xiàn)更為穩(wěn)定。這表明本文算法更有效地結合了視覺信息和本體感知狀態(tài),以優(yōu)化策略,從而在簡單環(huán)境中更好地實現(xiàn)了獎勵的最大化。

    圖8(b)在復雜的山地環(huán)境中,三種算法的PF/VF LOSS 值呈現(xiàn)了整體上升的趨勢。這一趨勢可以歸因于環(huán)境的高度不確定性和復雜性,這使得策略的優(yōu)化變得更加具有挑戰(zhàn)性。在這具有挑戰(zhàn)性的環(huán)境中,三種算法都面臨更大的困難,需要更多的探索和學習來適應環(huán)境的復雜性。在經(jīng)過1 000 回合的訓練后,本文算法PF LOSS呈現(xiàn)出了明顯的下降趨勢,同時,VF LOSS 也表現(xiàn)出逐漸收斂的趨勢。這表明,相較于其他算法,本文算法更快地找到了適應復雜環(huán)境的有效策略,并且逐漸趨向于收斂狀態(tài)。在復雜環(huán)境下本文算法的卓越表現(xiàn)強調(diào)了該算法在應對高度挑戰(zhàn)性任務時的優(yōu)越性和魯棒性。

    7 結論

    本文提出了一種新的TransProAct 模型,用于融合本體感知和視覺信息,并采用強化學習PPO算法來控制無人車的運動。通過引入視覺信息和本體感知狀態(tài),本文證明了無人車可以成功地通過障礙物和移動障礙物,并且在仿真的挑戰(zhàn)性地形(如山地)中也能夠有效地移動。此外,本文還證明了該方法在未見過的環(huán)境中具有更好的泛化能力,這表明TransProAct 模型提供了一種有效的本體感知和視覺信息融合機制,并為多模態(tài)深度強化學習帶來了新的展望和可能性。未來計劃將其部署到真實的無人車上進行驗證,并考慮融合雷達[24]和其他傳感器數(shù)據(jù),以提升無人車對各種地形的識別和適應能力,使其能夠更有效地應對復雜的環(huán)境和任務[25]。更好地優(yōu)化多模態(tài)延遲隨機化解決模擬和現(xiàn)實世界差異的問題,使本文的研究更具實用性和可靠性,為機器人的現(xiàn)實世界應用提供新的思路和方法。

    參考文獻:

    [1] Lu Xinghao, Zhao Haiyan, Gao Bingzhao, et al.Decision-making Method of Autonomous Vehicles inUrban Environments Considering Traffic Laws[J]. IEEETransactions on Intelligent Transportation Systems,2022, 23(11): 21641-21652.

    [2] Youngmin Yoon, Kyongsu Yi. Trajectory PredictionUsing Graph-based Deep Learning for LongitudinalControl of Autonomous Vehicles: A Proactive Approachfor Autonomous Driving in Urban Dynamic TrafficEnvironments[J]. IEEE Vehicular Technology Magazine,2022, 17(4): 18-27.

    [3] Danilo Alves de Lima, Alessandro Corrêa Victorino. AHybrid Controller for Vision-based Navigation ofAutonomous Vehicles in Urban Environments[J]. IEEETransactions on Intelligent Transportation Systems,2016, 17(8): 2310-2323.

    [4] Alejandro Puente-Castro, Daniel Rivero, Alejandro Pazos,et al. UAV Swarm Path Planning with ReinforcementLearning for Field Prospecting[J]. Applied Intelligence,2022, 52(12): 14101-14118.

    [5] Wang Gongcheng, Wang Weidong, Ding Pengchao, et al.Development of a Search and Rescue Robot System forthe Underground Building Environment[J]. Journal ofField Robotics, 2023, 40(3): 655-683.

    [6] Miller I D, Cladera F, Cowley A, et al. Mine TunnelExploration Using Multiple QuadrupedalRobots[J].IEEE Robotics and Automation Letters, 2020, 5(2): 2840-2847.

    [7] Aracri S, Giorgio-Serchi F, Giuseppe Suaria, et al. SoftRobots for Ocean Exploration and Offshore Operations:A Perspective[J]. Soft Robotics, 2021, 8(6): 625-639.[8] Dang T, Marco Tranzatto, Khattak S, et al. Graph-basedSubterranean Exploration Path Planning Using Aerialand Legged Robots[J]. Field Robotics, 2020, 37(8): 1363-1388.

    [9] Matthis J, Hayhoe M. The Functional Coupling of Gazeand Gait When Walking Over Real-world Rough Terrain[J]. Journal of Vision, 2016, 16(12): 766.

    [10] Liu Zhe, Liu Qiming, Tang Ling, et al. VisuomotorReinforcement Learning for Multirobot CooperativeNavigation[J]. IEEE Transactions on Automation Scienceand Engineering, 2022, 19(4): 3234-3245.

    [11] Levine S, Pastor P, Krizhevsky A, et al. Learning HandeyeCoordination for Robotic Grasping with DeepLearning and Large-scale Data Collection[J]. TheInternational Journal of Robotics Research, 2018, 37(4/5): 421-436.

    [12] Sofman B, Lin E, Bagnell J A, et al. Improving RobotNavigation Through Self-supervised Online Learning[J].Journal of Field Robotics, 2006, 23(11/12): 1059-1075.

    [13] Jeong R, Aytar Y, Khosid D, et al. Self-supervised Sim-torealAdaptation for Visual Robotic Manipulation[C]//2020 IEEE International Conference on Robotics andAutomation (ICRA). Piscataway: IEEE, 2020: 2718-2724.

    [14] Wen Shuhuan, Wen Zeteng, Zhang Di, et al. A MultirobotPath-planning Algorithm for AutonomousNavigation Using Meta-reinforcement Learning Basedon Transfer Learning[J]. Applied Soft Computing, 2021,110: 107605.

    [15] Pablo Urcola, María-Teresa Lorente, José L Villarroel, etal. Robust Navigation and Seamless Localization forCarlike Robots in Indoor-outdoor Environments[J].Journal of Field Robotics, 2017, 34(4): 704-735.

    [16] Tian S, Ebert F, Jayaraman D, et al. Manipulation byFeel: Touch-based Control with Deep Predictive Models[C]//2019 International Conference on Robotics andAutomation (ICRA). Piscataway: IEEE, 2019: 818-824.

    [17] Escontrela A, Yu G, Xu Peng, et al. Zero-shot TerrainGeneralization for Visual Locomotion Policies[EB/OL].(2020-11-11) [2023-05-11]. https://arxiv. org/abs/2011.05513.

    [18] Liang Hongzhuo, Cong Lin, Norman Hendrich, et al.Multifingered Grasping Based on MultimodalReinforcement Learning[J]. IEEE Robotics andAutomation Letters, 2022, 7(2): 1174-1181.

    [19] Vaswani A, Shazeer N, Parmar N, et al. Attention Is AllYou Need[C]//Proceedings of the 31st InternationalConference on Neural Information Processing Systems.Red Hook: Curran Associates Inc., 2017: 6000-6010.

    [20] Li Zhenyu, Zhou Aiguo, Pu Jiakun, et al. Multi-modalNeural Feature Fusion for Automatic Driving ThroughPerception-aware Path Planning[J]. IEEE Access, 2021,9: 142782-142794.

    [21] Jain D, Iscen A, Caluwaerts K. HierarchicalReinforcement Learning for Quadruped Locomotion[C]//2019 IEEE/RSJ International Conference on IntelligentRobots and Systems (IROS). Piscataway: IEEE, 2019:7551-7557.

    [22] Li Yaxin, Chen Yan, Yang Zhen, et al. Design of a MultimodalSensor Fusion Unmanned Vehicle System Basedon Computer Vision[J]. Journal of Physics: ConferenceSeries, 2023, 2504(1): 012033.

    [23] Zhang Lijuan, Peng Jiabin, Yi Jiabin, et al. A StatedecompositionDDPG Algorithm for UAV AutonomousNavigation in 3-D Complex Environments[J]. IEEEInternet of Things Journal, 2024, 11(6): 10778-10790.

    [24] 張福海, 李寧, 袁儒鵬, 等. 基于強化學習的機器人路徑規(guī)劃算法[J]. 華中科技大學學報(自然科學版), 2018, 46(12): 65-70.Zhang Fuhai, Li Ning, Yuan Rupeng, et al. Robot PathPlanning Algorithm Based on Reinforcement Learning[J]. Journal of Huazhong University of Science andTechnology(Natural Science Edition), 2018, 46(12):65-70.

    [25] 趙烈海, 李大鵬. 高密度場景下基于改進A*算法的無人機路徑規(guī)劃[J]. 無線電通信技術, 2024, 50(4): 713-719.Zhao Liehai, Li Dapeng. Unmanned Aerial Vehicle PathPlanning Based on Improved A* Algorithm in HighdensityScenarios[J]. Radio Communications Technology,2024, 50(4): 713-719.

    來源:系統(tǒng)仿真學報,第36卷第11期

    作者:丁開源1-2,艾斯卡爾·艾木都拉1-2*,朱斌”,伊克薩尼·普爾凱提",馬正堂1

    (1.新疆大學計算機科學與技術學院,新疆烏魯木齊830017;2.新疆信號檢測與處理重點實驗室, 新疆烏魯木齊830017;3.清華大學自動化系,北京100084)