接著一篇去年的綜述來開始中斷的學習之旅《Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review》。 這篇文章總結了基於圖像和點雲基於深度學習的數據融合方法,包括深度估計、目標檢測、語義分割、目標分割、感測器在線標定等方面的應用。 這裡就來學習一下相關的知識點,下圖就是基於圖像和點雲融合的感知任務及其相關部分一攬表。深度學習
a)基於圖像的深度學習方法
卷積神經網路(CNNs)是目前(2020年,因為2021年VIT大火)對圖像理解和處理的最有效的模型之一。 與MLP相比,CNN具有平移不變性,利用較少的權重和對於點雲的方法,有很多種類型,如
b1) Volumetric representation based,即將點雲按照固定的解析度組成三維網格,每個網格的特徵都是學出來的;這種方法可以很輕鬆的獲取到網格內部結構,但在體素化過程中,失去了空間解析度和細粒度的三維幾何形狀;
b2) Index/Tree representation based,是將點雲劃分為一系列不平衡的樹,可以根據區域的點密度進行分區,對於點密度較低的區域具有較低的解析度,從而減少不必要的記憶體和計算資源;
b3)2D views representation based,這種方式比較好理解,就是將點雲按照不同的視圖投影成深度圖,然後利用CNN對圖像進行檢測;
b4) Graph representation based,這種就是將點雲表示為圖,在空間或者光譜域上實現卷積操作。 (這種吧,不太好評價)
b5) Point representation based,這種直接適用點雲,而不是將其轉換為中間數據進行表示。 這個也是目前點雲深度學習的最流行的方式。 如點網方法(PointNet,PointNet++,RandLA-Net等),點卷積是直接表徵點之間的空間關係,其目的是將標準的二維離散卷積推廣到三維連續空間中,即用連續權重函數替代離散權重函數,如PointConv、KPConv等。深度估計
所謂深度估計,就是將稀疏的點雲通過上採樣方法生成稠密有規則地深度資訊,這樣生成的點雲方便後續感知模組的應用,也能夠改善鐳射雷達掃描得到點雲的不均勻分佈。 直接給出最近的深度估計發展歷程和相關方法
不管哪種方法,其核心就是將圖像的RGB資訊與點雲的3D幾何資訊相結合,從而使得圖像RGB資訊包含相關的3D幾何資訊。 所以,圖像可以作為深度採樣的參考資訊。 從上面的方法可以看出,其包含Mono-Lidar融合方法和Stereo-Lidar融合方法Mono Camera and LiDAR fu目標檢測(3D)的目標是在三維空間中定位、分類和估計有方向的邊界框。 自動駕駛動態目標檢測,類別包括常見的動態道路物件(汽車、行人、騎車人等),方法主要有兩種:順序檢測和單步檢測。 基於序列的模型按時間順序由預測階段和三維邊界框(bbox)回歸階段組成。 在預測階段,提出可能包含感興趣對象的區域。 在bbox回歸階段,基於從三維幾何中提取的區域特徵對這些建議進行分類。 然而,序列融合的性能受到各個階段的限制。 另一方面,一步模型由一個階段組成,其中二維和三維數據以並行方式處理。 下面兩幅圖,給出了3D檢測網路的時間線和經典網路架構圖。 下面兩張表給出了在KITTI上3D檢測的對比結果以及動態檢測模
5A)基於2D的序列模型
所謂基於2D的序列模型,就是首先對圖片進行2D檢測/分割,生成ROI區域,然後將ROI投影到3D空間中(將圖像上的邊界框投影到點雲上,形成三維ROI空間;將點雲投影到圖像平面上,形成帶有點向的2D語義點雲)。
結果級:就是將2D的ROI來限制點雲的搜索空間,這樣可以顯著減少計算量,提高運行時間。 如FPointNes《Frustum pointnets for 3d object detection from rgb-d data》(將圖像生成的2D邊界框投影到3D空間中,然後將產生的投影送入到PointNet中進行3D檢測)、《A general pipeline for 3d detection of vehicles》 (利用基於模型擬合的方法過濾掉不必要的背景點,然後將過濾后的點送入網路中進行回歸)、RoarNet(利用《3d bounding box estimation using deep learning and geometry》將每個2Dbbox生成多個3D圓柱,然後利用PointNet的head去進行處理,並最終細化)。
上述方法都需要假設每個ROI區域內只包含一個感興趣的對象,對於擁擠的場景或者行人等不太適用。 所以需要有改進版。 解決方案就是用二維語義分割和region-wise seed proposal with point-wise seed proposals替代2D檢測器,如IPOD就是類似的方法,首先採用二維語義分割來過濾出背景點,留下的前景點雲保留了上下文資訊和細粒度的位置,然後送入到PointNet++中用於特徵提取和bbox的預測, 這裡提出了PointsIoU來加速訓練和推理。
特徵融合:最直觀的就是將點雲投影到圖像上,然後利用圖像處理方法進行特徵提取,但輸出也是圖像級,對於3D空間的定位不是很準確。 如DepthRCNN就是一種基於RCNN的二維對象檢測、實例和語義分割架構。 《Cross modal distillation for supervision transfer》則是在圖像數據和深度圖像之間做遷移,當然還有其他,這一塊後續會專門介紹。
多級融合,這個其實是結果級融合與特徵級融合的結合,主要工作可以歸結為點融合(Pointfusion), 點融合首先利用現有的2D檢測模型生成2D bbox,然後用於通過向圖像平面的投影點來定位通過方框的點,最後採用一個ResNet和一個PointNet結合的網路將點雲與圖像特徵結合來估計3D目標。 類似的方案還很多,如SIFRNet、Pointsift。
5B)基於3D的模型
略(個人對這一塊很感興趣,會專門對提到的文章進行閱讀,見諒)。
|