接著一篇去年的綜述來開始中斷的學習之旅《Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review》。 這篇文章總結了基於圖像和點雲基於深度學習的數據融合方法,包括深度估計、目標檢測、語義分割、目標分割、感測器在線標定等方面的應用。 這裡就來學習一下相關的知識點,下圖就是基於圖像和點雲融合的感知任務及其相關部分一攬表。
下面兩張表給出了在KITTI上3D檢測的對比結果以及動態檢測模 5A)基於2D的序列模型
所謂基於2D的序列模型,就是首先對圖片進行2D檢測/分割,生成ROI區域,然後將ROI投影到3D空間中(將圖像上的邊界框投影到點雲上,形成三維ROI空間;將點雲投影到圖像平面上,形成帶有點向的2D語義點雲)。 結果級:就是將2D的ROI來限制點雲的搜索空間,這樣可以顯著減少計算量,提高運行時間。 如FPointNes《Frustum pointnets for 3d object detection from rgb-d data》(將圖像生成的2D邊界框投影到3D空間中,然後將產生的投影送入到PointNet中進行3D檢測)、《A general pipeline for 3d detection of vehicles》 (利用基於模型擬合的方法過濾掉不必要的背景點,然後將過濾后的點送入網路中進行回歸)、RoarNet(利用《3d bounding box estimation using deep learning and geometry》將每個2Dbbox生成多個3D圓柱,然後利用PointNet的head去進行處理,並最終細化)。
上述方法都需要假設每個ROI區域內只包含一個感興趣的對象,對於擁擠的場景或者行人等不太適用。 所以需要有改進版。 解決方案就是用二維語義分割和region-wise seed proposal with point-wise seed proposals替代2D檢測器,如IPOD就是類似的方法,首先採用二維語義分割來過濾出背景點,留下的前景點雲保留了上下文資訊和細粒度的位置,然後送入到PointNet++中用於特徵提取和bbox的預測, 這裡提出了PointsIoU來加速訓練和推理。 特徵融合:最直觀的就是將點雲投影到圖像上,然後利用圖像處理方法進行特徵提取,但輸出也是圖像級,對於3D空間的定位不是很準確。 如DepthRCNN就是一種基於RCNN的二維對象檢測、實例和語義分割架構。 《Cross modal distillation for supervision transfer》則是在圖像數據和深度圖像之間做遷移,當然還有其他,這一塊後續會專門介紹。