在訓練階段,可以同時優化矩形框中的所有參數以及神經網路。 在整個管道中,他們特別添加了一個物理的、可微分的相機模型和一個可微分的色調映射器,並提出了一個公式,以更好地近似單圖元點光柵化的空間梯度。 可微分的好處是,不僅可以優化神經點特徵,還可以在訓練階段校正不精確的輸入。 因此,系統可以根據神經渲染網路的視覺損失來調整這 ,圖像的渲染品質得到了顯著提升 此外,該方法能夠合成任意的高動態範圍成像(HDR,即大幅度的曝光變化)和LDR(低動態範圍成像,容易缺失圖像細節)設置,並校正曝光不足或過度曝光的視圖(如下圖所示 同時,深度神經網路內部的參數數量也顯著減少,因為亮度和顏色變化由物理上正確的感測器模型單獨處理。 如下表所示,與其他可微渲染器相比,本文的方法效率高出大約兩個數)。 因此,渲染其呈現為單個圖元大小的碎片。 如果該像素點通過一個測試,它就會在神經網路輸出圖像中佔據一個描述符。 所有未被點著色的圖元都由從背景顏色填充。 由於我們將點渲染為單個圖元大小的碎片,輸出的圖像可能會非常稀疏,這取決於點雲的空間解析度和相機距離。 因此,以不同的比例渲染多個圖層,使輸出圖像密集化,並處理遮擋和照明問題。 神經渲染器(圖2中間)採用多解析度神經圖像生成單個HDR輸出圖像。 它由一個四層全卷積U-Net和跳躍連接組成,其中較低解析度的輸入圖像連接到中間特徵張量。 使用平均池化執行下採樣,並通過雙線性插值對圖像進行上採樣。 研究人員主要使用門控卷積,它最初是為填孔任務而開發的,因此非常適合稀疏點輸入。 總體而言,該網路架構類似於Aliev等人提出的架構,只減少了一層,並進行了一些修改,以支援HDR成像。 首先,去掉批歸一化層,因為它們將中間圖像的均值和標準差歸一化為固定值。 這會使得總感測器輻照度(類似光強概念)丟失,並且無法從3D點傳播到最終圖像。 此外,如果場景的亮度範圍相當大(大於 1 : 400),會以對數方式存儲神經點描述符。 否則,神經描述符將線性存儲。 對於對數描述符,在光柵化過程中將其轉換為線性空間,以便捲積操作僅使用線性亮度 管道中的最後一步(圖2右側學習的色調映射操作符,它將渲染的HDR圖像轉換為 LDR。 該色調映射器類比數碼相機的物理鏡頭和感測器特性。 因此,它最適合捕捉智慧手機、數碼單反相機和攝像機的LD 儘管合成效果如此驚豔,在實驗中,研究人員也發現了一些局限性。 其中一個限制是,由於不同參數的數量巨大,不容易尋找合適的超參數。 必須平衡紋理顏色、結構參數、色調映射設置和神經網路權重的學習速率。 為了找到適合所有場景的可行設置,需要進行廣泛的網格搜索。 另一個限制是,點位置的優化對於中到大的學習率是不穩定的。 因此,該管道需要合理的初始點雲,例如,通過多視圖立體系統或 LiDaR 掃描器。 研究人員認為這個問題是由光柵化過程中的梯度逼近引起的。 它適用於相機模型和相機角度優化,因為數千個點的空間梯度在一個優化器步驟中得到平均。 然而,對於位置點梯度,僅使用單個近似梯度來更新其座標。 因此需要非常低的學習率來平均點梯度隨時間的變化。 渲染,當相機離物體太近或點雲非常稀疏時,可能會出現孔。 這是因為神經網路結構只能填補一定大小閾值的洞。 在實驗中,研究人員通過人為地增加點密度來減少這個問題。 然而,這並不是一個普遍可行的解決方案,因為在自由視圖環境中,使用者仍然可以任意移動相機以靠近物體表面。 研究人員表示,他們未來的工作應該會從這裡開始,例如,可以嘗試在放大過程中動態生成具有內插神經描述符的新點。
|