2D秒變3D！視角還能隨意切！華為&上交提出：CIPS-3D：基於...

qeqwrr · 发表于 2021-11-24 09:37:41

淺層是NeRF，它主要負責把人像從 2D 變為 3D。

它將場景的體積表示優化為向量函數，輸入為3D位置座標和視圖方向。

具體而言，就是沿相機射線採樣資訊，來合成圖像。

的場景表示參數化為一個完全連接深度網路（MLP），輸出對應的顏色和體積密度值。

為了獲得更為準確的3D圖像，往往需要對每條光線上多點採樣，這也就造成NeRF所需的記憶體非常大。

因此，如果神經網路中只用NeRF，就會限制網路的深度，導致生成圖像模糊、缺乏

所以在CIFS-3D中，研究人員將深層網路設置為INR，讓它負責合成高保真的圖像。

這種方法也能將各種信號參數化，輸出RGB值。

而且由於不再與空間解析度耦合，它可以對任意空間解析度進行採樣。

論文中也提到，該方法也沒有任何上採樣。

但是受限於CPU記憶體，如果直接訓練高解析度圖像會有一定難度，為此研究人員提出了一種部分梯度反向傳播的方法。

在訓練時，該方法進對隨機採樣中的綠色光線進行梯度反向傳播計算，其餘光線則不計算

解決了3D化問題，還能保證高保真，你以為這就結束了？

NO、NO、NO

在研究過程中，工作人員發現CIPS-3D還存在鏡像對稱問題。

這種現象其實在許多3D GAN中都存在，比如GIRAFFE、StyleNeRF。

比如在下面這個案例中，初始單角度圖像的劉海是偏左的，但是生成的不同角度圖像中，劉海會隨著視角的變化而變化，就像是鏡像一樣

出現這樣的問題，是因為NeRF網路輸入的座標就有存在鏡像對稱

比如圖中a、c兩點的座標就是完全鏡像對稱的關係。

這對於生成完全對稱的物體而言沒什麼問題。

但是放在只給側面角度的人像上來說，可能就是一場災難。

為此，研究人員在神經網路中添加了一個鑒別器（discriminator），讓它來輔助鑒別這種問題。

最後結果表明，與其他可生成3D人像的方法相比，FID、KID值明顯降低，這兩個值越低意味著生成圖像品質越好

值得一提的是，該論文通訊作者為田奇

田奇，美國伊利諾伊大學香檳分校博士、IEEE Fellow，也是原UTSA計算機系正教授。

發表文章約550餘篇，包括250+ IEEE TPAMI、IJCV、CVPR/ICCV/ECCV、NeurIPS等國際頂級期刊和會議。

2018年加入華為雲，研究主要方向為計算機視覺、自然語言處理和語音交互。

華為謝凌曦博士、上海交通大學倪冰冰教授也參與了此次研究。

謝凌曦，本科博士均畢業於清華大學計算機專業，專長計算機視覺、自動機器學習。目前為華為高級研究員。保羅V8真假保羅V8是什麼保羅V8成分保羅V8心得保羅V8評價保羅V8用法

倪冰冰，現為上海交通大學電子系特別研究員/長聘教軌副教授，博士生導師。

本科畢業於上海交通大學電子工程系，之後赴新加坡國立大學攻讀博士。

博士期間，先後在微軟亞洲研究院和谷歌公司美國總部工作，擔任演算法科學家。

2010-2015年於美國伊利諾伊大學香檳分校新加坡高等研究院擔任研究科學家。

研究方向為計算機視覺、機器學習等。

2D秒變3D！ 視角還能隨意切！ 華為&上交提出：CIPS-3D：基於...