淺層是NeRF,它主要負責把人像從 2D 變為 3D。 它將場景的體積表示優化為向量函數,輸入為3D位置座標和視圖方向。 具體而言,就是沿相機射線採樣資訊,來合成圖像。 的場景表示參數化為一個完全連接深度網路(MLP),輸出對應的顏色和體積密度值。 為了獲得更為準確的3D圖像,往往需要對每條光線上多點採樣,這也就造成NeRF所需的記憶體非常大。 因此,如果神經網路中只用NeRF,就會限制網路的深度,導致生成圖像模糊、缺乏 所以在CIFS-3D中,研究人員將深層網路設置為INR,讓它負責合成高保真的圖像。 這種方法也能將各種信號參數化,輸出RGB值。 而且由於不再與空間解析度耦合,它可以對任意空間解析度進行採樣。 論文中也提到,該方法也沒有任何上採樣。 但是受限於CPU記憶體,如果直接訓練高解析度圖像會有一定難度,為此研究人員提出了一種部分梯度反向傳播的方法。 在訓練時,該方法進對隨機採樣中的綠色光線進行梯度反向傳播計算,其餘光線則不計算 解決了3D化問題,還能保證高保真,你以為這就結束了? NO、NO、NO 在研究過程中,工作人員發現CIPS-3D還存在鏡像對稱問題。 這種現象其實在許多3D GAN中都存在,比如GIRAFFE、StyleNeRF。 比如在下面這個案例中,初始單角度圖像的劉海是偏左的,但是生成的不同角度圖像中,劉海會隨著視角的變化而變化,就像是鏡像一樣 出現這樣的問題,是因為NeRF網路輸入的座標就有存在鏡像對稱 比如圖中a、c兩點的座標就是完全鏡像對稱的關係。 這對於生成完全對稱的物體而言沒什麼問題。 但是放在只給側面角度的人像上來說,可能就是一場災難。
為此,研究人員在神經網路中添加了一個鑒別器(discriminator),讓它來輔助鑒別這種問題。 最後結果表明,與其他可生成3D人像的方法相比,FID、KID值明顯降低,這兩個值越低意味著生成圖像品質越好 值得一提的是,該論文通訊作者為田奇 田奇,美國伊利諾伊大學香檳分校博士、IEEE Fellow, 也是原UTSA計算機系正教授。 發表文章約550餘篇,包括250+ IEEE TPAMI、IJCV、CVPR/ICCV/ECCV、NeurIPS等國際頂級期刊和會議。 2018年加入華為雲,研究主要方向為計算機視覺、自然語言處理和語音交互。 華為謝凌曦博士、上海交通大學倪冰冰教授也參與了此次研究。 倪冰冰,現為上海交通大學電子系特別研究員/長聘教軌副教授,博士生導師。 本科畢業於上海交通大學電子工程系,之後赴新加坡國立大學攻讀博士。 博士期間,先後在微軟亞洲研究院和谷歌公司美國總部工作,擔任演算法科學家。 2010-2015年於美國伊利諾伊大學香檳分校新加坡高等研究院擔任研究科學家。 研究方向為計算機視覺、機器學習等。
|