1. 
    
        1. 首頁 > 企業IT頻道 > ARVR

          斯坦福大學等團隊提出生成人體可編輯輻射場3D感知GAN框架

          2022年12月06日 13:07:41   來源:映維網

            使用非結構化單視圖圖像的大規模數據集對3D感知生成對抗網絡(GAN)進行無監督學習是一個新興的研究領域。最近,業界證明這種3D GAN能夠實現照片真實感和多視圖一致的人臉輻射場生成代。

            但所述方法尚未證明對身體有效。一個原因是,由于身體的關節鉸接與面部相比多樣性明顯更高,所以學習身體姿勢分布更具挑戰性。然而,照片真實感人類的生成3D模型在視覺效果、計算機視覺、虛擬現實/增強現實等廣泛應用中具有重要的實用價值。在相關場景中,生成的人體必須可編輯,從而支持交互式應用程序。

            現有的3D GAN并不一定支持。盡管線性混合蒙皮的變體已可用于闡明單個場景的輻射場,但尚不清楚如何將這種變形方法有效地應用于生成模型。

            在名為《Generative Neural Articulated Radiance Fields》的研究中,由美國斯坦福大學,荷蘭代爾夫特理工大學,以及加拿大多倫多大學組成的團隊提出了一個生成神經鉸接輻射場GNARF。

            研究人員為針對上挑戰提出了自己解決方案。首先,他們演示了在包含單視圖圖像的數據集上以無監督方式訓練的GAN生成高質量3D人體。為此,團隊采用了對于訓練和渲染輻射場非常有效,同時與傳統的基于2D CNN的生成器兼容的三平面特征表示。

            其次,作為GAN訓練過程的一環,團隊通過引入顯式輻射場變形步驟來解決生成輻射場的可編輯性。所述步驟確保生成器以標準身體姿勢合成人的輻射場,然后根據訓練數據的身體姿勢分布顯式扭曲輻射場。實驗表明,這種新方法可以生成高質量、可編輯、多視圖一致的人體,并且可以應用于編輯人臉,從而提高了現有生成模型的可控性。

            如視頻所示,GNARF能夠生成不同的3D人體,并通過參數化模型(如SMPL骨架和網格)對人體進行動畫化。

            GNARF是一種新的通用框架,用于訓練具有參數化模板網格的可變形對象3D感知GAN,例如人體和面部。它以生成的神經輻射場的有效三平面特征表示作為基礎,但另外應用了顯式變形,這減輕了生成器學習復雜關節分布的要求。因此,生成器自動學習以規范姿勢生成對象的輻射場,然后顯式扭曲輻射場,從而以完全可控和可解釋的方式生成目標身體姿勢和面部表情。

            對于如何以直觀的方式指定變形場,目前社區存在一系列可能的選擇,線性混合蒙皮。盡管蒙皮在人體關節中非常受歡迎,但它無法解釋由于面部表情變化而產生的細微變形。另一種選擇是使用特定于對象的模板網格作為框架,并使用均值坐標(MVC)對整個體三維應用基于框架的變形。然而,在全分辨率網格評估MVC的高計算成本對于GAN訓練而言難以接受,更重要的是,當模板網格(意外)包括自交集時,這種方法通常會導致嚴重的偽影。

            為了緩解所述問題,團隊使用了一種直觀的曲面驅動變形方法:曲面場(SF)。所述方法只需要具有對應關系的規范模板網格和目標模板網格,而它們很容易用于面部和身體。反過來,模板形狀可以使用骨架、手動編輯或使用可以在其他人的視頻中檢測到的關鍵點或Landmark來驅動。

            所以,SF方法通常足以應用于不同的身體部位,并且可以通過多種方式直觀地進行編輯,從而實現這類體三維模型的精確體三維變形。

            3D GAN框架管道概述如圖2所示。StyleGAN生成器、三平面表示、身體繪制、基于CNN的圖像超分辨率模塊和(雙重)分辨等幾個組件直接從EG3D框架中采用。然而,GNARF不是用目標身體姿勢或面部表情直接生成輻射場,而是在以規范姿勢生成輻射場,然后應用上述變形場來扭曲特征體三維。

            研究人員同時移除了生成器的姿勢條件,在鑒別器中僅使用camera姿勢和身體姿勢條件。這就消除了生成器在規范輻射場生成中結合關于最終視圖或姿勢的任何knowledge的能力,確保生成的結果將具有強大的動畫效果,而不僅僅是訓練時渲染的圖像。

            因此,生成器僅依賴于輸入StyleGAN2生成器的latent代碼控制identity。這種架構選擇利用最先進的2D生成模型架構來生成三平面3D表示。能夠訪問camera和身體姿勢的鑒別器確保GAN學習生成精確到目標姿勢的扭曲,而不僅僅是處于正確的分布中。最后,研究人員采用輻射場渲染策略,沿著擴展模板網格內的每條光線進行采樣。這確保了在輻射場的區域中以最詳細的方式獲取積分采樣,而不是在空白區域中獲取,從而提高了生成結果的質量并加快了訓練。

            在實驗中,團隊首先通過對單個動態全身場景的單個表示進行過擬合來評估所提出的變形場。然后,將變形方法應用于兩個身體(AIST++[和SURREAL)和面部(FFHQ)的GAN訓練管道中。

            AIST++是一個由10.1M張圖像組成的大型數據集,捕捉了30名舞蹈演員的舞蹈動作。每一幀都配有ground truth攝像頭和SMPL身體模型;SURREAL包含600萬張使用SMPL身體模型創建的合成人類圖像;FFHQ則是從Flickr收集的人臉高分辨率圖像的大型數據集。

            研究人員將所提出的曲面驅動變形方法SF與兩種備選方法MVC和蒙皮進行了比較。MVC要求針對每個采樣點的目標網格MD的每個頂點計算一組權重。然后,通過將標準網格MC的頂點與計算的權重線性組合,將采樣點變形為標準姿勢。

            在蒙皮中,采樣點通過點到線段距離測量的最近骨骼的剛性變換變形為規范姿勢。團隊發現,如果起始姿勢使兩個拓撲上相距較遠的身體部位(例如手和骨盆)接近幾何位置,這種簡化的蒙皮定義可以有效地避免它們之間的混合。他們從AIST++數據集中選擇多視圖視頻序列,并使用視圖和幀的子集來優化規范姿勢中的三平面特征。然后,評估扭曲到訓練視圖和姿勢中的估計輻射場的質量,并且評估扭曲到保持的測試視圖和姿勢。研究人員對三平面架構進行了一定的修改,以便減少過擬合。

            為了加快MVC和SF計算,他們在Open3D庫中使用Quadric Error Metric Decimation抽取源和變形的SMPL網格,同時追蹤源和變形網格之間的對應關系。盡管如此,計算每個變形姿勢的MVC對于在線訓練而言依然成本高昂(每個示例3.7秒)。因此,研究人員在固定的網格預計算訓練和測試身體姿勢的變形,并使用三線性插值檢索任意采樣點的變形。

            如表1所示,SF方法在訓練和測試圖像方面都優于其他方法。MVC表現最差,部分原因是網格近似,這在實踐中至關重要。蒙皮方法在圖像質量方面與SF相當,但速度慢3倍。另外,蒙皮無法充分變形細微的面部表情。因此,SF方法最靈活,它與不同的人體部位兼容,同時提供了計算和內存效率。

            接下來,他們將SF方法作為GNARF生成的特征體三維的變形方法。所述方法在捕獲的AIST++和合成SURREAL數據集上進行了訓練和評估。對于這兩個數據集,團隊的方法生成了高質量的多視圖一致人體,不同姿勢與目標姿勢密切匹配。

            由于GNARF是學習表示身體的輻射場的生成模型的一種方法,團隊提出了一種基線,使用未經變形訓練的原始EG3D來生成特征體(不在標準姿勢中),然后使用所提出的SF變形方法在推斷期間將其扭曲為各種目標姿勢。

            沒有特征體積變形,生成器被迫學習在latent空間中建模identity和姿勢。因此,三平面特征不再以一致的標準姿勢表示人體,而是與數據集中姿勢的分布相匹配。生成的身體的動畫與提出的方法類似,除了生成的(任意姿勢的)人體用作規范姿勢之外,研究人員通過應用人體形狀重建方法SPIN獲得了SMPL網格。

            如上面的視頻所示,與EG3D動畫基線相比,團隊的方法產生了明顯更好的動畫效果。

            另外,與不支持動畫的EG3D基線相比,團隊的動畫方法可以生成更好的圖像。這可能是由于GNARF允許生成器專注于生成規范姿勢中的特定identity,而不是學習組合latent空間中的identity和復雜姿勢分布。

            在圖3中,團隊的方法產生了比基線產生的結果更好的定性結果。使用重新扭曲的EG3D的基線結果顯著降低,因為很難從生成的圖像中準確估計SMPL網格。另外,存在于camera視圖外的輻射場中且在傳統渲染圖像中沒有差異的浮動偽影在扭曲后變得可見。在最上方的圖1中,團隊展示了這一方法可以生成具有不同identity的標準姿勢身體。同時,通過改變SMPL參數,可以將每個輻射場驅動到所需的目標姿態,并在任意新穎的視圖中進行渲染。

            GNARF同時可以應用于3D人臉,并用于生成可設置動畫的模型。實驗表明,變形支持參數化模型驅動的表情編輯。

            當然,團隊坦誠這一方法并非沒有限制。例如,生成身體中的細節級別相對較低。部分原因是由于SURREAL和AIST++數據集中訓練數據的分辨率有限,但其他原因包括三平面表示為任何一個身體部位提供的分辨率有限。所以,未來團隊探索的一個有趣途徑包括探索人體的自適應輻射場分辨率,將更多分辨率分配給突出部分。另外,面部和頭發中的細節無法通過紋理生成方法來處理。

            值得一提的是,團隊提出了道德考慮,因為GAN可能會被不法分子用于生成真實人物的編輯圖像。這種對圖像合成技術的濫用會構成社會威脅。

            相關論文:Generative Neural Articulated Radiance Fields

            概括來說,團隊提出了一個可用于生成人體的可編輯輻射場的3D感知GAN框架。這一框架為關節對象(包括身體和頭部)引入了一種有效的神經表示,它將最近提出的三平面特征體三維表示與由模板形狀引導的顯式特征體三維變形相結合。在實驗中,研究人員使用了SURREAL和AIST++數據集以及使用FFHQ數據集的人臉,并展示了高質量的生成結果。

            團隊認為,這一研究在朝著鉸接式人體和面部的真實感3D感知圖像合成邁出了重要的一步。

            文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

          [編號: ]
          分享到微信

          即時

          新聞

          騰訊前三季研發投入454.75億元 前沿科技加速落地服務

          11月16日,騰訊控股(HK.00700)發布2022年Q3財報,騰訊實現營業收入1400.93億元,非國際會計準則凈利潤(Non-IFRS)322.54億元,同比恢復增長,多個主營業務板塊收入亦呈現環比企穩跡象。

          企業IT

          今日影像,今日推送!星圖地球今日影像正式發布,開

          每一次火箭升空、衛星發射都能引起全國人民的關注,那你可曾想過,有朝一日每個人都能召喚衛星為自己服務?

          研究

          IDC發布中國數字政府IT安全軟硬件市場份額報告

          IDC《中國數字政府IT安全硬件市場份額,2021》報告顯示,中國數字政府IT安全硬件市場的規模達到64.9億元人民幣,同比增長31.5%。

          女性做私密按摩,浪货再浪奶好大夹得好紧,妓女影院妓女网妓女AAA

          1.