[논문리뷰] Text2Tex: Text-driven Texture Synthesis via Diffusion Models

Text2Tex: Text-driven Texture Synthesis via Diffusion Models

paper: https://arxiv.org/abs/2303.11396 project page: https://daveredrum.github.io/Text2Tex/

Text2Tex: Text-driven Texture Synthesis via Diffusion Models 0. Abstract 1. Introduction 3. Method 3.2. Depth-Aware Image Inpainting 3.3. Progressive Texture Generation 3.4. Texture Refinement with Automatic Viewpoint Selection 4. Result 4.1. Imprementation Details 4.2. Experiments Setup 4.3. Quantitivative results 4.4. Qualitative analysis 4.5. Ablation studies 4.6. Limitations Review Reference

0. Abstract

본 논문에서는 depth-aware image diffusion model을 활용하여, 주어진 3D mesh에 대한 high-quality texture를 생성하는 Text2Tex를 소개한다

1. Introduction

최근 몇 년간 3D geometry generation task에서 성공을 거두었음에도 불구하고, 여전히 사람이 texture를 디자인해야 한다는 점은 완전히 자동화된 3D 콘텐츠 생성을 어렵게 한다. 그러므로 text 등 대안적인 guidance를 통해 texture 디자인 프로세스를 자동화하는 것이 필요하다.

Text2Tex는 generate-then-refine 전략을 사용한다. viewpoints에 대해 점진적으로 partial texture를 생성하고, texture space로 back-project한다. 다른 viewpoints에서 관찰되는 inconsistent한 artifacts(전면 view에서 생성된 뒤 옆으로 돌리면 보이는 깨짐현상 같은 것들)문제에 접근하기 위해서는 view partitioning technique을 고안했다. texel(texture pixel)의 normal vector와 현재 view 방향 간의 similarity maps를 계산하는 것이다.

또한 mesh 표면에 대한 완전한 coverage를 제공하면서도 high-quality의 consistent한 texture map을 생성을 보장하기 위해, automatic viewpoint selection technique을 고안했다. 점진적으로 다음 스텝의 best view를 고르는 기법이다.

3. Method

3.2. Depth-Aware Image Inpainting

texture synthesis의 core는 mesh 표면의 비어있는 곳을 painting하는 것이다. 본 논문에서도 inpainting을 위해 TEXTure(3.1.의 Masked Generation 참조)와 유사하게 generation mask 을 활용한다. 자세한 것은 TEXTure를 참고

3.3. Progressive Texture Generation

input geometry(Mesh)에 대한 texture를 합성하기 위해, UV parameterization을 활용하여 2D view(SD에서 생성된 이미지)를 정규화된 3D object의 Texture space상으로 project한다.

view point 로 정의되는데, 는 축에 대한 azimuth angle이고, 는 -plain에 대한 elevation angle, 은 object와 origin간의 distance이다.

이 부분 역시 각 기호들만 다를 뿐, TEXTure(3.1. Text-Guided Texture Synthesis과 Trimap Creation참고)와 유사하다.

3.4. Texture Refinement with Automatic Viewpoint Selection

4. Result

4.1. Imprementation Details

Stable Diffusion v2의 Depth2Image 모델 사용.

Denoising Strength인 와 은 generation과 refine을 위해 각각 0.5와 0.3으로 세팅.

generation을 위해 6 axis-aligned viewpoints를 사용,

refine을 위해서는 36 viewpoints 중 time cost reduce를 목적으로 20view 만을 select.

각 합성 과정은 15분 소요.

4.2. Experiments Setup

Objaverse dataset 사용하여 evaluation

4.3. Quantitivative results

4.4. Qualitative analysis

4.5. Ablation studies

Does depth-aware inpainting and updating help?

Does viewpoint selection in refinement stage help?

4.6. Limitations

본 논문에서 제시되는 method가 high-quality 3D texture를 생성할 수 있음은 확인했으나, Diffusion backbone에 의한 음영 문제(shading effects)를 발견했다. 이 문제는 input prompt를 통해 제어할 수 있지만, 이는 human engineering effort를 요한다. 하나의 가능한 solution은 diffusion model이 texture에 음영을 생성하지 않도록 fine-tuning하는 것이다.

Review

비슷한 시기에 나온 논문이라 그런지 TEXTure 논문과 거의 유사하다.(어떻게 method까지 거의 똑같지..?) 코드도 공개가 되어있지 않아 TEXTure를 참고하는 편이 좋겠다.

Reference

https://daveredrum.github.io/Text2Tex/static/Text2Tex.pdf