An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion0. Abstract1. Introduction3. MethodLatent Diffusion ModelsText embeddingsTextual inversion4. Qualitative comparison and applications4.1. Image variations4.2. Text-guided synthesis4.3. Style Transfer4.4. Concept Compositions4.5. Bias reduction4.6. Downstream applications6. LimitationsReviewReference
0. Abstract
Language-Guided model이 어떻게 사진의 고양이를 painting으로 바꾸거나, 우리가 가장 좋아하는 장난감을 기반으로 한 새로운 product를 디자인하게 만들 수 있을까?
본 논문에서는 유저가 object나 style과 같은 concept에 대해 제공한 3-5장의 이미지만으로 그것을 표현하는 embedding space에서의 새로운 “단어”들을 학습하는 방법론을 제시한다. 특히, 저자들은 single word embedding이 유니크하고 다양한 concept을 capture하기에 충분하다는 증거를 찾았다.
1. Introduction
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F5e368191-40be-467b-94b1-8248de6d1ba0%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-03_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_10.37.40.png?table=block&id=ea8e0c4e-deba-462d-aac2-c0c2053510f9&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F20b3fdce-cb41-45e6-96ce-9fb06e4a02ca%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-03_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_10.53.52.png?table=block&id=2eff40e3-eced-4d30-92fc-966273729e01&cache=v2)
본 논문에서는 선행 연구들의 challenge들을 pre-trained text-to-image model들의 textual embedding space에서 한 개의 단어를 찾음으로서 극복하는 방식을 제안한다. 저자들은 text-encoding process의 첫 stage를 고려한다(Figure2. 참조). 여기서 input string은 여러개의 token으로 바뀌는데, 각 token은 각각의 embedding vector로 대체되고, 이 vector들이 downstream 모델로 fed된다. 본 논문의 목적은 특정 concept에 대한 새로운 embedding vector를 찾아내는 것이다.
새로운 embedding vector를 새로운 pseudo-word로 표현하는데, 로 나타낸다. 이 pseudo-word는 다른 단어와 마찬가지로 다루어진다. “a photograph of on the beach”, 두 가지 concept으로 구성할 수도 있다. “a drwaing of in the style of ”.
이러한 pseudo-word를 찾기 위해 본 논문에서는 task를 하나의 invesion으로 구성했다. 주어진 pre-trained text-to-image 모델과 small(3-5) image가 있을때, goal은 single word embedding “A photo of ”를 찾는 것으로, 이 embedding은 optimization process를 통해 찾아질 수 있다. 이를 Textual Inversion이라 부른다.
종합하자면, 이 연구의 contribution은
- personalized text-to-image generation task를 소개한다.
- text-encoder embedding space sodml 새로운 pseudo words를 찾는 “Texture-Inversion”을 제시한다.
- GAN-inspired invesion technique를 통해 embedding space를 분석하여 distortion and editability 간의 tradeoff가 있음을 발견했고, tradeoff-curve 상의 최적 point를 제시한다.
- user-provided caption of concepts에 대해 생성된 이미지로 method를 evaluate했고,본 논문의 embedding이 더 높은 visual fidelity와 robust editing이 가능함을 보였다.
3. Method
본 method의 목적은 새로운 user-specified concepts에 대한 language-guided generation이다. 일반적인 text-image 모델에서는 해당 representation에 대한 후보군을 text encoder의 word-embedding 단계에서 찾는다. 그러나 이러한 접근 방식은 이미지에 대한 in-depth visual understanding을 필요로 하지 않는다. 본 논문에서는 GAN inversion에서 영감을 받은 visual reconstruction objective를 제시한다.
Latent Diffusion Models
논문에서는 LDM(Latent Diffusion Model)에 method를 적용했고, text encoder 로 BERT를 사용했다.
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Feb919220-12db-4311-94e2-67b15351a876%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-04_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%258C%25E1%2585%25A5%25E1%2586%25AB_12.37.06.png?table=block&id=88f11005-2c07-475d-a9af-bf92e51e40f4&cache=v2)
Text embeddings
BERT와 같은 typical text encoder 모델은 아래와 같이 Tokenization과 unique vector로 embedding하는 과정을 거친다. 이 embedding space를 inversion target으로 선택하고 S와 관련된 vector를 v로 교체한다.
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F57dcd765-bcb5-49ab-97ab-b38e1e80a694%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-04_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%258C%25E1%2585%25A5%25E1%2586%25AB_12.40.31.png?table=block&id=601a6149-b196-43e6-9fdd-d3eec64a66d7&cache=v2)
Textual inversion
본 논문에서는 새로운 embedding을 찾기 위해 3~5장 정도의 적은 image를 사용하고, 아래의 LDM loss Eq1. 최적화(최소화)를 통해 를 찾아낸다. generation을 condition하기 위해 CLIP ImageNet templates에서 랜덤하게 샘플된 context texts를 사용한다. “A photo of ”, “A rendition of ”와 같음. Optimization Goal은 아래와 같다.
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fc2f50b4c-4fa7-45c7-a3db-96ffe0891018%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-04_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%258C%25E1%2585%25A5%25E1%2586%25AB_12.54.56.png?table=block&id=b5ed21cb-b33b-4b21-a8fa-8ebf125ef7b9&cache=v2)
학습된 LDM을 재사용하기 위해 와 은 fix되었고(Diffusion Model은 fix하고), Text Encoder만 훈련되었다.
4. Qualitative comparison and applications
4.1. Image variations
CLIP-based reconstruction에서, 본 논문의 method가 unique detail과 concept을 잘 capture한다.
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fe35e89ec-8ffc-4d9d-aa30-0135add6b5e3%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-03_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_11.19.24.png?table=block&id=7279935c-60e4-4e67-bf77-e4f0472961ad&cache=v2)
4.2. Text-guided synthesis
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Ff49a1c2d-74b1-45ea-a4f2-27608c894605%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-03_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_11.20.05.png?table=block&id=cf88a17e-6dc3-48bf-9d89-976da05e0f86&cache=v2)
4.3. Style Transfer
context text를 로 대체하여, style transfer 역시 가능하다.
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F81594bca-bfc0-4f95-9a98-a161441f295f%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-03_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_11.25.00.png?table=block&id=67bf82c4-1268-4926-85e4-33fbcb232102&cache=v2)
4.4. Concept Compositions
동시에 여러 word를 추론할 수 있지만, 새로운 word간의 관계 추론에는 어려움을 겪는다.
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F940350c8-7666-4c36-8199-1c5442cdd349%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-03_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_11.24.46.png?table=block&id=56b3f470-489e-422f-a0a4-def7ae429cd1&cache=v2)
4.5. Bias reduction
기존의 방법론의 경우에, Figure. 8에서와 같이 '의사'라는 단어에 encoding된 bias(대부분의 의사가 남성인점)를 강조한다. 보다 다양한 소규모 집합에서 새로운 embedding을 학습함으로써 이러한 bias를 줄일 수 있음을 보인다(즉, 성별 및 인종적 다양성에 대한 인식을 높일 수 있음).
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F679ed569-34c5-4a96-9d29-afffadb04cc6%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-03_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_11.23.58.png?table=block&id=189aa342-ba9d-4a66-b89d-f3f85a3f4d5a&cache=v2)
4.6. Downstream applications
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F7837bd0c-db8a-4444-8f4f-000e3daf5068%2F%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2023-03-03_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%2592%25E1%2585%25AE_11.21.54.png?table=block&id=d6c5ba13-8103-48cb-820a-05b8d28aab06&cache=v2)
6. Limitations
- 이 methods는 더 많은 자유도를 제공하지만, concept의 “semantic” essence를 파악하거나, 정확한 shape을 학습하는데에는 어려움이 있다.
- 최적화가 오래걸린다. 하나의 concept를 학습하는 데 약 2시간이 소요된다.
Review
사실 Dreambooth나 Prompt-to-Prompt에 비해서 임팩트는 조금 떨어지는 듯 하다.. Diffusion Model 아키텍쳐를 건드리지 않았다는 부분이 득이자 실이 아닐지..?