Style transfer, Text-driven, Image editing, CLIP, Multimodal Model
Abstract
텍스트 입력을 활용하여 객체 중심 수준에서 스타일 전이를 유도하는 새로운 방법인 텍스트 기반 타겟 중심 스타일 전이 기법을 소개합니다. 우리 모델의 핵심은 입력 텍스트와 밀접하게 연관된 정밀한 객체 중심 변환을 위해 세심하게 설계된 패치 단위 공동 방향 (PCD) 손실 함수입니다. 이 손실 함수는 텍스트로 유도된 스타일 방향을 위한 패치 방향 손실과 객체 영역 전반에 걸쳐 균일한 CLIP 임베딩 분포를 유지하는 패치 분포 일관성 손실을 결합합니다. 이를 통해 객체 영역 간에 매끄럽고 조화로운 스타일 전이가 이루어집니다. 또한, 우리의 방법에서 중요한 요소는 텍스트를 통해 객체의 위치를 식별하여 세그멘테이션 마스크의 필요성을 제거하는 텍스트 일치 패치 선택 (TMPS) 모듈과 사전 정의 객체 영역 선택 (PRS) 모듈입니다. 마지막으로, 이미지 배경의 원래 스타일과 구조적 본질을 유지하기 위해 동적으로 식별된 배경 영역에 적용되는 적응형 배경 보존 (ABP) 손실 함수를 도입하였습니다. 광범위한 실험을 통해 우리의 접근 방식이 시각적으로 일관되고 텍스트와 잘 부합하는 스타일 전이 결과를 생성하는 데 효과적임을 입증하였습니다.|We present Text-driven Target-Oriented Style Transfer, a novel method that guides style transfer at an object level using textual inputs. The core of our model is our Patch-wise Co-Directional (PCD) loss, meticulously designed for precise target-oriented transformations that are closely aligned with the input text. This loss combines a patch directional loss for text-guided style direction and a patch distribution consistency loss for even CLIP embedding distribution across object regions. It ensures a seamless and harmonious style transfer across object regions. Key to our method are the Text-Matched Patch Selection (TMPS) and Pre-fixed Region Selection (PRS) modules for identifying object locations via text, eliminating the need for segmentation masks. Lastly, we introduce an Adaptive Background Preservation (ABP) loss to maintain the original style and structural essence of the image’s background. This loss is applied to dynamically identified background areas. Extensive experiments underline the effectiveness of our approach in creating visually coherent and textually aligned style transfers.
Table Of Contents
List of Contents Abstract --- (i) List of Contents --- (ii) List of Tables --- (iii) List of Figures --- (iii)
I. INTRODUCTION --- (1)
II. RELATED WORKS --- (2) 2.1. Style Transfer --- (2) 2.2. Text-Guided Image Synthesis --- (3) 2.3. Target-oriented Style Transfer --- (3)