22 Dec_박경문 교수 연구실, ECCV 2022 논문 1편 게재 승인
일반인공지능연구실(지도교수: 박경문)의 논문 1편이 컴퓨터비전 분야의 Top-tier 학술대회인 European Conference on Computer Vision 2022 (ECCV-22) 에 게재 승인되었습니다.
논문 제목: "IntereStyle: Encoding an Interest Region for Robust StyleGAN Inversion"
"IntereStyle: Encoding an Interest Region for Robust StyleGAN Inversion" 논문은 StyleGAN 모델이 입력 이미지를 똑같이 복원하도록 하는 Robust GAN Inversion 에 대한 연구입니다. 본 논문은 GAN Inversion 과정에서 사람의 얼굴 영역과 같은 관심 영역뿐만 아니라 배경 패턴, 장애물 등의 비관심 영역에 대해서도 모두 왜곡을 낮추려는 과정에서 발생할 수 있는 artifact 에 대해 지적합니다. 실제 이미지에서 대부분의 비관심 영역은 생성 모델에 의해 완벽히 생성되기 어려운 Out-Of-Distribution (OOD)에 해당하기 때문에, 오히려 비관심 영역이 관심 영역의 Identity를 망가뜨릴 수 있음을 실험적으로 발견했습니다. 이를 해결하기 위해 관심 영역에 집중하여 Encoding을 수행하는, 간단하면서도 효과적인 IntereStyle을 제안합니다. IntereStyle은 관심 영역과 비관심 영역의 인코딩을 서로 분리하도록 학습합니다. 이를 위해 비관심 영역의 정보를 반복적으로 필터링하여 비관심 영역의 부정적인 영향을 규제합니다. 그 결과 IntereStyle은 최신 GAN Inversion 모델에 비해 낮은 왜곡과 높은 생성 품질을 모두 달성했습니다. 특히 제안한 모델은 원본 이미지의 특징을 잘 유지하면서 성공적인 이미지 편집 및 스타일 혼합 결과를 보여줍니다.
[논문 정보]
IntereStyle: Encoding an Interest Region for Robust StyleGAN Inversion
Seung-Jun Moon and Gyeong-Moon Park
European Conference on Computer Vision (ECCV), 2022
Abstract:
Recently, manipulation of real-world images has been highly elaborated along with the development of Generative Adversarial Networks (GANs) and corresponding encoders, which embed real-world images into the latent space. However, designing encoders of GAN still remains a challenging task due to the trade-off between distortion and perception. In this paper, we point out that the existing encoders try to lower the distortion not only on the interest region, e.g., human facial region but also on the uninterest region, e.g., background patterns and obstacles. However, most uninterest regions in real-world images are located at out-of-distribution (OOD), which are infeasible to be ideally reconstructed by generative models. Moreover, we empirically find that the uninterest region overlapped with the interest region can mangle the original feature of the interest region, e.g., a microphone overlapped with a facial region is inverted into the white beard. As a result, lowering the distortion of the whole image while maintaining the perceptual quality is very challenging. To overcome this trade-off, we propose a simple yet effective encoder training scheme, coined IntereStyle, which facilitates encoding by focusing on the interest region. IntereStyle steers the encoder to disentangle the encodings of the interest and uninterest regions. To this end, we filter the information of the uninterest region iteratively to regulate the negative impact of the uninterest region. We demonstrate that IntereStyle achieves both lower distortion and higher perceptual quality compared to the existing state-of-the-art encoders. Especially, our model robustly conserves features of the original images, which shows the robust image editing and style mixing results. We will release our code with the pre-trained model after the review.
2023.04.17