Birth and Death of a Rose
Birth and Death of a Rose
Name | Birth and Death of a Rose |
---|---|
Authors | Chen Geng, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu |
Institute | Stanford University |
Conference | arxiv (2412.05278) |
Links | [ArXiV] [Project] |
Tl;dr | 4D Reconstruction 계열 논문. 장미가 피고 지는것처럼 사물의 모양이나 색깔등이 시간에 따라 변하는걸 Temporal Object Intrinsic 으로 정의, 이를 DINOv2 feature map 의 형태를 띈 Neural State Map 의 형태로 구현한다. 카메라 각도와 시간 입력을 받아 Neural State Map 을 출력하는 Neural Template 을 배우고, 이 모델을 바탕으로 SDS를 실행, 시간에 따라 변하는 3D 모델을 만든다 |
정리
| 무엇을 하고자 하는가 | 장미가 피고 지거나 양초가 녹는 것처럼, 시간에 따른 사물의 변화를 적용할 수 있는 3D (4D) 생성을 생성모델의 힘을 빌려 진행 새로운 정의 :
- Temporal Object Intrinsic (TOI) : 시간에 따른 사물 본질의 변화 | | — | — | | 왜 이전에는 해결되지 않았나 | SDS는 사물의 relighting을 지원하지 않으며, 모션도 적용시킬수 없고, 무엇보다 Janus Problem 으로 보여지듯 3D 를 잘 모른다. 당연하지만 4D는 더 못할거다. 따라서 SDS를 사용하되, 카메라 각도와 시간에 대해 변하는 TOI 정보에 대해 gradient가 먹히도록 하는 새로운 구조가 필요하다. 새로운 정의 :
- Neural State Map (NSM) : 위의 TOI 를 내포하여 TOI 를 3D 상으로 구현시킬수 있는 representation. 이 연구에선 DINO v2 Feature Map 을 바탕으로 함.
-
Neural Template (NT) : 입력 카메라 각도와 시간에 대해 3D 모델에 대한 NSM 을 뱉어주는 모델 어떻게 해결하였나 1. 한 사물에 대한 Coarse Deformable Mesh (CDM) 를 생성한다. - 디테일할 필요는 없고, 사물의 모양과 시간에 따라 바뀌는 특성이 반영된 수준이면 충분하다.
- CogVideoX를 통해 초기 비디오를 생성.
- 이 비디오의 canonical 프레임에 대해 Zero123, Imagedream 등을 사용해 초기 모델을 학습한다.
- 다른 시간의 프레임들에 대해 위의 모델을 변형시킬수 있는 Deformation Field 를 학습 (Optical Flow loss, ARAP 등을 사용)
- 위의 CDM 에 대한 NT를 배운다
- 각 카메라 각도와 시간에 대해 CDM 을 렌더링한다.
- 3D Recon 을 통해 배운 모델들은 실제 이미지 분포 (DINOv2) 와 다를 가능성이 크다. 이를 해결하기 위해 LCM 모델을 사용해 렌더링된 이미지를 한번 고쳐준다.
-
이 이미지들에 대해 DINOv2 를 실행, 위의 NSM을 얻는다
느낀점
- 지금까지 비디오 생성 모델 기반으로 본것중에선 새로운 관점? (물론 이 연구자가 이쪽으로 많이 보긴 했다)
Citation
@misc{geng2024birthdeathrose,
title={Birth and Death of a Rose},
author={Chen Geng and Yunzhi Zhang and Shangzhe Wu and Jiajun Wu},
year={2024},
eprint={2412.05278},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2412.05278},
}
Enjoy Reading This Article?
Here are some more articles you might like to read next: