AI NEWS

"Stability AI의 Stable Virtual Camera로 2D 이미지를 환상적인 3D 비디오로 변신시키다!"

"Stable Virtual Camera: 3D 카메라 제어를 통한 다중 시점 비디오 생성"이라는 제목의 기사는 Stability AI가 개발한 최첨단 다중 시점 확산 모델인 Stable Virtual Camera의 출시를 알립니다. 다음은 기사의 주요 내용입니다.

모델 개요
Stable Virtual Camera는 2D 이미지를 몰입감 있는 3D 비디오로 변환하도록 설계되었습니다. 현실감 있는 깊이와 원근감을 제공합니다. 이 모델은 복잡한 재구성이나 장면별 최적화가 필요하지 않아 3D 비디오 생성에서 중요한 발전을 이루었습니다.

기능
- 동적 카메라 제어: 이 모델은 사용자가 정의한 카메라 궤적과 14개의 사전 설정된 동적 카메라 경로(360°, 루프, 나선형, 돌리 줌, 줌 인 및 아웃, 전후 이동, 상하좌우 팬, 롤)를 지원합니다.
- 유연한 입력: 단일 입력 이미지 또는 최대 32개의 이미지로 3D 비디오를 생성할 수 있습니다.
- 다양한 비율: 이 모델은 추가 훈련 없이 정사각형(1:1), 세로(9:16), 가로(16:9) 및 사용자 지정 형식의 다양한 비율로 비디오를 제작할 수 있습니다.
- 긴 비디오 생성: 최대 1,000 프레임까지 3D 일관성을 보장하여 매끄러운 루프와 부드러운 전환이 가능합니다.

기술적 세부 사항
Stable Virtual Camera는 고정 시퀀스 길이를 가진 다중 시점 확산 모델로 훈련되었습니다. 일정한 수의 입력 및 목표 뷰(M-in, N-out)를 사용합니다. 샘플링 과정에서는 유연한 생성 렌더러로 작동하여 가변적인 입력 및 출력 길이(P-in, Q-out)를 수용합니다.
이 모델은 두 단계의 절차 샘플링 과정을 사용하여 먼저 앵커 뷰를 생성한 후, 목표 뷰를 청크로 렌더링하여 매끄럽고 일관된 결과를 보장합니다.

성능
이 모델은 새로운 뷰 합성(NVS) 기준에서 최첨단 성능을 입증하며, ViewCrafter와 CAT3D와 같은 모델보다 높은 성능을 보여주었습니다. 대규모 뷰포인트 NVS에서 생성 능력을 강조하며, 소규모 뷰포인트 NVS에서는 시간적인 매끄러움을 우선시합니다.

제한 사항
초기 버전에서는 인간, 동물 또는 물과 같은 동적인 텍스처를 포함한 입력 이미지에서 저품질 결과를 생성할 수 있습니다. 매우 애매한 장면, 복잡한 카메라 경로 및 불규칙한 형태의 객체가 아티팩트를 유발할 수 있습니다.

사용 가능성
Stable Virtual Camera는 비상업적 라이선스 하에 연구용으로 제공됩니다. 연구자는 논문을 읽고 Hugging Face에서 모델 가중치를 다운로드하며 GitHub에서 코드를 접근할 수 있습니다.

미래 개발
Stable Virtual Camera의 출시는 연구 커뮤니티가 이 모델의 기능을 탐색하고 개발에 기여할 수 있는 초대장입니다. 이 모델은 디지털 창작과 연구에서 새로운 가능성을 열 것으로 기대됩니다.

전반적으로 Stable Virtual Camera는 2D 이미지를 사용하여 몰입감 있는 3D 비디오를 생성하는 데 있어 중요한 진전을 나타내며, 복잡한 설정 없이도 높은 품질의 출력과 고급 카메라 제어를 제공합니다.