AI NEWS

"Gemini 2.0 Flash: 실시간 멀티모달 AI의 혁신이 시작된다!"

"Gemini 2.0 Flash가 실시간 멀티모달 AI의 새로운 시대를 열다"라는 제목의 VentureBeat 기사는 Google의 Gemini 2.0 Flash 모델이 도입한 중요한 발전에 대해 다룹니다. 아래는 기사의 내용 요약입니다.

Gemini 2.0 Flash의 주요 특징
- 멀티모달 라이브 API : 이 새로운 API는 실시간 비전 및 오디오 스트리밍 애플리케이션을 생성할 수 있게 해줍니다. 이는 낮은 지연 시간의 양방향 음성 및 비디오 상호작용을 지원하며, 자연스러운 사람과 같은 음성 대화를 가능하게 하고, 음성 명령으로 모델의 응답을 중단할 수 있는 기능을 제공합니다.

성능 및 속도
- Gemini 2.0 Flash는 이전 모델인 Gemini 1.5 Flash에 비해 첫 번째 토큰에 도달하는 시간이 크게 개선되었습니다. 이러한 개선 사항은 더 빠르고 반응적인 상호작용에 기여합니다.

품질 및 기능
- 이 모델은 대부분의 벤치마크에서 Gemini 1.5 Pro와 비슷하거나 더 나은 품질을 유지합니다. 멀티모달 이해, 코딩, 복잡한 지시사항 따르기, 그리고 기능 호출에서 향상을 제공합니다.

새로운 모달리티
- Gemini 2.0은 기본 이미지 생성 및 제어 가능한 음성 합성 기능을 도입합니다. 이러한 기능은 이미지 편집, 지역화된 예술 작품 생성 및 표현력 있는 스토리텔링과 같은 애플리케이션을 가능하게 합니다.

개발자 도구 및 통합
- Gemini 개발자 API와 Vertex AI의 Gemini API 간의 이전을 지원하기 위해 새로운 SDK가 출시되고 있습니다. 이 SDK는 개발자들이 통합 과정을 간소화할 수 있도록 돕습니다.

사용 사례
- 멀티모달 라이브 API는 음성 대 음성, 음성 및 비디오 대 음성 상호작용을 포함하는 애플리케이션을 만드는 데 사용할 수 있으며, 최대 세션 지속 시간은 2분입니다. 또한, 사용자의 요청에 따라 모델이 다양한 도구를 언제 호출할지를 결정할 수 있는 멀티 툴 사용을 지원합니다.

전반적으로 Gemini 2.0 Flash는 실시간 멀티모달 AI의 중대한 발전을 의미하며, 향상된 성능, 새로운 기능, 그리고 향상된 개발자 도구를 제공합니다.