OpenAI, Realtime API 대폭 강화하고 개발자 비용 99% 폭락!


News Image
OpenAI가 'Realtime API'를 확대하고 새로운 음성을 추가하며 개발자 비용을 인하했다는 기사가 VentureBeat에 실렸습니다. 이번 기사에서는 OpenAI의 주요 개발 사항과 발표 내용을 다루고 있습니다.

Realtime API 확대
OpenAI는 개발자들이 저지연, 다중 모드 음성 상호작용을 앱 내에서 구축할 수 있도록 'Realtime API'의 공개 베타를 출시했습니다. 이 API는 여섯 가지 사전 설정된 음성을 사용하여 실시간 음성 대화가 가능하게 하여, 이전에 음성 인식, 텍스트 추론, 음성 합성을 위해 여러 모델이 필요했던 과정을 간소화합니다.

비용 감소
OpenAI는 API 접근 비용을 99% 인하하여 개발자들에게 큰 혜택을 제공합니다. 이는 Meta와 Google 같은 다른 AI 모델 공급자들로부터의 경쟁 압력에 주로 의한 것입니다. Realtime API 가격은 오디오 입력에 대해 분당 $0.06, 오디오 출력에 대해 분당 $0.24로, 텍스트와 오디오 토큰 사용량을 기반으로 합니다.

추가 기능
- 비전 미세 조정 : OpenAI는 개발자들이 이미지와 텍스트를 사용하여 GPT-4o 애플리케이션을 미세 조정할 수 있는 비전 미세 조정 기능을 도입했습니다. 이 기능은 시각적 이해를 포함한 작업의 모델 성능을 향상시킵니다.
- 프롬프트 캐싱 : API 호출 간에 자주 사용되는 컨텍스트를 캐시할 수 있는 새로운 기능으로, 비용을 줄이고 지연 시간을 개선합니다. 이로 인해 개발자들은 API 사용 비용에서 최대 50%를 절감할 수 있습니다.
- 모델 증류 : 이 기능은 개발자들이 더 큰 AI 모델을 사용하여 작은 모델, 예를 들어 GPT-4o mini를 미세 조정할 수 있게 하여 비용 절감과 개선된 성능을 제공합니다.

통합 및 사용 사례
Realtime API는 음성 상호작용을 위한 Twilio와 같은 다른 서비스와 통합될 수 있어 보다 포괄적이고 상호작용적인 애플리케이션을 가능하게 합니다. 초기 사용 사례로는 영양 및 피트니스 코칭 앱인 Healthify와 언어 학습 앱인 Speak가 있으며, 이들 모두 Realtime API를 활용한 자연어 대화를 사용합니다.

미래 개발
OpenAI는 Realtime API를 개선하기 위해 피드백을 수집하고 있으며, 비전 및 비디오와 같은 추가 모드를 도입하고, 비율 한계를 늘리며, API를 위한 공식 SDK 지원을 통합할 계획입니다.

전반적으로 OpenAI의 업데이트는 개발자의 능력을 향상하고 운영 비용을 줄이며 AI 모델 라이센스 시장에서의 경쟁력을 유지하기 위한 것입니다.