AWS, Amazon Bedrock에 도입된 프롬프트 캐싱으로 비용 최대 90% 절감!
AWS가 Amazon Bedrock 서비스에 도입한 프롬프트 캐싱 기능에 대해 VentureBeat의 기사 "AWS, 90% 비용 절감 프롬프트 캐싱 허용"이 다루고 있습니다. 주요 내용을 정리했습니다.
프롬프트 캐싱
AWS는 Amazon Bedrock에서 프롬프트 캐싱 기능을 제공한다고 발표했습니다. 이 기능은 대형 언어 모델(LLM)을 사용할 때 발생하는 비용과 지연 시간을 크게 줄이기 위해 설계되었습니다. 개발자들은 자주 사용되는 프롬프트를 캐시하여 동일한 맥락을 여러 번 처리할 필요가 없어집니다. 이로 인해 비용은 최대 90%, 지연 시간은 최대 85%까지 줄일 수 있습니다.
작동 방식
프롬프트 캐싱은 API 호출 간에 반복되는 프롬프트 접두사를 저장할 수 있게 합니다. 캐시된 프롬프트를 참조할 경우, 모델은 해당 프롬프트에 대해 내부 모델 상태를 다시 계산할 필요가 없어져, 처리 시간을 절약하고 계산 자원의 필요성을 줄일 수 있습니다. 이는 문서 Q&A, 코드 도우미, 긴 형식의 채팅 등 긴 프롬프트가 필요한 애플리케이션에 특히 유용합니다.
장점
- 비용 절감: 프롬프트를 캐싱함으로써 시스템은 동일한 정보를 처리하는 횟수를 최소화하여 상당한 비용 절감을 가져옵니다.
- 지연 시간 감소: 캐시된 프롬프트는 거의 즉시 참조될 수 있어 사용자 경험을 향상시키고 응답 시간을 줄입니다.
- 에너지 효율성: 불필요한 계산을 줄이면 더욱 에너지 효율적인 AI 운영이 가능합니다.
- 확장성: 반복적인 처리 작업을 분산시켜 더 많은 사용자를 동시에 처리할 수 있습니다.
지원되는 모델과 지역
현재 프롬프트 캐싱은 미국 서부(오리건)와 미국 동부(북버지니아)에서 Claude 3.5 Haiku 및 Claude 3.5 Sonnet v2 모델, 그리고 미국 동부에서 Nova Micro, Nova Lite, Nova Pro 모델에 대해 제공됩니다.
추가 기능
프롬프트 캐싱과 함께 AWS는 쿼리의 복잡성에 따라 프롬프트를 모델 가족 내의 다른 모델로 자동으로 안내하는 지능형 프롬프트 라우팅 기능도 도입했습니다. 이는 응답 품질과 비용 최적화에 도움을 줍니다.
전반적으로, Amazon Bedrock에서 프롬프트 캐싱과 지능형 프롬프트 라우팅의 도입은 다양한 사용 사례에 대해 생성 AI를 보다 비용 효율적이고 효율적인 방식으로 확장 가능하게 만들기 위한 것입니다.