DEEPSEEK V3 출현! 6710억 파라미터로 AI의 새 혁신을 선도하다!


News Image
최근 DeepSeek V3가 출시되었습니다.

이 모델은 공개된 AI 모델 중 가장 큰 규모로, 6710억 개의 파라미터를 자랑합니다.

DeepSeek V3는 14.8조 개의 토큰으로 훈련된 텍스트 전용 혼합 전문가(MoE) 모델입니다.

내부 테스트 결과, DeepSeek V3는 Qwen 2.5 70B와 Llama 3.1 405B를 포함한 여러 경쟁 모델보다 우수한 성능을 보였습니다.

특히 코딩 벤치마크에서 Claude Sonnet 3.5와 GPT-4o와의 경쟁에서도 두드러진 성과를 나타냈습니다.

DeepSeek V3는 2048 H800 Nvidia GPU 클러스터를 사용하여 총 278.8만 GPU 시간으로 훈련되었습니다.

이는 Llama 3 405B와 같은 다른 대형 모델보다 크게 적은 시간입니다.

훈련 비용은 600만 달러 이하로, Llama 3 405B의 6천만 달러 이상과 비교됩니다.

DeepSeek V3는 중국의 양적 헤지 펀드 High-Flyer의 지원을 받아 개발되었습니다.

미국 상무부가 중국에 대한 AI 칩 수출을 금지했음에도 불구하고, High-Flyer는 자체 클러스터를 구축하여 모델 훈련을 진행합니다.

DeepSeek V3는 상업적 및 비상업적 사용이 허가된 라이센스를 제공하며, 다운로드 및 수정이 가능합니다.

이번 DeepSeek V3 출시로 AI 분야에서 중요한 발전이 이루어진 것으로 보입니다.