“Nous Research의 DeepHermes-3, 상상을 초월하는 AI 추론의 새로운 시대를 열다!”
"‘개인화되고 제한 없는’ AI 연구소 Nous Research가 첫 번째 전환형 추론 모델: DeepHermes-3을 출시"라는 제목의 VentureBeat 기사에서는 AI 모델로 잘 알려진 Nous Research의 최신 혁신에 대해 논의합니다.
주요 내용
- DeepHermes 3 소개 : Nous Research는 언어 모델 시리즈의 중요한 발전인 DeepHermes 3을 출시했습니다. 이 모델은 전통적인 직관적 응답과 긴 체인 추론 기능을 하나의 모델에 통합한 최초의 모델로 주목받고 있습니다.
- 추론 기능 : DeepHermes 3는 두 가지 모드 사이를 전환할 수 있습니다: 표준 직관적 응답 모드와 심층 추론 모드입니다. 심층 추론 모드는 모델이 더 정확하고 깊이 있는 응답을 제공하기 위해 광범위하고 체계적인 추론 과정을 수행하게 합니다.
- 모델 아키텍처 : Meta의 Llama 3.1 프레임워크를 기반으로 구축된 DeepHermes 3은 8B, 70B, 405B 등 다양한 매개변수 크기로 제공됩니다. 이러한 유연성 덕분에 다양한 사용 사례와 계산 자원에 적응할 수 있습니다.
- 사용자 제어 및 정렬 : DeepHermes 3을 포함한 Hermes 시리즈의 철학은 AI가 기업이나 고위 권력의 이익이 아닌 사용자의 필요에 맞추어지는 데 중점을 두고 있습니다. 이 모델은 사용자가 모델의 행동과 출력을 제어할 수 있는 강력한 조정 기능을 제공합니다.
- 성능 및 효율성 : DeepHermes 3은 데이터 합성, 감독된 미세 조정, 양자화와 같은 기술을 사용하여 효율성을 최적화했습니다. 이러한 최적화는 모델의 VRAM과 디스크 요구 사항을 줄여 단일 노드에서 실행하거나 다중 노드 클러스터로 확장할 수 있게 합니다.
- 기준 및 평가 : 이 모델은 HuggingFace의 open-r1 추론 모드 평가 및 LM-Eval-Harness 벤치마크 스위트를 포함한 다양한 벤치마크 세트를 사용하여 평가되었습니다. 결과는 이전 모델들에 비해 추론 및 기타 작업에서 상당한 개선을 보여줍니다.
- 사용자 상호작용 : DeepHermes 3은 Llama-Chat과 유사한 구조화된 시스템 프롬프트 형식을 지원하여 다중 회차 대화를 가능하게 하고 사용자가 시스템 프롬프트를 통해 모델의 응답을 안내할 수 있게 합니다.
전반적으로 DeepHermes 3은 고급 추론 및 창의적인 기능이 필요한 사용자에게 매우 유연하고 강력한 도구를 제공하며 AI 연구에서 중요한 발전을 나타냅니다.