IBM, 오픈 소스 Granite 3.1 모델로 기업 LLM 시장의 정복을 선포하다!
IBM은 자사의 Granite 시리즈의 3세대 모델인 Granite 3.0을 출시했습니다. 이는 오픈 소스 대규모 언어 모델(LLM)과 보완 도구들의 모음입니다. 주요 내용은 다음과 같습니다.
- 성능과 효율성 : Granite 3.0 모델은 크기에 비례하여 최첨단 성능을 제공하도록 설계되었으며, 기업 사용 사례를 위해 안전성, 속도, 비용 효율성을 강조합니다. 이 모델은 동급의 오픈 모델들과의 학문적 및 기업 벤치마크에서 그 성능이 동등하거나 우수합니다.
- 모델 변형 : 이번 출시에는 밀집형 텍스트 전용 LLM(Granite 3.0 8B 및 Granite 3.0 2B)와 전문가 혼합 모델(Mixture of Experts, MoE)인 Granite 3.0 3B-A800M 및 Granite 3.0 1B-A400M이 포함되어 있습니다. 또한 LLM 기반의 입력-출력 가드레일 모델인 Granite Guardian 8B와 Granite Guardian 2B도 있습니다.
- 훈련 데이터 : 이 모델은 12조 개 이상의 잘 선별된 기업 데이터 토큰으로 훈련되었습니다. 여기에는 12개 언어와 116개 프로그래밍 언어가 포함됩니다. MoE 모델은 10조 개 이상의 데이터 토큰으로 훈련되었습니다.
- 아키텍처와 기능 : 모델은 그룹 쿼리 주의(GQA), 회전 위치 인코딩(RoPE), SwiGLU 활성화 기능을 가진 다층 퍼셉트론(MLP), RMSNorm 및 공유 입력/출력 임베딩과 같은 고급 아키텍처 구성 요소를 사용합니다. MoE 모델은 세분화된 전문가, 드롭 없는 토큰 라우팅 및 로드 밸런싱 손실 기능을 갖추고 있습니다.
- 오픈 소스 및 접근성 : IBM은 Granite 모델을 Apache 2.0 라이선스 하에 오픈 소스화하여 연구 및 상업적 용도로 제공하고 있습니다. 모델은 Hugging Face, GitHub, Watsonx.ai, Red Hat Enterprise Linux (RHEL) AI와 같은 여러 플랫폼에서 이용할 수 있습니다.
- 사용 사례 : 이 모델은 특히 프로그래밍 및 소프트웨어 개발 비즈니스 사용 사례에 맞춰 설계되었습니다. 텍스트 생성, 에이전틱 AI, 분류, 도구 호출, 요약, 엔티티 추출, 고객 서비스 챗봇 등 다양한 작업에 사용할 수 있습니다. 또한 여러 프로그래밍 언어에서의 고급 응용 프로그램 현대화 및 코드 지원을 지원합니다.
- 미래 개선 사항 : IBM은 모델의 컨텍스트 윈도를 128K 토큰으로 확장하고 다국어 지원을 향상시키려는 계획을 가지고 있습니다. 이미지 입력 및 텍스트 출력 기능을 갖춘 멀티모달 기능도 도입할 예정입니다.
이러한 맥락에서 "IBM wants to be the enterprise LLM king with its new open-source Granite 3.1 models"라는 기사는 이러한 발전과 IBM이 오픈 소스 및 고성능 모델을 통해 기업 LLM 시장에서 리더로 자리매김하고자 하는 전략을 다룰 것으로 예상됩니다.