IBM, 오픈 소스 Granite 3.1 모델로 기업 LLM 시장의 정복을 선포하다!


News Image
IBM은 자사의 Granite 시리즈의 3세대 모델인 Granite 3.0을 출시했습니다. 이는 오픈 소스 대규모 언어 모델(LLM)과 보완 도구들의 모음입니다. 주요 내용은 다음과 같습니다.

- 성능과 효율성 : Granite 3.0 모델은 크기에 비례하여 최첨단 성능을 제공하도록 설계되었으며, 기업 사용 사례를 위해 안전성, 속도, 비용 효율성을 강조합니다. 이 모델은 동급의 오픈 모델들과의 학문적 및 기업 벤치마크에서 그 성능이 동등하거나 우수합니다.

- 모델 변형 : 이번 출시에는 밀집형 텍스트 전용 LLM(Granite 3.0 8B 및 Granite 3.0 2B)와 전문가 혼합 모델(Mixture of Experts, MoE)인 Granite 3.0 3B-A800M 및 Granite 3.0 1B-A400M이 포함되어 있습니다. 또한 LLM 기반의 입력-출력 가드레일 모델인 Granite Guardian 8B와 Granite Guardian 2B도 있습니다.

- 훈련 데이터 : 이 모델은 12조 개 이상의 잘 선별된 기업 데이터 토큰으로 훈련되었습니다. 여기에는 12개 언어와 116개 프로그래밍 언어가 포함됩니다. MoE 모델은 10조 개 이상의 데이터 토큰으로 훈련되었습니다.

- 아키텍처와 기능 : 모델은 그룹 쿼리 주의(GQA), 회전 위치 인코딩(RoPE), SwiGLU 활성화 기능을 가진 다층 퍼셉트론(MLP), RMSNorm 및 공유 입력/출력 임베딩과 같은 고급 아키텍처 구성 요소를 사용합니다. MoE 모델은 세분화된 전문가, 드롭 없는 토큰 라우팅 및 로드 밸런싱 손실 기능을 갖추고 있습니다.

- 오픈 소스 및 접근성 : IBM은 Granite 모델을 Apache 2.0 라이선스 하에 오픈 소스화하여 연구 및 상업적 용도로 제공하고 있습니다. 모델은 Hugging Face, GitHub, Watsonx.ai, Red Hat Enterprise Linux (RHEL) AI와 같은 여러 플랫폼에서 이용할 수 있습니다.

- 사용 사례 : 이 모델은 특히 프로그래밍 및 소프트웨어 개발 비즈니스 사용 사례에 맞춰 설계되었습니다. 텍스트 생성, 에이전틱 AI, 분류, 도구 호출, 요약, 엔티티 추출, 고객 서비스 챗봇 등 다양한 작업에 사용할 수 있습니다. 또한 여러 프로그래밍 언어에서의 고급 응용 프로그램 현대화 및 코드 지원을 지원합니다.

- 미래 개선 사항 : IBM은 모델의 컨텍스트 윈도를 128K 토큰으로 확장하고 다국어 지원을 향상시키려는 계획을 가지고 있습니다. 이미지 입력 및 텍스트 출력 기능을 갖춘 멀티모달 기능도 도입할 예정입니다.

이러한 맥락에서 "IBM wants to be the enterprise LLM king with its new open-source Granite 3.1 models"라는 기사는 이러한 발전과 IBM이 오픈 소스 및 고성능 모델을 통해 기업 LLM 시장에서 리더로 자리매김하고자 하는 전략을 다룰 것으로 예상됩니다.