Microsoft의 rStar-Math 기법, OpenAI의 o1-preview를 압도하는 소형 모델의 수학 혁신!
"VentureBeat"에 실린 "Microsoft의 새로운 rStar-Math 기법, 수학 문제에서 OpenAI의 o1-preview를 능가하는 소형 모델 업그레이드"라는 제목의 기사는 Microsoft의 소형 언어 모델(SLM)의 수학 추론 능력을 향상시키는 혁신적인 접근 방식을 다룹니다.
rStar-Math 기법
Microsoft의 rStar-Math 기법은 rStar 접근 방식의 확장으로, 자기 놀이를 통한 상호 추론 과정을 포함합니다. 이 방법은 SLM의 추론 능력을 크게 향상시키면서도 파인 튜닝이나 더 우수한 모델에 의존할 필요가 없습니다.
주요 혁신
- 몬테칼로 트리 탐색(MCTS): rStar-Math는 MCTS를 사용합니다. 여기서 수학 정책 SLM이 SLM 기반의 과정 보상 모델에 의해 안내받아 테스트 중 검색을 수행합니다. 이 과정은 고품질의 추론 경로 생성을 도와줍니다.
- 코드 보강 CoT 데이터 합성: 이 기법은 새로운 코드 보강 CoT(Chain of Thought) 데이터 합성 방법을 도입합니다. 이 방법은 광범위한 MCTS 롤아웃을 통해 단계별로 검증된 추론 경로를 생성하여 정책 SLM을 훈련하는 데 사용됩니다.
- 과정 보상 모델 교육: 새로운 방법으로 과정 보상 모델을 훈련하여 단순한 단계별 점수 주석을 피하며, 보다 효과적인 과정 선호 모델(PPM)을 만들어냅니다. 이 PPM은 각 수학 추론 단계에 대한 보상 레이블을 신뢰성 있게 예측합니다.
- 자기 진화: 정책 SLM과 PPM은 처음부터 구축되고 여러 차례의 자기 진화를 통해 점진적으로 발전하여 그들의 추론 능력이 크게 향상됩니다.
성능
- rStar-Math 기법은 수학 추론 작업에서 눈에 띄는 개선을 보여주었습니다. 예를 들어, Qwen2.5-Math-7B의 정확도를 58.8%에서 90.0%로, Phi3-mini-3.8B는 41.4%에서 86.4%로 향상시켜 OpenAI의 o1-preview를 초과했습니다.
- 2024년 미국 수학 올림피아드(AIME)에서는 rStar-Math가 문제의 평균 53.3%(8/15)를 해결하여 가장 똑똑한 고등학생 수학 학생의 상위 20%에 해당합니다.
결론
rStar-Math 기법은 소형 언어 모델이 OpenAI의 o1-preview와 같은 대형 모델의 수학 추론 능력에 필적하거나 이를 초월할 수 있음을 보여줍니다. 이 접근 방식은 다양한 추론 작업에서 SLM의 성능 향상에 중요한 의미를 갖습니다.