"Meta, 텍스트와 음성을 자유자재로 결합하는 혁신적인 SpiRit-LM 오픈 소스 모델 공개!"
"Meta가 텍스트와 음성 입력/출력을 결합한 Spirit LM 오픈 소스 모델을 소개하다"라는 제목의 VentureBeat 기사에서는 Meta AI가 개발한 새로운 다중 모달 언어 모델인 SpiRit-LM의 도입에 대해 다룹니다. 다음은 기사에서 언급된 주요 내용입니다.
모델 개요
SpiRit-LM은 텍스트와 음성 입력 및 출력을 원활하게 통합하도록 설계된 기본 다중 모달 언어 모델입니다. 이 모델은 이미 학습된 텍스트 언어 모델을 기반으로 하며, 음성 모달리티를 포함하도록 확장되었습니다.
훈련 방법
이 모델은 단어 수준에서 상호 배치하는 방법으로 훈련됩니다. 텍스트와 음성 시퀀스가 하나의 토큰 세트로 병합됩니다. 이 훈련은 작게 자동으로 정제된 음성-텍스트 병렬 코퍼스를 이용합니다.
모델 버전
SpiRit-LM은 두 가지 버전으로 제공됩니다:
- 기본 버전 : 이 버전은 음성 의미 단위를 사용합니다.
- 표현 버전 : 이 버전은 의미 단위 외에 피치와 스타일 단위를 사용하여 표현력을 모델링합니다. 이를 통해 음성의 표현적 측면을 포착할 수 있습니다.
능력
이 모델은 텍스트 모델의 의미적 능력과 음성 모델의 표현적 능력을 모두 보여줍니다. 자동 음성 인식(ASR), 텍스트-음성 변환(TTS), 음성 분류 등 다양한 모달리티에서 새로운 작업을 몇 가지 예제만으로 학습할 수 있습니다. 이 모델은 텍스트나 음성 형식의 프롬프트를 바탕으로 의미적으로 일관된 방식으로 후속 생성을 할 수 있으며, 프롬프트의 표현 스타일을 후속 생성에 적용할 수 있습니다.
평가
이 모델의 성능은 제로 샷과 몇 샷 크로스 모달 평가, 그리고 텍스트-음성 감정 보존 벤치마크 등을 통해 평가됩니다. 평가 결과, SpiRit-LM은 다양한 모달리티의 작업을 효과적으로 처리하고 입력 프롬프트의 표현 스타일을 유지할 수 있는 것으로 나타났습니다.
오픈 소스 제공
Meta AI는 SpiRit-LM을 오픈 소스 모델로 제공하여 연구자와 개발자가 이 작업을 기반으로 다양한 자연어 처리 및 음성 처리 분야에서 응용을 탐색할 수 있도록 했습니다.