"RAG 시스템, 새로운 맥락 기반 기술로 문서 검색 정확도가 대폭 상승!"


News Image
기사 제목 "새로운 기술이 RAG 시스템이 올바른 문서를 검색하는 능력을 크게 향상시킵니다"는 Retrieval-Augmented Generation (RAG) 시스템의 성능을 개선하기 위한 새로운 접근 방식에 대해 논의합니다. 특히 문서 검색과 관련된 내용입니다.

RAG 시스템의 현재 한계
RAG 시스템은 보통 "바이-인코더"를 사용하여 지식 집합에 있는 문서들을 인코딩하고, 사용자의 쿼리에 따라 가장 관련성이 높은 문서를 선택합니다. 그러나 이 바이-인코더는 각 문서의 고정된 표현을 만들어 내며, 이는 특정 맥락의 고유한 데이터셋에서는 비효율적일 수 있습니다. 이 방법은 종종 훈련에 사용된 일반 데이터와 다른 맥락에서 어려움을 겪으며, 때로는 BM25와 같은 전통적인 통계적 방법보다 성능이 떨어지기도 합니다.

맥락 기반 문서 임베딩의 도입
이러한 한계를 극복하기 위해, 코넬 대학교의 연구자들은 "맥락 기반 문서 임베딩"을 도입했습니다. 이 기술은 임베딩 모델의 성능을 향상시키며, 맥락을 인식하도록 만듭니다. 다음은 이 새로운 방법의 주요 내용입니다.

수정된 훈련 과정
첫 번째 접근 방식은 임베딩 모델의 훈련 과정을 수정하는 것입니다. 연구자들은 비슷한 문서들을 클러스터로 묶은 후 임베딩 모델을 훈련합니다. 이후 대조 학습, 즉 비지도 학습 기법을 사용하여 인코더가 각 클러스터 내의 문서들을 구별하도록 학습됩니다. 이로 인해 모델은 특정 맥락에서 중요한 미세한 차이에 더욱 민감해집니다.

향상된 아키텍처
두 번째 방법은 바이-인코더의 아키텍처를 향상시키는 것입니다. 인코더는 임베딩 과정에서 문서의 맥락을 고려할 수 있도록 지식 집합에 접근합니다. 이는 두 단계로 이루어집니다: 첫째, 문서가 속한 클러스터에 대한 공유 임베딩을 계산하고, 둘째로 이 공유 임베딩과 문서의 고유한 특징을 결합하여 맥락화된 임베딩을 생성합니다.

이점과 성능
이 새로운 기술은 표준 바이-인코더에 비해 일관되게 더 뛰어난 성능을 보입니다. 특히 훈련 데이터와 테스트 데이터셋이 크게 다른 아웃 오브 도메인 설정에서 더욱 두드러집니다. 이 접근 방식은 문서의 클러스터에 대한 일반적인 맥락과 세부 사항을 동시에 포착하여, 훈련 데이터와 크게 다른 도메인에서 유용한 도구로 자리 잡습니다. 또한 도메인 특화 임베딩 모델의 세부 조정을 대체할 수 있는 비용 효율적인 방법입니다.

실용적 의미
맥락 기반 문서 임베딩 방법은 관련 문서를 검색하는 것이 중요한 다양한 응용 프로그램에서 유용할 것으로 예상됩니다. 이 기술은 RAG 시스템의 효율성과 정확성을 높여, 정밀하고 맥락에 맞는 정보 검색이 필요한 작업에 더 신뢰할 수 있게 만듭니다.