구글 딥마인드, 대규모 언어 모델의 허위 정보 없애기 위한 혁신적 기준 도입!


News Image
구글 딥마인드 연구원들이 대규모 언어 모델(LLM)의 사실성을 향상시키고, 허위 사실 발생을 줄이기 위해 새로운 기준과 평가 방법을 도입했습니다.

이 기사를 요약하면 다음과 같습니다.

기준 소개
구글 딥마인드 연구원들은 LongFact라는 새로운 기준을 도입했습니다. 이 기준은 LLM의 장문의 사실성을 평가하기 위해 설계되었습니다. LongFact는 38개 주제에 걸쳐 수천 개의 질문으로 구성된 프롬프트 세트를 포함하고 있으며, GPT-4를 사용해 생성되었습니다.

평가 방법
연구원들은 LLM이 생성한 응답의 사실성을 평가하기 위해 Search-Augmented Factuality Evaluator (SAFE)라는 방법을 제안했습니다. SAFE는 장문 응답을 개별 사실로 나눈 후, 구글 검색을 사용해 사실의 정확성을 평가합니다. 이 다단계 추론 과정은 각 사실이 검색 결과에 의해 뒷받침되는지를 판단하는 데 도움을 줍니다.

성능 및 인간 주석자와의 합의
SAFE 방법은 약 16,000개의 개별 사실 세트에서 군중 소싱된 인간 주석자와 72%의 일치를 보였습니다. 이견이 발생했을 때, SAFE는 76%의 정확도로 옳았습니다. 이 방법은 인력에만 의존하는 것보다 20배 이상 비용 효율적입니다.

모델 성능
이 기준은 Gemini, GPT, Claude, PaLM-2의 네 가지 모델 계열에 속한 13개 언어 모델을 평가하는 데 사용되었습니다. 결과는 일반적으로 더 큰 언어 모델이 장문의 사실성 측면에서 더 나은 성능을 보인다는 것을 나타냅니다.

의미
이 새로운 기준과 평가 방법은 LLM의 신뢰성을 높이고, 사실과 다른 정보를 생성하는 것을 줄이기 위한 목적을 가지고 있습니다. 더 강력하고 확장 가능한 사실성 평가 방식을 제공함으로써, 연구자들은 더 정확하고 신뢰할 수 있는 언어 모델 개발을 유도하고자 합니다.