DeepMind와 Hugging Face, LLM 텍스트에 감춰진 워터마크를 추가하는 SynthID 발표!
"DeepMind와 Hugging Face가 LLM으로 생성된 텍스트에 워터마크를 적용하는 SynthID를 출시했습니다"라는 제목의 VentureBeat 기사는 Google DeepMind와 Hugging Face의 협업을 다룹니다. 이들은 LLM(대규모 언어 모델)으로 생성된 텍스트에 워터마크를 추가하기 위해 SynthID라는 도구를 소개했습니다.
SynthID 기술
SynthID는 AI로 생성된 텍스트에 디지털 워터마크를 직접 삽입하는 기술입니다. 이 워터마크는 사람에게는 감지되지 않지만, 훈련된 모델에는 인식될 수 있어 사용자가 텍스트가 LLM에 의해 생성되었는지를 확인할 수 있게 합니다.
작동 원리
이 과정은 텍스트 생성 시 LLM이 예측한 토큰의 확률 점수를 조정하는 방식으로 이루어집니다. SynthID는 g-함수라고 알려진 의사 랜덤 함수를 사용해 이러한 점수를 수정하여 생성 품질과 워터마크 감지 가능성 간의 균형을 맞춥니다. 이 과정은 생성된 텍스트의 정확성, 품질 또는 창의성을 손상시키지 않고 진행됩니다.
구성 및 적용
워터마크를 적용하려면 사용자가 두 가지 주요 매개변수인 `keys`와 `ngram_len`을 정의해야 합니다. `keys` 매개변수는 모델의 어휘에서 g-함수 점수를 계산하는데 사용되는 고유한 랜덤 정수의 목록이며, `ngram_len` 매개변수는 강건함과 감지 가능성 간의 균형을 맞춥니다. 워터마킹 구성은 모델의 `generate()` 메서드에 전달되어 SynthID 로짓 프로세서를 활성화합니다.
감지 및 한계
워터마크 감지는 확률적이며 베이지안 감지기를 사용합니다. 이 감지기는 워터마크가 있는지, 없는지, 또는 불확실한 상태의 세 가지 가능한 결과를 출력할 수 있습니다. 감지기의 임계값은 허위 양성과 허위 음성 비율을 조정할 수 있도록 조정할 수 있습니다. 그러나 SynthID는 객관적인 응답에 대해 덜 효과적이며, 텍스트가 철저히 재작성되거나 번역될 경우 신뢰 점수가 줄어드는 등의 한계가 있습니다.
가용성 및 영향
현재 SynthID는 Hugging Face에서 오픈 소스 도구로 제공되어 다른 개발자가 이 기술을 사용해 텍스트 출력이 자신의 LLM에서 나오는지를 감지할 수 있게 되었습니다. 이 이니셔티브는 책임 있는 AI 개발을 촉진하고 AI 생성 콘텐츠를 식별하기 쉽게 하여 허위 정보 문제에 대응하는 데 기여하는 것을 목표로 하고 있습니다.
전반적으로 SynthID의 출시는 AI로 생성된 텍스트의 투명성과 추적 가능성을 향상시키는 중요한 진전을 나타내며, 신뢰할 수 있는 AI 생태계에 기여하고 있습니다.