"Anthropic의 안전 정책 강화로 AI의 자율적 행동이 봉쇄된다!"


News Image
"Anthropic의 업데이트된 안전 정책으로 AI가 자율적으로 행동하기 어려워지다"라는 제목의 VentureBeat 기사에서는

Anthropic의 책임 있는 확장 정책(Responsible Scaling Policy, RSP)에 대한 중요한 업데이트를 다루고 있습니다.

이 정책은 고도로 능력 있는 AI 시스템과 관련된 위험을 줄이기 위해 설계된 프레임워크입니다.

정책의 주요 업데이트

- Anthropic은 AI 위험을 평가하고 관리하는 데 있어 보다 유연하고 세밀한 접근 방식을 도입했습니다.
이 정책은 적절한 안전 장치가 갖춰지지 않는 한 모델을 교육하거나 배포하지 않겠다는 약속을 유지합니다.

- 새로운 능력 기준(Capability Thresholds) 가 정의되어, AI 모델의 능력이 추가적인 안전 장치를 요구하는 경우를 안내합니다.
이 기준에는 모델이 자율적으로 AI 연구 및 개발을 수행할 수 있는 능력과 화학, 생물학, 방사선 및 핵(CBRN) 무기 제작 또는 배포를 지원할 가능성이 포함됩니다.

- 이러한 기준에 도달한 모델에 대해 Anthropic은 필수 안전 장치(Required Safeguards) 를 도입합니다.
여기에는 자율적 AI 연구를 위한 높은 보안 기준(최소 ASL-4 이상)과 CBRN 관련 능력에 대한 ASL-3 기준이 포함됩니다.
ASL-3 안전 장치는 강화된 보안 조치, 내부 접근 통제, 모델 가중치의 강력한 보호, 오용을 방지하기 위한 다층적 접근 방식 등을 포함하며, 실시간 및 비동기 모니터링, 신속한 대응 프로토콜, 철저한 배포 전 레드 팀 관리가 포함됩니다.

내부 거버넌스 및 외부 협력

- 이 정책에는 RSP 준수를 감독할 책임 있는 확장 책임자(Responsible Scaling Officer) 의 임명과 같은 내부 거버넌스에 대한 새로운 조치가 포함됩니다.
이 책임자는 필요한 안전 장치가 없다면 AI 교육이나 배포를 일시 중지할 권한을 가집니다.

- Anthropic은 미국 AI 안전 연구소(AI Safety Institute)와 협력하고 있으며, 이 연구소는 모델의 잠재적 안전 개선에 대한 피드백을 제공합니다.
이 협력은 AI 안전 과학을 발전시키고 안전하고 신뢰할 수 있는 AI 개발과 사용을 보장하기 위한 더 넓은 노력의 일환입니다.

산업에 미치는 영향

- 업데이트된 정책은 더 넓은 AI 산업을 위한 청사진을 설계하여 다른 개발자들이 유사한 안전 프레임워크를 채택하도록 장려합니다.
Anthropic은 생물 안전 기준을 모델로 한 AI 안전 수준(AI Safety Levels, ASLs)을 도입함으로써 AI 개발에서 체계적인 위험 관리를 위한 선례를 설정하고 있습니다.

- 정책은 혁신과 엄격한 위험 관리의 균형을 맞추는 데 중점을 두고 있으며, 이는 증가하는 AI 규제와 더 강력한 AI 모델로 인한 위험에 대한 시의적절한 대응으로 보입니다.

전반적으로, Anthropic의 업데이트된 책임 있는 확장 정책은 고급 AI 시스템과 관련된 위험을 관리하기 위한 사전 예방적 접근 방식을 반영하고 있으며, AI가 안전하게 개발 및 배포되어 심각한 피해를 초래하지 않도록 하는 것을 목표로 하고 있습니다.