[AI타임스] 인간 속이는 AI 모델 나올까…앤트로픽, AI 안전 기술 우회하는 LLM 연구 발표
트리거 문구에 반응하는 ‘슬리퍼 에이전트’ (사진=셔터스톡) ‘기만적인 행동’을 학습한 대형언어모델(LLM)은 이를 제거하는 것이 거의 불가능하다는 연구 결과가 나왔다. 테크크런치는 14일(현지시간) 앤트로픽의 연구진이 LLM이 사람처럼 속이는 기술을 배울 수 있는지 연구했으며, 결과적으로 매우 효과적으로 기만행위를...
by OneLabs
트리거 문구에 반응하는 ‘슬리퍼 에이전트’ (사진=셔터스톡) ‘기만적인 행동’을 학습한 대형언어모델(LLM)은 이를 제거하는 것이 거의 불가능하다는 연구 결과가 나왔다. 테크크런치는 14일(현지시간) 앤트로픽의 연구진이 LLM이 사람처럼 속이는 기술을 배울 수 있는지 연구했으며, 결과적으로 매우 효과적으로 기만행위를...
널리 사용되는 프로그래밍 언어인 PHP의 깃 서버에 누군가 침투했다. 그리고 악성 백도어를 심어서 PHP 개발자들이 악성 서비스 및 앱을 개발하도록 유도했다. 다행히 재빨리 발견되어 조치가 취해졌지만 아직 사건에 대해 자세히 밝혀진 내용은 없다. PHP는...
More