[AI타임스] 오픈AI, AI 브라우저 ‘프롬프트 공격’ 방어 업데이트

아틀라스의 에이전트 모드에서 탐지된 프롬프트 인젝션 공격 (사진=오픈AI)
오픈AI가 AI 브라우저 ‘챗GPT 아틀라스(Atlas)’의 보안 조치를 강화하고 있음에도 불구하고, 프롬프트 인젝션(prompt injection) 공격이 근본적으로 제거하기 어려운 구조적 위험 요소임을 공식적으로 인정했다.
오픈AI는 22일(현지시간) 블로그를 통해 “프롬프트 인젝션은 웹상의 사기나 소셜 엔지니어링과 마찬가지로 완전한 차단이 사실상 불가능한 문제”라고 설명했다.
특히 챗GPT 아틀라스의 ‘에이전트 모드(agent mode)’가 외부 정보와 상호작용하는 과정에서 공격 표면을 넓힐 수 있다는 점을 언급했다. 프롬프트 인젝션은 웹페이지나 이메일 등에 숨겨진 명령을 통해 AI 에이전트의 행동을 왜곡하거나 조종하는 수법으로, 오픈AI는 이를 단기 대응이 아닌 장기적인 AI 보안 과제로 보고 지속적인 방어 체계 고도화가 필요하다고 강조했다.
아틀라스는 지난 10월 공개되자마자 보안 연구자들의 집중적인 검증 대상이 됐다. 일부 연구자들은 구글 문서에 몇줄의 문구만 입력해도 브라우저의 동작을 바꿀 수 있는 시연을 공개했다. 같은 날 AI 검색 스타트업 브레이브는 퍼플렉시티의 ‘코멧(Comet)’을 포함한 AI 기반 브라우저 전반에서 간접 프롬프트 인젝션이 구조적 문제라는 점을 지적하기도 했다.
이는 오픈AI만의 문제가 아니다. 영국 국가사이버보안센터(NCSC)도 이달 초 생성 AI 애플리케이션을 겨냥한 프롬프트 인젝션 공격이 완전히 제거되지 않을 가능성이 높다며, 이를 차단하기보다는 위험과 피해를 줄이는 방향의 대응이 필요하다고 경고했다.
오픈AI가 제시한 해법은 ‘선제적·신속 대응 사이클’이다. 내부적으로 새로운 공격 기법을 빠르게 발견하고 실제 악용되기 전에 방어책을 적용하겠다는 전략이다. 이 접근법은 앤트로픽이나 구글이 강조해 온 ‘다층 방어’나 지속 스트레스 테스트와 유사하지만, 오픈AI는 한 걸음 더 나아가 ‘대형언어모델(LLM) 기반 자동화 공격자(automated attacker)’라는 독특한 방식을 도입했다.
이 자동화 공격자는 강화 학습(RL)으로 훈련된 봇으로, 해커의 역할을 맡아 AI 에이전트에 악성 지시를 주입할 방법을 스스로 탐색한다. 시뮬레이션 환경에서 공격을 시험하고, 대상 AI가 이를 어떻게 해석하고 어떤 행동을 취할지를 분석한 뒤 공격 방식을 반복적으로 개선한다. 오픈AI는 내부 추론 과정에 대한 접근 권한을 활용해, 실제 공격자보다 더 빠르게 취약점을 찾아낼 수 있다고 설명했다.
자동화 공격자는 테스트 중 수십~수백 단계에 걸친 복잡한 유해 워크플로우를 유도하는 새로운 공격 전략도 발견했다. 시연에서는 악성 이메일이 사용자 수신함에 침투한 뒤, AI 에이전트가 이를 읽고 부재중 자동응답 대신 사직 메시지를 보내는 사례가 소개됐다. 보안 업데이트 이후에는 시도가 탐지, 사용자에게 경고가 표시됐다.
보안 강화가 실질적 효과가 있을지는 미지수라는 평이다. 오픈AI는 보안 업데이트 이후 프롬프트 인젝션 성공률이 얼마나 줄었는지 구체적인 수치를 공개하지 않았다. 출시 이전부터 외부 파트너들과 협력해 방어 체계를 강화해 왔다고만 설명했다.
사이버보안 기업 위즈의 라미 매카시 수석 보안 연구원은 “강화 학습은 공격자 행동에 적응하는 한 방법이지만, 전체 해법의 일부일 뿐”이라고 평했다. AI 시스템의 위험을 “자율성 × 접근 권한”으로 설명하며, 에이전트형 브라우저는 높은 접근 권한과 일정 수준의 자율성이 결합된 가장 까다로운 영역에 놓여 있다고 지적했다.
오픈AI도 사용자에게 위험 완화를 위한 권고안을 제시했다. 로그인된 계정 접근을 최소화하고, 메시지 전송이나 결제 전에는 사용자 확인을 요구하며, ‘필요한 모든 조치를 하라’는 식의 광범위한 권한 부여 대신 구체적인 지시를 내리라는 것이다. “과도한 재량은 보호 장치가 있어도 악성 콘텐츠가 에이전트에 영향을 미치기 쉽게 만든다”라고 강조했다.
맥카시 연구원은 에이전트형 브라우저의 효용에 대해서 회의적인 시각을 보였다. 그는 “현재로서는 이메일과 결제 정보 등 민감한 데이터에 접근하는 위험을 감수할 만큼의 가치가 아직 충분하지 않다”라며 “강력함과 위험 사이의 균형은 시간이 지나며 개선되겠지만, 지금은 그 대가가 여전히 크다”라고 말했다.
박찬 기자
출처: https://www.aitimes.com/news/articleView.html?idxno=205031