Tagged: AI 정렬

[디지털투데이] 일론 머스크 그록 AI, ‘비필터링 모드’ 추가되나…공격적 답변 가능

엑스(트위터)의 AI 그록(Grok)에 부적절한 내용을 말하게 하는 ‘비필터링 모드'(Unhinged Mode)가 추가될 수 있다는 소식이다. 9일 온라인 매체 기가진에 따르면 그록은 일론 머스크 테슬라 최고경영자(CEO)의 xAI가 개발한 AI로, 엑스(트위터) 사용자들에게 제공되고 있다. 이 그록에 새로운...

[AI타임스] 앤트로픽 “AI, 본성 숨기고 가짜 대답 내놓는 ‘정렬 위장’ 현상 보여”

(사진=앤트로픽) 인공지능(AI) 모델이 사후 훈련 중 사람이 원하는 대로 답을 바꾸는 것처럼 보이지만, 실제로는 사전 훈련 중 습득한 성향을 그대로 유지한다는 연구 결과가 나왔다. 이 때문에 인간 선호에 맞춰 모델을 조정하는 정렬(alignment)이 별 효과가 없을...