[AI타임스] 앤트로픽 “AI, 본성 숨기고 가짜 대답 내놓는 ‘정렬 위장’ 현상 보여”
(사진=앤트로픽) 인공지능(AI) 모델이 사후 훈련 중 사람이 원하는 대로 답을 바꾸는 것처럼 보이지만, 실제로는 사전 훈련 중 습득한 성향을 그대로 유지한다는 연구 결과가 나왔다. 이 때문에 인간 선호에 맞춰 모델을 조정하는 정렬(alignment)이 별 효과가 없을...
by OneLabs
(사진=앤트로픽) 인공지능(AI) 모델이 사후 훈련 중 사람이 원하는 대로 답을 바꾸는 것처럼 보이지만, 실제로는 사전 훈련 중 습득한 성향을 그대로 유지한다는 연구 결과가 나왔다. 이 때문에 인간 선호에 맞춰 모델을 조정하는 정렬(alignment)이 별 효과가 없을...
More