Tagged: 정렬 위장

2024-12-20

[AI타임스] 앤트로픽 “AI, 본성 숨기고 가짜 대답 내놓는 ‘정렬 위장’ 현상 보여”

(사진=앤트로픽) 인공지능(AI) 모델이 사후 훈련 중 사람이 원하는 대로 답을 바꾸는 것처럼 보이지만, 실제로는 사전 훈련 중 습득한 성향을 그대로 유지한다는 연구 결과가 나왔다. 이 때문에 인간 선호에 맞춰 모델을 조정하는 정렬(alignment)이 별 효과가 없을...

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tagged: 정렬 위장

[AI타임스] 앤트로픽 “AI, 본성 숨기고 가짜 대답 내놓는 ‘정렬 위장’ 현상 보여”

TAG Cloud