'anthropic' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록anthropic (2)

테크노트 – 미래를 읽는 기술 & 과학 이야기

AI 모델 보안의 충격적 취약점: 250개 문서로 완전 뚫리는 차세대 AI

최근 Anthropic과 영국 AI 보안 연구소, 앨런 튜링 연구소가 공동으로 발표한 연구 결과가 AI 업계에 큰 충격을 주고 있습니다. 이 연구는 대형 언어 모델(LLM)이 단 250개의 악성 문서만으로도 백도어 공격에 취약해질 수 있다는 사실을 밝혀냈습니다. 더욱 놀라운 것은 이러한 취약점이 모델의 크기나 훈련 데이터의 양과 무관하게 일정하다는 점입니다.기존 보안 상식을 뒤엎는 발견지금까지 AI 보안 전문가들은 공격자가 모델을 손상시키려면 전체 훈련 데이터의 일정 비율을 조작해야 한다고 믿어왔습니다. 하지만 이번 연구는 이런 상식을 완전히 뒤바꿨습니다. 연구진은 6억 개 매개변수 모델과 130억 개 매개변수 모델 모두 동일한 250개의 악성 문서로 백도어를 심을 수 있음을 증명했습니다. 더 큰 모델이..

IT, 기술 스토리 2025. 10. 16. 23:54

[AI안전평가] Anthropic Petri: AI 모델의 위험 행동을 자동 검증하는 차세대 안전 테스트 툴 분석

AI 모델이 점점 더 자율적이고 복잡한 역할을 수행함에 따라, 기존의 수동적·경험적 안전 평가 방식만으로는 잠재적 위험 요소를 놓치기 쉽습니다. 이에 대응하기 위해 Anthropic에서 공개한 Petri는 AI 모델의 ‘기만’, ‘추종편향’, ‘권력추구’, ‘부적절한 응답 거부 실패’ 등 네 가지 핵심 안전 카테고리를 중심으로 자동화된 시뮬레이션 대화를 수행해 위험 행동 가능성을 체계적으로 검증하는 오픈소스 툴입니다. 본 글에서는 Petri의 구조와 작동 원리, 주요 평가 결과, 실제 적용 사례, 그리고 향후 AI 안전 연구에 미칠 영향을 심도 있게 살펴봅니다.왜 AI 안전 검증이 중요한가현대의 대규모 언어 모델(LLM)은 단순 질의응답을 넘어 기업용 챗봇, 의료 자문, 금융 상담 등 다양한 분야에 적용..

IT, 기술 스토리 2025. 10. 11. 20:33

이전 Prev 1 Next 다음

목록anthropic (2)

테크노트 – 미래를 읽는 기술 & 과학 이야기

티스토리툴바