| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- 삼성전자
- 우주관측
- ai에이전트
- AI반도체
- 구글AI
- AI보안
- 생물다양성
- 제임스웹우주망원경
- 탄소중립
- IT트렌드
- 지구온난화
- 인공지능
- 생성형AI
- 기후변화
- AI코딩
- 오픈ai
- 엔비디아
- 미래기술
- 챗GPT
- 우주탐사
- ai
- 제미나이
- ChatGPT
- 천문학
- 우주과학
- 전기차배터리
- 마이크로소프트
- NASA
- 고생물학
- AI윤리
- Today
- Total
목록anthropic (2)
테크노트 – 미래를 읽는 기술 & 과학 이야기
최근 Anthropic과 영국 AI 보안 연구소, 앨런 튜링 연구소가 공동으로 발표한 연구 결과가 AI 업계에 큰 충격을 주고 있습니다. 이 연구는 대형 언어 모델(LLM)이 단 250개의 악성 문서만으로도 백도어 공격에 취약해질 수 있다는 사실을 밝혀냈습니다. 더욱 놀라운 것은 이러한 취약점이 모델의 크기나 훈련 데이터의 양과 무관하게 일정하다는 점입니다.기존 보안 상식을 뒤엎는 발견지금까지 AI 보안 전문가들은 공격자가 모델을 손상시키려면 전체 훈련 데이터의 일정 비율을 조작해야 한다고 믿어왔습니다. 하지만 이번 연구는 이런 상식을 완전히 뒤바꿨습니다. 연구진은 6억 개 매개변수 모델과 130억 개 매개변수 모델 모두 동일한 250개의 악성 문서로 백도어를 심을 수 있음을 증명했습니다. 더 큰 모델이..
AI 모델이 점점 더 자율적이고 복잡한 역할을 수행함에 따라, 기존의 수동적·경험적 안전 평가 방식만으로는 잠재적 위험 요소를 놓치기 쉽습니다. 이에 대응하기 위해 Anthropic에서 공개한 Petri는 AI 모델의 ‘기만’, ‘추종편향’, ‘권력추구’, ‘부적절한 응답 거부 실패’ 등 네 가지 핵심 안전 카테고리를 중심으로 자동화된 시뮬레이션 대화를 수행해 위험 행동 가능성을 체계적으로 검증하는 오픈소스 툴입니다. 본 글에서는 Petri의 구조와 작동 원리, 주요 평가 결과, 실제 적용 사례, 그리고 향후 AI 안전 연구에 미칠 영향을 심도 있게 살펴봅니다.왜 AI 안전 검증이 중요한가현대의 대규모 언어 모델(LLM)은 단순 질의응답을 넘어 기업용 챗봇, 의료 자문, 금융 상담 등 다양한 분야에 적용..
