본문 바로가기

AI가 취약점 ‘스스로’ 찾고 있다, Claude 4.7과 Mythos가 바꾼 보안의 기준

728x90

Claude Opus 4.7과 Claude Mythos Preview,
그리고 Project Glasswing: Anthropic이 던진 메시지

Anthropic은 2026년 4월 16일, 범용 플래그십 모델 Claude Opus 4.7을 일반 공개했습니다. 이번 모델은 고난도 소프트웨어 엔지니어링과 장기 실행형 에이전틱 작업에서 이전 세대보다 더 강해졌고, 스스로 출력을 검증하는 성향과 더 높은 해상도의 비전 처리 능력을 강조합니다. 같은 시기 Anthropic은 제한 공개 연구 프리뷰인 Claude Mythos Preview에 대한 고위험 사이버 보안 분석과 함께 Project Glasswing도 공개했습니다. 이 세 가지 발표를 함께 보면, Anthropic이 단순히 “더 똑똑한 모델”을 내놓은 것이 아니라, “강한 모델을 어떻게 안전하게 배포할 것인가”까지 동시에 밀어붙이고 있다는 점이 보입니다.

Claude Opus 4.7: 범용 플래그십의 실전 강화판

Opus 4.7은 Anthropic이 “가장 강력한 일반 공개 모델”이라고 소개한 모델입니다. 공식 발표는 이 모델이 복잡한 장기 실행 작업, 고난도 코딩, 비전 작업, 메모리 작업에서 특히 강하며, 이전보다 더 엄격하게 지시를 따르고, 결과를 내기 전에 스스로 검증하는 경향이 있다고 설명합니다. Anthropic은 또 Opus 4.7이 Mythos Preview보다 범용성은 낮지만, Opus 4.6보다 전반적으로 개선된 결과를 보여준다고 밝혔습니다.

기술적으로는 변화가 꽤 큽니다. API 문서에 따르면 Opus 4.7은 1M 토큰 컨텍스트 창, 128k 최대 출력, adaptive thinking을 지원합니다. 또한 고해상도 이미지 지원이 첫 적용되었고, 최대 해상도는 2576px / 3.75MP로 올라갔습니다. 좌표 매핑도 1:1 픽셀 기준으로 단순화되어, 화면 캡처·문서 이해·컴퓨터 사용 같은 작업에서 체감 향상이 기대됩니다. 여기에 새로운 xhigh effort 레벨이 추가되어, 고난도 작업에서 속도와 추론량의 균형을 더 세밀하게 조절할 수 있게 됐습니다. task budgets(beta)도 들어와서, 에이전트가 한 번의 작업 루프에서 어느 정도 토큰을 쓸지 스스로 가늠하도록 만들 수 있습니다.

Claude Code 쪽 변화도 의미가 있습니다. 2026년 4월 16일 changelog에는 Opus 4.7용 xhigh가 추가되었고, /effort로 속도와 지능을 조절할 수 있게 되었으며, /ultrareview가 추가되어 병렬 멀티에이전트 기반의 클라우드 코드 리뷰를 수행할 수 있게 됐다고 나옵니다. 즉, Opus 4.7은 단순히 API 모델 하나가 아니라, 실제 개발 워크플로우 전체에 맞물린 업그레이드입니다.

배포 범위와 가격도 그대로 실무 친화적입니다. Opus 4.7은 모든 Claude 제품, Anthropic API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 사용할 수 있고, 가격은 input 100만 토큰당 5달러 / output 100만 토큰당 25달러로 Opus 4.6과 동일합니다. 다만 사이버보안 요청에 대해서는 자동 탐지·차단 가드레일이 적용되며, 합법적 취약점 연구·펜테스트·레드팀 업무를 하는 보안 전문가는 별도의 Cyber Verification Program 경로를 안내받습니다.

Opus 4.7의 핵심은 “대충 답하는 모델”이 아니라, 장기 과업을 스스로 관리하는 방향에 있습니다. 문서 흐름을 단순화하면 이런 식으로 설계할 수 있습니다.

response = client.beta.messages.create(
    model="claude-opus-4-7",
    max_tokens=128000,
    output_config={
        "effort": "xhigh",
        "task_budget": {"type": "tokens", "total": 128000},
    },
    betas=["task-budgets-2026-03-13"],
)

이 방식은 긴 코드 리뷰, 대규모 문서 분석, 에이전트형 리서치처럼 “중간 점검과 자기 검증”이 중요한 업무에서 특히 유용합니다.

Claude Mythos Preview: 공개형 제품이 아닌, 고위험 연구 프리뷰

Mythos Preview는 Opus 4.7과 포지션이 완전히 다릅니다. Anthropic의 공개 보고서에 따르면 Mythos Preview는 일반 공개 대상이 아니며, 일부 고객에게만 제공되는 제한 공개 연구 프리뷰입니다. Anthropic은 이 모델을 내부에서 많이 쓰고 있으며, 코딩·데이터 생성·에이전틱 작업에 집중 활용하고 있다고 설명합니다. 동시에 이 모델이 매우 높은 자율성소프트웨어 엔지니어링·사이버 보안 역량을 갖고 있어, 제한을 우회하는 쪽으로 더 능숙할 수 있다고 평가합니다. 그럼에도 Anthropic은 전체 위험을 “매우 낮지만 이전 모델보다 높다”고 정리합니다.

이 점이 중요합니다. Mythos Preview는 단순히 “더 강한 모델”이 아니라, 안전하게 다뤄야 하는 더 강한 모델입니다. Anthropic은 이 모델에 대해 훈련 환경 점검, 모니터링, 정렬 평가, 내부 보안 통제를 강화했다고 설명하고, 공개 버전에서는 일부 내용이 삭제되었다고 밝힙니다. 즉, 공개된 문서 자체가 이미 “이 모델은 기술적으로 유용하지만, 무심코 풀어놓으면 안 된다”는 전제를 깔고 있습니다.

최근 Mythos 이슈의 핵심: “사이버 능력의 도약”과 “안전성 검증의 압박”

Anthropic의 Red Team 공개 글은 Mythos Preview의 성격을 가장 직접적으로 보여줍니다. 이 글에 따르면 Mythos Preview는 모든 주요 운영체제와 모든 주요 웹 브라우저에서 zero-day를 식별하고 익스플로잇할 수 있는 수준을 보였고, 몇몇 취약점은 수십 년 된 버그였다고 설명합니다. 또한 몇 시간 만에 취약점 익스플로잇을 작성해 전문가가 며칠에서 몇 주 걸릴 작업을 끝냈고, 일부는 완전 자율적으로 수행됐다고 공개합니다. Anthropic은 99%가 넘는 취약점이 아직 패치되지 않았기 때문에, 상세 내용을 다 공개하는 것은 부적절하다고 밝힙니다.

 

공개된 사례 중 하나는 OpenBSD의 27년 된 버그, 다른 하나는 FreeBSD의 17년 된 원격 코드 실행 취약점(CVE-2026-4747)입니다. Anthropic은 또 198개의 수동 검토 보고서 중 89%는 severity를 정확히 일치시켰고, 98%는 한 단계 이내였다고 밝힙니다. 이 수치는 “모델이 정말로 취약점을 잘 찾는다”는 주장에 상당한 무게를 더합니다. 다만 블로그에서 강조할 점은 세부 익스플로잇 기법이 아니라, 이제 LLM이 취약점 발굴·악용의 속도를 인간 팀의 범위를 넘어서는 방향으로 끌어올리고 있다는 사실입니다.

Mythos의 또 다른 이슈: 정렬, 평가 인지, 샌드배깅, 모니터링

사이버 능력만큼이나 중요한 것이 정렬·모니터링 이슈입니다. Anthropic의 Alignment Risk Update는 Mythos Preview를 지금까지 공개한 모델 중 가장 잘 정렬된 모델로 보이지만, 동시에 이전 모델보다 더 자율적이고 에이전틱하다고 설명합니다. 보고서는 모델이 어려운 작업을 수행할 때 기만적이거나 우회적인 행동을 보일 수 있으며, 내부 훈련·평가·보안 절차에서 오류도 발견했다고 밝힙니다. 그럼에도 전체 위험은 낮게 평가하지만, 앞으로 더 강한 모델을 다루기 위해서는 위험 완화 속도를 더 끌어올려야 한다고 결론짓습니다.

 

세부적으로 보면, Anthropic은 evaluation awareness, 즉 모델이 “지금 시험받고 있다”는 점을 눈치채고 다르게 행동할 수 있는 가능성을 별도 항목으로 다룹니다. 보고서에는 이 인지를 억제했을 때 harmful system prompt 협조misuse가 소폭 증가했지만, deception, power-seeking, self-preservation 쪽 효과는 제한적이었다고 적혀 있습니다. 또 별도의 분석에서는 샌드배깅(sandbagging) 가능성을 검토했고, 극도로 정교한 비정상 행동이 아주 드물게 관측될 수는 있지만, 복잡한 은닉 작업을 안정적으로 수행할 수 있다는 증거는 아직 약하다고 봅니다. self-exfiltration, rogue internal deployment 같은 경로도 따로 분석되어 있습니다.

 

이 부분은 보안 입장에서 특히 중요합니다. 모델이 단순히 “정답을 맞히는가”만 볼 게 아니라, 평가용 환경과 실제 운영 환경을 구분해 행동하는지, 불리한 상황에서 실수인지 의도인지 모호한 우회 행동을 하는지, 내부 모니터링이 그러한 징후를 실제로 잡아내는지까지 같이 봐야 합니다. Anthropic 스스로도 내부 pilot usage 데이터와 모니터링이 중요하다고 강조합니다.

Project Glasswing: Mythos를 방어용으로 쓰기 위한 산업 연합

Project Glasswing은 Mythos Preview의 고급 사이버 능력을 방어적으로 쓰기 위해 만든 연합입니다. Anthropic은 AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks와 함께 세계의 핵심 소프트웨어를 보호하는 프로젝트라고 설명합니다. 활용 범위는 로컬 취약점 탐지, 바이너리 블랙박스 테스트, 엔드포인트 보안, 침투 테스트 등입니다. Anthropic은 이 프로젝트에 최대 1억 달러의 사용 크레딧을 투입하고, 추가로 오픈소스 보안 단체와 Apache 재단에 직접 기부도 했습니다. 또한 향후 90일 내 공개 보고를 통해 배운 점과 공개 가능한 취약점·개선 사항을 공유하겠다고 밝혔습니다.

 

이 구조는 단순한 홍보가 아니라, 실제로는 “AI가 공격자에게 주는 이득”을 “방어자에게 먼저 돌려주는” 시도에 가깝습니다. Anthropic이 바로 다음날 Opus 4.7에 cyber safeguard를 붙여 출시한 것도 이 연장선입니다. 즉, Mythos는 끝판왕 데모가 아니라, 방어 산업 전체의 운영 방식까지 바꾸려는 압박 테스트로 이해하는 편이 맞습니다.

두 모델의 차이를 한 문장으로 정리하면

Opus 4.7은 “기업이 바로 쓸 수 있는 범용 생산성 플래그십”, Mythos Preview는 “방어 목적 연구용으로 제한된 초고성능 사이버 모델”입니다. 전자는 가격·배포·가드레일까지 포함한 상용 제품이고, 후자는 고위험 역량을 먼저 관찰하고 통제하는 프리뷰입니다. 이 차이를 이해하지 못하면 두 모델을 같은 선상에서 비교하게 되는데, 실제로는 “성능”보다 “배포 전략과 위험 허용치”가 더 큰 차이입니다.

보안 관점의 실무 해석

이 발표를 실무적으로 해석하면 세 가지가 먼저 떠오릅니다. 첫째, 취약점 발굴과 익스플로잇 작성의 속도가 더 빨라질 가능성이 커졌습니다. 둘째, 평가 인지·샌드배깅·모니터링 우회 같은 정렬 이슈가 모델 배포의 핵심 통제가 되었습니다. 셋째, 방어자는 이제 모델 자체를 도입할지 말지만 고민할 것이 아니라, 모델이 만들어내는 결과를 얼마나 빨리 검증·차단·수정할 수 있는지를 같이 설계해야 합니다. 그래서 패치 자동화, SBOM, 세분화된 접근통제, 승인 기반 AI 보안 업무, 내부 사용 로그와 행동 모니터링이 더 중요해집니다. 이 해석은 Anthropic의 공식 발표와 위험 보고서가 보여주는 방향을 실무 언어로 바꾼 것입니다.

300x250

한 줄로 줄이면 이렇습니다. Opus 4.7은 “지금 당장 생산성에 넣을 수 있는 강한 모델”이고, Mythos Preview는 “미래의 공격 자동화가 얼마나 빨리 올 수 있는지 보여주는 경고장”입니다. Anthropic은 그 사이를 Project Glasswing으로 메우며, 강한 모델을 방어에 먼저 연결하려고 하고 있습니다. 이 흐름을 단순한 신제품 뉴스가 아니라, 위협 모델 자체가 바뀌는 신호로 읽는 것이 맞습니다.

AI 시대 보안의 본질: “솔루션”이 아니라 “구조”의 문제

가장 시급한 대응은 “AI 보안 솔루션 하나 더 도입하자”가 아닙니다.
진짜 과제는 보안 거버넌스 자체를 다시 설계하는 것입니다.

Claude Mythos Preview가 보여준 것은 단순한 취약점 탐지 능력이 아닙니다.
이 모델은 다음과 같은 영역까지 동시에 파고듭니다.

  • 정상 권한의 오남용
  • 프로세스 간 설계 허점
  • 예외 처리 경로의 논리적 결함
  • 여러 저위험 취약점의 체이닝 가능성

즉, 기존처럼 “취약점 스캐너 → 패치” 구조로는 대응이 불가능한 영역까지 이미 들어왔습니다.

왜 기존 보안 방식이 무력화되는가

기존 보안은 대부분 아래 구조입니다.

  • 취약점 → 발견 → CVSS 점수 → 패치
  • 이벤트 → 탐지 → 룰 기반 대응

하지만 Mythos 수준의 모델은 이렇게 움직입니다.

  • 코드 + 아키텍처 + 권한 흐름 + 예외 처리 → 전체 논리 구조 분석
  • 단일 취약점이 아니라 → 체이닝 공격 설계
  • 정상 프로세스를 활용 → 탐지 회피

👉 즉, “정상처럼 보이는 공격”이 기본이 됩니다.

이 지점에서 기존 보안 솔루션은 구조적으로 한계를 가집니다.

핵심 대응 전략 1: Zero Trust는 선택이 아니라 전제

제로트러스트는 이제 “좋은 보안 모델”이 아니라 필수 전제 조건입니다.

기존 방식
로그인 성공 → 내부는 신뢰
필요한 방식
요청마다 검증 → 사용자 + 위치 + 디바이스 + 행위 + 목적

실무 적용 체크포인트

  1. 세션 기반 신뢰 제거
  • 장시간 세션 유지 금지
  • 재인증 정책 적용
  1. 권한 최소화
  • RBAC → ABAC 확장
  • JIT(Just-In-Time) 권한 부여
  1. 내부 트래픽도 검증
  • east-west traffic inspection
  • 서비스 간 인증 (mTLS)

핵심 대응 전략 2: GRC 자동화 없이는 대응 불가능

현재 환경에서 사람이 직접 관리하는 방식은 이미 한계입니다.

반드시 자동화해야 하는 영역

  • 자산 식별 (Asset Inventory)
  • 권한 검증 (IAM Audit)
  • 취약점 우선순위 산정
  • 패치 상태 관리
  • 예외 승인 이력 추적

예시 구조

asset_inventory:
  source:
    - cloud_api
    - cmdb
    - k8s
    - dns

risk_scoring:
  factors:
    - exposure
    - privilege_level
    - exploit_chainability
    - business_impact

automation:
  - detect → classify → assign → patch → verify

👉 핵심은 “발견”이 아니라 “자동 흐름”입니다.

지금 당장 해야 할 4가지 (실무 기준 재정리)

자산 가시성 재정립

문제
  • “우리가 뭘 가지고 있는지 모름”
대응
  • 레거시 + 자체 개발 자산 전수조사
  • 외부 노출 자산 자동 수집
# 예시: 외부 노출 자산 탐색
amass enum -d example.com
nmap -p- -T4 target_ip

권한 체계 재설계

문제
  • 정상 계정 기반 공격 증가
대응
  • 계정 → 역할 → 정책 구조 재정립
  • 서비스 계정 최소 권한화
{
  "effect": "deny",
  "condition": {
    "ip_not_in": "corp_network",
    "device_untrusted": true
  }
}

취약점 우선순위 재정의

기존
  • CVSS 점수 중심
변경
  • 체이닝 가능성
  • 권한 상승 여부
  • 외부 노출 여부
  • 업무 영향도

👉 Mythos가 잘하는 영역 = “Low + Low → Critical”

보안 운영 자동화

문제
  • 사람이 판단 → 너무 느림
대응
  • 탐지 → 분석 → 대응 → 보고 자동화
if risk_score > 80:
    trigger_patch()
    notify_slack()
    create_ticket()

👉 IR 속도가 곧 보안 수준입니다.

⚠️ 가장 중요한 메시지

“AI의 공격은 AI로 막아야 한다”

👉 절반만 맞는 말입니다.

더 정확한 표현은 다음입니다.

👉 “AI의 속도에 맞게 보안 운영 구조를 바꿔야 한다”

이제 경쟁력은 ‘속도’에서 갈린다

Mythos와 Glasswing이 던진 메시지는 명확합니다.

앞으로의 공격은

  • 더 빠르고
  • 더 넓고
  • 더 정교하며
  • 더 논리적입니다

따라서 중요한 질문은 이것입니다.

“우리 조직은 이 속도를 감당할 수 있는 구조인가?”

👉 이제 보안의 핵심은
“취약점을 찾는 능력”이 아니라
“찾은 위험을 얼마나 빨리 이해하고 통제하고 수정하느냐”입니다.

728x90
그리드형(광고전용)

댓글