
NDR의 본질: “가시성(Visibility) + 의미화(Analytics) + 조치(Response)”
NDR은 단순 패킷 수집 장비가 아니라, ‘네트워크에서 벌어지는 행위를 자산/정체성/리스크 관점으로 해석하고 대응까지 묶는 체계’입니다. 전통 IDS가 “알려진 시그니처” 중심이라면, NDR은 동서(East-West) 트래픽까지 포함한 행동 기반 이상징후 탐지 + 대응 자동화까지 포함하는 방향으로 진화합니다.
목표·범위 정의: “무엇을 지킬지”를 먼저 못 박아야 성공합니다
보호 대상 자산(우선순위) 정의
NDR ROI는 “어디를 보느냐”에 좌우됩니다. 먼저 핵심 자산(크라운 주얼)을 정하고 그 주변 트래픽을 촘촘히 봐야 합니다.
- 1순위: ID/인증(AD/IdP/IAM), DB, 핵심 서비스(결제/주문/정산 등), 백업/스토리지
- 2순위: 운영관리 구간(점프서버/Bastion/관리 API), 배포/CI/CD, 레지스트리, 내부 패키지 저장소
- 3순위: 사용자 구간(VDI/VPN/ZTNA), 협력사/벤더 접점, 원격근무
위협 모델을 “시나리오”로 명시
“랜섬웨어”, “계정탈취”, “내부자 유출”, “공급망”을 조직 현실에 맞는 공격 흐름으로 적어야 룰/플레이북이 만들어집니다.
특히 Discovery → Lateral Movement → Exfiltration 구간은 NDR이 가장 강합니다.
- 예: T1046(서비스/포트 스캔)는 초기 침투 후 내부 정찰에서 매우 흔한 패턴입니다.
다른 보안 체계와의 역할 분담(아키텍처 합의)
NDR은 “네트워크 관찰자”이고, 실제 강제력(차단/격리)은 보통 방화벽·NAC·EDR·클라우드 SG/NSG·IAM이 쥡니다.
따라서 시작부터 NDR → SIEM/XDR → SOAR/티켓 → 제어계층(차단/격리) 흐름을 설계해야 합니다.
가시성 설계: “어디에 센서를 놓고 무엇을 뽑을지”
센서 배치 원칙(온프렘)
동서 트래픽을 보려면 코어/라우팅 경계(인터-VLAN), 가상화 클러스터, 주요 서버 앞단 같은 “초크포인트”가 핵심입니다.
단순히 경계(North-South)만 보면, 랜섬웨어의 내부 확산/권한 상승/내부 유출 징후를 놓치기 쉽습니다.
추천 배치(우선순위)
- 1순위: 코어 스위치/인터-VLAN 라우팅 경계, DC 경계
- 2순위: AD/DB/백업/스토리지 앞단, 관리망(점프서버)
- 3순위: 중요 서비스 앞단(대량 트래픽), OT/특수망 경계(해당 시)
클라우드 가시성: “미러링 vs 로그”를 목적에 따라 분리
클라우드는 “패킷을 그대로” 보기 어렵기 때문에, 보통 아래를 조합합니다.
- 패킷 미러링(정밀 분석/포렌식/고신뢰 탐지)
- AWS는 VPC Traffic Mirroring으로 ENI 트래픽을 복제해 분석 대상으로 보낼 수 있습니다.
- 플로우 로그(저비용·광범위·추세/베이스라인)
- VPC Flow Logs(또는 유사 기능) 기반으로 통신 관계/추세/이상 탐지
- 클라우드 네이티브 보안로그(정체성 중심 탐지)
- IAM/CloudTrail(또는 동급)로 “누가 어떤 API를 호출했는지”까지 묶어야 계정 탈취에 강해집니다.
하이브리드에서는 흔히 “클라우드 로컬 분석 + 메타데이터/알림만 중앙화”가 비용/지연(egress) 측면에서 유리합니다.
패킷을 중앙으로 다 모으면 비용이 빠르게 커집니다.
수집 데이터의 목표 수준(중요)
NDR 품질은 ‘메타데이터의 깊이’에 크게 좌우됩니다. 단순 NetFlow 수준이면 “누가 누구와 몇 바이트”까지만 보이지만, 현대 NDR은 프로토콜/파일/행위 단서(300+ 속성 등)까지 뽑아 위협을 의미화합니다.
최소 권장(현실적 베이스라인)
- L3/4: 5-tuple, 방향, 바이트/패킷, RTT, 재전송, 세션 길이
- L7 메타: DNS(Query/Response), HTTP(SNI/Host/URI 일부), SMB 메타, TLS 지문/서버명
- 자산/정체성 컨텍스트: IP↔호스트↔계정↔태그(클라우드) 매핑
탐지 전략: “룰 + 행위(이상) + ATT&CK 커버리지” 3단 구조
룰(시그니처/정책)로 ‘즉시 잡을 것’
명백한 악성(IOC), 알려진 C2, 대량 스캔/브루트포스는 룰 기반이 효율적입니다.
다만 “룰만”으로는 신규 변종/정상 위장(LOTL)을 놓치기 쉬워서 아래 4.2가 필수입니다.
행위 기반(베이스라인/피어그룹/점수화)으로 ‘의심을 만들 것’
현대 NDR은 시간창(sliding window), 피어 그룹 비교, 이상치 점수화로 “정상과 다른 행동”을 잡는 접근을 많이 씁니다.
예시
- 새로 등장한 도메인/ASN로의 주기적 비콘
- 업무시간 밖 관리자망 접근 급증
- 내부에서 특정 서버로 SMB/DB 세션이 급격히 확산
- 클라우드에서 예상치 못한 리전/계정 간 통신 생성
MITRE ATT&CK 매핑으로 “탐지 갭”을 없앨 것
규칙/모델을 T1046 같은 기법에 매핑하면 “우리 조직이 무엇을 못 보고 있는지”가 수치로 드러납니다.
커버리지 매트릭스를 만들 때는 보통 아래 축이 유용합니다.
- 전술(Tactic): Discovery / Lateral / Exfiltration …
- 환경: 온프렘 / 클라우드 / 원격근무 / SaaS
- 데이터 소스: 패킷/메타데이터/Flow/ID 로그/EDR
경보 우선순위와 대응정책: “탐지 다음 5분”이 성패를 가릅니다
리스크 기반 스코어링(필수)
NDR 경보는 많아지기 쉽습니다. 아래를 합산한 Risk Score로 우선순위를 자동화해야 운영이 됩니다.
- 자산 중요도(크라운 주얼 여부)
- 취약점/노출(인터넷 노출, 미패치)
- 행위 점수(이상치)
- 위협 인텔/IOC 신뢰도
- 연관 이벤트(EDR/SIEM 상호확증)
대응 수준을 3단으로 나누면 “자동화가 안전”해집니다
자동화는 강력하지만 오탐 시 장애가 큽니다. 그래서 보통 이렇게 갑니다.
- 1단(즉시 자동): 고신뢰 IOC / 명백한 대량 스캔·DDoS / 확정 악성 도메인
- 2단(반자동): 높은 의심 → 티켓/슬랙 알림 + 원클릭 차단 옵션
- 3단(사람 검증): 애매하지만 위험 큼 → 헌팅/조사 후 조치
플레이북(유형별)로 “누가 무엇을 누르는지”를 문서화
최소 아래 4개는 NDR 트리거 기반 플레이북을 갖추는 게 좋습니다.
- 피싱 후 내부 확산(초기 비콘/내부 스캔/권한 상승 징후)
- 랜섬웨어 확산(SMB 급증/파일서버 접근 패턴/백업서버 접근)
- 내부 정보 반출(대량 업로드/비정상 egress/희귀 목적지)
- 계정 탈취(클라우드 API 이상 + 네트워크 이상 동반)
하이브리드(온프렘+클라우드) NDR: “가시성 일원화 + Zero Trust + SOAR”
왜 Zero Trust가 같이 가야 하나요?
하이브리드는 “내부/외부 경계”가 무너집니다. 따라서 네트워크 위치를 신뢰 기준으로 삼지 않고, 모든 접근을 지속 검증하는 모델이 필요합니다. NIST는 이를 Zero Trust Architecture로 정리합니다.
NIST SP 800-207 핵심 구성
- 정책 결정(Policy Decision)
- 정책 집행(Policy Enforcement)
- 지속 평가(사용자/디바이스/행위/환경 기반)
여기서 NDR은 “지속 평가”에 들어갈 행위 신호(behavioral signal)의 큰 축이 됩니다.
클라우드 미러링 예시(AWS)
AWS VPC Traffic Mirroring은 인스턴스의 ENI 트래픽을 복제해 다른 분석 대상으로 보낼 수 있습니다.
예시(개념용)
# (개념) 미러링 대상(Target)과 필터(Filter), 세션(Session)을 만들어
# 특정 ENI의 트래픽을 분석 인스턴스(또는 NLB/GWLB UDP 리스너)로 복제하는 구조입니다.
실무 포인트
- 미러링은 정밀 분석에 좋지만, 범위를 넓히면 비용/운영부하가 급격히 커집니다.
- 그래서 “핵심 서브넷/핵심 ENI만 미러링 + 나머지는 Flow/로그”가 흔한 타협점입니다.
운영 프로세스와 지속개선: “초기 1~3개월은 튜닝 기간”으로 설계
초기에는 오탐이 많아 정상입니다. 중요한 건 오탐을 줄이는 방법이 ‘감’이 아니라 프로세스가 되게 하는 것입니다.
- 모니터링 모드(초기): 임계값 낮게, 알림은 넓게 → 데이터 축적
- 튜닝(1~3개월): 피어그룹/예외/자산 태깅 정교화, 룰 정리
- 헌팅 루프(상시): “낮은 볼륨 장기 C2”, “희귀 DNS”, “장기 세션” 같은 NDR 강점 영역을 주기적으로 헌팅
- 퍼플팀/공격 시뮬: ATT&CK 시나리오 기반으로 탐지 공백 확인 → 룰/플레이북 보강
이 “초기 튜닝의 필요성” 자체가 NDR 운영 베스트프랙티스에서 반복적으로 강조됩니다.
탐지/대응 예시 3종
아래는 “현장에서 진짜 많이 쓰는” 형태로 구성했습니다. (도구는 조직마다 다르니 논리/조건 중심입니다.)
T1046(내부 서비스 스캔) 탐지 아이디어
T1046은 “원격 호스트에서 열린 서비스 목록 확보” 목적의 스캔입니다.
탐지 조건 예시
- 단일 소스 IP가 짧은 시간에 다수 목적지 IP로 다수 포트 접속 시도
- 실패 비율이 높고(RESET/TIMEOUT), 순차적으로 증가하는 포트 패턴
- 평소 해당 호스트가 그런 동작을 하지 않음(베이스라인 위반)
대응(단계형)
- 1단: 고신뢰(서버망에서 서버망 스캔 등)면 즉시 격리 후보
- 2단: 담당자 알림 + 원클릭 차단(방화벽/SG)
- 3단: EDR에서 프로세스 트리/실행 사용자 확인 후 확정 조치
데이터 유출(Exfiltration) 탐지 아이디어
NDR에서 강한 패턴은 보통 “평소 없던 목적지 + 평소 없던 용량/주기”입니다.
- 희귀 목적지(처음 보는 ASN/국가/도메인)
- 야간/주말 대량 전송
- 압축/암호화 업로드(SNI/JA3/도메인 패턴, 세션 길이)
대응
- 1차: 세션/목적지 차단, 해당 계정 세션 종료(ZTNA/IAM)
- 2차: 관련 호스트 EDR 격리 + 자격증명 회수(토큰/키 비활성화)
- 3차: 증적 보존(PCAP/메타데이터/로그), 유출 범위 산정
클라우드 계정 탈취 징후(네트워크 + API 결합)
“네트워크만” 보면 계정탈취를 놓칠 수 있고, “API만” 보면 실제 페이로드 통신을 놓칠 수 있습니다. 그래서 결합이 중요합니다.
- IAM/CloudTrail에서 이상 로그인/이상 API 호출 발생
- 동시에 NDR에서 새로운 egress 목적지/새 리전/관리망 접근 증가
대응
- 키/토큰 비활성화, 세션 강제 만료
- 의심 워크로드 격리 서브넷 이동(태그 기반 자동화)
- SG/NSG 임시 강화(관리 포트/외부 egress 제한)
보안관리 관점 “점검 포인트 체크리스트”
실무에서 NDR 구축/운영 점검할 때, 아래 질문에 “예/아니오”로 답하면 현재 성숙도가 바로 보입니다.
가시성
- 핵심 자산(AD/DB/백업/관리망) 주변 트래픽을 동서 포함해 보고 있나요?
- 클라우드에서 미러링(정밀) + Flow/로그(광범위) 전략이 분리돼 있나요?
- 암호화 트래픽 블라인드(원격근무/SaaS)는 SSE/ZTNA/프록시 로그로 보완하나요?
탐지 품질
- 탐지 규칙/모델이 ATT&CK 기법에 매핑되어 커버리지 갭을 관리하나요?
- “오탐 처리 기준(예외 정책/자산 태깅/피어그룹)”이 문서화되어 있나요?
대응 자동화
- 자동 차단은 고신뢰 시나리오만으로 제한되어 있나요?
- SOAR/티켓/슬랙 알림과 연결되어 MTTA/MTTR이 측정되나요?
- 클라우드에서는 SG/NSG, IAM 키/토큰, 격리 서브넷 같은 조치가 플레이북화되어 있나요?
거버넌스/감사
- NDR 데이터(PCAP/메타/알림)의 보관 정책(기간/접근권한/마스킹)이 있나요?
- 개인정보/민감정보가 트래픽에 포함될 수 있는 구간에 대한 통제가 있나요?
“하이브리드 NDR의 정답 형태”
결론적으로 하이브리드에서는
- 가시성은 ‘온프렘 TAP/SPAN + 클라우드 미러링/Flow/로그’로 계층화하고
- Zero Trust(지속 검증) 아키텍처 안에서 NDR을 ‘행위 신호 공급원’으로 배치하며
- SOAR/제어계층(방화벽·NAC·SG·IAM)으로 “탐지→조치”를 3단(자동/반자동/수동)으로 안전하게 확장하는 것이 가장 안정적인 전략입니다.
댓글