본문 바로가기

정부가 공공저작물 AI에 풀었다: 제0유형·AI유형 공공데이터 AI 학습 허용

728x90

공공저작물, 이제 AI 학습에 마음껏 써도 된다

공공누리 ‘제0유형’과 ‘AI 유형’ 완전 정리

최근 정부가 공공저작물을 인공지능(AI) 학습용 데이터로 훨씬 폭넓게 활용할 수 있도록 제도를 대폭 개편했습니다.
핵심은 두 가지입니다.

  • 공공누리 ‘제0유형’ 신설
  • 기존 공공누리에 ‘AI 유형’이라는 별도 레이블 추가

이번 개편은 단순한 라이선스 조정이 아니라,
👉 국가가 보유한 방대한 공공 데이터를 AI 산업의 핵심 학습 자원으로 본격 개방하겠다는 선언에 가깝습니다.

1. 왜 이런 제도 개편이 필요했을까?

공공저작물은 국가·지자체·공공기관이 생산하거나 권리를 확보한 콘텐츠로,

  • 규모가 크고
  • 신뢰도가 높으며
  • 텍스트·이미지·영상·통계·지도 등 형태도 다양합니다.

즉, AI 학습용 데이터로는 최적의 자원입니다.

하지만 기존 공공누리 제도에는 현실적인 한계가 있었습니다.

기존 문제점

  • 수백만 건 데이터를 학습시키면서 저작물 하나하나 출처를 관리해야 하는 구조
  • 상업적 이용 금지, 변경 금지 조건이 섞여 있어 “AI 학습 자체가 허용되는지” 해석이 모호
  • 결과적으로 대규모 AI 학습에서는 법적·운영적 리스크가 너무 큼

정부는 이미 과거에 규제샌드박스 형태로 공공저작물을 AI 학습에 사용해 본 경험이 있었고,
이번 개편은 그 일회성 특례를 ‘상시 제도’로 확대한 것입니다.

2. 새로 생긴 두 가지 핵심 유형

① 공공누리 제0유형 – 완전 개방 트랙

제0유형은 기존 공공누리 1~4유형과 구조적으로 완전히 다릅니다.

한마디로 말하면,

“아무 조건 없는 완전 자유이용”

제0유형의 특징

  • 출처 표시 의무 ❌
  • 상업적 이용 ⭕
  • 비상업적 이용 ⭕
  • 변경·편집·가공·번역 ⭕
  • 2차적 저작물 제작 ⭕
300x250

AI 학습 관점에서 보면,

  • 대규모 크롤링
  • 데이터 정제
  • 증강
  • 재학습
  • 상업 서비스 적용

모두 별도 권리 검토 없이 가능합니다.

👉 “퍼블릭 도메인에 준하는 공공 데이터 풀”이 생겼다고 보셔도 됩니다.

② 인공지능(AI) 유형 – AI 학습 전용 보조 레이블

AI 유형은 독립된 라이선스가 아닙니다.

기존 공공누리 제1~4유형에 ‘추가로 붙는 보조 레이블’입니다.

기본 개념
  • 일반 이용: 기존 공공누리 1~4유형 조건 그대로 적용
  • AI 학습 목적: 조건 대폭 완화

즉,

“일반 이용 규칙은 유지하되,
AI 학습용 데이터로 쓸 때만 예외를 주는 구조”

AI 유형이 붙었을 때 가능한 것 (AI 학습 목적 한정)

  • 출처 표시 없이 사용 가능
  • 상업적·비상업적 학습 모두 가능
  • 데이터 전처리·가공·증강 가능
  • 변경·편집 제한 해제

결과적으로 AI 학습 범위에서는 제0유형과 거의 동일한 자유도를 가집니다.

3. 기존 공공누리와 한눈에 비교

구분 기존 1~4유형 제0유형 AI 유형
일반 이용 출처 표시 필요 불필요 기존 유형 따름
일반 이용 상업성 유형별 제한 허용 기존 유형 따름
일반 이용 변경 유형별 제한 허용 기존 유형 따름
AI 학습 목적 불명확 완전 자유 자유 이용

👉 AI 유형의 핵심 포인트는 “AI 학습 목적에만 특혜”라는 점입니다.

4. AI 유형의 ‘중요한 안전장치’

AI 유형은 무조건적인 개방이 아닙니다.
다음과 같은 명확한 전제 조건이 있습니다.

동일·유사 산출물 방지

  • 학습 결과가 원본 공공저작물과 사실상 동일하거나 매우 유사하게 재현되면 안 됨
  • 단순 암기형 모델, 데이터 누출형 모델은 위험

직접 인용 구조에서는 출처 표시 필요

  • RAG(검색 증강 생성)처럼
    답변에 원문을 직접 끌어다 쓰는 구조라면
  • 결과물 단계에서 출처를 표시할 수 있는 기술적 조치가 필요

학습 데이터 재판매 금지

  • 공공저작물로 만든 AI 학습용 데이터셋을 그대로 판매하는 것은 금지
  • 단, 해당 데이터로 학습한 모델·서비스의 상업적 이용은 가능

5. “AI 학습”과 “일반 이용”을 꼭 구분해야 하는 이유

AI 유형이 붙은 저작물이라도,

  • 블로그 게시
  • 서비스 콘텐츠 노출
  • 광고·마케팅 활용
  • 원본 이미지 게시

이런 AI 학습 외 목적에서는
👉 기존 공공누리 1~4유형 조건을 그대로 따라야 합니다.

즉,

  • AI 유형은 면허증이 아니라 ‘학습용 패스’
  • 일반 이용 규칙을 바꾸지는 않습니다.

6. 실무자가 알아두면 좋은 활용 시나리오

✔ 사내 LLM 학습·튜닝

  • 제0유형 → 최우선 사용 데이터 풀
  • AI 유형 → 기존 제한 저작물까지 학습 가능
  • 라이선스 관리 부담 대폭 감소

✔ RAG 기반 정책·FAQ·문서 검색 서비스

  • AI 학습 자체는 자유
  • 출력 단계에서 출처 표시 기능만 추가하면 안정적 운영 가능

✔ 상업용 AI 서비스

  • 학습 데이터로는 자유
  • 결과물 자체가 공공저작물을 그대로 노출하지 않도록 설계 필요

7. 보안·거버넌스 관점에서 꼭 챙길 것

AI 학습이 자유로워졌다고 해서 보안 책임이 사라지는 것은 아닙니다.

필수 점검 포인트

  • 개인정보·민감정보 자동 필터링
  • 학습 데이터 버전·출처 로그 관리
  • 모델이 원문을 그대로 재현하지 않는지 점검
  • 외부 모델/API로 데이터 반출 시 계약·약관 검토
  • “AI 학습용”과 “일반 콘텐츠용” 데이터 경로 분리

👉 특히 기업·기관에서는 라이선스 문제보다 ‘데이터 유출·모델 누설’이 더 큰 리스크가 될 수 있습니다.

8. 이 제도가 의미하는 것

이번 개편의 본질은 단순합니다.

“국가가 가진 데이터를 AI 시대의 공공 인프라로 쓰겠다”

  • AI 개발 초기 데이터 확보 비용 감소
  • 중소기업·스타트업 진입 장벽 완화
  • 공공 데이터 기반 AI 생태계 확대

그리고 동시에,

  • 무분별한 데이터 오남용을 막기 위한 기술적·윤리적 가드레일도 함께 제시했습니다.

마무리 정리

  • 제0유형: 출처도, 제한도 없는 완전 개방형
  • AI 유형: 기존 제한은 유지하되, AI 학습 목적만 특별 허용
  • 핵심 포인트: “AI 학습”과 “일반 이용”을 명확히 구분하라

AI를 만드는 사람에게는 강력한 기회이고, 새로운 관리 기준이 필요한 변화입니다.

728x90
그리드형(광고전용)

댓글