
공공저작물, 이제 AI 학습에 마음껏 써도 된다
공공누리 ‘제0유형’과 ‘AI 유형’ 완전 정리
최근 정부가 공공저작물을 인공지능(AI) 학습용 데이터로 훨씬 폭넓게 활용할 수 있도록 제도를 대폭 개편했습니다.
핵심은 두 가지입니다.
- 공공누리 ‘제0유형’ 신설
- 기존 공공누리에 ‘AI 유형’이라는 별도 레이블 추가
이번 개편은 단순한 라이선스 조정이 아니라,
👉 국가가 보유한 방대한 공공 데이터를 AI 산업의 핵심 학습 자원으로 본격 개방하겠다는 선언에 가깝습니다.
1. 왜 이런 제도 개편이 필요했을까?
공공저작물은 국가·지자체·공공기관이 생산하거나 권리를 확보한 콘텐츠로,
- 규모가 크고
- 신뢰도가 높으며
- 텍스트·이미지·영상·통계·지도 등 형태도 다양합니다.
즉, AI 학습용 데이터로는 최적의 자원입니다.
하지만 기존 공공누리 제도에는 현실적인 한계가 있었습니다.
기존 문제점
- 수백만 건 데이터를 학습시키면서 저작물 하나하나 출처를 관리해야 하는 구조
- 상업적 이용 금지, 변경 금지 조건이 섞여 있어 “AI 학습 자체가 허용되는지” 해석이 모호
- 결과적으로 대규모 AI 학습에서는 법적·운영적 리스크가 너무 큼
정부는 이미 과거에 규제샌드박스 형태로 공공저작물을 AI 학습에 사용해 본 경험이 있었고,
이번 개편은 그 일회성 특례를 ‘상시 제도’로 확대한 것입니다.
2. 새로 생긴 두 가지 핵심 유형
① 공공누리 제0유형 – 완전 개방 트랙
제0유형은 기존 공공누리 1~4유형과 구조적으로 완전히 다릅니다.
한마디로 말하면,
“아무 조건 없는 완전 자유이용”
제0유형의 특징
- 출처 표시 의무 ❌
- 상업적 이용 ⭕
- 비상업적 이용 ⭕
- 변경·편집·가공·번역 ⭕
- 2차적 저작물 제작 ⭕
AI 학습 관점에서 보면,
- 대규모 크롤링
- 데이터 정제
- 증강
- 재학습
- 상업 서비스 적용
모두 별도 권리 검토 없이 가능합니다.
👉 “퍼블릭 도메인에 준하는 공공 데이터 풀”이 생겼다고 보셔도 됩니다.
② 인공지능(AI) 유형 – AI 학습 전용 보조 레이블
AI 유형은 독립된 라이선스가 아닙니다.
기존 공공누리 제1~4유형에 ‘추가로 붙는 보조 레이블’입니다.
기본 개념
- 일반 이용: 기존 공공누리 1~4유형 조건 그대로 적용
- AI 학습 목적: 조건 대폭 완화
즉,
“일반 이용 규칙은 유지하되,
AI 학습용 데이터로 쓸 때만 예외를 주는 구조”
AI 유형이 붙었을 때 가능한 것 (AI 학습 목적 한정)
- 출처 표시 없이 사용 가능
- 상업적·비상업적 학습 모두 가능
- 데이터 전처리·가공·증강 가능
- 변경·편집 제한 해제
결과적으로 AI 학습 범위에서는 제0유형과 거의 동일한 자유도를 가집니다.
3. 기존 공공누리와 한눈에 비교
| 구분 | 기존 1~4유형 | 제0유형 | AI 유형 |
|---|---|---|---|
| 일반 이용 출처 표시 | 필요 | 불필요 | 기존 유형 따름 |
| 일반 이용 상업성 | 유형별 제한 | 허용 | 기존 유형 따름 |
| 일반 이용 변경 | 유형별 제한 | 허용 | 기존 유형 따름 |
| AI 학습 목적 | 불명확 | 완전 자유 | 자유 이용 |
👉 AI 유형의 핵심 포인트는 “AI 학습 목적에만 특혜”라는 점입니다.
4. AI 유형의 ‘중요한 안전장치’
AI 유형은 무조건적인 개방이 아닙니다.
다음과 같은 명확한 전제 조건이 있습니다.
동일·유사 산출물 방지
- 학습 결과가 원본 공공저작물과 사실상 동일하거나 매우 유사하게 재현되면 안 됨
- 단순 암기형 모델, 데이터 누출형 모델은 위험
직접 인용 구조에서는 출처 표시 필요
- RAG(검색 증강 생성)처럼
답변에 원문을 직접 끌어다 쓰는 구조라면 - 결과물 단계에서 출처를 표시할 수 있는 기술적 조치가 필요
학습 데이터 재판매 금지
- 공공저작물로 만든 AI 학습용 데이터셋을 그대로 판매하는 것은 금지
- 단, 해당 데이터로 학습한 모델·서비스의 상업적 이용은 가능
5. “AI 학습”과 “일반 이용”을 꼭 구분해야 하는 이유
AI 유형이 붙은 저작물이라도,
- 블로그 게시
- 서비스 콘텐츠 노출
- 광고·마케팅 활용
- 원본 이미지 게시
이런 AI 학습 외 목적에서는
👉 기존 공공누리 1~4유형 조건을 그대로 따라야 합니다.
즉,
- AI 유형은 면허증이 아니라 ‘학습용 패스’
- 일반 이용 규칙을 바꾸지는 않습니다.
6. 실무자가 알아두면 좋은 활용 시나리오
✔ 사내 LLM 학습·튜닝
- 제0유형 → 최우선 사용 데이터 풀
- AI 유형 → 기존 제한 저작물까지 학습 가능
- 라이선스 관리 부담 대폭 감소
✔ RAG 기반 정책·FAQ·문서 검색 서비스
- AI 학습 자체는 자유
- 출력 단계에서 출처 표시 기능만 추가하면 안정적 운영 가능
✔ 상업용 AI 서비스
- 학습 데이터로는 자유
- 결과물 자체가 공공저작물을 그대로 노출하지 않도록 설계 필요
7. 보안·거버넌스 관점에서 꼭 챙길 것
AI 학습이 자유로워졌다고 해서 보안 책임이 사라지는 것은 아닙니다.
필수 점검 포인트
- 개인정보·민감정보 자동 필터링
- 학습 데이터 버전·출처 로그 관리
- 모델이 원문을 그대로 재현하지 않는지 점검
- 외부 모델/API로 데이터 반출 시 계약·약관 검토
- “AI 학습용”과 “일반 콘텐츠용” 데이터 경로 분리
👉 특히 기업·기관에서는 라이선스 문제보다 ‘데이터 유출·모델 누설’이 더 큰 리스크가 될 수 있습니다.
8. 이 제도가 의미하는 것
이번 개편의 본질은 단순합니다.
“국가가 가진 데이터를 AI 시대의 공공 인프라로 쓰겠다”
- AI 개발 초기 데이터 확보 비용 감소
- 중소기업·스타트업 진입 장벽 완화
- 공공 데이터 기반 AI 생태계 확대
그리고 동시에,
- 무분별한 데이터 오남용을 막기 위한 기술적·윤리적 가드레일도 함께 제시했습니다.
마무리 정리
- 제0유형: 출처도, 제한도 없는 완전 개방형
- AI 유형: 기존 제한은 유지하되, AI 학습 목적만 특별 허용
- 핵심 포인트: “AI 학습”과 “일반 이용”을 명확히 구분하라
AI를 만드는 사람에게는 강력한 기회이고, 새로운 관리 기준이 필요한 변화입니다.
댓글