2009. 2. 24. 14:13

데이터 마이닝을 위한 데이터 웨어하우스와 OLAP 기술

1장 : 개론

 

1.1 데이터 마이닝의 필요성과 중요성은 무엇인가?

데이터 마이닝이 주목을 받고 있는 주된 이유는 데이터의 양적 팽창과 그러한 데이터를 유용한 정보와 지식으로 바꿔야 하는시급한 필요성에 기인한다.

1.2 과연, 데이터 마이닝이란 무엇인가?

데이터 마이닝(Data Mining) : 대량의 데이터로부터 지식을 추출하는(또는 캐내는) 것을 말한다.

◎ 데이터베이스에서의 지식발견(Knowledge Discovery in Database : KDD) 과정

    1. 데이터 정제 : 잡음과 불일치 데이터의 제거
    2. 데이터 통합 : 다수의 데이터 소스들의 결합
    3. 데이터 선택 : 분석작업과 관련된 데이터들이 데이터베이스로부터 검색된다.
    4. 데이터 변환 : 요약이나 집계 등과 같은 연산을 수행함으로써, 마이닝을 위해 적합한 형태로 데이터를 변환하거나 합병정리한다.
    5. 데이터 마이닝 : 데이터 패턴을 추출하기 위하여 지능적 방법들이 적용되는 필수적 과정
    6. 패턴 평가 : 몇 가지 흥미 척도들을 기초로, 지식을 나타내는 진짜 흥미로운 패턴들을 구별한다.
    7. 지식 표현 : 사용자에게 채굴된 지식을 보여주기 위하여 시각화와 지식표현 기법들이 사용된다.

1.3 데이터 마이닝 - 어떤 종류의 데이터에 대한 마이닝인가?

  1. 관계 데이터베이스 : 고유한 이름을 가진 테이블들의 모임
  2. 데이터 웨어하우스 : 기업경영의 의사결정을 위하여 한 장소에 통일된 스키마로 조직된, 다수의 이질 데이터 소스들의 창고
  3. 트랜잭션 데이터베이스 : 각 레코드가 하나의 트랜잭션을 타나내는 파일로 구성

1.4 데이터 마이닝의 기능

개념/클래스 기술, 연관성, 분류, 예측, 군집화, 경향분석, 편차 분석 및 유사성 분석등을 포함

◎ 마이닝 될수 있는 데이터 패턴

  1. 서술형 마이닝 작업 : 데이터베이스에 있는 데이터의 일반적 특성들을 설명
  2. 예측형 마이닝 작업 : 예측을 위하여 현재 데이터들에 대한 추론을 수행

◎  데이터 요약의 형식

  1. 데이터 특성화 : 목표 클래스의 데이터들을 일반적인 용어들로 요약하기

2장 : 데이터 마이닝을 위한 데이터 웨어하우스와 OLAP 기술

 

2.1 데이터 웨어하우스란 무엇인가?

경영 의사결정을 지원하기 위해 조직된 주제지향적이고, 통합된, 시간에 따라 변하는, 비휘발성 데이터의 집합.

◎ OLTP와 OLAP의 구별되는 특징

 

 OLTP

OLAP 

사용자와 시스템 지향

*고객지향 *시장지향 

데이터 내용

* 너무 세세해서 의사결정에 쉽게 사용할 수 없는 최근데이터 *방대한 양의 이력 데이터 

데이터베이스 설계

*ER(entity-relationship)데이터모델

*응용지향(application-oriented) 데이터베이스 설계

*스타(star) 모델

*눈송이(snowflake) 모델

*주제지향 데이터베이스 설계

범위

*한 기업 또는 부서 내의 최근데이터 *한 조직이 발전해 오는 과정으로 인하여 생긴 여러 버젼의 데이터베이스 스키마 

접근패턴

*원자성(atomic) 트랜잭션 *읽기전용연산 

2.2 다차원 데이터 모델

◎ 스타스키마(star schema)

  • 각장 일반적인 모델링 패러다임
  • 중복없는 대량의 데이터를 포함하고 있는 대형 중심테이블(사실테이블)과 각 차원에 대하여 하나씩, 비교적 작은 차원 테이블들의 집합으로 구성

◎ 눈송이 스키마(snowflake schema)

  • 스타 스키마 모델의 한 변형으로, 몇몇 차원 테이블들이 정규화되어, 데이터를 추가적인 테이블들로 분할

◎ 사실성군(fact constellation)

  • 복잡한 응용에서는 차원 테이블들을 공유하는 여러개의 사실 테이블들을 필요로 할수 있다.
  • 이러한 종류의 스키마는 스타의 집합으로 볼수 있으므로, 은하수스키마(galaxy schema) 또는 사실성군이라 부른다.

3장 : 데이터 전처리

 

◎ 전처리 기법

  1. 데이터 정제(data cleaning) : 잡음을 제거하고, 데이터에 있는 불일치를 바로잡는데 적용
  2. 데이터 통합(data integration) : 여러 소스에서 온 데이터들을 데이터 웨어하우스나 데이터 큐브같은 하나의 통일된 데이터 저장소로 융합
  3. 데이터 변환(data transformation) : 거리 측정을 수반하는 마이닝 알고리즘의 정확성과 효율성을 증진시킬수 있음
  4. 데이터 축소(data reduction) : 집계, 중복 특징 제거, 또는 군집화(clustering)을 통하여 데이터의 크기를 줄일수 있음

◎ 왜 데이터를 전처리 하는가?

데이터 마이닝 기법들을 이용하여 분석하고자 원하는 데이터들이 불완전하고, 잡음이 있고, 일치성이 없는 실제세상이기 때문

  • 불완전하다 : 관심있는 속성값이나 특정 속성이 없거나, 또는 집계 데이터만을 포함
  • 잡음이있다 : 예상치에서 이탈된 이상치 또는 오류가 포함되어 있음
  • 일치성이 없다 : 제품을 분류하기 위해 사용되는 부서 코드들에 모순이 포함되어있음

4장 : 데이터 마이닝 요소, 언어, 시스템 구조

 

데이터 마이닝 요소

◎ 데이터 마이닝 작업 정의

  1. 작업-관련 데이터(task-relevant data) : 조사할 데이터베이스의 부분
  2. 마이닝할 지식의 종류 : 특성화, 판별, 연관, 분류, 군집화 또는 진화분석과 같은 수행할 데이터 마이닝 기능을 명세
  3. 배경지식(background knowledge)
  4. 흥미도(interestingness measure) : 관심없는 패턴을 지식으로부터 분리하는데 사용
    • 지지도(support) : 규칙 패턴이 나타나는 작업관계 데이터 투플들의 백분율
      • 지지도(A=>B) = A와 B를 포함하는 투플수 / 총 투플수
      • (A,B 는 아이템의 집합)
    • 신뢰도(confidence) : 규칙의 관련 정도의 추정
      • 신뢰도(A=>B) = A와 B를 포함하는 투플수 / A를 포함하는 투플수
      • (A,B 는 아이템의 집합)
  5. 탐사 패턴의 프리젠테이션과 가시화 : 발견된 패턴을 표현하는 형식

5장 : 개념서술(특성화와 비교)

 

5.1 개념서술(concept description)

  • 특성화(characterization) : 주어진 데이터 집합의 간략하고 간결한 요약을 제공
  • 개념이나 클래스 비교(혹은 판별) : 두개 이상의 데이터 집합의 비교에 대한 설명을 제공
  • 개념서술 : 데이터 마이닝의 가장 기본적인 형태로 작업 관련 데이터를 짧은 요약을 제공하며 데이터에 대한 일반적인 특성을 제시

5.2 데이터 일반화와 요약에 기반한 특성화

데이터 일반화 : 데이터베이스내의 대규모 작업 관련 데이터 집합을 상대적으로 낮은 개념 수준에서 높은 개념 수준으로 추상화 하는 과정

5.3 분석특성화 : 속성 관련 분석

분석특성화 : 속성이나 차원 관련 분석을 사용한 클래스 특성화

◎ 속성관련 분석의 종류 : 통계학, 퍼지이론, 러프(rough)집합 이론

◎ 속성관련 분석의 척도 : 정보이득(information gain), 지니계수(Gini index), 불확실지수(uncertainty), 상관계수(correlation coefficient)

5.4 클래스 비교 마이닝 : 상이한 클래스들을 차별화 하기

클래스 비교(clanss comparison) : 목표 클래스를 대조 클래스와 구별하게 하는 서술을 마이닝 하는것


6장 : 대용량의 데이터베이스에서의 연관규칙 마이닝

 

연관규칙 마이닝 : 대규모 데이터 항목의 집합 사이에서 유용한 연관성과 상관관계를 찾는 방법

장바구니 분석(market basket analysis)

  • 연관규칙 마이닝의 한 형태
  • 고객들의 장바구니에서 서로 다른 품목들 사이의 연관관계를 발견함으로써 고객의 구매습관을 분석

http://www.reportnet.co.kr/knowledge/pop_preview.html?dn=3234940

Trackback 0 Comment 0