티스토리 뷰

728x90

1. Data란

 ▪ 데이터 마이닝에서 데이터란 Data Object를 모아둔 것을 말한다.

 ▪ Attribute는 Object의 특성이다. Attribute 집합으로 하나의 Object를 설명할 수 있다.

 ▪ Data Object들은 같은 Attributes를 가진다.



 

2. Attribute Values

 ▪ Attribute가 속성이라면 Attribute values는 속성값이다.

 ▪ Attribute values는 숫자 또는 심볼이 들어간다.

 ▪ 같은 속성(Attribute)라도 다른 속성값(Attribute values) 또는 의미를 가질 수 있다.
    (ex) 속성 : 길이, 속성값 : 2m, 2cm
    (ex) 속성 : 길이, 속성값 : (실제 길이), (길이 순서)

 ▪ 같은 속성값(Attribute values)이라도 다른 속성(Attribute)에 들어갈 수 있다.

    (ex) 속성값 : 24, 속성 : 나이, 개수



3. Types of Attribute

 1. Nominal(명목형) Attribute

 ▪ Distinctness(유일성, =, !=)을 특징으로 가짐

  Examples : ID number, Zip Code 등

 2. Ordinal(서열형) Attribute

 ▪ Distinctness, Order(<, >)을 특징으로 가짐
 
 Examples : Ranking 등

 3. Interval(구간형) Attribute

 ▪ Distinctness, Order, addition(+, -)을 특징으로 가짐
 ▪ 일정 간격, 구간이 있어야함
 ▪ 값들간 사이의 차이가 의미가 있음
 
 Examples : 시간, 온도 등

 4. Ratio(비율형) Attribute

 ▪ Distinctness, Order, addition, Multiplication(*, /)을 특징으로 가짐
 ▪ 비율형은 값들간 차이뿐만 아니라 비율 모두 의미가 있음
 
 Examples : 절대 온도 


  데이터 분석에 가장 많이 사용된 것은 Nominal & Ordinal Attribute이며 가장 분석이 어려운 속성은 Ordinal Attribute이다. 

  데이터 마이닝은 정보가 숨어있다라는 가정하에 데이터를 보고 예측 분석을 한다. 그러나 기본 지식이 없으면 순수 데이터만으로 분석을 하는데 이 결과로 무의미한 정보가 나올 수 있다.


 5. Discrete Attribute

 ▪ 유한의 값을 가지고 있다.
 ▪ 정수도 포함이 된다
 
 Examples : Zip Code, 단어 등


 6. Continuous Attribute

 ▪ 실수값을 말한다.
 ▪ 실수 중 digits로 표현가능한 것만 가능한다.
  Examples : 온도, 높이, 무게 등



3. Types of Data Sets

  Data Structure의 특징으로는 아래와 같이 3가지가 있다.

  1. Dimensionality

 ▪ 데이터 집합의 객체들이 갖는 속성의 수
 ▪ 차원의 저주 문제 존재 -> 차원 감소 필요


  2. Sparsity(희소)

 ▪ 객체 대부분이 0이고 일부가 1일 경우 계산하기는 쉽지만 정보를 빼내기 어렵다.

  3. Resolution(해상도)

 ▪ Patterns depend on the measurement scale(척도) 

 ▪ 데이터의 부족한 수준의 해상도로 얻는 경우가 많음
 ▪ 어떤 해상도에서 보는가에 따라 다르게 보임
 ▪ 예) 지구 표면을 km단위로 보는 경우(평평함) vs. m 단위로 보는 경우



  Data Set의 종류에는 크게 Record, Graph, Ordered가 있다.

   1. Record Data - Data Matrix

 ▪ record로 구성되어 있으며 attributes는 고정이다.

 ▪ Data object는 다차원 공간에서 하나의 점으로 표현될 수 있다.

 ▪ 다차원 공간 크기는 구별되는 attributes의 개수로 결정된다.



   2. Record Data - Document Data

 ▪ 단어가 attribute가 되며 문서 내 해당 단어 개수가 속성이다.


 


   3. Record Data - Transaction Data

 ▪ 하나의 속성안에 복수의 데이터가 들어간다. 대표적으로 장바구니 데이터가 있다.


 

   4. Graph Data

 ▪ 데이터 객체간의 관계를 나타내는 그래프
 ▪ 그래프 자체, 즉 그래프가 나타내고 있는 관계가 의미가 있다.

 ▪ HTML, XML, 원소(벤젠) 등

 

   4. Ordered Data

 ▪ 데이터 속성이 시간/공간 순서와 관련된 관계 가짐

 ▪ Temporal data(시간 데이터), Sequence data(서열 데이터), Time series data(시계열 데이터), Spatial data(공간 데이터)


 

4. Data Quality

  1. Noise : 노이즈는 외부환경으로 인해 데이터 수집/측정 시 확률적으로 나타나는 measurement error이다.

  2. Outliers : 아웃라이어는 평균적인 데이터와 다르게 심하게 다른 값을 가지는 데이터이다. 노이즈랑 구분하기 어려우며 시간 데이터뿐만 아니라 여러 방면의 데이터를 접목시켜 Outliers 를 찾아 낸다. 


  3. Missing Values : Data Object의 특정 attribute values가 누락된 것이다. 누락된 이유로는 값을 수집하지 못하였거나 수집시기에 값 자체가 없을 수도 있다.(ex. 5살때 수익) 해결 방법으로는 누락값을 추정하거나 확률 적으로 대체할 수 있으며 해당 Data Object를 제거하거나 분석시 해당 누락값을 무시할 수 있다.


  4. Duplicate Data : 한 사람이 복수의 이메일 주소를 가지고 있듯이 하나의 특정 Attribute에서 속성값이 복수개이면 데이터가 여러개 들어올 수 있다. 이때에는 Data cleaning(데이터 정제)로 해결한다.



4. Data Preprocessing(데이터 전처리)

  1. Aggregation(집합/집계/총계)

 ▪ 복수개의 attributes를 하나로 줄인다.
 ▪ 유사한 Data Object를 줄인다.
 ▪ Scale을 변경한다. 



  2. Sampling(표본 추출)

 ▪ Sampling은 데이터 선택 기술이며 수집한 모든 데이터를 가지고 분석 및 모델화 하기에는 여러 부분에서 많은 비용이 발생하기 때문에 사용한다.

 ▪ Sampling을 하기 위해 뽑은 부분 데이터는 원래 데이터의 특징을 가지고 있어야 한다.

 ▪ Simple Random Sampling(단순 임의 표준 추출) : 확률적으로 그냥 뽑음

 ▪ Sampling without replacement(무대체 표본추출) : 선택된 Object는 표본집합에서 제거된다.

 ▪ Sampling with replacement(대체 표본추출) : 선택될 시 표본집합에서 제거되지 않아 여러번 선택될 수 있다.

 ▪ Stratified sampling(층화 표본추출) : 모집단을 층으로 나눈 후, 각 층에서 샘플링, 층내에서는 동질적, 층간은 이질적 특성을 가지도록 하면 적은 비용으로 더 정확한 추정이 가능하다
 ▪ Sample Size에 따라 너무 커지면 데이터 집단의 특징은 잘보이지만 셈플링 의미가 없어지고 너무 작으면 패턴이 누락되거나 잘못된 패턴이 감지될 수 있다.


  3. Dimensionality Reduction(차원 축소)

 ▪ 차원이 증가하면 차원당 데이터 수는 줄어든다.

 ▪ Classification하기엔 충분한 데이터 객체가 존재하지 않아 모델 생성이 어렵다.

 ▪ Clustering에서는 density와 distance 정보가 적어 군집화가 어렵다.

 ▪ 차원 축소 기법에는 대표적으로 PDA(Principle Component Analysis)가 있다.
 ▪ PDA 예시로 아래 2차원에서 데이터에 벡터(eigenvectors)를 맵핑 시키고 해당 벡터의 orthogonal 벡터를 찾아 길이를 비교한후 길이가 작은 벡터를 줄인다.



  4. Feature subset selection(특징 부분집합 선택)
     ▪ 데이터의 차원 즉 attribute를 줄이는 방법이다.
     ▪ Redundant features(중복 특징) : 같은 의미의 attributes는 하나로 합친다. ex).제품의 구매 가격과 지불 된 판매 세액

     ▪ Irrelevant features(비관련 특징) : Data Mining시 목적과 관련 없는 attributes는 제거한다.

     ▪ Brute-force approach 기법 : 모든 경우의 Feature subset을 만들어보고 합치다.

     ▪ Embedded approaches 기법 : Data Mining 알고리즘에서 자연적으로 합쳐진다.

     ▪ Filter approaches 기법 : 직관적으로 Data Mining 알고리즘 돌리기 전에 수동으로 줄인다.

     ▪ Wrapper approaches 기법 : 특정 Data Mining 알고리즘을 써서 최상의 subset of attributes를 찾는다.


  5. Feature creation(특징 생성)

     ▪ 원래 속성보다 훨씬 효율적으로 데이터 집단의 중요한 정보를 찾을 수있는 새 속성 만드는 것이다.

     ▪ 방법론 1 : Feature Extraction(특징 추출)

     ▪ 방법론 2 : Mapping Data to New Space(새로운 공간으로 데이터 매핑) : Time 도메인을 특정 주파수 대역으로 변경한다.


     ▪ 방법론 3 : Feature Construction(특징 구축)


  6. Discretization(이산화)

    ▪ Discretization : 하나의 속성을 몇개의 구간으로 나눈다.
    ▪ 아래 사진에서는 x, y 속성에 대해 각각 3개로 나눈거 보다 5개로 나눈것이 시각화하기에 좋다.

    ▪ 주파수 대역에 따른 데이터를 4개의 방법으로 이산화를 한 것이다.

  7. Attribute Transformation(속성 변환)

    ▪ 선택한 속성을 하나 이상의 새 속성으로 대체하여 데이터를 변경한다.


댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함