티스토리 뷰

728x90

1. 범주형 속성 처리

 1. 범주형(Categorical) 속성

     예제 : 성별, 전공, 특기


 2. 범주형 속성을 Asymmetric binary 변수로 변환함


 3. 주요 이슈

     범주형 속성 value가 여러 종류라면?

- 다른 속성을 추가한다.

     한쪽 속성값으로 편향되었다면?

- 새로운 정보가 없다고 속성을 판단하여 제거한다.



2. 연속형 속성 처리

 1. 연속형(Continuous) 속성

     예 : 나이, 몸무게, 연봉

 

 2. 처리 방법

     이산화 기반(Discretization-based) 방법

    • 통계 기반(Statistics-based) 방법

    • Non-discretization 기법

    • Min-Apriori 기법


3. 연속형 속성 처리 방법

  1. 이산화 기반(Discretization-based) 방법

    • 비감독(unsupervised) 방법   

- 학습기로 하여금 사전 정보 없이 범위를 분류한다.

- Equal-width binning, Equal-depth binning, Clustering

    • 감독(supervised) 방법   

- 사전 정보를 가지고 있어 해당 정보를 가지고 범위를 분류한다.

    • 구간 범위가 넓으면 Confidence가 떨어지고 쫍으면 Support값이 떨어진다.


  2. 통계 기반(Statistics-based) 방법
    • 정량적 연관 규칙은 모집단의 통계적 특성을 추론하는데 사용가능
    • 연관규칙의 결론부가 통계적 속성(평균, 표준편차 등)을 갖는 연속형 속성으로 나타남
    • 다른 특정 Attribute와 Class간의 관계를 가지고 통계적 속성(평균, 표준편차 등) 뽑아낸다. 이후 통계적 속성을 기준으로 연속형 속성을 처리한다. 

  3. Min-Apriori (Han et al)
    • Data set이 연속형 속성(continuous attribute)을 가지는 경우에 적용 가능

    • 특히 연속형 속성들간의 연관성을 찾고자 하는 경우 사용


  4. Min-Apriori Example

   • 문제

   • 데이터간 연관성을 찾는다.

   • Support값을 구한다.

- itemset에 속한 단어 수가 증가하면  최소값을 찾기때문에 지지도는 감소할 수 밖에 없음



4. 개념 계층

 1. 개념 계층: 특정한 영역에서 정의된 여러 개체들 또는 개념들의 다중 계층조직임.

     Concept hierarchy는 specific한 데이터가 상위레벨에서 추상화되므로 분류에서 의미가 있을 수 있음

     개념 계층은 directed acyclic(비순환) graph로 표현됨 


 2. 특징

     계층의 더 낮은 레벨에 있는 항목들은 어떤 frequent itemset을 나타내기 위해 충분한 support를 가지지 않을 수도 있다

     개념개층의 상위 레벨보다 하위레벨의 항목이 더 유용할 수 있음

     항목에 늘어남에 따라 계산 시간이 늘어나고 중복 규칙이 발생할 수가 있다.


 3. 예제

     상위 계층 항목을 추가하는데 따라서 Support Count가 증가할 수 있음 -> Threshold가 낮으면 많은 규칙 생성



 4. 접근법 

    • 먼저 최상위 계층에서 빈발 항목집합을 생성한 후,

    • 다음으로 그 아래 계층에서 빈발 항목집합을 생성

    • 위 과정을 “만족할 만한 정도의 의미 있는 규칙”을 찾을 때까지 반복한다.



5. 순차 패턴

 1. Sequence Data : Row에 주어진 시간에 특정 객체와 연관된 사건 발생을 기록함

 2시퀀스란 원소(혹은 트랜잭션)들의 순서 리스트이다.

    • 예 : 도서관에서 대여된 책 순서 : { 책1, 책2, 책3 }


 3. 서브 시퀀스

    • 시퀀스 내에 포함된 시퀀스를 서브시퀀스라 부른다.

    • 서브시퀀스 w의 지지도는 w를 포함하는 시퀀스의 비율을 나타냄

    • 순차 패턴(sequential pattern)은 빈발 서브시퀀스(지지도가 minsup 이상인 서브시퀀스)를 의미함


 4순차 패턴 마이닝 예제

    • A = <{1,2,4}, {2,3}, {5}>, B = <{1,2}, {2,3,4}>, C = <{1,2}, {2,3,4}, {2,4,5}>

    • D = <{2}, {3,4}, {4,5}>, E = <{1,3}, {2,4,5}>

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함