티스토리 뷰
1. 범주형 속성 처리 |
1. 범주형(Categorical) 속성
▪ 예제 : 성별, 전공, 특기
2. 범주형 속성을 Asymmetric binary 변수로 변환함
3. 주요 이슈
▪ 범주형 속성 value가 여러 종류라면?
- 다른 속성을 추가한다.
▪ 한쪽 속성값으로 편향되었다면?
- 새로운 정보가 없다고 속성을 판단하여 제거한다.
2. 연속형 속성 처리 |
1. 연속형(Continuous) 속성
▪ 예 : 나이, 몸무게, 연봉
2. 처리 방법
▪ 이산화 기반(Discretization-based) 방법
• 통계 기반(Statistics-based) 방법
• Non-discretization 기법
• Min-Apriori 기법
3. 연속형 속성 처리 방법 |
1. 이산화 기반(Discretization-based) 방법
• 비감독(unsupervised) 방법
- 학습기로 하여금 사전 정보 없이 범위를 분류한다.
- Equal-width binning, Equal-depth binning, Clustering
• 감독(supervised) 방법
- 사전 정보를 가지고 있어 해당 정보를 가지고 범위를 분류한다.
• 구간 범위가 넓으면 Confidence가 떨어지고 쫍으면 Support값이 떨어진다.
• 특히 연속형 속성들간의 연관성을 찾고자 하는 경우 사용
4. Min-Apriori Example
• 문제
• 데이터간 연관성을 찾는다.
• Support값을 구한다.
- itemset에 속한 단어 수가 증가하면 최소값을 찾기때문에 지지도는 감소할 수 밖에 없음
4. 개념 계층 |
1. 개념 계층: 특정한 영역에서 정의된 여러 개체들 또는 개념들의 다중 계층조직임.
▪ Concept hierarchy는 specific한 데이터가 상위레벨에서 추상화되므로 분류에서 의미가 있을 수 있음
▪ 개념 계층은 directed acyclic(비순환) graph로 표현됨
2. 특징
▪ 계층의 더 낮은 레벨에 있는 항목들은 어떤 frequent itemset을 나타내기 위해 충분한 support를 가지지 않을 수도 있다
▪ 개념개층의 상위 레벨보다 하위레벨의 항목이 더 유용할 수 있음
▪ 항목에 늘어남에 따라 계산 시간이 늘어나고 중복 규칙이 발생할 수가 있다.
3. 예제
▪ 상위 계층 항목을 추가하는데 따라서 Support Count가 증가할 수 있음 -> Threshold가 낮으면 많은 규칙 생성
4. 접근법
• 먼저 최상위 계층에서 빈발 항목집합을 생성한 후,
• 다음으로 그 아래 계층에서 빈발 항목집합을 생성
• 위 과정을 “만족할 만한 정도의 의미 있는 규칙”을 찾을 때까지 반복한다.
5. 순차 패턴 |
1. Sequence Data : Row에 주어진 시간에 특정 객체와 연관된 사건 발생을 기록함
2. 시퀀스란 원소(혹은 트랜잭션)들의 순서 리스트이다.
• 예 : 도서관에서 대여된 책 순서 : { 책1, 책2, 책3 }
3. 서브 시퀀스
• 시퀀스 내에 포함된 시퀀스를 서브시퀀스라 부른다.
• 서브시퀀스 w의 지지도는 w를 포함하는 시퀀스의 비율을 나타냄
• 순차 패턴(sequential pattern)은 빈발 서브시퀀스(지지도가 minsup 이상인 서브시퀀스)를 의미함
4. 순차 패턴 마이닝 예제
• A = <{1,2,4}, {2,3}, {5}>, B = <{1,2}, {2,3,4}>, C = <{1,2}, {2,3,4}, {2,4,5}>
• D = <{2}, {3,4}, {4,5}>, E = <{1,3}, {2,4,5}>
'SoftWare > 데이터 마이닝' 카테고리의 다른 글
6. 데이터 마이닝 - Association Analysis(2) (0) | 2017.12.16 |
---|---|
6. 데이터 마이닝 - Association Analysis(1) (0) | 2017.11.21 |
5. 데이터 마이닝 - Classification (2) (0) | 2017.11.20 |
5. 데이터 마이닝 - Classification (1) (0) | 2017.11.13 |
4. 데이터 마이닝 - Classification (0) | 2017.10.24 |
- Total
- Today
- Yesterday
- counter
- 포켓몬 고
- java
- 파일 입출력
- 아두이노
- jad
- php
- 5582
- LISTVIEW
- java url
- 인텐트
- 파일입출력
- java 파일 입출력
- Res
- vim
- 서버
- 알고리즘
- 테라펀딩 #투게더펀딩 #P2P투자 #부동산 소액 투자 #카카오 #토스
- c언어
- 자바 입출력
- 유전 알고리즘
- Notification
- Service
- vim 설치
- 카운터
- 안드로이드
- 포켓몬 Go
- android
- 유전
- Java Decompiler
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |