티스토리 뷰
1. Data란 |
▪ 데이터 마이닝에서 데이터란 Data Object를 모아둔 것을 말한다.
▪ Attribute는 Object의 특성이다. Attribute 집합으로 하나의 Object를 설명할 수 있다.
▪ Data Object들은 같은 Attributes를 가진다.
2. Attribute Values |
▪ Attribute가 속성이라면 Attribute values는 속성값이다.
▪ Attribute values는 숫자 또는 심볼이 들어간다.
▪ 같은 속성(Attribute)라도 다른 속성값(Attribute values) 또는 의미를 가질 수 있다.
(ex) 속성 : 길이, 속성값 : 2m, 2cm
(ex) 속성 : 길이, 속성값 : (실제 길이), (길이 순서)
▪ 같은 속성값(Attribute values)이라도 다른 속성(Attribute)에 들어갈 수 있다.
(ex) 속성값 : 24, 속성 : 나이, 개수
3. Types of Attribute |
1. Nominal(명목형) Attribute
▪ Distinctness(유일성, =, !=)을 특징으로 가짐
▪ Examples : ID number, Zip Code 등
2. Ordinal(서열형) Attribute
▪ Distinctness, Order(<, >)을 특징으로 가짐
▪ Examples : Ranking 등
3. Interval(구간형) Attribute
▪ Distinctness, Order, addition(+, -)을 특징으로 가짐
▪ 일정 간격, 구간이 있어야함
▪ 값들간 사이의 차이가 의미가 있음
▪ Examples : 시간, 온도 등
4. Ratio(비율형) Attribute
▪ Distinctness, Order, addition, Multiplication(*, /)을 특징으로 가짐
▪ 비율형은 값들간 차이뿐만 아니라 비율 모두 의미가 있음
▪ Examples : 절대 온도 등
▪ 데이터 분석에 가장 많이 사용된 것은 Nominal & Ordinal Attribute이며 가장 분석이 어려운 속성은 Ordinal Attribute이다.
▪ 데이터 마이닝은 정보가 숨어있다라는 가정하에 데이터를 보고 예측 분석을 한다. 그러나 기본 지식이 없으면 순수 데이터만으로 분석을 하는데 이 결과로 무의미한 정보가 나올 수 있다.
5. Discrete Attribute
▪ 유한의 값을 가지고 있다.
▪ 정수도 포함이 된다
▪ Examples : Zip Code, 단어 등
6. Continuous Attribute
▪ 실수값을 말한다.
▪ 실수 중 digits로 표현가능한 것만 가능한다.
▪ Examples : 온도, 높이, 무게 등
3. Types of Data Sets |
Data Structure의 특징으로는 아래와 같이 3가지가 있다.
1. Dimensionality
▪ 데이터 집합의 객체들이 갖는 속성의 수
▪ 차원의 저주 문제 존재 -> 차원 감소 필요
2. Sparsity(희소)
▪ 객체 대부분이 0이고 일부가 1일 경우 계산하기는 쉽지만 정보를 빼내기 어렵다.
3. Resolution(해상도)
▪ Patterns depend on the measurement scale(척도)
▪ 데이터의 부족한 수준의 해상도로 얻는 경우가 많음
▪ 어떤 해상도에서 보는가에 따라 다르게 보임
▪ 예) 지구 표면을 km단위로 보는 경우(평평함) vs. m 단위로 보는 경우
Data Set의 종류에는 크게 Record, Graph, Ordered가 있다.
1. Record Data - Data Matrix
▪ record로 구성되어 있으며 attributes는 고정이다.
▪ Data object는 다차원 공간에서 하나의 점으로 표현될 수 있다.
▪ 다차원 공간 크기는 구별되는 attributes의 개수로 결정된다.
2. Record Data - Document Data
▪ 단어가 attribute가 되며 문서 내 해당 단어 개수가 속성이다.
3. Record Data - Transaction Data
▪ 하나의 속성안에 복수의 데이터가 들어간다. 대표적으로 장바구니 데이터가 있다.
4. Graph Data
▪ 데이터 객체간의 관계를 나타내는 그래프
▪ 그래프 자체, 즉 그래프가 나타내고 있는 관계가 의미가 있다.
▪ HTML, XML, 원소(벤젠) 등
4. Ordered Data
▪ 데이터 속성이 시간/공간 순서와 관련된 관계 가짐
▪ Temporal data(시간 데이터), Sequence data(서열 데이터), Time series data(시계열 데이터), Spatial data(공간 데이터)
4. Data Quality |
1. Noise : 노이즈는 외부환경으로 인해 데이터 수집/측정 시 확률적으로 나타나는 measurement error이다.
2. Outliers : 아웃라이어는 평균적인 데이터와 다르게 심하게 다른 값을 가지는 데이터이다. 노이즈랑 구분하기 어려우며 시간 데이터뿐만 아니라 여러 방면의 데이터를 접목시켜 Outliers 를 찾아 낸다.
3. Missing Values : Data Object의 특정 attribute values가 누락된 것이다. 누락된 이유로는 값을 수집하지 못하였거나 수집시기에 값 자체가 없을 수도 있다.(ex. 5살때 수익) 해결 방법으로는 누락값을 추정하거나 확률 적으로 대체할 수 있으며 해당 Data Object를 제거하거나 분석시 해당 누락값을 무시할 수 있다.
4. Duplicate Data : 한 사람이 복수의 이메일 주소를 가지고 있듯이 하나의 특정 Attribute에서 속성값이 복수개이면 데이터가 여러개 들어올 수 있다. 이때에는 Data cleaning(데이터 정제)로 해결한다.
4. Data Preprocessing(데이터 전처리) |
1. Aggregation(집합/집계/총계)
▪ 복수개의 attributes를 하나로 줄인다.
▪ 유사한 Data Object를 줄인다.
▪ Scale을 변경한다.
2. Sampling(표본 추출)
▪ Sampling은 데이터 선택 기술이며 수집한 모든 데이터를 가지고 분석 및 모델화 하기에는 여러 부분에서 많은 비용이 발생하기 때문에 사용한다.
▪ Sampling을 하기 위해 뽑은 부분 데이터는 원래 데이터의 특징을 가지고 있어야 한다.
▪ Simple Random Sampling(단순 임의 표준 추출) : 확률적으로 그냥 뽑음
▪ Sampling without replacement(무대체 표본추출) : 선택된 Object는 표본집합에서 제거된다.
▪ Sampling with replacement(대체 표본추출) : 선택될 시 표본집합에서 제거되지 않아 여러번 선택될 수 있다.
▪ Stratified sampling(층화 표본추출) : 모집단을 층으로 나눈 후, 각 층에서 샘플링, 층내에서는 동질적, 층간은 이질적 특성을 가지도록 하면 적은 비용으로 더 정확한 추정이 가능하다
▪ Sample Size에 따라 너무 커지면 데이터 집단의 특징은 잘보이지만 셈플링 의미가 없어지고 너무 작으면 패턴이 누락되거나 잘못된 패턴이 감지될 수 있다.
3. Dimensionality Reduction(차원 축소)
▪ 차원이 증가하면 차원당 데이터 수는 줄어든다.
▪ Classification하기엔 충분한 데이터 객체가 존재하지 않아 모델 생성이 어렵다.
▪ Clustering에서는 density와 distance 정보가 적어 군집화가 어렵다.
▪ 차원 축소 기법에는 대표적으로 PDA(Principle Component Analysis)가 있다.
▪ PDA 예시로 아래 2차원에서 데이터에 벡터(eigenvectors)를 맵핑 시키고 해당 벡터의 orthogonal 벡터를 찾아 길이를 비교한후 길이가 작은 벡터를 줄인다.
4. Feature subset selection(특징 부분집합 선택)
▪ 데이터의 차원 즉 attribute를 줄이는 방법이다.
▪ Redundant features(중복 특징) : 같은 의미의 attributes는 하나로 합친다. ex).제품의 구매 가격과 지불 된 판매 세액
▪ Irrelevant features(비관련 특징) : Data Mining시 목적과 관련 없는 attributes는 제거한다.
▪ Brute-force approach 기법 : 모든 경우의 Feature subset을 만들어보고 합치다.
▪ Embedded approaches 기법 : Data Mining 알고리즘에서 자연적으로 합쳐진다.
▪ Filter approaches 기법 : 직관적으로 Data Mining 알고리즘 돌리기 전에 수동으로 줄인다.
▪ Wrapper approaches 기법 : 특정 Data Mining 알고리즘을 써서 최상의 subset of attributes를 찾는다.
5. Feature creation(특징 생성)
▪ 원래 속성보다 훨씬 효율적으로 데이터 집단의 중요한 정보를 찾을 수있는 새 속성 만드는 것이다.
▪ 방법론 1 : Feature Extraction(특징 추출)
▪ 방법론 2 : Mapping Data to New Space(새로운 공간으로 데이터 매핑) : Time 도메인을 특정 주파수 대역으로 변경한다.
▪ 방법론 3 : Feature Construction(특징 구축)
6. Discretization(이산화)
▪ Discretization : 하나의 속성을 몇개의 구간으로 나눈다.
▪ 아래 사진에서는 x, y 속성에 대해 각각 3개로 나눈거 보다 5개로 나눈것이 시각화하기에 좋다.
▪ 주파수 대역에 따른 데이터를 4개의 방법으로 이산화를 한 것이다.
7. Attribute Transformation(속성 변환)
▪ 선택한 속성을 하나 이상의 새 속성으로 대체하여 데이터를 변경한다.
'SoftWare > 데이터 마이닝' 카테고리의 다른 글
5. 데이터 마이닝 - Classification (1) (0) | 2017.11.13 |
---|---|
4. 데이터 마이닝 - Classification (0) | 2017.10.24 |
3. 데이터 마이닝 - Data Exploration (0) | 2017.10.24 |
2. 데이터 마이닝 - Data (2) (0) | 2017.10.23 |
1. 데이터 마이닝 - 소개(정의 및 방법) (0) | 2017.10.21 |
- Total
- Today
- Yesterday
- 테라펀딩 #투게더펀딩 #P2P투자 #부동산 소액 투자 #카카오 #토스
- java url
- 파일입출력
- 카운터
- 유전 알고리즘
- vim 설치
- java
- 알고리즘
- 서버
- vim
- LISTVIEW
- Service
- 5582
- 안드로이드
- 파일 입출력
- android
- 자바 입출력
- java 파일 입출력
- 인텐트
- Res
- Java Decompiler
- counter
- 포켓몬 고
- 아두이노
- php
- jad
- c언어
- 유전
- 포켓몬 Go
- Notification
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |