2. 데이터 마이닝

티스토리 뷰

SoftWare/데이터 마이닝

2. 데이터 마이닝 - Data (1)

White Whale 2017. 10. 22. 23:09

728x90

1. Data란

▪ 데이터 마이닝에서 데이터란 Data Object를 모아둔 것을 말한다.

▪ Attribute는 Object의 특성이다. Attribute 집합으로 하나의 Object를 설명할 수 있다.

▪ Data Object들은 같은 Attributes를 가진다.

2. Attribute Values

▪ Attribute가 속성이라면 Attribute values는 속성값이다.

▪ Attribute values는 숫자 또는 심볼이 들어간다.

▪ 같은 속성(Attribute)라도 다른 속성값(Attribute values) 또는 의미를 가질 수 있다.
(ex) 속성 : 길이, 속성값 : 2m, 2cm
(ex) 속성 : 길이, 속성값 : (실제 길이), (길이 순서)

▪ 같은 속성값(Attribute values)이라도 다른 속성(Attribute)에 들어갈 수 있다.

(ex) 속성값 : 24, 속성 : 나이, 개수

3. Types of Attribute

1. Nominal(명목형) Attribute

▪ Distinctness(유일성, =, !=)을 특징으로 가짐

▪ Examples : ID number, Zip Code 등

2. Ordinal(서열형) Attribute

▪ Distinctness, Order(<, >)을 특징으로 가짐
▪ Examples : Ranking 등

3. Interval(구간형) Attribute

▪ Distinctness, Order, addition(+, -)을 특징으로 가짐
▪ 일정 간격, 구간이 있어야함
▪ 값들간 사이의 차이가 의미가 있음
▪ Examples : 시간, 온도 등

4. Ratio(비율형) Attribute

▪ Distinctness, Order, addition, Multiplication(*, /)을 특징으로 가짐
▪ 비율형은 값들간 차이뿐만 아니라 비율 모두 의미가 있음
▪ Examples : 절대 온도 등

▪ 데이터 분석에 가장 많이 사용된 것은 Nominal & Ordinal Attribute이며 가장 분석이 어려운 속성은 Ordinal Attribute이다.

▪ 데이터 마이닝은 정보가 숨어있다라는 가정하에 데이터를 보고 예측 분석을 한다. 그러나 기본 지식이 없으면 순수 데이터만으로 분석을 하는데 이 결과로 무의미한 정보가 나올 수 있다.

5. Discrete Attribute

▪ 유한의 값을 가지고 있다.
▪ 정수도 포함이 된다
▪ Examples : Zip Code, 단어 등

6. Continuous Attribute

▪ 실수값을 말한다.
▪ 실수 중 digits로 표현가능한 것만 가능한다.
▪ Examples : 온도, 높이, 무게 등

3. Types of Data Sets

Data Structure의 특징으로는 아래와 같이 3가지가 있다.

1. Dimensionality

▪ 데이터 집합의 객체들이 갖는 속성의 수
▪ 차원의 저주 문제 존재 -> 차원 감소 필요

2. Sparsity(희소)

▪ 객체 대부분이 0이고 일부가 1일 경우 계산하기는 쉽지만 정보를 빼내기 어렵다.

3. Resolution(해상도)

▪ Patterns depend on the measurement scale(척도)

▪ 데이터의 부족한 수준의 해상도로 얻는 경우가 많음
▪ 어떤 해상도에서 보는가에 따라 다르게 보임
▪ 예) 지구 표면을 km단위로 보는 경우(평평함) vs. m 단위로 보는 경우

Data Set의 종류에는 크게 Record, Graph, Ordered가 있다.

1. Record Data - Data Matrix

▪ record로 구성되어 있으며 attributes는 고정이다.

▪ Data object는 다차원 공간에서 하나의 점으로 표현될 수 있다.

▪ 다차원 공간 크기는 구별되는 attributes의 개수로 결정된다.

2. Record Data - Document Data

▪ 단어가 attribute가 되며 문서 내 해당 단어 개수가 속성이다.

3. Record Data - Transaction Data

▪ 하나의 속성안에 복수의 데이터가 들어간다. 대표적으로 장바구니 데이터가 있다.

4. Graph Data

▪ 데이터 객체간의 관계를 나타내는 그래프
▪ 그래프 자체, 즉 그래프가 나타내고 있는 관계가 의미가 있다.

▪ HTML, XML, 원소(벤젠) 등

4. Ordered Data

▪ 데이터 속성이 시간/공간 순서와 관련된 관계 가짐

▪ Temporal data(시간 데이터), Sequence data(서열 데이터), Time series data(시계열 데이터), Spatial data(공간 데이터)

4. Data Quality

1. Noise : 노이즈는 외부환경으로 인해 데이터 수집/측정 시 확률적으로 나타나는 measurement error이다.

2. Outliers : 아웃라이어는 평균적인 데이터와 다르게 심하게 다른 값을 가지는 데이터이다. 노이즈랑 구분하기 어려우며 시간 데이터뿐만 아니라 여러 방면의 데이터를 접목시켜 Outliers 를 찾아 낸다.

3. Missing Values : Data Object의 특정 attribute values가 누락된 것이다. 누락된 이유로는 값을 수집하지 못하였거나 수집시기에 값 자체가 없을 수도 있다.(ex. 5살때 수익) 해결 방법으로는 누락값을 추정하거나 확률 적으로 대체할 수 있으며 해당 Data Object를 제거하거나 분석시 해당 누락값을 무시할 수 있다.

4. Duplicate Data : 한 사람이 복수의 이메일 주소를 가지고 있듯이 하나의 특정 Attribute에서 속성값이 복수개이면 데이터가 여러개 들어올 수 있다. 이때에는 Data cleaning(데이터 정제)로 해결한다.

4. Data Preprocessing(데이터 전처리)

1. Aggregation(집합/집계/총계)

▪ 복수개의 attributes를 하나로 줄인다.
▪ 유사한 Data Object를 줄인다.
▪ Scale을 변경한다.

2. Sampling(표본 추출)

▪ Sampling은 데이터 선택 기술이며 수집한 모든 데이터를 가지고 분석 및 모델화 하기에는 여러 부분에서 많은 비용이 발생하기 때문에 사용한다.

▪ Sampling을 하기 위해 뽑은 부분 데이터는 원래 데이터의 특징을 가지고 있어야 한다.

▪ Simple Random Sampling(단순 임의 표준 추출) : 확률적으로 그냥 뽑음

▪ Sampling without replacement(무대체 표본추출) : 선택된 Object는 표본집합에서 제거된다.

▪ Sampling with replacement(대체 표본추출) : 선택될 시 표본집합에서 제거되지 않아 여러번 선택될 수 있다.

▪ Stratified sampling(층화 표본추출) : 모집단을 층으로 나눈 후, 각 층에서 샘플링, 층내에서는 동질적, 층간은 이질적 특성을 가지도록 하면 적은 비용으로 더 정확한 추정이 가능하다
▪ Sample Size에 따라 너무 커지면 데이터 집단의 특징은 잘보이지만 셈플링 의미가 없어지고 너무 작으면 패턴이 누락되거나 잘못된 패턴이 감지될 수 있다.

3. Dimensionality Reduction(차원 축소)

▪ 차원이 증가하면 차원당 데이터 수는 줄어든다.

▪ Classification하기엔 충분한 데이터 객체가 존재하지 않아 모델 생성이 어렵다.

▪ Clustering에서는 density와 distance 정보가 적어 군집화가 어렵다.

▪ 차원 축소 기법에는 대표적으로 PDA(Principle Component Analysis)가 있다.
▪ PDA 예시로 아래 2차원에서 데이터에 벡터(eigenvectors)를 맵핑 시키고 해당 벡터의 orthogonal 벡터를 찾아 길이를 비교한후 길이가 작은 벡터를 줄인다.

4. Feature subset selection(특징 부분집합 선택)
▪ 데이터의 차원 즉 attribute를 줄이는 방법이다.
▪ Redundant features(중복 특징) : 같은 의미의 attributes는 하나로 합친다. ex).제품의 구매 가격과 지불 된 판매 세액

▪ Irrelevant features(비관련 특징) : Data Mining시 목적과 관련 없는 attributes는 제거한다.

▪ Brute-force approach 기법 : 모든 경우의 Feature subset을 만들어보고 합치다.

▪ Embedded approaches 기법 : Data Mining 알고리즘에서 자연적으로 합쳐진다.

▪ Filter approaches 기법 : 직관적으로 Data Mining 알고리즘 돌리기 전에 수동으로 줄인다.

▪ Wrapper approaches 기법 : 특정 Data Mining 알고리즘을 써서 최상의 subset of attributes를 찾는다.

5. Feature creation(특징 생성)

▪ 원래 속성보다 훨씬 효율적으로 데이터 집단의 중요한 정보를 찾을 수있는 새 속성 만드는 것이다.

▪ 방법론 1 : Feature Extraction(특징 추출)

▪ 방법론 2 : Mapping Data to New Space(새로운 공간으로 데이터 매핑) : Time 도메인을 특정 주파수 대역으로 변경한다.

▪ 방법론 3 : Feature Construction(특징 구축)

6. Discretization(이산화)

▪ Discretization : 하나의 속성을 몇개의 구간으로 나눈다.
▪ 아래 사진에서는 x, y 속성에 대해 각각 3개로 나눈거 보다 5개로 나눈것이 시각화하기에 좋다.

▪ 주파수 대역에 따른 데이터를 4개의 방법으로 이산화를 한 것이다.

7. Attribute Transformation(속성 변환)

▪ 선택한 속성을 하나 이상의 새 속성으로 대체하여 데이터를 변경한다.

저작자표시 비영리 변경금지 (새창열림)

'SoftWare > 데이터 마이닝' 카테고리의 다른 글

5. 데이터 마이닝 - Classification (1) (0)	2017.11.13
4. 데이터 마이닝 - Classification (0)	2017.10.24
3. 데이터 마이닝 - Data Exploration (0)	2017.10.24
2. 데이터 마이닝 - Data (2) (0)	2017.10.23
1. 데이터 마이닝 - 소개(정의 및 방법) (0)	2017.10.21

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

흰고래의꿈

티스토리 뷰

2. 데이터 마이닝 - Data (1)

'SoftWare > 데이터 마이닝' 카테고리의 다른 글

티스토리툴바