티스토리 뷰

728x90

1. Data exploration이란

 데이터의 특성을 잘 이해하기 위해서는 사전 데이터 탐색이 필요하다. 

▪ 사전 데이터 탐색은 알맞은 분석 똔느 처리 툴을 선택하게 해 준다.

▪ 사람이 인지 가능한 패턴은 단순 데이터 분석 툴로 찾을 수 없는데 인지 가능한 특성을 만들어 준다.

▪ Exploratory Data Analysis(EDA, 탐색형 데이터 분석)과 관련이 있다.


 많은 데이터 탐색 기술을 아이리스 데이터 셋으로 설명된다.

▪ 꽃 종류 : Setosa, Virginica, Versicolour

▪ 특징 : Sepal width and length, Petal width and length


2. Exploratory Data Techniques 

 1. Summary Statistics(요약 통계)

 기본적으로 평균, 편차, 분산이 있다.

 Frequency(빈도), Mode(최빈값) : 데이터셋에서 가장 많이 발생하는 속성을 Node라 한다.

 Percentiles(백분위수) : 퍼센트화 한것을 줄세워 보는 것

 Mean(평균), Median : 평균과 중간값을 구해 해당 값에 큰 영향을 주는 데이터(Outlier)를 찾을 수 있다.

 Range, Variance : 편차는 데이터 내 점들이 얼마나 퍼져있는지 측정하는데 outlier에 민감하여 outlier 찾는데 사용된다.


 2. Visualization

▪ 사람을 위한 탐색 기법으로 시각화 해서 규칙을 찾는 것이다.
▪ 조건1 - Representation : 데이터 특성에 맞는 표현법을 선택해야한다.

▪ 조건2 - Arrangement : 데이터의 위치를 변경하여 쉽게 정보를 얻을 수 있게 할 수 있다.

▪ 조건3 - Selection : 모든 데이터 중 특정 데이터를 선택하며 선택된 데이터는 특정 속성을 가진다.

▪ Histogram


▪ Box Plots : Median 값을 기준으로 상위 25% 하위 25%까지 박스권이고 상하위 40%까지 데이터로 보고 남은 10%에 대해서는 outlier라 생각한다. 박스권이 짧을 수록 밀접도가 높고 좋다.



▪ Scatter Plots : 산포도로 시각화 한다.


▪ Contour Plots : 등고선으로 표현한다.


▪ Matrix Plots : 행렬로 시각화 한다.


▪ Parallel Coordinates : 행렬로 시각화 한다.


▪ Star Plots (성형 좌표)


  Chernoff Faces (체르노프 페이스)가 있다.


 3. Online Analytical Processing (OLAP) 

 관계형 DB랑 비교하면 관계형 DB는 테이블에 데이터를 저장하지만 OLAP는 다차원 배열을 사용한다.
 표 형태의 데이터를 다차원 배열로 변환 시 먼저 Attribute를 Dimension으로 변환하고 해당 값들을 맵핑시킵니다.

 Data Cube : OLAP의 핵심 작업은 Data Cube 생성이다. Data Cube는 데이터가 표현되는 다차원 공간이다.

 Slising : 특정 차원의 일정 값에 대해 데이터를 구분지은 것이다.

 Dicing : 차원의 범위가 축소 되는것을 말한다.


 Attribute values(종속 값)들은 종종 계층 구조를 가질 수 있다. 대표적인게 1일 판매량이 모여 주 판매량이 되고 주판매량이 모여 월 판매량이 된다. 이러한 관계에서 상위 데이터에서 하위 데이터를 가는 것을 Drill Down 반대가 Roll Up이다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함