티스토리 뷰

728x90

1. Data Mining 정의

 ▪ 과거에 몰랐거나 숨어있는 정보를 데이터 집단에서 추출하는 것

 ▪ 의미있는 패턴을 발견하기 위해 많은 양의 데이터를 자동 또는 반자동 수단으로 탐색 및 분석하는 것



2. Data Mining Tasks(수단?)

 ▪ Prediction Methods : 알려지지 않은 또는 다른 변수의 미래 가치를 예상 하기 다른 일부 변수를 이용한다. 

 ▪ Description Methods : 데이터를 설명할 수 있는 사람이 해석가능한 패턴을 찾는다. 



3. Data 분석의 4가지 종류

 ▪ Descriptive : 현재 상황 설명, What's happening in my business?

 ▪ Diagnostic : 상황 진단, Why is it happening?

 ▪ Predictive : 예측, What's likely to happen?

 ▪ Prescriptive : 대응, What do I need to do?



4. Data Mining 방법(1) - Classification

 ▪ 데이터를 가지고 모델을 만드는 것

 ▪ 모델은 record에 속하는 attributes를 이용하여 class값을 추론한다.

 class는 record에 속하는 attributes 중 하나이다.


 


5. Data Mining 방법(2) - Clustering

 ▪ 속성값들(Attributes) 중에 유사성 측정이 가능한 속성값을 가지는 Data Point 집단에 대해 Cluster라고 한다.

 ▪ 특정 cluster에 속한 Data Point들은 유사하다. 반대로 다른 cluster에 속한 Data point는 덜 유사하다.

 ▪ Similarity Measure은 유사성 측정 방법으로 대표적으로 'Continuous'한 속성의 값으로 확인하는 'Distance'가 있다.

 ▪ Intracluster distances are minimized : 클러스터내 원소들은 거리가 짧다.
 ▪ Intercluster distances are maximized : 클러스터간 거리는 길다.



6. Data Mining 방법(3) - Association Rule Discovery

 ▪ 특정 Attributes의 발생 기준으로 다른 Attributes의 발생을 예측하는 종속성 규칙이다.
 ▪ {Bagels, .....} -> {Potato Chips} : Bagels in antecedent(선행조건) and Potato chips in consequent(결과)

 ▪ 베이글을 팔지 않았을 시 감자칩이 잘 팔린 상황의 데이터가 많이 있으면 규칙 정확도가 올라간다.



7. Data Mining 방법(4) - Sequential Pattern Discovery

 ▪ Association Rule과 비슷하기만 추가적인 조건으로 시간이 들어온다.
 ▪ 서로 다른 이벤트 간의 강력한 순차 의존성이 있다. A가 시행되고 끝나면 B가 연속적으로 수행된다.

 ▪ 아래 오른쪽 표는 사용자에 어떤 물품을 샀는지 시간에 대해 정리한 것이다.


 ▪ 아래 표는 Data Sequence에 대해 모든 경우의 수를 길이에 따라 정리한 표이다.

 

 

8. Data Mining 방법(5) - Regression(회귀)

 ▪ 주식, 온도와 같이 끊김이 없는Continuous한 특징을 가지는 데이터에 대해 과거의 데이터를 보고 비슷한 상황이 왔을 시 이후에 일어날 상황을 예측한다.



9. Data Mining 방법(6) - Deviation(편차)/Anomaly(이변) Detection

 ▪ 기본 상태에서 벗어나는 특의 상태를 찾는다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함