1. 범주형 속성 처리 1. 범주형(Categorical) 속성 ▪ 예제 : 성별, 전공, 특기 2. 범주형 속성을 Asymmetric binary 변수로 변환함 3. 주요 이슈 ▪ 범주형 속성 value가 여러 종류라면?- 다른 속성을 추가한다. ▪ 한쪽 속성값으로 편향되었다면?- 새로운 정보가 없다고 속성을 판단하여 제거한다. 2. 연속형 속성 처리 1. 연속형(Continuous) 속성 ▪ 예 : 나이, 몸무게, 연봉 2. 처리 방법 ▪ 이산화 기반(Discretization-based) 방법 • 통계 기반(Statistics-based) 방법 • Non-discretization 기법 • Min-Apriori 기법 3. 연속형 속성 처리 방법 1. 이산화 기반(Discretization-based..
1. Rule Generation from frequent itemset 1. Frenquent itemset이 {A,B,C,D}일 떄 Candidate rules은 다음과 같다. ▪ Frenquent itemset이 K개 이면 총 생성할 수 있는 Candidate rules은 2^k-2개이다. ▪ 공집합과 전체 집합은 뺴기 때문에 -2이다. 2. 신뢰도(confidence)는 anti-monotone 성질을 가지지 않는다. ▪ Apriori 특성 사용이 어려움 - c(ABC->D) can be larger of smaller than c(AB->D) ▪ 동일한 항목집합에서 생성된 규칙에 대해서는 anti-monotone 성질이 성립 - c(ABC->D) >= c(AB->CD) >= c(A->BCD) 3..
1. Association Rule Mining 1. Association Rule Mining이란 Transactions의 집단에서 특정 항목의 발생을 예상할 수 있는 Rule을 찾는 것이다. 2. Example 3. 용어 : 2. Example의 왼쪽 사진을 보자 ▪ 항목집합(Itemset) : 사진의 record처럼 Item의 집단(ex : { Bread, Milk } )이다. - record에 속하는 item의 개수에 따라 k-itemset이라고 부른다. - 2번째 record는 4-itemset이다. ▪ Itemset의 Support Count : 특정 Item 집합을 포함하고 있는 Transaction(Record)의 수 ▪ Itemset의 Support : 전체 Transaction 중 해당..
1. Artificial Neural Networks (ANN) 1. ANN 모델은 상호 연결될 Node와 가중치 링크의 집단이다. 2. Output Node는 링크의 가중치에 따라 각 입력 값을 합산한다. 3. 합산한 값이 가중치(Threshold)를 넘으면 1 넘지 못하면 0이 된다. 4. Training ANN means learning the weights of the neurons 5. 시작 Weights(W1, W2, W3, ......, Wk)는 random값으로 많이 한다. 6. ANN의 결과가 목표와 일치하도록 가중치를 조정한다. 7. 오차률은 Objective Function으로 구하면 수식은 다음과 같다. 8. Objective Function 값이 작은 W를 구하는 것이 목표이다. ..
1. Rule-Based Classifier 1. 'if....then...' 즉 (Condition) -> y라고 생각하면 된다. ▪ Condition 부분을 LHS라고 부른다. ▪ Consequent 부분을 RHS라고 부른다. ▪ ex) (Blood Type=Warm) ∩ (Lay Eggs=Yes) -> Birds 2. Cover : 'X' Rule은 Instance 'Y'를 Cover한다. ▪ 특정 Instance(Tuple)의 Attribute가 특정 Rule에 적용될 수 일을 때 Cover을 쓴다. ▪ 주어가 Rule ▪ Example 3. Trigger : 'Y' Instance는 Rule 'X1'과 Rule 'X2'를 Trigger한다. ▪ Cover과 다르게 주어가 Instance이다. ▪..
1. Classification Techniques ▪ Decision Tree based Methods(의사결정 트리) ▪ Rule-based Methods(규칙 기반 기법) ▪ Memory based reasoning ▪ Neural Networks ▪ Naïve Bayes and Bayesian Belief Networks ▪ Support Vector Machines 2. Decision Tree based Methods 1. Decision Tree를 생성하는 알고리즘으로는 Hunt's Algorithm, CART 등 2. 헌트 알고리즘 구조 ▪ 특정 attribute의 value 값에 대해 특정 값에 대해 class attribute 값이 같다면 자식 노드에 해당 class attribute ..
1. Data exploration이란 데이터의 특성을 잘 이해하기 위해서는 사전 데이터 탐색이 필요하다. ▪ 사전 데이터 탐색은 알맞은 분석 똔느 처리 툴을 선택하게 해 준다.▪ 사람이 인지 가능한 패턴은 단순 데이터 분석 툴로 찾을 수 없는데 인지 가능한 특성을 만들어 준다.▪ Exploratory Data Analysis(EDA, 탐색형 데이터 분석)과 관련이 있다. 많은 데이터 탐색 기술을 아이리스 데이터 셋으로 설명된다.▪ 꽃 종류 : Setosa, Virginica, Versicolour▪ 특징 : Sepal width and length, Petal width and length 2. Exploratory Data Techniques 1. Summary Statistics(요약 통계)▪ 기본..
1. Similarity and Dissimilarity(유사도와 비유사도) 1. Similarity▪ 두 Data Object의 얼마나 유사한지에 대한 수치적 척도이다.▪ 수치가 높으면 비슷하다. 0~1 사이가 나온다. 2. Dissimilarity▪ 두 Data Object의 얼마나 다른지에 대한 수치적 척도이다.▪ 수치가 작을 수록 비슷하다. 하한은 0이고 상한은 제한이 없다. 2. Distance 1. Euclidean Distance▪ n은 dimension 개수이며 각 속성의 scales가 다르면 표준화가 필요하다.▪ 순수 두 점간의 거리 2. Minkowski Distance▪ Minkowski Distance는 Euclidean Distance의 일바화이다.▪ r=1, 대표적인 예가 두 B..
1. Data란 ▪ 데이터 마이닝에서 데이터란 Data Object를 모아둔 것을 말한다. ▪ Attribute는 Object의 특성이다. Attribute 집합으로 하나의 Object를 설명할 수 있다. ▪ Data Object들은 같은 Attributes를 가진다. 2. Attribute Values ▪ Attribute가 속성이라면 Attribute values는 속성값이다. ▪ Attribute values는 숫자 또는 심볼이 들어간다. ▪ 같은 속성(Attribute)라도 다른 속성값(Attribute values) 또는 의미를 가질 수 있다. (ex) 속성 : 길이, 속성값 : 2m, 2cm (ex) 속성 : 길이, 속성값 : (실제 길이), (길이 순서) ▪ 같은 속성값(Attribute v..
1. Data Mining 정의 ▪ 과거에 몰랐거나 숨어있는 정보를 데이터 집단에서 추출하는 것 ▪ 의미있는 패턴을 발견하기 위해 많은 양의 데이터를 자동 또는 반자동 수단으로 탐색 및 분석하는 것 2. Data Mining Tasks(수단?) ▪ Prediction Methods : 알려지지 않은 또는 다른 변수의 미래 가치를 예상 하기 다른 일부 변수를 이용한다. ▪ Description Methods : 데이터를 설명할 수 있는 사람이 해석가능한 패턴을 찾는다. 3. Data 분석의 4가지 종류 ▪ Descriptive : 현재 상황 설명, What's happening in my business? ▪ Diagnostic : 상황 진단, Why is it happening? ▪ Predictive ..
- Total
- Today
- Yesterday
- vim 설치
- 인텐트
- c언어
- 5582
- android
- counter
- 알고리즘
- java 파일 입출력
- 유전 알고리즘
- 서버
- 파일 입출력
- java url
- vim
- php
- Notification
- 유전
- jad
- 포켓몬 Go
- Service
- 테라펀딩 #투게더펀딩 #P2P투자 #부동산 소액 투자 #카카오 #토스
- 포켓몬 고
- 파일입출력
- 자바 입출력
- java
- 안드로이드
- 카운터
- 아두이노
- Res
- Java Decompiler
- LISTVIEW
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |