티스토리 뷰

728x90

1. Similarity and Dissimilarity(유사도와 비유사도)

 1. Similarity

▪ 두 Data Object의 얼마나 유사한지에 대한 수치적 척도이다.

▪ 수치가 높으면 비슷하다. 0~1 사이가 나온다.


 2. Dissimilarity

▪ 두 Data Object의 얼마나 다른지에 대한 수치적 척도이다.

▪ 수치가 작을 수록 비슷하다. 하한은 0이고 상한은 제한이 없다.



2. Distance

 1. Euclidean Distance

▪ n은 dimension 개수이며 각 속성의 scales가 다르면 표준화가 필요하다.

▪ 순수 두 점간의 거리


 2. Minkowski Distance

▪ Minkowski Distance는 Euclidean Distance의 일바화이다.

▪ r=1, 대표적인 예가 두 Binary Vector간으 다른 비트 수 인 Hamming distance가 있다.


3. Mahalanobis Distance

▪ 특정 값이 얼마나 발생하기 힘든 값인지 수치화 하는 방법


4. Common Properties of a Distance

▪ 항상 양의 값을 가진다.

▪ d(p, q) = d(q, p)   .

▪ d(p, q) <= d(q, p) + d(q, r)

▪ 위 값을 충족하는 distance를 metric이라고 한다.   



3. Similarity Between Binary Vectors

 1. Simple Matching Coefficients : Attribute Value가 0 또는 1일때 아래와 같은 값을 가진다면 특정 메트릭스를 만들 수 있다.

 M01 = the number of attributes where p was 0 and q was 1

 M10 = the number of attributes where p was 1 and q was 0

 M00 = the number of attributes where p was 0 and q was 0

 M11 = the number of attributes where p was 1 and q was 1


SMC는 p도 없고 q도 없는 속성까지 고려를 하고 있다. 예를 들어, 마켓에서 판매하는 1000개의 물건에서, 두 고객의 장바구니(구매 물품)의 SMC 유사도를 본다면, p = (salt, pepper), q=  (salt, sugar) 일때 M11 = 1개(salt), M00=(1000개 – 3), M01=1(sugar), M10=1(pepper)이고  SMC = (1 + 997)/(1 + 1 + 1 + 997)  = 0.998가 된다. 여기서는 유사도를 비교하는데 안산것 전체 개수가 들어가 의미가 사라졌다.


 2. Jaccard Coefficients : SMC와 달리 M00를 사용하지 않고 비대칭 이진 속성으로 구성된 객채의 유사도 처리에 유용하다. 위의 예제를 똑같이 적용하였을 떄 (M11) / (M01 + M10 + M11) 공식으로 Jaccard 유사도는 (1  )/(1 + 1 + 1 )  = 1/3 이 되고 두 장바구니의 Jaccard 유사도는 의미가 있는 값이 나온다.


 3. 예시


 4. Cosine Similarity : 두 벡터에 대해 Cosine 값으로 거리를 측정한다.


 5. Correlation : Correlation은 Object간 선형 관계를 측정한다. 

아래 그림을 보면 -1과 1에 가까울 수록 선형에 가깝고 0에 가까울 수록 둥글다. 0에서는 램덤성이 강하다고 말할 수도 있다.

 6. 여러 타입의 Attribute를 가지고 similarity를 구할 경우 델타를 곱해 다른 타입의 Attribute를 수정하고 Weight를 추가하여 특정 Attribute를 강조한다.



4. Density

 1. Density란 말 그래로 빡빡함 정도를 말하며 종류로는 Euclidean density, Probability density, Graph-based density가 있다.

 2. 유클리안 덴시티는 특정 점을 중심으로 반지름 이내의 Object 개수를 말한다.

 3. Density는 영역을 나누기 위한 가장 유용한 방법이다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함