데이터마이닝(유사도계산)
본 자료는 2페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
해당 자료는 2페이지 까지만 미리보기를 제공합니다.
2페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

데이터마이닝(유사도계산)에 대한 보고서 자료입니다.

목차

1. 유사성이란?
2. 유사성 계산방법
3. 거리(Distance)의 정의
4. 거리계산방법

본문내용

개념을 고려한 방법이라고 할 수 있다.
계산식에서 행렬 S에 따라 마할라노비스 거리는 다음과 같이 정의할 수 있다.
1) S가 대각원소가 동일하면서 비대각원소는 모두 0인 행렬 = I
- 유클리디안 거리(Euclidean Distance)에 비례한다.
2) S가 비대각원소는 0이지만 대각원소의 값들이 다른 행렬
- 기준 점으로부터 와 는 타원상에서 거리가 같은 점들이 된다
-의 의미는 와 사이의 거리와 와 의 거리를 같게 한다.
3) S가 비대각원소는 0이 아니고 의 의미는
- 각을 만큼 옮겨간 새로운 축에서의 타원상에서 거리가 같은 점이다.
4.3 민코프스키 거리 (Minkowski distance)
유클리드 거리와 맨하탄 거리 둘의 일반형으로 아래와 같이 정의 할 수 있다.
계산식에서 알 수 있듯이 민코프스키 거리는 차원을 고려한 거리로서 특별히 이면 노옴인 맨하탄 거리 (Manhattan distance) 가 됨을 알 수 있다.
4.4 상관계수 (Correlation Coefficient)
수학적인 거리의 성질 (I)과 (II)를 만족하지 않으나, 두 개체간의 거리 혹은 유사성을 나타내는 측도로 널리 쓰인다. 상관계수란 두 개체간의 선형적 관계의 정도를 의미한다. 만약 이면 두 개체가 양의 상관관계를 나타내며, 는 음의 상관관계이며, 는 상관관계가 없음을 의미한다. 이 거리의 특징은 자료의 결측이 있더라도 계산할 수 있다. 또한 단위 크기(scale), 척도 문제에도 영향을 받지 않는다.
만약 자료가 ,
로 변환되었을 때,
이 성립한다. 따라서 상관계수 은 유클리디안 거리에서의 0의 값에 해당하며 상관계수가 -1로 감소할수록 유클리디안 거리는 증가한다. 따라서 유클리디안 거리는 비유사성에 초점을 두고 있고, 상관계수는 유사성에 기반한다.(유클리디안 거리는 값이 클수록 유사도가 낮아짐을 의미하는 것인 반면에 상관계수는 값이 클수록 즉 1에 가까울수록 상호 개체간 거리가 가까워짐을 의미함) 표1.1은 거리의 종류에 따른 특징을 요약한 내용이다.
거리종류
특징
유클리디안
축에 따른 차이의 평균을 측정
마할라노비스
평균 차이를 유클리디안보다 로버스트하게 거리를 잼
맨하탄
축의 상관성을 보정하여 차이의 평균을 측정
1-Corr
패턴에 따른 차이를 측정
참고문헌
1. INTRODUCTION TO DATA MINING, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 2005
  • 가격5,000
  • 페이지수6페이지
  • 등록일2010.02.05
  • 저작시기2010.2
  • 파일형식한글(hwp)
  • 자료번호#581136
본 자료는 최근 2주간 다운받은 회원이 없습니다.
청소해
다운로드 장바구니