목차
1. 유사성이란?
2. 유사성 계산방법
3. 거리(Distance)의 정의
4. 거리계산방법
2. 유사성 계산방법
3. 거리(Distance)의 정의
4. 거리계산방법
본문내용
개념을 고려한 방법이라고 할 수 있다.
계산식에서 행렬 S에 따라 마할라노비스 거리는 다음과 같이 정의할 수 있다.
1) S가 대각원소가 동일하면서 비대각원소는 모두 0인 행렬 = I
- 유클리디안 거리(Euclidean Distance)에 비례한다.
2) S가 비대각원소는 0이지만 대각원소의 값들이 다른 행렬
- 기준 점으로부터 와 는 타원상에서 거리가 같은 점들이 된다
-의 의미는 와 사이의 거리와 와 의 거리를 같게 한다.
3) S가 비대각원소는 0이 아니고 의 의미는
- 각을 만큼 옮겨간 새로운 축에서의 타원상에서 거리가 같은 점이다.
4.3 민코프스키 거리 (Minkowski distance)
유클리드 거리와 맨하탄 거리 둘의 일반형으로 아래와 같이 정의 할 수 있다.
계산식에서 알 수 있듯이 민코프스키 거리는 차원을 고려한 거리로서 특별히 이면 노옴인 맨하탄 거리 (Manhattan distance) 가 됨을 알 수 있다.
4.4 상관계수 (Correlation Coefficient)
수학적인 거리의 성질 (I)과 (II)를 만족하지 않으나, 두 개체간의 거리 혹은 유사성을 나타내는 측도로 널리 쓰인다. 상관계수란 두 개체간의 선형적 관계의 정도를 의미한다. 만약 이면 두 개체가 양의 상관관계를 나타내며, 는 음의 상관관계이며, 는 상관관계가 없음을 의미한다. 이 거리의 특징은 자료의 결측이 있더라도 계산할 수 있다. 또한 단위 크기(scale), 척도 문제에도 영향을 받지 않는다.
만약 자료가 ,
로 변환되었을 때,
이 성립한다. 따라서 상관계수 은 유클리디안 거리에서의 0의 값에 해당하며 상관계수가 -1로 감소할수록 유클리디안 거리는 증가한다. 따라서 유클리디안 거리는 비유사성에 초점을 두고 있고, 상관계수는 유사성에 기반한다.(유클리디안 거리는 값이 클수록 유사도가 낮아짐을 의미하는 것인 반면에 상관계수는 값이 클수록 즉 1에 가까울수록 상호 개체간 거리가 가까워짐을 의미함) 표1.1은 거리의 종류에 따른 특징을 요약한 내용이다.
거리종류
특징
유클리디안
축에 따른 차이의 평균을 측정
마할라노비스
평균 차이를 유클리디안보다 로버스트하게 거리를 잼
맨하탄
축의 상관성을 보정하여 차이의 평균을 측정
1-Corr
패턴에 따른 차이를 측정
참고문헌
1. INTRODUCTION TO DATA MINING, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 2005
계산식에서 행렬 S에 따라 마할라노비스 거리는 다음과 같이 정의할 수 있다.
1) S가 대각원소가 동일하면서 비대각원소는 모두 0인 행렬 = I
- 유클리디안 거리(Euclidean Distance)에 비례한다.
2) S가 비대각원소는 0이지만 대각원소의 값들이 다른 행렬
- 기준 점으로부터 와 는 타원상에서 거리가 같은 점들이 된다
-의 의미는 와 사이의 거리와 와 의 거리를 같게 한다.
3) S가 비대각원소는 0이 아니고 의 의미는
- 각을 만큼 옮겨간 새로운 축에서의 타원상에서 거리가 같은 점이다.
4.3 민코프스키 거리 (Minkowski distance)
유클리드 거리와 맨하탄 거리 둘의 일반형으로 아래와 같이 정의 할 수 있다.
계산식에서 알 수 있듯이 민코프스키 거리는 차원을 고려한 거리로서 특별히 이면 노옴인 맨하탄 거리 (Manhattan distance) 가 됨을 알 수 있다.
4.4 상관계수 (Correlation Coefficient)
수학적인 거리의 성질 (I)과 (II)를 만족하지 않으나, 두 개체간의 거리 혹은 유사성을 나타내는 측도로 널리 쓰인다. 상관계수란 두 개체간의 선형적 관계의 정도를 의미한다. 만약 이면 두 개체가 양의 상관관계를 나타내며, 는 음의 상관관계이며, 는 상관관계가 없음을 의미한다. 이 거리의 특징은 자료의 결측이 있더라도 계산할 수 있다. 또한 단위 크기(scale), 척도 문제에도 영향을 받지 않는다.
만약 자료가 ,
로 변환되었을 때,
이 성립한다. 따라서 상관계수 은 유클리디안 거리에서의 0의 값에 해당하며 상관계수가 -1로 감소할수록 유클리디안 거리는 증가한다. 따라서 유클리디안 거리는 비유사성에 초점을 두고 있고, 상관계수는 유사성에 기반한다.(유클리디안 거리는 값이 클수록 유사도가 낮아짐을 의미하는 것인 반면에 상관계수는 값이 클수록 즉 1에 가까울수록 상호 개체간 거리가 가까워짐을 의미함) 표1.1은 거리의 종류에 따른 특징을 요약한 내용이다.
거리종류
특징
유클리디안
축에 따른 차이의 평균을 측정
마할라노비스
평균 차이를 유클리디안보다 로버스트하게 거리를 잼
맨하탄
축의 상관성을 보정하여 차이의 평균을 측정
1-Corr
패턴에 따른 차이를 측정
참고문헌
1. INTRODUCTION TO DATA MINING, Pang-Ning Tan, Michael Steinbach, Vipin Kumar, 2005
추천자료
- LED 방식에 의한 ‘거리 화상 센서'
- [데이터베이스 마케팅][DBM]데이터베이스 마케팅(DBM)(데이터베이스 마케팅(DBM) 시스템의 구...
- 빛의 속도(광속)측정 방법과 지구-태양-달의 크기,거리 측정방법
- [결과보고서]렌즈초점거리의 측정
- [일반물리실험] 포사체의 수평도달거리 측정
- [학사 학위논문] 양안시 기능 훈련 소프트 웨어를 통한 근거리 시기능 향상에 대한 효과
- [자료해석법] “물체를 던졌을 때 물체와 기준점 사이의 거리 분포 분석”(푸아송분포)
- 쿨롱의 법칙 : 극판에 전압을 넣어 극판사이의 거리와 힘의 관계, 극판의 전압과 힘의 관계...
- BIGDATA 빅데이터 정의 및 빅데이터 국내와 해외 활용사례분석과 빅데이터 한계점분석과 영향...
- 빅데이터 개념,활용사례,윤리적해석 보고서_ 빅데이터 개념분석및 빅데이터 활용사례분석과 ...
- 네트워크 구성 (네트워크 구성, 근거리 통신망, 네트워크 토폴로지, LAN 토폴로지, 통신망 전...
- [건축구조실험] 휨모멘트에 의한 변형율 실험 : 휨모멘트에 의해서 변형률(휨응력)이 중립축...
- 2017년 2학기 빅데이터의이해 중간시험과제물 공통(데이터과학자, 빅데이터, 빅데이터사례)
- 네트워크와 컴퓨터 보안 - 라우팅, 무선 액세스 포인트, 트랜스 패런트 브리징, 트랜스 패런...
소개글