목차
1.오차의 종류
2.유호숫자의 정의
3.최소 자승법(최소 제곱법)
2.유호숫자의 정의
3.최소 자승법(최소 제곱법)
본문내용
Liklihood Estimator )를 이용하는 방법이 있다. JMP에서는 최소제곱법으로 회귀계수를 추정한다. 그러면 최소제곱법에 대해 살펴보도록 하자.
위 그림에서 임의로 그은 직선은 데이터와 얼마나 가까운가? 혹은 얼마나 먼가? 일단 그어진 직선으로
Y`
를 예측한다고 할 때 각 데이터 점의
Y`
좌표와 직선을 이용한 이의 추정점(즉 주어진
x`
값으로부터 그은 수직선과 직선이 만나는 점)의
Y`
좌표와의 차이의 제곱을 모두 더한다면, 이 "차이의 제곱합"은 직선과 점들이 "얼마나 떨어져 있는지"를 보는 판단기준으로 삼을 수 있다. 직선상의 점들의
Y`
-좌표를
hat {y_i}
이라 하고 실제 관측된 값을
y_i
라 할 때 잔차 (residual )는
e_i = y_i - {hat y}_i
이다.
그러면 잔차 의 제곱합은
sum_i=1 ^n {e_i}^2 = sum_i=1 ^n (y_i -{hat y}_i )^2
이 된다.
이를 오차제곱합 (Sum of Squares for Error )이라 하며 SSE로 표시한다. 주어진 직선에 대하여 이런 방법으로 SSE를 계산하면, 가장 좋은 회귀직선의 추정은 모든 가능한 직선 중에서 SSE가 최소가 되는 직선이 될 것이다. 이와 같은 생각에서 회귀추정식을 구하는 방법을 최소제곱법 (Least Squares Method )이라고 한다.
오차 제곱합을 최소로 하는 회귀계수(
beta_0 , beta_1
)를 구하기 위하여
Q
를
beta_0
,
beta_1
에 대하여 각각 편미분하면 다음의 결과를 얻는다.
Q``≡``sum_i=1^n ε_i^2 =sum_i=1^n [y_i -(β_0 +β_1 x_i ) ]^2
∂Q over ∂β_0 =0~⇔~sum_i=1^n [y_i -(β_0 +β_1 x_i )]=0
∂Q over ∂β_1 =0~⇔~sum_i=1^n x_i ``[y_i -(β_0 +β_1 x_i )]=0
위의 편미분 의 값을 0으로 하는
beta_0
,
beta_1
의 추정값을
b_0 ,~b_1
이라고 놓고 정리하면
left{ lpile{nb_0 + b_1 sumx_i =sumy_i ##b_0 sumx_i + b_1 sumx_i^2 = sumx_i y_i}
을 얻게 된다. 이 연립방정식을 단순 선형회귀의 정규방정식 이라고 하며, 이 식을 풀면
{b_1} = {sum(x_i - barx )( y_i - bar y )} over {sum(x_i - bar x )^2}= {n sum x_i y_i - (sum x_i )(sum y_i )} over {n sum x_i ^2 - (sum x_i )^2}
,
b_0 = bar{y} -b_1 barx`
를 얻게 된다.
여기서
{hat beta}_0
를 구하는 식은 회귀직선이 항상
( bar x ,~ bar y ~)
라는 점을 지난다는 것을 보여주고 있다.
4,참고문헌
(1)수학사랑 Q A (기타 잦은 질문)
http://www.mathlove.or.kr/pds/mathqa/faq/etc/etc14.html
(2) 출처 : 두산세계대백과 EnCyber
http://my.dreamwiz.com/pakcw/
(3) 출저:
1. 성내경(1996),「SAS/STAT - 분산분석」, 서울 : 자유아카데미
2. 윤배현·최종후(1998), 「미니탭을 이용한 통계적 방법 」,
서울 : 자유아카데미
3. 최종후 외 공저(2000), 「JMP를 이용한 통계분석」, 서울 : 자유아카데미
4. 김우철 외 공저(1990),「현대통계학」, 영지문화사
http://chisq.korea.ac.kr/
(4) http://hodding.gazio.com/
(5) 대학물리학
위 그림에서 임의로 그은 직선은 데이터와 얼마나 가까운가? 혹은 얼마나 먼가? 일단 그어진 직선으로
Y`
를 예측한다고 할 때 각 데이터 점의
Y`
좌표와 직선을 이용한 이의 추정점(즉 주어진
x`
값으로부터 그은 수직선과 직선이 만나는 점)의
Y`
좌표와의 차이의 제곱을 모두 더한다면, 이 "차이의 제곱합"은 직선과 점들이 "얼마나 떨어져 있는지"를 보는 판단기준으로 삼을 수 있다. 직선상의 점들의
Y`
-좌표를
hat {y_i}
이라 하고 실제 관측된 값을
y_i
라 할 때 잔차 (residual )는
e_i = y_i - {hat y}_i
이다.
그러면 잔차 의 제곱합은
sum_i=1 ^n {e_i}^2 = sum_i=1 ^n (y_i -{hat y}_i )^2
이 된다.
이를 오차제곱합 (Sum of Squares for Error )이라 하며 SSE로 표시한다. 주어진 직선에 대하여 이런 방법으로 SSE를 계산하면, 가장 좋은 회귀직선의 추정은 모든 가능한 직선 중에서 SSE가 최소가 되는 직선이 될 것이다. 이와 같은 생각에서 회귀추정식을 구하는 방법을 최소제곱법 (Least Squares Method )이라고 한다.
오차 제곱합을 최소로 하는 회귀계수(
beta_0 , beta_1
)를 구하기 위하여
Q
를
beta_0
,
beta_1
에 대하여 각각 편미분하면 다음의 결과를 얻는다.
Q``≡``sum_i=1^n ε_i^2 =sum_i=1^n [y_i -(β_0 +β_1 x_i ) ]^2
∂Q over ∂β_0 =0~⇔~sum_i=1^n [y_i -(β_0 +β_1 x_i )]=0
∂Q over ∂β_1 =0~⇔~sum_i=1^n x_i ``[y_i -(β_0 +β_1 x_i )]=0
위의 편미분 의 값을 0으로 하는
beta_0
,
beta_1
의 추정값을
b_0 ,~b_1
이라고 놓고 정리하면
left{ lpile{nb_0 + b_1 sumx_i =sumy_i ##b_0 sumx_i + b_1 sumx_i^2 = sumx_i y_i}
을 얻게 된다. 이 연립방정식을 단순 선형회귀의 정규방정식 이라고 하며, 이 식을 풀면
{b_1} = {sum(x_i - barx )( y_i - bar y )} over {sum(x_i - bar x )^2}= {n sum x_i y_i - (sum x_i )(sum y_i )} over {n sum x_i ^2 - (sum x_i )^2}
,
b_0 = bar{y} -b_1 barx`
를 얻게 된다.
여기서
{hat beta}_0
를 구하는 식은 회귀직선이 항상
( bar x ,~ bar y ~)
라는 점을 지난다는 것을 보여주고 있다.
4,참고문헌
(1)수학사랑 Q A (기타 잦은 질문)
http://www.mathlove.or.kr/pds/mathqa/faq/etc/etc14.html
(2) 출처 : 두산세계대백과 EnCyber
http://my.dreamwiz.com/pakcw/
(3) 출저:
1. 성내경(1996),「SAS/STAT - 분산분석」, 서울 : 자유아카데미
2. 윤배현·최종후(1998), 「미니탭을 이용한 통계적 방법 」,
서울 : 자유아카데미
3. 최종후 외 공저(2000), 「JMP를 이용한 통계분석」, 서울 : 자유아카데미
4. 김우철 외 공저(1990),「현대통계학」, 영지문화사
http://chisq.korea.ac.kr/
(4) http://hodding.gazio.com/
(5) 대학물리학
소개글