-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
-
11
-
12
-
13
-
14
-
15
-
16
-
17
-
18
-
19
-
20
-
21
-
22
-
23
-
24
-
25
-
26
-
27
-
28
-
29
-
30
-
31
-
32
-
33
-
34
-
35
-
36
-
37
-
38
-
39
-
40
-
41
-
42
-
43
-
44
-
45
-
46
-
47
-
48
-
49
-
50
-
51
-
52
-
53
-
54
-
55
-
56
목차
1. 사회과학의 대상
2. 과학적 방법
3. 통계방법
4. 사회과학의 연구절차
2. 과학적 방법
3. 통계방법
4. 사회과학의 연구절차
본문내용
졸(값:1)이라면 그 사람의 일일 TV 시청시간은 6.47 시간
▷ 이것은 32%의 오차한계 내에서 7.52와 5.42시간 사이에 있다고 추정
▷ 연령이 25살이며, 교육수준이 대졸(값:3)이라면 그 사람의 예측된 TV 시청시간은 3.38
시간이며, 32%의 오차한계를 가지고 4.43시간과 2.33시간의 사이에 있다고 추정
2 回歸分析의 論理
2.1 다중회귀방정식
▷ 앞장에서 설명한 회귀방정식(regression equation)과 마찬가지로 다중회귀방정식 역시 회귀계수(regression coefficients)를 갖음
▷ 즉, 회귀방정식과 다중회귀 방정식은 모두 상관계수 a와 b 계수(b coefficients)를 갖음
▷ 그러나 다중회귀분석에서는 2개의 b계수를 갖는데, 하나는 X1 예측변인 (predictor variable)이고, 또 하나는 X2 예측변인
▷ 그 방정식은 일반적으로 다음과 같은 형태,
Y'=a+ {b}_{ { X}_{1 } Y CDOT { X}_{2 } } { X}_{1 } + { b}_{ { X}_{2 } Y CDOT {X }_{1 } } { X}_{2 }
▷ 여기서 상관계수
{ b}_{ { X}_{1 } Y CDOT {X }_{2 } }
는 X2의 효과를 통제(control)한 상태에서 X1의 매 단위 (every units) 증가에 따른 Y 단위의 증가비율
▷ 또한
{ b}_{ { X}_{2 } Y CDOT {X }_{1 } }
은 X1을 통제한 상태에서 X2의 매 단위 증가에 따른 Y 단위의 증가비율▷ 이러한 2개의 계수는 Y를 예측하는데 있어서 각각의 부분(portion)만을 타나내기 때문에, 부분회귀계수(partial regression coefficients)
▷ <표 11-1>에 나타난 것처럼 2개의 b계수를 계산하기 위해서는, 먼저 베타(β)계수 또는 표준화 부분회귀계수(standard partial regression coefficients)를 계산하는 것이 필요▷ 이러한 계산은 변인간의 상관관계(correlation)를 기초로 함
▷ β, b, a계수를 계산하는 공식은 <표 11-1>에 나타나 있다.
▷ <표 11-1>에 제시된 바와 같이 다중 회귀 방정식에서는 2개의 b계수를 계산한 다음 이어서 a 계수를 계산하게 되는데, a계수를 구하기 위해서는 b계수뿐만 아니라 3변인의 평균(mean)이 필요하게 된다.
2.2 다중 회귀방정식의 해석
▷ 예제연구에서 a와 2개의 b계수를 알게 되었다면, 다음과 같은 예측 방정식을 만들 수 있다.
Y'=42.1+(.99)X1+(-11.02)X2
▷ 또는,
시청시간=(42.1)+(.99×연령)+(-11.02×교육수준)
▷ 예를 들어 3변인의 평균(mean)이 주어졌다면, 다음과 같은 계산이 가능하다. 즉 X1=28, X2=3이라면 Y가 36.8이 된다.
즉, Y'=(42.1)+(.99×28)+(-11.02×3)
=(42.1)+(27.72)-(33.06)
=36.8
2.3 다중회귀분석에서의 전체 F검증
▷ 앞장의 단일변인 예측 방정식(single-variable prediction equation)에서 F검증을 사용 하여 전체 방정식(overall equation)의 유의도를 검증하는 방법에 대해 설명
▷ 다중회귀분석의 전체 방정식에 대한 통계적 유의도 검증 역시 F검증을 사용
▷ 이것은 근본적으로 다중 회귀 방정식과 관련된 다중상관계수(multiple correlation coefficients)의 통계적 유의도를 검증하기 위해 F비(F ratio)를 사용하는 것과 같다. ▷ 다중상관계수의 F계산공식은 <표 11-2>에 설명되고 있는데, 이는 앞 장에서 설명한 바와 같이, 설명되는(또는 '회귀') 분산 대 설명되지 않는(또는 '잉여') 분산의 비라는 점을 유의
▷ 계산결과, 다중 회귀 방정식의 F값은 통계적으로 유의미(p<.001)한 것으로 나타남
▷ 이러한 결과는 곧 예측(prediction)이 우연(chance)에 의해 발생될 수 있는 확률이 극히 적다는 것을 의미하는데,
▷ 이러한 검증 결과로 R=0인 영가설을 부정할 수 있다.
<표> 다중상관관계 및 다중 회귀 방정식의 F비 계산 실례
방정식
F= { (회귀 자승합) DIV (독립 변인수)} over {(잉여 자승합) DIV (표본수-독립 변인수-1) }
F= { 2837.56 DIV 2} over {2414.44 DIV 22 } =12.93
다중상관계수
F= { (중다상관계수 자승합) DIV (독립 변인수)} over {(1-중다상관계수 자승합) DIV (표본수-독립 변인수-1) }
F= { { (.735)}^{2 } DIV 2} over {(1- { .735}^{ 2} ) DIV 22 } =12.92
<그림 2-1> 표준편차
s =
SQRT{{s}^{2}}
=
SQRT { { SUM f{(X-M)}^{2} } over {N-1} }
=
SQRT {325.667}
= 18.046
(A) 원점수(raw score) : 7.13.8.12.10.9.9.11.10.10.11.
(B) 편차
(C) 편차자승
3
3
3
2
2
1
2
1
2
3
1
1
전체면적 = 30
(D) 평균자승의 크기
면적
= 2.73
= s2
1.65 = s
<그림 2-2> 표본 분포와 모집단 분포의 비교
-2
sigma
-1
sigma
mu
+1
sigma
+2
sigma
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
-2s -1s +1s +2s
<그림 2-3> 표본 평균치의 분포
<그림 2-4> 6개의 동전을 64회 던졌을 때 기대되는 앞면 수의 분포
f=20
f=15
f=15
f=6
f=6
f=1
f=1
앞면
→
0
1
2
3
4
5
6
확률
→
.0156
.0938
.2344
.3125
.2344
.0938
.0156
<그림 2-5> 정상분포곡선
<그림 2-6>
mu
= 35,
sigma
= 3.0일 때 정상분포곡선에서의 실제 점수
<그림 2-7> M = 35.0, SM = 0.5일 때 표본 평균치의 표집
<그림 2-8> M = 4.00,
sigma
M = .32일 때의 표집분포
▷ 이것은 32%의 오차한계 내에서 7.52와 5.42시간 사이에 있다고 추정
▷ 연령이 25살이며, 교육수준이 대졸(값:3)이라면 그 사람의 예측된 TV 시청시간은 3.38
시간이며, 32%의 오차한계를 가지고 4.43시간과 2.33시간의 사이에 있다고 추정
2 回歸分析의 論理
2.1 다중회귀방정식
▷ 앞장에서 설명한 회귀방정식(regression equation)과 마찬가지로 다중회귀방정식 역시 회귀계수(regression coefficients)를 갖음
▷ 즉, 회귀방정식과 다중회귀 방정식은 모두 상관계수 a와 b 계수(b coefficients)를 갖음
▷ 그러나 다중회귀분석에서는 2개의 b계수를 갖는데, 하나는 X1 예측변인 (predictor variable)이고, 또 하나는 X2 예측변인
▷ 그 방정식은 일반적으로 다음과 같은 형태,
Y'=a+ {b}_{ { X}_{1 } Y CDOT { X}_{2 } } { X}_{1 } + { b}_{ { X}_{2 } Y CDOT {X }_{1 } } { X}_{2 }
▷ 여기서 상관계수
{ b}_{ { X}_{1 } Y CDOT {X }_{2 } }
는 X2의 효과를 통제(control)한 상태에서 X1의 매 단위 (every units) 증가에 따른 Y 단위의 증가비율
▷ 또한
{ b}_{ { X}_{2 } Y CDOT {X }_{1 } }
은 X1을 통제한 상태에서 X2의 매 단위 증가에 따른 Y 단위의 증가비율▷ 이러한 2개의 계수는 Y를 예측하는데 있어서 각각의 부분(portion)만을 타나내기 때문에, 부분회귀계수(partial regression coefficients)
▷ <표 11-1>에 나타난 것처럼 2개의 b계수를 계산하기 위해서는, 먼저 베타(β)계수 또는 표준화 부분회귀계수(standard partial regression coefficients)를 계산하는 것이 필요▷ 이러한 계산은 변인간의 상관관계(correlation)를 기초로 함
▷ β, b, a계수를 계산하는 공식은 <표 11-1>에 나타나 있다.
▷ <표 11-1>에 제시된 바와 같이 다중 회귀 방정식에서는 2개의 b계수를 계산한 다음 이어서 a 계수를 계산하게 되는데, a계수를 구하기 위해서는 b계수뿐만 아니라 3변인의 평균(mean)이 필요하게 된다.
2.2 다중 회귀방정식의 해석
▷ 예제연구에서 a와 2개의 b계수를 알게 되었다면, 다음과 같은 예측 방정식을 만들 수 있다.
Y'=42.1+(.99)X1+(-11.02)X2
▷ 또는,
시청시간=(42.1)+(.99×연령)+(-11.02×교육수준)
▷ 예를 들어 3변인의 평균(mean)이 주어졌다면, 다음과 같은 계산이 가능하다. 즉 X1=28, X2=3이라면 Y가 36.8이 된다.
즉, Y'=(42.1)+(.99×28)+(-11.02×3)
=(42.1)+(27.72)-(33.06)
=36.8
2.3 다중회귀분석에서의 전체 F검증
▷ 앞장의 단일변인 예측 방정식(single-variable prediction equation)에서 F검증을 사용 하여 전체 방정식(overall equation)의 유의도를 검증하는 방법에 대해 설명
▷ 다중회귀분석의 전체 방정식에 대한 통계적 유의도 검증 역시 F검증을 사용
▷ 이것은 근본적으로 다중 회귀 방정식과 관련된 다중상관계수(multiple correlation coefficients)의 통계적 유의도를 검증하기 위해 F비(F ratio)를 사용하는 것과 같다. ▷ 다중상관계수의 F계산공식은 <표 11-2>에 설명되고 있는데, 이는 앞 장에서 설명한 바와 같이, 설명되는(또는 '회귀') 분산 대 설명되지 않는(또는 '잉여') 분산의 비라는 점을 유의
▷ 계산결과, 다중 회귀 방정식의 F값은 통계적으로 유의미(p<.001)한 것으로 나타남
▷ 이러한 결과는 곧 예측(prediction)이 우연(chance)에 의해 발생될 수 있는 확률이 극히 적다는 것을 의미하는데,
▷ 이러한 검증 결과로 R=0인 영가설을 부정할 수 있다.
<표> 다중상관관계 및 다중 회귀 방정식의 F비 계산 실례
방정식
F= { (회귀 자승합) DIV (독립 변인수)} over {(잉여 자승합) DIV (표본수-독립 변인수-1) }
F= { 2837.56 DIV 2} over {2414.44 DIV 22 } =12.93
다중상관계수
F= { (중다상관계수 자승합) DIV (독립 변인수)} over {(1-중다상관계수 자승합) DIV (표본수-독립 변인수-1) }
F= { { (.735)}^{2 } DIV 2} over {(1- { .735}^{ 2} ) DIV 22 } =12.92
<그림 2-1> 표준편차
s =
SQRT{{s}^{2}}
=
SQRT { { SUM f{(X-M)}^{2} } over {N-1} }
=
SQRT {325.667}
= 18.046
(A) 원점수(raw score) : 7.13.8.12.10.9.9.11.10.10.11.
(B) 편차
(C) 편차자승
3
3
3
2
2
1
2
1
2
3
1
1
전체면적 = 30
(D) 평균자승의 크기
면적
= 2.73
= s2
1.65 = s
<그림 2-2> 표본 분포와 모집단 분포의 비교
-2
sigma
-1
sigma
mu
+1
sigma
+2
sigma
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
-2s -1s +1s +2s
<그림 2-3> 표본 평균치의 분포
<그림 2-4> 6개의 동전을 64회 던졌을 때 기대되는 앞면 수의 분포
f=20
f=15
f=15
f=6
f=6
f=1
f=1
앞면
→
0
1
2
3
4
5
6
확률
→
.0156
.0938
.2344
.3125
.2344
.0938
.0156
<그림 2-5> 정상분포곡선
<그림 2-6>
mu
= 35,
sigma
= 3.0일 때 정상분포곡선에서의 실제 점수
<그림 2-7> M = 35.0, SM = 0.5일 때 표본 평균치의 표집
<그림 2-8> M = 4.00,
sigma
M = .32일 때의 표집분포
추천자료
- 2009년 2학기 프로그래밍언어론 기말시험 핵심체크
- 2011년 2학기 프로그래밍언어론 기말시험 핵심체크
- 프로그래밍언어론 교재전범위 핵심요약노트
- 2012년 2학기 프로그래밍언어론 기말시험 핵심체크
- 2013년 2학기 프로그래밍언어론 기말시험 핵심체크
- 2014년 2학기 프로그래밍언어론 기말시험 핵심체크
- 2014년 2학기 프로그래밍언어론 교재 전 범위 핵심요약노트
- 2015년 2학기 프로그래밍언어론 교재 전 범위 핵심요약노트
- 2015년 2학기 프로그래밍언어론 기말시험 핵심체크
- 2016년 하계계절시험 프로그래밍언어론 시험범위 핵심체크
- 2016년 2학기 프로그래밍언어론 기말시험 핵심체크
- 2016년 2학기 프로그래밍언어론 교재 전 범위 핵심요약노트
- 2017년 2학기 프로그래밍언어론 교재 전 범위 핵심요약노트
- 2017년 2학기 컴퓨터과학과 프로그래밍언어론 기말시험 핵심체크