
-
1
-
2
-
3
-
4
-
5
-
6
-
7
-
8
-
9
-
10
-
11
-
12
-
13
-
14
-
15
-
16
-
17
-
18
-
19
-
20
-
21
-
22
-
23
-
24
-
25
-
26
-
27
-
28
-
29
-
30
-
31
-
32
-
33
-
34
-
35
-
36
-
37
-
38
-
39
-
40
-
41
-
42
-
43
-
44
-
45
-
46
-
47
-
48
-
49
-
50
-
51
-
52
-
53
-
54
-
55
-
56


목차
1. 사회과학의 대상
2. 과학적 방법
3. 통계방법
4. 사회과학의 연구절차
2. 과학적 방법
3. 통계방법
4. 사회과학의 연구절차
본문내용
졸(값:1)이라면 그 사람의 일일 TV 시청시간은 6.47 시간
▷ 이것은 32%의 오차한계 내에서 7.52와 5.42시간 사이에 있다고 추정
▷ 연령이 25살이며, 교육수준이 대졸(값:3)이라면 그 사람의 예측된 TV 시청시간은 3.38
시간이며, 32%의 오차한계를 가지고 4.43시간과 2.33시간의 사이에 있다고 추정
2 回歸分析의 論理
2.1 다중회귀방정식
▷ 앞장에서 설명한 회귀방정식(regression equation)과 마찬가지로 다중회귀방정식 역시 회귀계수(regression coefficients)를 갖음
▷ 즉, 회귀방정식과 다중회귀 방정식은 모두 상관계수 a와 b 계수(b coefficients)를 갖음
▷ 그러나 다중회귀분석에서는 2개의 b계수를 갖는데, 하나는 X1 예측변인 (predictor variable)이고, 또 하나는 X2 예측변인
▷ 그 방정식은 일반적으로 다음과 같은 형태,
Y'=a+ {b}_{ { X}_{1 } Y CDOT { X}_{2 } } { X}_{1 } + { b}_{ { X}_{2 } Y CDOT {X }_{1 } } { X}_{2 }
▷ 여기서 상관계수
{ b}_{ { X}_{1 } Y CDOT {X }_{2 } }
는 X2의 효과를 통제(control)한 상태에서 X1의 매 단위 (every units) 증가에 따른 Y 단위의 증가비율
▷ 또한
{ b}_{ { X}_{2 } Y CDOT {X }_{1 } }
은 X1을 통제한 상태에서 X2의 매 단위 증가에 따른 Y 단위의 증가비율▷ 이러한 2개의 계수는 Y를 예측하는데 있어서 각각의 부분(portion)만을 타나내기 때문에, 부분회귀계수(partial regression coefficients)
▷ <표 11-1>에 나타난 것처럼 2개의 b계수를 계산하기 위해서는, 먼저 베타(β)계수 또는 표준화 부분회귀계수(standard partial regression coefficients)를 계산하는 것이 필요▷ 이러한 계산은 변인간의 상관관계(correlation)를 기초로 함
▷ β, b, a계수를 계산하는 공식은 <표 11-1>에 나타나 있다.
▷ <표 11-1>에 제시된 바와 같이 다중 회귀 방정식에서는 2개의 b계수를 계산한 다음 이어서 a 계수를 계산하게 되는데, a계수를 구하기 위해서는 b계수뿐만 아니라 3변인의 평균(mean)이 필요하게 된다.
2.2 다중 회귀방정식의 해석
▷ 예제연구에서 a와 2개의 b계수를 알게 되었다면, 다음과 같은 예측 방정식을 만들 수 있다.
Y'=42.1+(.99)X1+(-11.02)X2
▷ 또는,
시청시간=(42.1)+(.99×연령)+(-11.02×교육수준)
▷ 예를 들어 3변인의 평균(mean)이 주어졌다면, 다음과 같은 계산이 가능하다. 즉 X1=28, X2=3이라면 Y가 36.8이 된다.
즉, Y'=(42.1)+(.99×28)+(-11.02×3)
=(42.1)+(27.72)-(33.06)
=36.8
2.3 다중회귀분석에서의 전체 F검증
▷ 앞장의 단일변인 예측 방정식(single-variable prediction equation)에서 F검증을 사용 하여 전체 방정식(overall equation)의 유의도를 검증하는 방법에 대해 설명
▷ 다중회귀분석의 전체 방정식에 대한 통계적 유의도 검증 역시 F검증을 사용
▷ 이것은 근본적으로 다중 회귀 방정식과 관련된 다중상관계수(multiple correlation coefficients)의 통계적 유의도를 검증하기 위해 F비(F ratio)를 사용하는 것과 같다. ▷ 다중상관계수의 F계산공식은 <표 11-2>에 설명되고 있는데, 이는 앞 장에서 설명한 바와 같이, 설명되는(또는 '회귀') 분산 대 설명되지 않는(또는 '잉여') 분산의 비라는 점을 유의
▷ 계산결과, 다중 회귀 방정식의 F값은 통계적으로 유의미(p<.001)한 것으로 나타남
▷ 이러한 결과는 곧 예측(prediction)이 우연(chance)에 의해 발생될 수 있는 확률이 극히 적다는 것을 의미하는데,
▷ 이러한 검증 결과로 R=0인 영가설을 부정할 수 있다.
<표> 다중상관관계 및 다중 회귀 방정식의 F비 계산 실례
방정식
F= { (회귀 자승합) DIV (독립 변인수)} over {(잉여 자승합) DIV (표본수-독립 변인수-1) }
F= { 2837.56 DIV 2} over {2414.44 DIV 22 } =12.93
다중상관계수
F= { (중다상관계수 자승합) DIV (독립 변인수)} over {(1-중다상관계수 자승합) DIV (표본수-독립 변인수-1) }
F= { { (.735)}^{2 } DIV 2} over {(1- { .735}^{ 2} ) DIV 22 } =12.92
<그림 2-1> 표준편차
s =
SQRT{{s}^{2}}
=
SQRT { { SUM f{(X-M)}^{2} } over {N-1} }
=
SQRT {325.667}
= 18.046
(A) 원점수(raw score) : 7.13.8.12.10.9.9.11.10.10.11.
(B) 편차
(C) 편차자승
3
3
3
2
2
1
2
1
2
3
1
1
전체면적 = 30
(D) 평균자승의 크기
면적
= 2.73
= s2
1.65 = s
<그림 2-2> 표본 분포와 모집단 분포의 비교
-2
sigma
-1
sigma
mu
+1
sigma
+2
sigma
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
-2s -1s +1s +2s
<그림 2-3> 표본 평균치의 분포
<그림 2-4> 6개의 동전을 64회 던졌을 때 기대되는 앞면 수의 분포
f=20
f=15
f=15
f=6
f=6
f=1
f=1
앞면
→
0
1
2
3
4
5
6
확률
→
.0156
.0938
.2344
.3125
.2344
.0938
.0156
<그림 2-5> 정상분포곡선
<그림 2-6>
mu
= 35,
sigma
= 3.0일 때 정상분포곡선에서의 실제 점수
<그림 2-7> M = 35.0, SM = 0.5일 때 표본 평균치의 표집
<그림 2-8> M = 4.00,
sigma
M = .32일 때의 표집분포
▷ 이것은 32%의 오차한계 내에서 7.52와 5.42시간 사이에 있다고 추정
▷ 연령이 25살이며, 교육수준이 대졸(값:3)이라면 그 사람의 예측된 TV 시청시간은 3.38
시간이며, 32%의 오차한계를 가지고 4.43시간과 2.33시간의 사이에 있다고 추정
2 回歸分析의 論理
2.1 다중회귀방정식
▷ 앞장에서 설명한 회귀방정식(regression equation)과 마찬가지로 다중회귀방정식 역시 회귀계수(regression coefficients)를 갖음
▷ 즉, 회귀방정식과 다중회귀 방정식은 모두 상관계수 a와 b 계수(b coefficients)를 갖음
▷ 그러나 다중회귀분석에서는 2개의 b계수를 갖는데, 하나는 X1 예측변인 (predictor variable)이고, 또 하나는 X2 예측변인
▷ 그 방정식은 일반적으로 다음과 같은 형태,
Y'=a+ {b}_{ { X}_{1 } Y CDOT { X}_{2 } } { X}_{1 } + { b}_{ { X}_{2 } Y CDOT {X }_{1 } } { X}_{2 }
▷ 여기서 상관계수
{ b}_{ { X}_{1 } Y CDOT {X }_{2 } }
는 X2의 효과를 통제(control)한 상태에서 X1의 매 단위 (every units) 증가에 따른 Y 단위의 증가비율
▷ 또한
{ b}_{ { X}_{2 } Y CDOT {X }_{1 } }
은 X1을 통제한 상태에서 X2의 매 단위 증가에 따른 Y 단위의 증가비율▷ 이러한 2개의 계수는 Y를 예측하는데 있어서 각각의 부분(portion)만을 타나내기 때문에, 부분회귀계수(partial regression coefficients)
▷ <표 11-1>에 나타난 것처럼 2개의 b계수를 계산하기 위해서는, 먼저 베타(β)계수 또는 표준화 부분회귀계수(standard partial regression coefficients)를 계산하는 것이 필요▷ 이러한 계산은 변인간의 상관관계(correlation)를 기초로 함
▷ β, b, a계수를 계산하는 공식은 <표 11-1>에 나타나 있다.
▷ <표 11-1>에 제시된 바와 같이 다중 회귀 방정식에서는 2개의 b계수를 계산한 다음 이어서 a 계수를 계산하게 되는데, a계수를 구하기 위해서는 b계수뿐만 아니라 3변인의 평균(mean)이 필요하게 된다.
2.2 다중 회귀방정식의 해석
▷ 예제연구에서 a와 2개의 b계수를 알게 되었다면, 다음과 같은 예측 방정식을 만들 수 있다.
Y'=42.1+(.99)X1+(-11.02)X2
▷ 또는,
시청시간=(42.1)+(.99×연령)+(-11.02×교육수준)
▷ 예를 들어 3변인의 평균(mean)이 주어졌다면, 다음과 같은 계산이 가능하다. 즉 X1=28, X2=3이라면 Y가 36.8이 된다.
즉, Y'=(42.1)+(.99×28)+(-11.02×3)
=(42.1)+(27.72)-(33.06)
=36.8
2.3 다중회귀분석에서의 전체 F검증
▷ 앞장의 단일변인 예측 방정식(single-variable prediction equation)에서 F검증을 사용 하여 전체 방정식(overall equation)의 유의도를 검증하는 방법에 대해 설명
▷ 다중회귀분석의 전체 방정식에 대한 통계적 유의도 검증 역시 F검증을 사용
▷ 이것은 근본적으로 다중 회귀 방정식과 관련된 다중상관계수(multiple correlation coefficients)의 통계적 유의도를 검증하기 위해 F비(F ratio)를 사용하는 것과 같다. ▷ 다중상관계수의 F계산공식은 <표 11-2>에 설명되고 있는데, 이는 앞 장에서 설명한 바와 같이, 설명되는(또는 '회귀') 분산 대 설명되지 않는(또는 '잉여') 분산의 비라는 점을 유의
▷ 계산결과, 다중 회귀 방정식의 F값은 통계적으로 유의미(p<.001)한 것으로 나타남
▷ 이러한 결과는 곧 예측(prediction)이 우연(chance)에 의해 발생될 수 있는 확률이 극히 적다는 것을 의미하는데,
▷ 이러한 검증 결과로 R=0인 영가설을 부정할 수 있다.
<표> 다중상관관계 및 다중 회귀 방정식의 F비 계산 실례
방정식
F= { (회귀 자승합) DIV (독립 변인수)} over {(잉여 자승합) DIV (표본수-독립 변인수-1) }
F= { 2837.56 DIV 2} over {2414.44 DIV 22 } =12.93
다중상관계수
F= { (중다상관계수 자승합) DIV (독립 변인수)} over {(1-중다상관계수 자승합) DIV (표본수-독립 변인수-1) }
F= { { (.735)}^{2 } DIV 2} over {(1- { .735}^{ 2} ) DIV 22 } =12.92
<그림 2-1> 표준편차
s =
SQRT{{s}^{2}}
=
SQRT { { SUM f{(X-M)}^{2} } over {N-1} }
=
SQRT {325.667}
= 18.046
(A) 원점수(raw score) : 7.13.8.12.10.9.9.11.10.10.11.
(B) 편차
(C) 편차자승
3
3
3
2
2
1
2
1
2
3
1
1
전체면적 = 30
(D) 평균자승의 크기
면적
= 2.73
= s2
1.65 = s
<그림 2-2> 표본 분포와 모집단 분포의 비교
-2
sigma
-1
sigma
mu
+1
sigma
+2
sigma
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
-2s -1s +1s +2s
<그림 2-3> 표본 평균치의 분포
<그림 2-4> 6개의 동전을 64회 던졌을 때 기대되는 앞면 수의 분포
f=20
f=15
f=15
f=6
f=6
f=1
f=1
앞면
→
0
1
2
3
4
5
6
확률
→
.0156
.0938
.2344
.3125
.2344
.0938
.0156
<그림 2-5> 정상분포곡선
<그림 2-6>
mu
= 35,
sigma
= 3.0일 때 정상분포곡선에서의 실제 점수
<그림 2-7> M = 35.0, SM = 0.5일 때 표본 평균치의 표집
<그림 2-8> M = 4.00,
sigma
M = .32일 때의 표집분포
추천자료
2009년 2학기 프로그래밍언어론 기말시험 핵심체크
2011년 2학기 프로그래밍언어론 기말시험 핵심체크
프로그래밍언어론 교재전범위 핵심요약노트
2012년 2학기 프로그래밍언어론 기말시험 핵심체크
2013년 2학기 프로그래밍언어론 기말시험 핵심체크
2014년 2학기 프로그래밍언어론 기말시험 핵심체크
2014년 2학기 프로그래밍언어론 교재 전 범위 핵심요약노트
2015년 2학기 프로그래밍언어론 교재 전 범위 핵심요약노트
2015년 2학기 프로그래밍언어론 기말시험 핵심체크
2016년 하계계절시험 프로그래밍언어론 시험범위 핵심체크
2016년 2학기 프로그래밍언어론 기말시험 핵심체크
2016년 2학기 프로그래밍언어론 교재 전 범위 핵심요약노트
2017년 2학기 프로그래밍언어론 교재 전 범위 핵심요약노트
2017년 2학기 컴퓨터과학과 프로그래밍언어론 기말시험 핵심체크