목차
1. 통계학의 기초개념
1) 통계의 정의
(1) 모집단과 표본
(2) 변수
2) 통계의 유형
(1) 기술통계와 추리통계
(2) 일원적 통계와 다원적 통계
2. 자료의 처리 및 기술
1) 도표 및 그림을 통한 자료처리 척도
(1) 빈도분포표(frequency distribution table)
(2) 그래프
2) 수치에 의한 자료처리 척도
(1) 집중경향치(central tendency)
① 최빈치(mode)
② 중앙치(median)
③ 산술평균치(arithmetic mean)
(2) 변산도(dispersion)
①범위(range)
②사분편차(quartile deviation)
③평균편차(mean deviation)
④분산(변량)(variable)
⑤표준편차(standard deviation)
(3) 집중경향치와 변산도지수의 비교
3) 정규분포곡선과 표준점수
3. 통계적 추론(추리)(statistical inference)
1) 통계적 추정의 기본개념
2) 가설검증의 절차
3) 연구문제(research problem)와 가설(hypothesis)
(1) 연구문제
(2) 연구가설과 영가설
4) 가설검증과 통계적 유의수준(significance level)
(1) 임계치(critical value)와 부정한계영역(the region of rejection)
(2) 양측검증(two-tailed test)과 단측검증(one-tailed test)
(3) 제1종오류(typeⅠerror)와 제2종오류(typeⅡerror)
1) 통계의 정의
(1) 모집단과 표본
(2) 변수
2) 통계의 유형
(1) 기술통계와 추리통계
(2) 일원적 통계와 다원적 통계
2. 자료의 처리 및 기술
1) 도표 및 그림을 통한 자료처리 척도
(1) 빈도분포표(frequency distribution table)
(2) 그래프
2) 수치에 의한 자료처리 척도
(1) 집중경향치(central tendency)
① 최빈치(mode)
② 중앙치(median)
③ 산술평균치(arithmetic mean)
(2) 변산도(dispersion)
①범위(range)
②사분편차(quartile deviation)
③평균편차(mean deviation)
④분산(변량)(variable)
⑤표준편차(standard deviation)
(3) 집중경향치와 변산도지수의 비교
3) 정규분포곡선과 표준점수
3. 통계적 추론(추리)(statistical inference)
1) 통계적 추정의 기본개념
2) 가설검증의 절차
3) 연구문제(research problem)와 가설(hypothesis)
(1) 연구문제
(2) 연구가설과 영가설
4) 가설검증과 통계적 유의수준(significance level)
(1) 임계치(critical value)와 부정한계영역(the region of rejection)
(2) 양측검증(two-tailed test)과 단측검증(one-tailed test)
(3) 제1종오류(typeⅠerror)와 제2종오류(typeⅡerror)
본문내용
이 되어야 하는지가 그것이다.
예를 통해 살펴보자. 5학년과 6학년이 같은 문제를 가지고 시험을 본 결과, 5학년의 평균이 60점이며, 6학년의 평균이 80점일 때 어떤 점수에서부터 6학년으로 보아야 하는가? 다시 말하면 몇 점 이상을 5학년의 평균과 현저하게 다르다고 보아야 하는가 하는 문제이다. 이를 설명하기 위하여 5학년과 6학년의 점수분포가 정규분포이며, 모집단의 표준편차는 10점이라고 하자. 그림 9-16(위의 그림은 6학년 학생의 점수분포, 아래 그림은 표준정규분포로 나타낸 것이다.)에서 70점 이상을 6학년으로 본다면 6학년 학생 중에서 5학년으로 간주될 학생은
{a }_{1 }
만큼이 되며, 이의 비율은 0.1587(부록 표2참조)이 된다. 즉 70 이하의 점수를 받아서 5학년으로 간주될 위험이 15.87%가 된다. 그러나 15.87%의 오류란 너무 크기 때문에 오류를 줄이기 위해 수준을 5%로 한다면 이에 해당되는 Z의 값은 -1.64(p. 520 표2)가 되고 이에 대응하는 X는 63.6점이 된다.
Z= { X- } over { }
-1.64= { X-80} over {10 }
X=63.6
즉 63.6점을 기준으로 하여 그 이상을 6학년으로 단정한다면, 실제로는 6학년이면서도 5학년으로 간주될 오류가 발생할 위험은 약 5%가 된다. 다시 말하면 5%의 오류를 감수할 때 6학년의 분포와 현저하게 차이가 있다고 볼 수 있는 기준점이 63.6점이 되며 이에 해당하는 Z값은 -1.64가 되는 것이다.
이때 위에서 지적한 5%, 15.87% 등의 오류의 가능성을 유의수준이라 하며, 이를 =0.05(유의수준 5%), =0.1587(유의수준 15.87%)등으로 표시한다.
) 흔히 유의수준을 p로 표시하는데 만일 유의수준을 .05로 잡았다면 p<.05로 표시한다.
또한 일정한 오류를 감수할 때 6학년의 분포와 현저하게 차이가 있다고 볼 수 있는 기준점을 임계치라고 한다. 즉 임계치란 주어진 유의수준에서 영가설의 채택과 기각에 관련된 의사결정을 할 때, 그 기준이 되는 점이다. 위의 예에서 임계치는 X=63.6이 된다.
따라서 임계치를 중심으로 영가설의 기각영역과 채택영역이 결정된다. 임계치를 중심으로 영가설을 부정하게 되는 영역을 부정한계영역이라 한다. (그림 9-16에서 -1.64의 왼쪽 부분)
그러면 실제 연구에서는 유의수준, 즉 오류를 감수할 확률을 얼마로 결정하여야 하는가? 이에 대해서는 연구의 성격, 연구자의 주관등이 개입되게 되므로 어느 연구에나 적용될 수 있는 보편타당한 기준은 없다. 그러나 보통 연구에서는 수준을 0.01, 0.05, 0.10 등으로 정하는 경우가 많다. 유의수준은 뒤에 설명될 -오류와 동일한 것임을 먼저 밝혀둔다.
(2) 양측검증(two-tailed test)과 단측검증(one-tailed test)
영가설이 기각되면 연구가설이 채택된다. 그런데 모수치에 대한 가설검증을 할 때에는 다음과 같이 두 가지로 영가설과 연구가설을 나타낼 수 있다. 첫째는 모수 가 어떤 수와 꼭 같다는 가설(① 영가설: =q, 연구가설: q)이며, 다른 하나는 모수 가 어떤 수보다 크거나 작다고 하는 가설(② 영가설: q, 연구가설: 〈q ③ 영가설: q, 연구가설: 〉q)이다.
①의 경우를 보자. 이때 표본을 뽑아서 얻은 통계치가 영가설과 근접해 있으면 영가설을 채택할 것이다. 그렇지 않고 통계치가 q보다 매우 크거나, 또는 q보다 현저히 작을때는 영가설을 채택할 수가 없다. 그러므로 영가설을 기각하는 영역은 확률분포의 양측에 있게 된다. 이처럼 가설검증의 기각영역이 양쪽에 있는 것을 양측검증이라고 한다. ②의 경우 선택된 표본의 통계치가 q보다 현저히 작지 않으면 영가설을 채택하게 된다. 따라서 확률분포의 오른쪽 극단에는 기각영역이 없다. 다만 통계치가 q보다 현저히 작을때에만 영가설을 기각하게 된다. 따라서 로 나타나는 기각영역은 분포의 왼쪽 극단에만 존재하게 된다. ③의 경우는 반대현상이 나타나게 된다. 즉 통계치가 q보다 현저히 클 때에만 영가설을 기각하게 되므로, 기각영역은 왼쪽에만 있게 된다. 이렇게 가설검증에서 기각영역이 어느 한쪽에만 있게 되는 경우를 단측검증이라 한다.
(3) 제1종오류(typeⅠerror)와 제2종오류(typeⅡerror)
가설검증은 표본에서 뽑은 통계치를 기초로 하여 모집단의 특성을 알아보려고 하는 것이기 때문에 표본이 어떻게 선택되느냐에 따라 잘못된 결론을 내릴 수도 있다. 표집오차는 언제나 발생하기 때문에, 표본에 근거를 두는 가설검증에서도 항상 오류가 따르게 된다. 가설검증에 따르는 오류는 두 가지로 나눌 수 있다. 하나는 제1종오류이며, 다른 하나는 제2종오류이다. 전자를 -오류라고 하며, 후자를 -오류라고 한다.
-오류는 실제로는 영가설이 옳은데도 검증결과 영가설을 기각하는 오류, 즉 연구가설을 채택하는데서 비롯하는 오류이다. -오류는 실제로는 영가설이 틀렸는데도 검증결과 영가설을 옳은 것으로 받아들이는 오류, 즉 연구가설 기각시의 오류이다.
전체를 1이라 할 때 영가설이 맞는데도 영가설을 기각하는 오류가 이므로 영가설이 맞을 경우 영가설을 올바르게 채택하는 경우는 1- 이다. 또한 영가설이 틀릴 때 영가설을 받아들이는 오류가 이므로 틀린 영가설을 올바르게 거부하는 경우를 1- 가 된다. 따라서 1- 와 1- 를 크게 할수록 옳은 결정을 할 가능성이 많아진다. 그러나 와 의 크기는 반대방향으로 변하고 있으므로 1- 와 1- 를 동시에 크게 할 수는 없다.
이 두 가지 오류는 모두 연구자에게 중요한 의미를 갖는다. 그러나 보통 관심의 대상이 되는 것은 -오류인데 이는 앞서 설명한 유의수준과 동일한 개념이다. 그러므로 제1종오류의 확률을 줄이기 위해서는 연구자가 유의도 수준을 0에 가깝게 설정할 때 제1종오류를 범할 확률은 줄어든다.
그러나 통계적으로 검증한 연구가설이 기각되어야 하는 결론에 도달하였다고 해서 그 연구가 반드시 무의미 한 것은 아니다. 과학적 연구는 꼭 유의적인 관계만을 보기 위하여 검증을 해야 하는 것은 아니며, 유의적이지 못한 관계도 검증이 가능하다는 사실을 인식해야 한다.
예를 통해 살펴보자. 5학년과 6학년이 같은 문제를 가지고 시험을 본 결과, 5학년의 평균이 60점이며, 6학년의 평균이 80점일 때 어떤 점수에서부터 6학년으로 보아야 하는가? 다시 말하면 몇 점 이상을 5학년의 평균과 현저하게 다르다고 보아야 하는가 하는 문제이다. 이를 설명하기 위하여 5학년과 6학년의 점수분포가 정규분포이며, 모집단의 표준편차는 10점이라고 하자. 그림 9-16(위의 그림은 6학년 학생의 점수분포, 아래 그림은 표준정규분포로 나타낸 것이다.)에서 70점 이상을 6학년으로 본다면 6학년 학생 중에서 5학년으로 간주될 학생은
{a }_{1 }
만큼이 되며, 이의 비율은 0.1587(부록 표2참조)이 된다. 즉 70 이하의 점수를 받아서 5학년으로 간주될 위험이 15.87%가 된다. 그러나 15.87%의 오류란 너무 크기 때문에 오류를 줄이기 위해 수준을 5%로 한다면 이에 해당되는 Z의 값은 -1.64(p. 520 표2)가 되고 이에 대응하는 X는 63.6점이 된다.
Z= { X- } over { }
-1.64= { X-80} over {10 }
X=63.6
즉 63.6점을 기준으로 하여 그 이상을 6학년으로 단정한다면, 실제로는 6학년이면서도 5학년으로 간주될 오류가 발생할 위험은 약 5%가 된다. 다시 말하면 5%의 오류를 감수할 때 6학년의 분포와 현저하게 차이가 있다고 볼 수 있는 기준점이 63.6점이 되며 이에 해당하는 Z값은 -1.64가 되는 것이다.
이때 위에서 지적한 5%, 15.87% 등의 오류의 가능성을 유의수준이라 하며, 이를 =0.05(유의수준 5%), =0.1587(유의수준 15.87%)등으로 표시한다.
) 흔히 유의수준을 p로 표시하는데 만일 유의수준을 .05로 잡았다면 p<.05로 표시한다.
또한 일정한 오류를 감수할 때 6학년의 분포와 현저하게 차이가 있다고 볼 수 있는 기준점을 임계치라고 한다. 즉 임계치란 주어진 유의수준에서 영가설의 채택과 기각에 관련된 의사결정을 할 때, 그 기준이 되는 점이다. 위의 예에서 임계치는 X=63.6이 된다.
따라서 임계치를 중심으로 영가설의 기각영역과 채택영역이 결정된다. 임계치를 중심으로 영가설을 부정하게 되는 영역을 부정한계영역이라 한다. (그림 9-16에서 -1.64의 왼쪽 부분)
그러면 실제 연구에서는 유의수준, 즉 오류를 감수할 확률을 얼마로 결정하여야 하는가? 이에 대해서는 연구의 성격, 연구자의 주관등이 개입되게 되므로 어느 연구에나 적용될 수 있는 보편타당한 기준은 없다. 그러나 보통 연구에서는 수준을 0.01, 0.05, 0.10 등으로 정하는 경우가 많다. 유의수준은 뒤에 설명될 -오류와 동일한 것임을 먼저 밝혀둔다.
(2) 양측검증(two-tailed test)과 단측검증(one-tailed test)
영가설이 기각되면 연구가설이 채택된다. 그런데 모수치에 대한 가설검증을 할 때에는 다음과 같이 두 가지로 영가설과 연구가설을 나타낼 수 있다. 첫째는 모수 가 어떤 수와 꼭 같다는 가설(① 영가설: =q, 연구가설: q)이며, 다른 하나는 모수 가 어떤 수보다 크거나 작다고 하는 가설(② 영가설: q, 연구가설: 〈q ③ 영가설: q, 연구가설: 〉q)이다.
①의 경우를 보자. 이때 표본을 뽑아서 얻은 통계치가 영가설과 근접해 있으면 영가설을 채택할 것이다. 그렇지 않고 통계치가 q보다 매우 크거나, 또는 q보다 현저히 작을때는 영가설을 채택할 수가 없다. 그러므로 영가설을 기각하는 영역은 확률분포의 양측에 있게 된다. 이처럼 가설검증의 기각영역이 양쪽에 있는 것을 양측검증이라고 한다. ②의 경우 선택된 표본의 통계치가 q보다 현저히 작지 않으면 영가설을 채택하게 된다. 따라서 확률분포의 오른쪽 극단에는 기각영역이 없다. 다만 통계치가 q보다 현저히 작을때에만 영가설을 기각하게 된다. 따라서 로 나타나는 기각영역은 분포의 왼쪽 극단에만 존재하게 된다. ③의 경우는 반대현상이 나타나게 된다. 즉 통계치가 q보다 현저히 클 때에만 영가설을 기각하게 되므로, 기각영역은 왼쪽에만 있게 된다. 이렇게 가설검증에서 기각영역이 어느 한쪽에만 있게 되는 경우를 단측검증이라 한다.
(3) 제1종오류(typeⅠerror)와 제2종오류(typeⅡerror)
가설검증은 표본에서 뽑은 통계치를 기초로 하여 모집단의 특성을 알아보려고 하는 것이기 때문에 표본이 어떻게 선택되느냐에 따라 잘못된 결론을 내릴 수도 있다. 표집오차는 언제나 발생하기 때문에, 표본에 근거를 두는 가설검증에서도 항상 오류가 따르게 된다. 가설검증에 따르는 오류는 두 가지로 나눌 수 있다. 하나는 제1종오류이며, 다른 하나는 제2종오류이다. 전자를 -오류라고 하며, 후자를 -오류라고 한다.
-오류는 실제로는 영가설이 옳은데도 검증결과 영가설을 기각하는 오류, 즉 연구가설을 채택하는데서 비롯하는 오류이다. -오류는 실제로는 영가설이 틀렸는데도 검증결과 영가설을 옳은 것으로 받아들이는 오류, 즉 연구가설 기각시의 오류이다.
전체를 1이라 할 때 영가설이 맞는데도 영가설을 기각하는 오류가 이므로 영가설이 맞을 경우 영가설을 올바르게 채택하는 경우는 1- 이다. 또한 영가설이 틀릴 때 영가설을 받아들이는 오류가 이므로 틀린 영가설을 올바르게 거부하는 경우를 1- 가 된다. 따라서 1- 와 1- 를 크게 할수록 옳은 결정을 할 가능성이 많아진다. 그러나 와 의 크기는 반대방향으로 변하고 있으므로 1- 와 1- 를 동시에 크게 할 수는 없다.
이 두 가지 오류는 모두 연구자에게 중요한 의미를 갖는다. 그러나 보통 관심의 대상이 되는 것은 -오류인데 이는 앞서 설명한 유의수준과 동일한 개념이다. 그러므로 제1종오류의 확률을 줄이기 위해서는 연구자가 유의도 수준을 0에 가깝게 설정할 때 제1종오류를 범할 확률은 줄어든다.
그러나 통계적으로 검증한 연구가설이 기각되어야 하는 결론에 도달하였다고 해서 그 연구가 반드시 무의미 한 것은 아니다. 과학적 연구는 꼭 유의적인 관계만을 보기 위하여 검증을 해야 하는 것은 아니며, 유의적이지 못한 관계도 검증이 가능하다는 사실을 인식해야 한다.
추천자료
“컴퓨터 통계처리와 통계패키지”에 대하여
확률과통계 요점정리
[추리통계][추리통계 정의][추리통계 기본개념][추리통계 가설검증][추리통계 사례][추리통계...
통계교육(통계지도) 개념, 통계교육(통계지도) 목표와 필요성, 통계교육(통계지도) 경향과 과...
[통계][추론][통계품질][통계자료][무응답조사자료][미니탭 통계프로그램]통계와 추정, 통계...
통계조사방법론과 설문지 작성법
통계조사방법론과 설문지 작성법
[통계교육]통계교육(통계지도)의 가치, 통계교육(통계지도)의 기본방향, 통계교육(통계지도)...
컴퓨터통계처리와통계패키지 - 사조방
통계 필요성과 기능, 통계지도(통계교육) 기본방향, 통계지도(통계교육) 학습내용, 통계지도(...
통계지도(통계교육)의 개념, 통계지도(통계교육)의 목표와 통계지도(통계교육)의 내용, 통계...
[통계][통계 기본개념][통계 이론적 배경][통계 자료정리][통계 발전방안]통계의 의의, 통계...
통계분석의 수준은 자료의 수준에 따라 결정됩니다. 자료의 수준을 정의하고, 주변에서 관찰...
소개글