확률과통계 요점정리 - 조사/분석/통계 레포트

본 자료는 4페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 4페이지 까지만 미리보기를 제공합니다.
4페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

확률과통계 요점정리에 대한 보고서 자료입니다.

본문내용

동질적이고 층간에서 이질적이 되도록 층을 만드는 것이다. 이와 같이 층화의 원리에 의해 층을 나누고 이들 층에서 층화추출된 표본을 이용하면 추정량의 정도를 높이는 장점이 있다. 따라서 층화추출법은 모든 표본추출법 가운데 이론적으로 가장 중요한 추출법이 된다.
집략추출법
: 모집단을 집락이라 부르는 부모집단으로 나누고, 집락들 가운데 몇 개의 집락을 단순랜덤추출하여 추출된 집락을 전수조사하거나 그 집락에서 다시 단순랜덤추출법으로 표본을 뽑는 방법을 집락추출법이라 한다.
층화집락추출법
: 1차추출단위로 층화를 한 다음에 각 층에서 1차추출단위를 집락으로 추출하고 추출된 집락을 전수조사 또는 표본조사하는 방법이다.
Chapter2. 모집단과 표본
1) 모집단의 분포
모집단의 분포: 모집단의 특성값이 흩어져 있는 상태를 합이 1인 양수로써 나타낸 것
모집단: 모든 추출단위의 특성값들을 모아 놓은 것.
표본: 모집단 중 통계적 분석을 위하여 실제로 관측한 것들의 모임.
2) 중심위치의 측도
중심위치의 측도로는 평균, 중앙값, 최빈값등이 있다. 이 중 평균과 중앙값이 가장 많이 쓰이고 있다.
평 균
평균은 양적 자료에만 사용되며, 우리가 관측한 자료의 값들을 이라 표기할 때 다음과 같이 정의된다.
그리고 모집단의 평균을 모평균, 표본의 평균을 표본평균이라 부른다.
표본평균: 모평균:
모집단과 표본의 구별을 위해서 모집단의 자료수를 N, 표본의 자료수를 n이라 하면, 모평균과 표본평균은 다음과 같다.
모평균과 표본평균:
① 산술평균
어떤 모집단에서 변수 X에 대한 n개의 표본값이 존재하는 데이터를 추출했다고 하자. 이들 값을 으로 표시한다. 보통 통계학에서의 평균이라 함은 산술평균을 의미하는데 식으로 표시하면 다음과 같다.
여기서 g는 계급의 수, 는 도수.
② 기하평균
시계열에서 인구나 물가 변동율과 같은 비율에서 평균증가율들을 구하고자 할 때 적용되는 대푯값으로 기하평균 g을 상승평균이라고도 한다, 데이터를 이라고 하면
로 나타난다.
중 앙 값
중앙값은 자료를 크기 순으로 나열할 때 가운데 놓이는 값이다. 자료의 수를 n이라 놓을 때, n이 홀수이면 (n+1)/2번째 자료값이 중앙값이 된다. n이 짝수일 때는 가운데 위치하는 자료값은 없으나 n/2번째와 n/2+1번째 자료값의 평균을 중앙값으로 정의한다.
최 빈 값
최빈값은 질적 자료나 양적 자료 모두에 사용되며, 간단히 말하면 자료 중 가장 자주 나오는 값을 일컫는다. 양적 자료의 대부분의 겨우는 앞의 예와는 달리 많은 종류의 자료값을 가진다. 이러한 경우, 거의 대부분의 자료값들은 한번만 나타나서 위와 같은 방법으로 최빈값을 구하는 것이 곤란하거나 불합리할 때가 많다.
42
58
55
61
52
66
38
72
95
420
<표3-1>월급액 (단위:만 원)
<표3-1>의 월급 자료를 보면 모든 자료가 한번 씩 나타나서 위의 정의대로 하면 최빈값은 존재 하지 않는다. 그러나 이런 경우 자료를 몇 개의 계급으로 나누어서 가장 도수가 높은 계급, 즉 최빈계급의 중간값을 최빈값으로 삼는다.
이제 <표3-1>의 월급자료를 5개의 계급으로 나누어 정리하면 <표3-2>와 같다. 이 표의 최빈계급은 50~70이므로 최빈값은 50과 70의 중간값인 60이 된다.
<표 3-2> 월급자료의 분포
월급액
도 수
30~50
2
50~70
5
70~90
1
90~100
1
110~
1
위의 예에서 <표3-2>와 다른 방법으로 계급을 정하 면 다른 최빈값이 나옴을 쉽게 알 수 있다. 따라서 하나의 자료에 여러 개의 최빈값이 나올 수 있어 바람직하지 못하다. 또한 최빈값은 중앙값과 마찬가지로 수리적인 분석이 어렵기 때문에 양적 자료의 겨우 널리 사용되지 않고 있다.
2) 산 포 도
앞에서 설명한 중심위치의 측도만으로는 자료의 분포에 대한 충분한 정보를 얻을 수 없다. 다음의 [그림 3-1]을 보자.
[그림3-1]은 평균깊이만을 생각하고 강을 건너는 것이 얼마나 위험한가를 보여주고 있다. 강의 평균깊이와 더불어 강의 깊이가 평균을 중심으로 얼마만큼 변하고 있는지를 알아야 할 것이다. 이와 마찬가지로 통계적 분석에도 자료가 평균과 같은 중심위치에서 얼마만큼 떨어져 있느냐를 측정하는 측도가 필요하며 이 측도를 산포도라고 한다.
분산과 표준편차
산포도로서 가장 널리 쓰이는 것이 분산과 표준편차이다. 분산과 표준편차를 정의하기 전에 다음의 자료를 생각해 보자.
4 8 7 5 2 6 3
위 자료의 평균은 5이며, 각 자료값과 평균과의 차이, 즉 편차는
-1 3 2 0 -3 1 -2
와 같다. 이러한 편차들을 하나의 값으로 나타내는 방법 중 편차들을 모두 합하는 방법을 생각 할 수 있겠으나 위 자료의 예에서와 같이 이는 항상 0이 되어 사용할 수 없다. 왜냐하면, 자료값들을 이라 두었을 때.
이기 때문이다.
편차의 합 대신에 편차의 제곱의 합을 사용하는 것이 분산과 표준편차이다. 편차의 제곱의 합은 자료수가 증가하면 무한정 커지기 때문에 그것 자체로서는 산초의 측도가 될 수 없다. 따라서 편차의 제곱의 합을 자료수로 나누어서 사용하게 되며, 이를 분산이라 한다. 자료가 모집단일 때의 분산을 모분산이라 부르며, 보통 (시그마 제곱)이라 표기한다. 반면, 자료가 표본일 때의 분산을 표본분산이라 부르며 통상 으로 표기한다.
모분산과 표본분산 :
여기서 표본분산을 계산할 때 n대신에 n-1을 사용하는 데에는 중요한 통계적 이유가 있으며 표본의 경우 n보다는 n-1을 사용하는 것이 좋다.
모표준편차와 표본표준편차 :
분산과 표준편차의 간편식:
다른 종류의 산포도
산포도를 나타내는 또 다른 측도로서 변동계수, 범위, 사분위범위등이 있다. 변동계수는 두 종류의 자료의 산포를 비교함에 있어 두 종류의 자료값의 차이가 클 때 유용하게 쓰이며, 다음과 같이 정의된다.
변동계수 :
예제
(단위:kg)
자료1
자료2
4.0
3.0
3.5
3.4
3.6
71.0
64.0
67.0
66.0
59.0
다음 자료 1은 5명의 신생아의 몸무게이고, 자료 2는 5명의 성인의 몸무게이다. 자료 값들 간의 변화가 더 심한 자료는 어떤 자료인가?
위 두 자료의 산포를 비교할

키워드

통계학 정리, 확률과통계 정리, 확률 정리, 통계 정리

소개글

본문내용

키워드

추천자료