탐색적자료분석 중간고사 요약본/정리
본 자료는 4페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
해당 자료는 4페이지 까지만 미리보기를 제공합니다.
4페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

탐색적자료분석 중간고사 요약본/정리에 대한 보고서 자료입니다.

본문내용

qurtod
hist(xc1)
광역시-구인구 자료를 가지고 상자그림을 그려라
goo=read.csv(\"G:/탐색적자료분석/데이터자료/광역시-구 인구.csv\",header=T)
str(goo)
attach(goo)
boxplot(인구~지역명)
광역시-구이름 자료를 가지고 대도시순으로 순서를 나타내어서 상자그림을 그려라
city=reorder(지역명,지역코드)
x11() # 기존의 그래프는 없애고 새로운 그래프 창을 연다.
boxplot(인구~city)
광역시-구이름 자료를 가지고 대도시순으로 상자그림의 폭이 인구수에 비례하여 상자그림을 그려라
x11() # 기존의 그래프는 없애고 새로운 그래프 창을 연다.
boxplot(인구~city, width=table(city))
1000개의 N(0,0.15)의 분포를 따르는 난수를 생성하여 선형변환을 해봐라
x=rnorm(1000,0,0.15)
x
par(mfrow=c(2,2))
y=2*x+100
hist(x)
hist(y)
z=-5*x-10
hist(z)
w=10*x+200
hist(w) # 선형변환은 분포의 형태가 바뀌지 않음을 볼 수 있다. (물론, 분포가 놓이는 척도는 바뀔 수 있다. a가 0보다 작을 경우에)
x=rnorm(1000,0,0.15)
x
par(mfrow=c(2,2))
hist(x)
x2=x*x
hist(x2)
x4=x2*x2
hist(x4) # x의 제곱, 4제곱 등 비선형 변환의 결과를 보면 분포가 왼쪽에 치우쳐진, 즉 오른쪽으로 긴 꼬리를 갖게 된다.
hist(y^4, breaks=seq(0,2,0.1)) # breaks는 구간 수를 늘리는 방법
x1=rgamma(1000,1)
x2=rgamma(1000,5)
x3=rgamma(1000,10)
x4=rgamma(1000,30)
sd(x1) # sqrt(1)
sd(x2) # sqrt(5)
sd(x3) # sqrt(10)
sd(x4) # sqrt(30)
x1=rgamma(100,4); g1=rep(\"A\",100)
x2=rgamma(100,5); g2=rep(\"B\", 100)
x3=rgamma(100,9); g3=rep(\"C\",100)
claims=c(x1,x2,x3)
group=factor(c(g1,g2,g3)) # factor은 r에서 제공하는 범주형 변수이다. 여기서는 A,B,C라는 벡터를 factor로 변환하기 위해서 factor()함수를 사용한다.
par(mfrow=c(1,3))
boxplot(claims~group,ylab=\"raw scale\") # 상자의 중앙뿐만이 아니라 길이도 다른 것을 볼 수 있는데 이것은 자료묶음들이 다른 중심과 산포를 갖는다는 것을 말해준다.
boxplot(sqrt(claims)~group, ylab=\"sqrt scale\") # 자료묶음의 산포가 균일해졌으므로 적절한 변환이다.
boxplot(log(claims)~group, ylab=\"log scale\") # 변환의 정도가 지나쳤다.
x=rnorm(100,40,10)
y=c(rnorm(90,40,10),rnorm(10,80,5))
hist(x)
hist(y)
표준화 변환
z.x=(x-mean(x))/sd(x)
z.y=(y-mean(y))/sd(y)
hist(z.x)
hist(z.y)
로버스트 표준화 변환
zz.x=(x-median(x))/(IQR(x)/1.35)
zz.y=(y-median(x))/(IQR(y)/1.35)
hist(zz.x)
hist(zz.y) # 로버스트 표준화 변환의 결과를 보면 Y 점수에 대한 변환 값이 더 넓은 폭의 구간에 놓이는 것을 볼 수 있다.
par(mfrow=c(1,2))
x=rt(1000,3)
hist(x)
hist(x, breaks=seq(-10,15,1)) # 간격을 1로 할 때 breaks=seq()를 사용
y=2*x+10 # 선형변환을 통해서 중심만 바뀌었을 뿐 그래프의 모양에는 변화가 없음을 알 수 있다.
hist(y)
x=rgamma(1000,5) # 왼쪽으로 분포가 치우쳐져있고, 오른쪽으로 긴 꼬리를 갖는다.
hist(x)
50개의 N(10,1)을 따르는 a집합, 50개의 N(12,1)을 따르는 b집합, 50개의 N(14,1)을 따르는 c집합, 50개의 N(16,1)을 따르는 d집합을 엑셀에 데이터파일을 생성하라.
aa=subset(a,a>10) # a에서 10이상인 것만 추려내기
bb=subset(b,b>12) # b에서 12이상인 것만 추려내기
cc=subset(c,c>14) # c에서 14이상인 것만 추려내기
dd=subset(d,d>16) # d에서 16이상인 것만 추려내기
엑셀에서 데이터를 생성해서 r로 불러내는 방법
abcd=read.csv(\"D:/Desktop/abcd.csv\",header=T)
메모장이나 한글에서 데이터를 생성해서 r로 불러내는 방법
kings=read.table(\"G:/탐색적자료분석/데이터자료/chosun kings.txt\",header=T)
직접 입력해서 데이터를 생성하는 방법
x=scan()
spr(h)=hu-hl=Q3-Q1=IQR
1step=1.5*spr(h)
1step을 통해서 IF와 OF를 구한다.
상자는 사분위수로 그린다.
수염은 인접값까지 그린다.
벗어나는 것은 특이값으로 이는 별도로 표시해야한다.
IF와 OF까지 선을 긋는 것은 아니라는 것을 명심해야한다.
재표현목적
1.대칭
2.산포도를 비슷하게 하기 위해서
3.선형화를 위해서
책에 난수를 만드는 것
1.정규난수 만들기
x=rnorm(100,10,1)
2.카이제곱난수 만들기
y=rchisq(100,3)
3.감마난수만들기
z=rgamma(100,3)
다섯수치 요약할 때 quantile이나 summary를 사용한다.
summary 뒤에 [] 안에 숫자를 쓸 수 있다.
x=rnorm(100)
summary(x) # 결과는 (최소값, 1사분위수, 중앙값, 평균, 3사분위수, 최대값) 으로 나온다.
summary(x)[-2] # 2번째로 나타나는 1사분위수가 사라지고 나머지 값들만 나온다.
summary(x)[-4] # 4번째에 있는 평균이 사라지고 나머지 값들만 나온다.
summary(x)[2] 2번째 있는 1사분위수만 나온다.
  • 가격2,500
  • 페이지수12페이지
  • 등록일2021.05.31
  • 저작시기2021.5
  • 파일형식한글(hwp)
  • 자료번호#1150768
본 자료는 최근 2주간 다운받은 회원이 없습니다.
청소해
다운로드 장바구니