목차
제 1장 서론
제 2장 분석방법
1. 데이터마이닝
2. 데이터베이스란?
3. 데이터 분류방법 및 소형 구축방법
제 3장 연구자료및 연구방법
1. 연구자료
2. 연구방법
제 4장 실증결과분석
1. 분석 전
2. 트리분석결과
1) 트리분석결과 1
2) 트리분석결과 2
3. 그래프
제 5장 결론
제 2장 분석방법
1. 데이터마이닝
2. 데이터베이스란?
3. 데이터 분류방법 및 소형 구축방법
제 3장 연구자료및 연구방법
1. 연구자료
2. 연구방법
제 4장 실증결과분석
1. 분석 전
2. 트리분석결과
1) 트리분석결과 1
2) 트리분석결과 2
3. 그래프
제 5장 결론
본문내용
을 없애고 자료를 구조화하여 저장함으로써 자료 검색과 갱신의 효율을 높인다. 현대적인 의미의 데이터베이스 개념을 확립한 사람은 당시 제너럴일렉트릭사(社)에 있던 C.바크만으로 그는 1963년 IDS(Integrated Data Store)라는 데이터베이스 관리시스템을 만들었다.
논리적으로 연관된 하나 이상의 자료의 모음으로 그 내용을 고도로 구조함으로써 검색과 갱신의 효율화를 꾀한 것이다. 즉, 몇 개의 자료 파일을 조직적으로 통합하여 자료 항목의 중복을 없애고 자료를 구조화하여 기억시켜 놓은 자료의 집합체라고 할 수 있다. 이 용어가 처음 사용된 것은 1963년 6월 미국 SDC(System Development Corporation)가 산타모니카에서 개최한 \'컴퓨터 중심의 데이터베이스 개발과 관리\'라는 심포지엄 제목에서 공식으로 사용되었다. 이 심포지엄에서 발표된 많은 논문들은 대부분 자료 파일에서 정보를 쉽게 검색하는 작업에 관련된 것들이었으며, 데이터베이스란 단순히 자기(磁氣) 테이프와 같은 보조기억장치에 저장된 자료 파일의 의미로 쓰였다. 현대적인 의미의 데이터베이스 개념을 확립한 사람은 당시 제너럴일렉트릭사(社)에 있던 C.바크만으로 그는 1963년 IDS(Integrated Data Store)라는 데이터베이스 관리시스템을 만들었다. 데이터베이스가 가지는 몇 가지 특성을 살펴봄으로써 그 뜻을 보다 명확히 할 수 있다. 첫째 똑같은 자료를 중복하여 저장하지 않는 통합된 자료이며, 둘째 컴퓨터가 액세스하여 처리할 수 있는 저장장치에 수록된 자료이며, 셋째 어떤 조직의 기능을 수행하는 데 없어서는 안 되며 존재 목적이 뚜렷하고 유용성 있는 운영 자료이기 때문에 임시로 필요해서 모아 놓은 데이터나 단순한 입출력 자료가 아니라는 점이며, 넷째 한 조직에서 가지는 데이터베이스는 그 조직 내의 모든 사람들이 소유하고 유지하며 이용하는 공동 자료로서 각 사용자는 같은 데이터라 할지라도 각자의 응용 목적에 따라 다르게 사용할 수 있다는 점이다.
3. 데이터분류방법 및 소형구축 방법
데이터 분류 방법에는 명목형자료, 순서형자료, 구간형 자료, 연속형 자료의 4가지 방법이 있다. 소형구축 방법에는 5가지가 있다. 선형회귀분석, 로지스틱 회귀분석, 신경망분석, 유전적알고리즘, 분류의사 결정나무의 5가지가 있다.
데이터분류방법
1.명목형 자료(nominal data)
이 자료는 범주형 자료를 나타낸다. 성별값처럼 1,2로서 2가지로 나타낼수 있는 것이 명목형 자료이다. 중요한 특징은 이 자료의 값들끼리 상대적인 중요도는 없다는 것이다. 예를 들면 남자=1, 여자=2로 나타내었지만 여자가 남자보다 2배 중요하다는 것을 위미하지 않고, 단지 남자와 여자를 구분해주기 위해 1,2로 표시했을 뿐 어떠한 숫자적 의미를 가지고 있는 것은 아니다. 모형구축과정에서 편의상 두 가지 값만을 가지는 명목형 자료는 보통 0과 1로 표기한다.
2.순서형 자료(ordinal data)
상대적인 중요도를 가지는 범주형 자료이다. 즉 변수 값이 순위나 중요도를 나타낸다. 예를 들면, 고객목록을 작성하는 회사에서 고객의 재정상태에 따라 1부터 5까지 값을 가지도록 할 수 있다. 1의 값은 채무를 제때에 이행한 고객, 즉 위험도가 아주 낮은 고객을 말하며, 5의 값은 파산된 고객 즉, 위험도가 매우 높은 고객을 말한다. 2부 4까지의 값은 채무이행 정도에 따라 값을 부여한다. 1의 값을 가진 고객보다 5의 값을 가진 고객이 훨씬 더 위험도가 높은 고객임을 알 수 있다. 다시 말해 위험도 1의 값을 가진 사람과 위험도 5의 값을 가진 사람의 위험도 차이가 5-1=4라는 것을 의미하지는 않는다.
3. 구간형 자료(interval data)
상대적인 중요도를 가지는 자료이다. 덧셈과 뺄셈과 같은 연산으로 상대적인 의미의 중요도를 판단 할 수 있다. 그러나 ‘0’이라는 것이 어떤 의미를 가지는 것은 아니다. 예를 들면, 온도를 나타낼 때 섭씨 0도는 온도가 없다는 것이 아니라 -1도 보다 따듯하고 1도보다는 추운 온도라는 뜻이다. 대부분의 금융회사들은 리스크에 관하여 앞의 예에서 1과 5 사이의 값들보다 훨씬 세분화되고 정교하게 정의하고 있다. 일반적으로 리스크값(위험도)은 300에서 800사이인데 리스크의 차이로 두 고객의 리스크를 비교하는 것이 가능하다. 예를 들어 리스크값이 600인 고객은 리스크값이 300인 고객과 비교할 때는 리스크의 차이가 300이다. 그러나 600인 고객이 200인 고객보다 3배 더 위험하다고는 말 할 수 없다.
4. 연속형 자료(continous data)
예측 모형을 개발하는데 가장 많이 사용되는 자료 종류이다. 이 자료는 덧셈, 뺄셈뿐만 아니라 모든 가능한 연산이 의마가 있다. 판매액, 잔고, 시간 등이 연속형 자료이다. 그리고 이 자료들은 값을 비교 할 때 몇 배 또는 비율의 의미도 가진다.
소형구축방법
(1) 선형 회귀 분석
단순회귀분석은 연속적인 두 변수(독립변수와 예측하고자 하는 종속변수) 사이의 관계를 알아보는 통계적인 방법이다. 회귀선은 각각의 자료로부터 오차의 제곱을 최소화하는 선을 찾는 것이다.
종속변수와 독립변수 사이의 관계가 선형이 아니고 비선형일 경우도 있다. 이런 경우에 보다 좋은 추정 회귀선을 찾기 위해서는 독립변수를 변환하는 것이 필요하다.
선형회귀분석을 이용한 목표 모형은 매우 우수하여 마케팅에서는 선형회귀분석 하나만 사용하는 경우가 많이 있다. 고객의 평생 가치를 계산하기 위해서 선형회귀분석을 사용할 수도 있다.
(2) 로지스틱 회귀분석
조지스틱 회귀분석은 선형회귀분석과 비슷하다. 차이점은 종속변수가 연속적이 아니고 범주형이라는 것이다. 응답 여부 또는 대출 미납 여부 등을 예측하는 것이 우리의 일상에서 흔하므로 마케팅에서는 로지스틱 회귀분석이 아주 유용한 분석방법으로 활용되고 있다.
조리스틱 회귀분석은 대개 두 개의 범주를 가진 종속변수를 예측한다. 종속변수가 연속인 선형회귀분석을 사용하기 위해서는 사건이 일어날 확률(p)의 함수로 연속적인 값으로 변화시킬 필요가 있다.
과정은 다음과 같다.
첫번째로 각각의 소득 값에 반응 값을 평
논리적으로 연관된 하나 이상의 자료의 모음으로 그 내용을 고도로 구조함으로써 검색과 갱신의 효율화를 꾀한 것이다. 즉, 몇 개의 자료 파일을 조직적으로 통합하여 자료 항목의 중복을 없애고 자료를 구조화하여 기억시켜 놓은 자료의 집합체라고 할 수 있다. 이 용어가 처음 사용된 것은 1963년 6월 미국 SDC(System Development Corporation)가 산타모니카에서 개최한 \'컴퓨터 중심의 데이터베이스 개발과 관리\'라는 심포지엄 제목에서 공식으로 사용되었다. 이 심포지엄에서 발표된 많은 논문들은 대부분 자료 파일에서 정보를 쉽게 검색하는 작업에 관련된 것들이었으며, 데이터베이스란 단순히 자기(磁氣) 테이프와 같은 보조기억장치에 저장된 자료 파일의 의미로 쓰였다. 현대적인 의미의 데이터베이스 개념을 확립한 사람은 당시 제너럴일렉트릭사(社)에 있던 C.바크만으로 그는 1963년 IDS(Integrated Data Store)라는 데이터베이스 관리시스템을 만들었다. 데이터베이스가 가지는 몇 가지 특성을 살펴봄으로써 그 뜻을 보다 명확히 할 수 있다. 첫째 똑같은 자료를 중복하여 저장하지 않는 통합된 자료이며, 둘째 컴퓨터가 액세스하여 처리할 수 있는 저장장치에 수록된 자료이며, 셋째 어떤 조직의 기능을 수행하는 데 없어서는 안 되며 존재 목적이 뚜렷하고 유용성 있는 운영 자료이기 때문에 임시로 필요해서 모아 놓은 데이터나 단순한 입출력 자료가 아니라는 점이며, 넷째 한 조직에서 가지는 데이터베이스는 그 조직 내의 모든 사람들이 소유하고 유지하며 이용하는 공동 자료로서 각 사용자는 같은 데이터라 할지라도 각자의 응용 목적에 따라 다르게 사용할 수 있다는 점이다.
3. 데이터분류방법 및 소형구축 방법
데이터 분류 방법에는 명목형자료, 순서형자료, 구간형 자료, 연속형 자료의 4가지 방법이 있다. 소형구축 방법에는 5가지가 있다. 선형회귀분석, 로지스틱 회귀분석, 신경망분석, 유전적알고리즘, 분류의사 결정나무의 5가지가 있다.
데이터분류방법
1.명목형 자료(nominal data)
이 자료는 범주형 자료를 나타낸다. 성별값처럼 1,2로서 2가지로 나타낼수 있는 것이 명목형 자료이다. 중요한 특징은 이 자료의 값들끼리 상대적인 중요도는 없다는 것이다. 예를 들면 남자=1, 여자=2로 나타내었지만 여자가 남자보다 2배 중요하다는 것을 위미하지 않고, 단지 남자와 여자를 구분해주기 위해 1,2로 표시했을 뿐 어떠한 숫자적 의미를 가지고 있는 것은 아니다. 모형구축과정에서 편의상 두 가지 값만을 가지는 명목형 자료는 보통 0과 1로 표기한다.
2.순서형 자료(ordinal data)
상대적인 중요도를 가지는 범주형 자료이다. 즉 변수 값이 순위나 중요도를 나타낸다. 예를 들면, 고객목록을 작성하는 회사에서 고객의 재정상태에 따라 1부터 5까지 값을 가지도록 할 수 있다. 1의 값은 채무를 제때에 이행한 고객, 즉 위험도가 아주 낮은 고객을 말하며, 5의 값은 파산된 고객 즉, 위험도가 매우 높은 고객을 말한다. 2부 4까지의 값은 채무이행 정도에 따라 값을 부여한다. 1의 값을 가진 고객보다 5의 값을 가진 고객이 훨씬 더 위험도가 높은 고객임을 알 수 있다. 다시 말해 위험도 1의 값을 가진 사람과 위험도 5의 값을 가진 사람의 위험도 차이가 5-1=4라는 것을 의미하지는 않는다.
3. 구간형 자료(interval data)
상대적인 중요도를 가지는 자료이다. 덧셈과 뺄셈과 같은 연산으로 상대적인 의미의 중요도를 판단 할 수 있다. 그러나 ‘0’이라는 것이 어떤 의미를 가지는 것은 아니다. 예를 들면, 온도를 나타낼 때 섭씨 0도는 온도가 없다는 것이 아니라 -1도 보다 따듯하고 1도보다는 추운 온도라는 뜻이다. 대부분의 금융회사들은 리스크에 관하여 앞의 예에서 1과 5 사이의 값들보다 훨씬 세분화되고 정교하게 정의하고 있다. 일반적으로 리스크값(위험도)은 300에서 800사이인데 리스크의 차이로 두 고객의 리스크를 비교하는 것이 가능하다. 예를 들어 리스크값이 600인 고객은 리스크값이 300인 고객과 비교할 때는 리스크의 차이가 300이다. 그러나 600인 고객이 200인 고객보다 3배 더 위험하다고는 말 할 수 없다.
4. 연속형 자료(continous data)
예측 모형을 개발하는데 가장 많이 사용되는 자료 종류이다. 이 자료는 덧셈, 뺄셈뿐만 아니라 모든 가능한 연산이 의마가 있다. 판매액, 잔고, 시간 등이 연속형 자료이다. 그리고 이 자료들은 값을 비교 할 때 몇 배 또는 비율의 의미도 가진다.
소형구축방법
(1) 선형 회귀 분석
단순회귀분석은 연속적인 두 변수(독립변수와 예측하고자 하는 종속변수) 사이의 관계를 알아보는 통계적인 방법이다. 회귀선은 각각의 자료로부터 오차의 제곱을 최소화하는 선을 찾는 것이다.
종속변수와 독립변수 사이의 관계가 선형이 아니고 비선형일 경우도 있다. 이런 경우에 보다 좋은 추정 회귀선을 찾기 위해서는 독립변수를 변환하는 것이 필요하다.
선형회귀분석을 이용한 목표 모형은 매우 우수하여 마케팅에서는 선형회귀분석 하나만 사용하는 경우가 많이 있다. 고객의 평생 가치를 계산하기 위해서 선형회귀분석을 사용할 수도 있다.
(2) 로지스틱 회귀분석
조지스틱 회귀분석은 선형회귀분석과 비슷하다. 차이점은 종속변수가 연속적이 아니고 범주형이라는 것이다. 응답 여부 또는 대출 미납 여부 등을 예측하는 것이 우리의 일상에서 흔하므로 마케팅에서는 로지스틱 회귀분석이 아주 유용한 분석방법으로 활용되고 있다.
조리스틱 회귀분석은 대개 두 개의 범주를 가진 종속변수를 예측한다. 종속변수가 연속인 선형회귀분석을 사용하기 위해서는 사건이 일어날 확률(p)의 함수로 연속적인 값으로 변화시킬 필요가 있다.
과정은 다음과 같다.
첫번째로 각각의 소득 값에 반응 값을 평
키워드
추천자료
은행,기업간 바람직한 관계 정립방향
[금융학]국내 은행의 Private Bank 현황과 과제
중앙은행의 독립성
[금융규제][금융시장][금융기관][금융규제 개선][금융]금융시장과 금융기관, 금융의 역할, 금...
[벤치마킹] 신한은행의 벤치마킹
예금보험과 국제은행규제
신한은행 VS KB국민은행 경영전략비교분석 및 마케팅전략 비교분석과 나의견해
론스타,론스타인수,론스타엠엔에이,해외기업인수,엠엔에이사례,외환은행인수
현대건설 인수자금 조달사례,인수자금조달,현대건설자금조달사례,자금조달사례
유럽은행 미달러 자금 압력 (European banks’US dollar funding pressures) (미달러 자금압력...
한국경제의 이해 「가계부채의 원인과 해결방안 모색」 (가계부채 현황과 리스크, 가계부채의...
금융기관경영론,금융기관경영론,한국의 금융기관,일반은행과 특수은행,일반은행과 특수은행,...
소개글