Greenplum Database Getting Started - 문화/예술/패션 레포트

본 자료는 3페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 3페이지 까지만 미리보기를 제공합니다.
3페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

Greenplum Database Getting Started에 대한 보고서 자료입니다.

1. Introduction to Greenplum Database

2. Getting Started with Greenplum Database
2.1 psql 사용법
2.2 그린플럼시스템 기초
2.3 그린플럼내 데이터 적재(gpdist)
2.4 쿼리 수행속도 튜닝 방법
1) VACUUM & ANALYZE
2) INDEX
3) ROW VS COLUMN ORIENTATION 방식의차이
4) 분산키를 확인
5) 파티셔닝

3.1 MADlib
3.2 GPTEXT

본문내용

1. Introduction to Greenplum Database

클라이언트는 그린플럼내에 마스터 노드에만 접근이 가능하다마스터 노드에는 SQL을 해석하고 데이터를 클라이언트에게 전달하는 역할을 한다. 마스터에서 인터커넥트 스위치를 통해 4대의 세그먼트노드 일명 데이터노드와 연결된다 4대의 세그먼트는 각각의 호스트명을 가지고 있으며 그린플럼에 저장하는 데이터는 마스터가아닌 4대의 세그먼트에 골고루 분산되어 저장된다. 각각의서버는 메모리, OS, 저장공간, CPU등을 가지고 있으며그린플럼은 5432포트로 클라이언트에게 서비스를 제공한다.
이것을 SharedNothing이라고 불리며 분산DBMS의 특징이라고 할 수 있다. 이와 반대로 디스크와 CPU등의 모든 자원이 공유되는 것을 Shared Everything라고 하며 일명 NAS나 스토리지 서버를필요로 한다.
다시 기본 그린플럼으로 돌아가자
아까 세그먼트라고 표현한 각각의 노드에는 또 가상의 8개의 인스턴스가 있어 예를들어 320줄의 로우가 저장된다고 하면 4개세그먼트 * 8개 인스턴스해서 총 32개의 인스턴스에 각각 10줄씩 저장된다고 생각하면 된다.
아울러 쿼리플랜, 쿼리실행등의모든 것들이 각각의 세그먼트에서 병렬로 실행된다. 이런걸 MPP라고도표현한다. MPP란 Massively Parallel Processing의약자로 고도 병렬처리 라고도 불린다. 이는 프로그램을 여러 부분으로 나뉘어 여러 프로세스가 각 부분을동시에 수행시키는데 조건은 Shared Nothing 구조처럼 각각의 운영체제와 메모리를 가지고 각각의서버에서 실행되는 것을 말한다. 아까 예를들었듯이 10건씩 32대의 세그먼트에 저장저장되어있 할 때 select * from 테이블 where 조건 이라는 Query가 들어오면 32대가 10건의 데이터를 가지고 각각 일을 하는 구조를 의미한다.
더 자세한 그린플럼 소개는 그린플럼 운영자 가이드에서 다시한번설명한다.

2. Getting Started with Greenplum Database

여기서는 이후에 소개할 그린플럼 운영자 가이드와 내용이많이 겹쳐서 os상에서 psql 명령으로 콘솔에 들어가 사용하는예들을 정리한다.

키워드

그린플럼, DW, 오픈소스, PSQL, 빅데이터

소개글

목차

본문내용

키워드

추천자료