목차
Ⅰ. 서론
Ⅱ. 본론
1. 기계학습(Machine Learning)이란
1) 기계 학습의 개념 및 배경
2) 기계 학습의 원리
(1) 지도 학습
(2) 비지도 학습
(3) 강화 학습
3) 기계 학습의 필요성
2. 기계학습을 위해 활용될 수 있는 정보통신 기술
1) 백스캐터 통신
2) V2X 통신
3) 무인기 통신 채널
4) 기록 텍스트 자동분류
5) 기지국 데이터
3. 시사점
Ⅲ. 결론
참고문헌
Ⅱ. 본론
1. 기계학습(Machine Learning)이란
1) 기계 학습의 개념 및 배경
2) 기계 학습의 원리
(1) 지도 학습
(2) 비지도 학습
(3) 강화 학습
3) 기계 학습의 필요성
2. 기계학습을 위해 활용될 수 있는 정보통신 기술
1) 백스캐터 통신
2) V2X 통신
3) 무인기 통신 채널
4) 기록 텍스트 자동분류
5) 기지국 데이터
3. 시사점
Ⅲ. 결론
참고문헌
본문내용
Ms’을 사용하고, 전처리/후처리 단계에대용량 형태소 사전을 결합해서 성능을 개선하였다.
구문분석 기술은 의존구조에 기반을 두어 문장의 구조를 분석한다. 한국어의 지배소 후위 특징을 반영한 후위 트랜지션 기반 의존 구문분석 알고리즘을 적용하였고, 세부적으로 어절 간 지배소-피지배소 분석을 위하여 의미 자질과 문맥 자질을 적용하여 성능을 개선하였다. 동음이의어 및 다의어 분석 기술은 고빈도 의미 기반 분석 방법, 공기정보 기반 분석 방법, 기계학습 기반 방법, 지식베이스 기반 방법 등의 다양한 분류 방법을 결합한 앙상블 방법론에 기반하여 문맥에 가장 적합한 의미를 분석한다. 의미역 인식 기술은 영어권을 중심으로 널리 쓰이는 Propbank 의미역 체계를 도입하였고, 용언(predicate)과 의미역 간의 관계만을 보던 기존 기술과 달리 시퀀스 레이블링기반 기계학습 기술을 적용하여 전체적인 의미 문맥을 반영할 수 있도록 하여 성능을개선하였다. 또한, Korean Propbank에서 제공하는 프레임(frame) 등 언어자원을 규칙처럼 이용하여 기계학습 기술의 단점을 보완하였다.
5) 기지국 데이터
유동인구 분석은 인구의 이동 패턴을 파악할 수 있기 때문에, 이와 관련된 다양한 분야에 활용되어 가치를 창출할 수 있다. 부동산 상권 분석, 관광 상품 기획, 트래픽 분석을 통한 교통 체계 설계, 등 그 활용 분야가 무궁무진하다. 또한, 유동인구 분석은 도시관리의 수요예측 및 행정서비스 영역에서도 핵심적 역할을 할 수 있다. 하지만, 이러한 분석은 대부분 사후적으로 이루어져 왔으며, 만약 유동 인구수를 미리 예측할 수 있다면 다양한 분야에서 사전적 활용 및 대응이 가능하여 기존에 없던 새로운 가치를 창출할 수 있을 것이다.
3. 시사점
대표적인 알고리즘은 다음과 같은 기계학습의 절차를 기반으로 개발되어 왔다. 기계학습(Machine Learning)의 핵심으로 모델선정, 모델 수식화, 모델 학습. 모델 평가가 있다. 먼저 문제를 해결하기 위해 연구자가 문제를 바라보는 시점 및 가정을 세우는 것을 모델이라 한다. 이러한 모델을 적용하기 위해서는 컴퓨터가 이해할 수 있는 수식으로 표현을 해줘야 하며 수식으로 표현된 모델을 다듬는 과정이 필요하다. 모델을 다듬는 방법으로 정규화, 손실함수, 최적화가 있다. 정규화는 정해진 모델이 필요 이상으로 복잡해지지 않게 조절해주는 것이며, 모델이 복잡하면 컴퓨터가 처리하는 데 있어서 과부하가 걸리거나 처리속도가 늦어지는 일이 발생하므로 이를 줄이기 위해 정규화를 수행한다. 손실함수는 모델이 실제로 데이터를 바르게 표현했는지 혹은 얼마나 정확히 예측했는지를 수학적 수치로 표현한 것이다. 손실함수의 값이 적을수록 모델은 더 정확한 학습을 수행한 것이며, 손실함수로 얻어지는 결과 값은 보통 에러 값이라 한다. 손실함수의 결과 값을 최소화하는 모델 인자를 찾는 방법을 최적화라 한다. 이러한 최적화 방법에는 경사 하강법, 뉴턴/준 뉴턴 방법, 확률 경사 하강법, 역전파가 있다. 이렇게 만들어진 모델을 이용하여 선정된 데이터를 학습시키고 모델이 얼마나 좋은 성능을 보이는지에 대한 평가를 수행한다. 이렇게 기존 학습 데이터 평가뿐만 아니라 새로운 데이터가 들어 왔을 때 얼마나 정확히 작동되는지를 평가하는 것이 기계학습에서 매우 중요한 역할이다. 학습에 사용되는 관측된 데이터들은 한정된 패턴만 보여 관측된 데이터에 지나치게 의존해 학습할 경우 실제 새로운 데이터가 들어올 경우 성능이 저하되는 경우가 발생할 수 있으며, 이를 오버피팅(Overfitting)이라 한다. 모델평가에는 학습-평가 데이터 나누기, 교차 검증 등의 방법이 사용된다. 학습-평가 데이터 나누기는 하나의 데이터 세트를 학습데이터와 평가 데이터로 구분하여 모델에 적용하는 방법이다. 데이터가 한쪽에 너무 편중되는 것을 주의해야 하며 한쪽이 커지면 다른 한쪽이 작아지기 마련이다. 학습데이터가 클 경우 학습 모델이 우수해진다. 평가데이터가 클 경우 평가 측정 항목의 신뢰도가 높아지고 신뢰구간의 간격이 좁아진다. 데이터 세트가 크면 클수록 좋지만 작은 경우에는 교차 검증을 통하여 정교한 검증을 수행해야 한다. 평가 이후 모델의 미비점 보완, 학습, 평가를 반복하여 수행한다. 이러한 기계학습의 절차를 통하여 테스트를 위해 학습데이터와 평가데이터가 필요하며, 데이터를 평가 및 학습을 할 수 있는 모델이 필요하다는 것을 알 수 있다.
Ⅲ. 결론
지금까지 본론에서는 기계학습(Machine Learning)에 관하여 조사하여 설명하고 기계학습을 위해 활용될 수 있는 정보통신 기술에 관하여 서술해 보았다. 전통적인 접근방법은 사람이 입·출력 사이의 데이터에서 직접 규칙을 찾아 작성해 규칙에 따른 프로그램을 출력하는 방법이다. 기계학습 접근방법은 대량의 학습데이터를 이용하여 기계학습 알고리즘을 훈련한다. 학습된 데이터를 통해 기계학습 알고리즘이 수식을 완성하여 입력으로부터 규칙을 도출한다. 기계학습은 자료를 수집하고 전 처리하는 과정, 학습 모델을 구성하고 학습하는 과정, 그리고 새로운 데이터를 예측하고 분류하는 과정 등을 포함한다. 1998년, 톰 미첼(Tom Mitchell)이 “만약 어떤 작업 T에서 경험 E를 통해 성능측정 방법인 P로 측정했을 때 성능이 향상된다면, 이런 컴퓨터 프로그램은 학습한다고 말한다.”라고 기계학습을 재정의 하였으며, 이 정의가 요즘 많이 쓰이는 기계학습의 정의이다.
참고문헌
김승연, 정용주(2017) 처음 배우는 머신러닝, 한빛미디어.
서용호(2019) 기계학습을 활용한 개인정보 식별율 향상에 관한 연구, 석사학위논문, 숭실대학교 대학원.
이동근(2018) 기계학습 기반의 악성코드 탐지기법 분석, 석사학위논문, 순천향대학교 대학원.
김판준. (2016). 기계학습에 기초한 자동분류의 성능 요소에 관한 연구. 정보관리학회지.
변미리서우석. (2011) 도시 거리의 주간활동인구 측정과 해석: 서울시 유동인구조사 사례. 한국조사연구학회.
김형관, 유진은(2020). ICILS 2018 컴퓨터정보 소양 예측 변수 탐색: glmmLasso를 통한 다층모형에서의 변수 선택. 교육과학연구.
구문분석 기술은 의존구조에 기반을 두어 문장의 구조를 분석한다. 한국어의 지배소 후위 특징을 반영한 후위 트랜지션 기반 의존 구문분석 알고리즘을 적용하였고, 세부적으로 어절 간 지배소-피지배소 분석을 위하여 의미 자질과 문맥 자질을 적용하여 성능을 개선하였다. 동음이의어 및 다의어 분석 기술은 고빈도 의미 기반 분석 방법, 공기정보 기반 분석 방법, 기계학습 기반 방법, 지식베이스 기반 방법 등의 다양한 분류 방법을 결합한 앙상블 방법론에 기반하여 문맥에 가장 적합한 의미를 분석한다. 의미역 인식 기술은 영어권을 중심으로 널리 쓰이는 Propbank 의미역 체계를 도입하였고, 용언(predicate)과 의미역 간의 관계만을 보던 기존 기술과 달리 시퀀스 레이블링기반 기계학습 기술을 적용하여 전체적인 의미 문맥을 반영할 수 있도록 하여 성능을개선하였다. 또한, Korean Propbank에서 제공하는 프레임(frame) 등 언어자원을 규칙처럼 이용하여 기계학습 기술의 단점을 보완하였다.
5) 기지국 데이터
유동인구 분석은 인구의 이동 패턴을 파악할 수 있기 때문에, 이와 관련된 다양한 분야에 활용되어 가치를 창출할 수 있다. 부동산 상권 분석, 관광 상품 기획, 트래픽 분석을 통한 교통 체계 설계, 등 그 활용 분야가 무궁무진하다. 또한, 유동인구 분석은 도시관리의 수요예측 및 행정서비스 영역에서도 핵심적 역할을 할 수 있다. 하지만, 이러한 분석은 대부분 사후적으로 이루어져 왔으며, 만약 유동 인구수를 미리 예측할 수 있다면 다양한 분야에서 사전적 활용 및 대응이 가능하여 기존에 없던 새로운 가치를 창출할 수 있을 것이다.
3. 시사점
대표적인 알고리즘은 다음과 같은 기계학습의 절차를 기반으로 개발되어 왔다. 기계학습(Machine Learning)의 핵심으로 모델선정, 모델 수식화, 모델 학습. 모델 평가가 있다. 먼저 문제를 해결하기 위해 연구자가 문제를 바라보는 시점 및 가정을 세우는 것을 모델이라 한다. 이러한 모델을 적용하기 위해서는 컴퓨터가 이해할 수 있는 수식으로 표현을 해줘야 하며 수식으로 표현된 모델을 다듬는 과정이 필요하다. 모델을 다듬는 방법으로 정규화, 손실함수, 최적화가 있다. 정규화는 정해진 모델이 필요 이상으로 복잡해지지 않게 조절해주는 것이며, 모델이 복잡하면 컴퓨터가 처리하는 데 있어서 과부하가 걸리거나 처리속도가 늦어지는 일이 발생하므로 이를 줄이기 위해 정규화를 수행한다. 손실함수는 모델이 실제로 데이터를 바르게 표현했는지 혹은 얼마나 정확히 예측했는지를 수학적 수치로 표현한 것이다. 손실함수의 값이 적을수록 모델은 더 정확한 학습을 수행한 것이며, 손실함수로 얻어지는 결과 값은 보통 에러 값이라 한다. 손실함수의 결과 값을 최소화하는 모델 인자를 찾는 방법을 최적화라 한다. 이러한 최적화 방법에는 경사 하강법, 뉴턴/준 뉴턴 방법, 확률 경사 하강법, 역전파가 있다. 이렇게 만들어진 모델을 이용하여 선정된 데이터를 학습시키고 모델이 얼마나 좋은 성능을 보이는지에 대한 평가를 수행한다. 이렇게 기존 학습 데이터 평가뿐만 아니라 새로운 데이터가 들어 왔을 때 얼마나 정확히 작동되는지를 평가하는 것이 기계학습에서 매우 중요한 역할이다. 학습에 사용되는 관측된 데이터들은 한정된 패턴만 보여 관측된 데이터에 지나치게 의존해 학습할 경우 실제 새로운 데이터가 들어올 경우 성능이 저하되는 경우가 발생할 수 있으며, 이를 오버피팅(Overfitting)이라 한다. 모델평가에는 학습-평가 데이터 나누기, 교차 검증 등의 방법이 사용된다. 학습-평가 데이터 나누기는 하나의 데이터 세트를 학습데이터와 평가 데이터로 구분하여 모델에 적용하는 방법이다. 데이터가 한쪽에 너무 편중되는 것을 주의해야 하며 한쪽이 커지면 다른 한쪽이 작아지기 마련이다. 학습데이터가 클 경우 학습 모델이 우수해진다. 평가데이터가 클 경우 평가 측정 항목의 신뢰도가 높아지고 신뢰구간의 간격이 좁아진다. 데이터 세트가 크면 클수록 좋지만 작은 경우에는 교차 검증을 통하여 정교한 검증을 수행해야 한다. 평가 이후 모델의 미비점 보완, 학습, 평가를 반복하여 수행한다. 이러한 기계학습의 절차를 통하여 테스트를 위해 학습데이터와 평가데이터가 필요하며, 데이터를 평가 및 학습을 할 수 있는 모델이 필요하다는 것을 알 수 있다.
Ⅲ. 결론
지금까지 본론에서는 기계학습(Machine Learning)에 관하여 조사하여 설명하고 기계학습을 위해 활용될 수 있는 정보통신 기술에 관하여 서술해 보았다. 전통적인 접근방법은 사람이 입·출력 사이의 데이터에서 직접 규칙을 찾아 작성해 규칙에 따른 프로그램을 출력하는 방법이다. 기계학습 접근방법은 대량의 학습데이터를 이용하여 기계학습 알고리즘을 훈련한다. 학습된 데이터를 통해 기계학습 알고리즘이 수식을 완성하여 입력으로부터 규칙을 도출한다. 기계학습은 자료를 수집하고 전 처리하는 과정, 학습 모델을 구성하고 학습하는 과정, 그리고 새로운 데이터를 예측하고 분류하는 과정 등을 포함한다. 1998년, 톰 미첼(Tom Mitchell)이 “만약 어떤 작업 T에서 경험 E를 통해 성능측정 방법인 P로 측정했을 때 성능이 향상된다면, 이런 컴퓨터 프로그램은 학습한다고 말한다.”라고 기계학습을 재정의 하였으며, 이 정의가 요즘 많이 쓰이는 기계학습의 정의이다.
참고문헌
김승연, 정용주(2017) 처음 배우는 머신러닝, 한빛미디어.
서용호(2019) 기계학습을 활용한 개인정보 식별율 향상에 관한 연구, 석사학위논문, 숭실대학교 대학원.
이동근(2018) 기계학습 기반의 악성코드 탐지기법 분석, 석사학위논문, 순천향대학교 대학원.
김판준. (2016). 기계학습에 기초한 자동분류의 성능 요소에 관한 연구. 정보관리학회지.
변미리서우석. (2011) 도시 거리의 주간활동인구 측정과 해석: 서울시 유동인구조사 사례. 한국조사연구학회.
김형관, 유진은(2020). ICILS 2018 컴퓨터정보 소양 예측 변수 탐색: glmmLasso를 통한 다층모형에서의 변수 선택. 교육과학연구.
소개글