목차
문제 1. 웹 스크래핑을 통한 데이터 수집 (15점)
1. 데이터 수집(기사 제목, 날짜, 언론사, 요약문)
2. 데이터 처리 및 저장
3. 간단한 분석
①일자별 기사 수 집계
② 언론사별 기사 수 TOP 10
③ 제목에서 가장 많이 등장한 단어 TOP 20 (불용어 제외)
문제 2. 공공 API를 활용한 데이터 수집 및 분석 (15점)
1. API 선택 및 데이터 수집
① API 인증키 발급 과정
② 데이터 수집 코드
2. ETL 과정 구현
3. 데이터 시각화 및 인사이트
① 시각화 2가지
② 패턴이나 인사이트 3가지
3. 참고문헌
1. 데이터 수집(기사 제목, 날짜, 언론사, 요약문)
2. 데이터 처리 및 저장
3. 간단한 분석
①일자별 기사 수 집계
② 언론사별 기사 수 TOP 10
③ 제목에서 가장 많이 등장한 단어 TOP 20 (불용어 제외)
문제 2. 공공 API를 활용한 데이터 수집 및 분석 (15점)
1. API 선택 및 데이터 수집
① API 인증키 발급 과정
② 데이터 수집 코드
2. ETL 과정 구현
3. 데이터 시각화 및 인사이트
① 시각화 2가지
② 패턴이나 인사이트 3가지
3. 참고문헌
본문내용
문제 1. 웹 스크래핑을 통한 데이터 수집 (15점)
과제 내용:
네이버 뉴스 또는 다음 뉴스에서 특정 키워드와 관련된 최신 기사 정보를 수집하여 분석하시오.
요구사항:
-데이터 수집 (7점)
관심 있는 키워드 1개를 선택 (예: "인공지능", "기후변화", "K-팝" 등)
BeautifulSoup 또는 Selenium을 사용하여 최근 1주일간 해당 키워드 관련 기사 50건 이상 수집
수집 항목: 기사 제목, 날짜, 언론사, 요약문(있는 경우)
수집 과정의 주요 코드와 설명 포함
-데이터 처리 및 저장 (5점)
Pandas DataFrame으로 정리
CSV 파일로 저장
-간단한 분석 (3점)
일자별 기사 수 집계
언론사별 기사 수 TOP 10
제목에서 가장 많이 등장한 단어 TOP 20 (불용어 제외)
requests, BeautifulSoup 모듈을 사용하여 최근 1주일간 특정 키워드(“케데헌”) 관련 기사 500건 이상 수집하고 이 데이터를 문제의 지시사항에 따라 분석하였다.
requests 모듈은 파이썬에서 HTTP 요청을 간단하게 보낼 수 있도록 해주는 라이브러리다. 웹 서버와 데이터를 주고받을 때 자주 사용되며, GET, POST, PUT, DELETE 같은 메서드를 직관적으로 호출할 수 있다. 브라우저 없이도 웹페이지의 HTML이나 API 응답(JSON 등)을 받아올 수 있어 크롤링이나 데이터 수집에서 매우 많이 활용된다. requests 모듈의 기본적인 사용법은 다음과 같다.
import requests
# GET 요청
response = requests.get("https://www.knou.ac.kr")
# 응답 상태 코드 확인
print(response.status_code) # 200이면 성공
# 응답 본문 가져오기 (JSON 데이터)
data = response.json() # 딕셔너리
data_str = response.text # 문자열
print(data["title"]) # 특정 필드 출력
BeautifulSoup은 파이썬에서 HTML과 XML 문서를 쉽게 파싱하고 탐색하기 위해 사용되는 라이브러리다. 웹 크롤링 과정에서 주로 활용되며, 복잡한 태그 구조를 간단한 코드로 다룰 수 있도록 도와준다.
과제 내용:
네이버 뉴스 또는 다음 뉴스에서 특정 키워드와 관련된 최신 기사 정보를 수집하여 분석하시오.
요구사항:
-데이터 수집 (7점)
관심 있는 키워드 1개를 선택 (예: "인공지능", "기후변화", "K-팝" 등)
BeautifulSoup 또는 Selenium을 사용하여 최근 1주일간 해당 키워드 관련 기사 50건 이상 수집
수집 항목: 기사 제목, 날짜, 언론사, 요약문(있는 경우)
수집 과정의 주요 코드와 설명 포함
-데이터 처리 및 저장 (5점)
Pandas DataFrame으로 정리
CSV 파일로 저장
-간단한 분석 (3점)
일자별 기사 수 집계
언론사별 기사 수 TOP 10
제목에서 가장 많이 등장한 단어 TOP 20 (불용어 제외)
requests, BeautifulSoup 모듈을 사용하여 최근 1주일간 특정 키워드(“케데헌”) 관련 기사 500건 이상 수집하고 이 데이터를 문제의 지시사항에 따라 분석하였다.
requests 모듈은 파이썬에서 HTTP 요청을 간단하게 보낼 수 있도록 해주는 라이브러리다. 웹 서버와 데이터를 주고받을 때 자주 사용되며, GET, POST, PUT, DELETE 같은 메서드를 직관적으로 호출할 수 있다. 브라우저 없이도 웹페이지의 HTML이나 API 응답(JSON 등)을 받아올 수 있어 크롤링이나 데이터 수집에서 매우 많이 활용된다. requests 모듈의 기본적인 사용법은 다음과 같다.
import requests
# GET 요청
response = requests.get("https://www.knou.ac.kr")
# 응답 상태 코드 확인
print(response.status_code) # 200이면 성공
# 응답 본문 가져오기 (JSON 데이터)
data = response.json() # 딕셔너리
data_str = response.text # 문자열
print(data["title"]) # 특정 필드 출력
BeautifulSoup은 파이썬에서 HTML과 XML 문서를 쉽게 파싱하고 탐색하기 위해 사용되는 라이브러리다. 웹 크롤링 과정에서 주로 활용되며, 복잡한 태그 구조를 간단한 코드로 다룰 수 있도록 도와준다.
추천자료
[XML][XML 특징][XML 등장배경][XML 발전][XML 목표][XML 장점][XML 전망][인터넷][웹]XML의 ...
Google (구글) 사례분석
<70점 만점, A+> 2020학년도 파이썬과R 기말시험(온라인평가) 한국방송통신대학교 통계데이터...
2022년 2학기 방송통신대 파이썬과R 출석수업대체과제물)R을 사용하여 다음의 자료로 3개의 ...
2023년 1학기 방송통신대 파이썬프로그래밍기초 출석수업과제물)데이터와 정보의 차이점에 대...
2022년 2학기 방송통신대 파이썬과R 출석수업대체과제물)R을 사용하여 다음의 자료로 3개의 ...
2022년 2학기 방송통신대 파이썬과R 출석수업대체과제물)R을 사용하여 다음의 자료로 3개의 ...
데이터과학개론 2024년 2학기 방송통신대 중간과제물)범주형 데이터와 수치형 데이터의 의미...
빅데이터 환경에서 사용할 수 있는 효과적인 데이터 수집 방법 네 가지를 기술하시오. 또한 ...
오픈소스데이터분석 2025년 2학기 방송통신대 중간과제물)국토교통부 공동주택 에너지 사용 ...
소개글