파이썬데이터처리 2025년 2학기 방송통신대 중간과제물)문제 1. 웹 스크래핑을 통한 데이터 수집 문제 2. 공공 API를 활용한 데이터 수집 및 분석 등
본 자료는 미리보기를 지원하지 않습니다.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
해당 자료는 5페이지 까지만 미리보기를 제공합니다.
5페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

파이썬데이터처리 2025년 2학기 방송통신대 중간과제물)문제 1. 웹 스크래핑을 통한 데이터 수집 문제 2. 공공 API를 활용한 데이터 수집 및 분석 등에 대한 보고서 자료입니다.

목차

문제 1. 웹 스크래핑을 통한 데이터 수집 (15점)

1. 데이터 수집(기사 제목, 날짜, 언론사, 요약문)
2. 데이터 처리 및 저장
3. 간단한 분석
①일자별 기사 수 집계
② 언론사별 기사 수 TOP 10
③ 제목에서 가장 많이 등장한 단어 TOP 20 (불용어 제외)

문제 2. 공공 API를 활용한 데이터 수집 및 분석 (15점)

1. API 선택 및 데이터 수집
① API 인증키 발급 과정
② 데이터 수집 코드
2. ETL 과정 구현
3. 데이터 시각화 및 인사이트
① 시각화 2가지
② 패턴이나 인사이트 3가지

3. 참고문헌

본문내용

문제 1. 웹 스크래핑을 통한 데이터 수집 (15점)

과제 내용:
네이버 뉴스 또는 다음 뉴스에서 특정 키워드와 관련된 최신 기사 정보를 수집하여 분석하시오.
요구사항:
-데이터 수집 (7점)
관심 있는 키워드 1개를 선택 (예: "인공지능", "기후변화", "K-팝" 등)
BeautifulSoup 또는 Selenium을 사용하여 최근 1주일간 해당 키워드 관련 기사 50건 이상 수집
수집 항목: 기사 제목, 날짜, 언론사, 요약문(있는 경우)
수집 과정의 주요 코드와 설명 포함
-데이터 처리 및 저장 (5점)
Pandas DataFrame으로 정리
CSV 파일로 저장
-간단한 분석 (3점)
일자별 기사 수 집계
언론사별 기사 수 TOP 10
제목에서 가장 많이 등장한 단어 TOP 20 (불용어 제외)


requests, BeautifulSoup 모듈을 사용하여 최근 1주일간 특정 키워드(“케데헌”) 관련 기사 500건 이상 수집하고 이 데이터를 문제의 지시사항에 따라 분석하였다.

requests 모듈은 파이썬에서 HTTP 요청을 간단하게 보낼 수 있도록 해주는 라이브러리다. 웹 서버와 데이터를 주고받을 때 자주 사용되며, GET, POST, PUT, DELETE 같은 메서드를 직관적으로 호출할 수 있다. 브라우저 없이도 웹페이지의 HTML이나 API 응답(JSON 등)을 받아올 수 있어 크롤링이나 데이터 수집에서 매우 많이 활용된다. requests 모듈의 기본적인 사용법은 다음과 같다.

import requests

# GET 요청
response = requests.get("https://www.knou.ac.kr")

# 응답 상태 코드 확인
print(response.status_code) # 200이면 성공

# 응답 본문 가져오기 (JSON 데이터)
data = response.json() # 딕셔너리
data_str = response.text # 문자열
print(data["title"]) # 특정 필드 출력

BeautifulSoup은 파이썬에서 HTML과 XML 문서를 쉽게 파싱하고 탐색하기 위해 사용되는 라이브러리다. 웹 크롤링 과정에서 주로 활용되며, 복잡한 태그 구조를 간단한 코드로 다룰 수 있도록 도와준다.
  • 가격9,000
  • 페이지수15페이지
  • 등록일2025.09.09
  • 저작시기2025.09
  • 파일형식압축파일(zip)
  • 자료번호#5253643
본 자료는 최근 2주간 다운받은 회원이 없습니다.
다운로드 장바구니